科大訊飛認(rèn)知智能，從場景中來，到行業(yè)中去

本文作者：貝爽

2021-12-06 15:28

導(dǎo)語：關(guān)鍵技術(shù)頂天，行業(yè)認(rèn)知立地。

導(dǎo)語：關(guān)鍵技術(shù)頂天，行業(yè)認(rèn)知立地。當(dāng)打破了實驗室和現(xiàn)實的隔閡之后，技術(shù)不再局限于自身，而是和廣大的外部場景做關(guān)聯(lián)，最終成就了科大訊飛AI技術(shù)能夠迅速從研發(fā)到規(guī)?；涞氐哪芰Α?/span>

自然語言處理（NLP）一直是人工智能渴望攻克的難題。

直到2006年，來自上世紀(jì)末的互聯(lián)網(wǎng)時代累積的大量電子化的文本數(shù)據(jù)，以及深度學(xué)習(xí)的加持，終于讓機(jī)器翻譯乃至自然語言處理，走上了快車道。

深度學(xué)習(xí)秉承統(tǒng)計方法的概率傳統(tǒng)，不同的是，它基本不需要做特征工程，而特征工程需要大量的專家知識。

但盛志超發(fā)現(xiàn)，即便是十幾年后的現(xiàn)在，將基于深度學(xué)習(xí)技術(shù)的NLP應(yīng)用進(jìn)行落地時，他們也必須拋棄對技術(shù)的執(zhí)念，回歸行業(yè)的專家知識。

這是他在科大訊飛鉆研NLP技術(shù)8年來，最珍貴的經(jīng)驗。

2011年從復(fù)旦大學(xué)畢業(yè)后，盛志超在一家創(chuàng)業(yè)公司做NLP的研究，經(jīng)過兩年多的實踐積累，他希望尋找更大的平臺用科技創(chuàng)造真正的社會價值。而彼時的科大訊飛，也憑借剛剛發(fā)布的訊飛輸入法和語音云而在人工智能語音領(lǐng)域小有名氣。因著語音合成技術(shù)中前端文本韻律預(yù)測和文本關(guān)聯(lián)的契機(jī)，早已開始了NLP的涉足和探索，并且已經(jīng)在語音交互和機(jī)器翻譯上有所實踐。

渴望用科技創(chuàng)造真正社會價值的人選擇了一家希冀“用人工智能建設(shè)美好世界”的公司，一切都如此順理成章。

1、黎明前夜，轉(zhuǎn)型成了必由之路

NLP 的歷史幾乎跟計算機(jī)和人工智能（AI）的歷史一樣長。而由于其天然具有實現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效溝通的橋梁屬性，也就帶來一個非常有趣的現(xiàn)象，那就是在開始探索感知智能的時候也總會連同認(rèn)知智能一起被牽涉其中。

這種現(xiàn)象在科大訊飛也得到了演繹。

語音合成技術(shù)中，前端的文本韻律預(yù)測，就和文本關(guān)聯(lián)很大。所以科大訊飛在成立初期開始語音探索時便涉足NLP領(lǐng)域，不過早期局限于文本預(yù)測、語音識別的語言模型和文本檢索等內(nèi)容。

2005年，科大訊飛成立AI研究院，正式將NLP與語音合成、評測和識別作為核心研究方向。

由此，科大訊飛NLP在落地方面的嘗試便開始在跌跌撞撞中一路行進(jìn)。

2005年語音測評技術(shù)已經(jīng)基本成熟，普通話測試系統(tǒng)通過了國家語委鑒定；語音合成技術(shù)也在2008年首次超過普通人說話水平，并連續(xù)多年在國際英文語音合成大賽中奪冠。

然而包括知識圖譜、語義檢索、短信分類、文字客服在內(nèi)的多個方向，由于技術(shù)不夠成熟，遷移成本太高，基于文本方向的技術(shù)落地大多以失敗告終。

“那個時候大家其實是立足于技術(shù)去思考匹配它未來可能使用的場景，慢慢地就發(fā)現(xiàn)這條路特別難走?！?/strong> 這段艱難探索經(jīng)歷所復(fù)盤出的經(jīng)驗教訓(xùn)，也在后來實踐中確切印證，也許是時候顛倒一下這種思維模式了。

既然“拿著蘿卜去找坑”不奏效，那倒不如反其道而行。

一個基于實際業(yè)務(wù)場景和需求去反向倒逼技術(shù)打磨的思維開始逆轉(zhuǎn)當(dāng)前的坎坷局面。

2014年，基于編碼器-解碼器結(jié)構(gòu)的神經(jīng)機(jī)器翻譯模型誕生，機(jī)器翻譯正式進(jìn)入了深度學(xué)習(xí)的時代。

同年，科大訊飛AI研究院首席科學(xué)家魏思敏銳覺察到，未來公司內(nèi)部要想在業(yè)界形成自己的技術(shù)優(yōu)勢，必須要形成數(shù)據(jù)+模型的雙輪驅(qū)動模式，而深度學(xué)習(xí)正是這一模式成功的關(guān)鍵。

剛剛?cè)肼毑痪玫氖⒅境?，迎來了科大訊NLP技術(shù)發(fā)展的重要轉(zhuǎn)折點，這一次，他親歷其中。2015年年初，盛志超所在的NLP認(rèn)知群組建起“7人攻堅團(tuán)隊”，拉開了科大訊飛在NLP領(lǐng)域應(yīng)用深度學(xué)習(xí)的大幕：他們首先檢索了市場上所有與之相關(guān)的論文，并分成了幾個不同的“Paper reading”小組，分頭研究不同的方向，之后再互相講解代碼，同時動手嘗試復(fù)現(xiàn)論文中的模型、算法等。

就這樣“7人攻堅團(tuán)隊”成功將深度學(xué)習(xí)應(yīng)用于NLP技術(shù)，并很快在公司范圍內(nèi)推廣開來。

“當(dāng)時我們的探索是走在很多高校和同行之前的”，回憶這段經(jīng)歷，盛志超說，團(tuán)隊彼此的信任、凝聚力和共同的決心是他們成功不可或缺的因素。時至今日，當(dāng)初的 7人小組成員也早已成為科大訊飛不同業(yè)務(wù)方向的核心骨干。

應(yīng)用深度學(xué)習(xí)和基于場景倒逼技術(shù)打磨的思維轉(zhuǎn)變，科大訊飛的NLP終于要從黎明前夜得見破曉來臨。

2、從場景中來，到行業(yè)中去

許多優(yōu)秀演員在塑造角色的時候，經(jīng)常在前期去到角色真實的工作或生活場景中去“體驗生活”，在表演時力求達(dá)到忘我境界。

這種塑造方式淳樸而又難能可貴，卻和盛志超在落地NLP時的路徑相通。

2014年9月，剛剛?cè)肼?0天的盛志超被派到科大訊飛北京研究院，參與語文作文評閱的技術(shù)研發(fā)和落地工作。

作文評閱分為評分和批改兩個方向，評分就是給文檔判定一個分?jǐn)?shù)，批改則需要根據(jù)文章中的語法使用是否正確、句式表達(dá)是否高級、內(nèi)容是否符合主旨要求等維度進(jìn)行綜合評定。

前者技術(shù)相對簡單，后者因為涉及認(rèn)知問題則更為復(fù)雜。

如大家所知，小初高到大學(xué)，不同學(xué)習(xí)階段對高級表達(dá)和詞匯的定義標(biāo)準(zhǔn)差異巨大，所以在具體批改的時候也需要根據(jù)各學(xué)習(xí)階段的具體情況來具體“定義”。

正像盛志超所說，“評閱技術(shù)不但是要評分也要給出合理的反饋，必須基于場景知識做模塊化處理，逐層拆解之后，才能給出相對科學(xué)的評分和用戶學(xué)習(xí)想要的反饋結(jié)果?！?/p>

“訊飛智學(xué)網(wǎng)剛剛上線的時候，作文評閱技術(shù)還是翻車出了異常?！笔⒅境f，這是他畢生難忘的經(jīng)歷。

當(dāng)時學(xué)校要求一場考試覆蓋1000個人，并且不能有一個人的評閱出現(xiàn)錯誤，但深度學(xué)習(xí)和傳統(tǒng)的機(jī)器學(xué)習(xí)都是統(tǒng)計意義上的模型，考慮的都是整體的概率，不會兼顧到每個學(xué)生的情況。

于是，狀況出現(xiàn)了。

英文作文的試卷開頭都會給出一段引言，要求學(xué)生續(xù)寫，而機(jī)器把引言當(dāng)成了需要評閱的作答內(nèi)容，其中一份作文即便是白卷也給了分?jǐn)?shù)。試卷評分是一個非常嚴(yán)肅的事，這樣的失誤所影響的考試客觀公平性，不管是老師層面還是盛志超自己都覺得是不可彌補(bǔ)的。

而反觀其后，這次落地失敗的根源還是在于我們關(guān)注的指標(biāo)和用戶實際場景關(guān)注的指標(biāo)不一致。

這之后盛志超和團(tuán)隊開始長期頻繁地“體驗學(xué)習(xí)生活”，和老師、學(xué)生、家長這些每一個與學(xué)習(xí)相關(guān)的關(guān)鍵角色去溝通交流，嘗試全面而真實地理解和定義在教育領(lǐng)域每一個細(xì)枝末節(jié)的需求問題。

“想要真的做好教育領(lǐng)域的認(rèn)知落地，首先要忘記自己原來的身份，成為一名學(xué)生、家長或者老師”。

盛志超說的這個思路恰與當(dāng)年張三豐傳授張無忌太極武功時的要義如出一轍：“太極拳只重其義，不重其招。你忘記所有的招式，就練成太極拳了?！?/p>

2016年，盛志超及團(tuán)隊終于成功將作文評閱技術(shù)應(yīng)用到高考和中考里面，這也是國內(nèi)首次在大規(guī)模正規(guī)考試中使用教育評測技術(shù)。

如果說這個只是解決了教育某一個特定“場景”的問題，那此后的“因材施教和個性化學(xué)習(xí)”則證明了科大訊飛在教育領(lǐng)域深耕的決心。

2020年初，盛志超回歸教育開始攻關(guān)難度更高的因材施教的個性化學(xué)習(xí)方向。

盛志超坦言，自己也曾是學(xué)生，在學(xué)校度過二十多年的時光，即便作為學(xué)習(xí)的佼佼者他也依然無法總結(jié)出自己所謂的經(jīng)驗給到其他求學(xué)者以參考。這背后的原因或許不是一句簡單的“畢竟適合每個人的學(xué)習(xí)方法是不一樣的”可以總結(jié)概括的。

或許它更指向一個數(shù)千年前就萌生的美好理想：“因材施教，有教無類”。我們追尋了千年，而現(xiàn)在盛志超和團(tuán)隊正在一步步靠近它。

一個結(jié)合學(xué)習(xí)者的知識水平，為其提供定制化的動態(tài)教學(xué)策略的個性化方案開始了“減負(fù)增效”的使命。

以題目推薦為例，廣大師生都非常推崇的“題海戰(zhàn)術(shù)”，就此可以找到“有效刷題”的解法。這背后涉及到了認(rèn)知診斷、深度學(xué)習(xí)、知識圖譜等一系列的技術(shù)集合。

參照著名心理學(xué)家維果茨基提出的“最近發(fā)展區(qū)理論”，個性化推題激發(fā)學(xué)生“潛能”的邏輯理解起來就很簡單：在現(xiàn)有水平上為學(xué)生推薦的學(xué)習(xí)題型，既不會太難，產(chǎn)生畏難情緒，也不會太簡單，浪費過多的時間，用盛志超的話來說就是“跳一跳就能夠得著”的學(xué)習(xí)資源。

但是想要精準(zhǔn)定位到每個學(xué)生“跳一跳就能夠得著”的學(xué)習(xí)資源并非易事，這需要通過知識圖譜對學(xué)生的認(rèn)知方式進(jìn)行建模。

科大訊飛早有知識圖譜技術(shù)積淀。從2013年開始投入研發(fā)，2016年獲得國際知識圖譜構(gòu)建大賽NIST TAC (KBP2016) 第一名，如今訊飛的知識圖譜技術(shù)已經(jīng)積累了7年。

這張圖展示了一個學(xué)生的認(rèn)知建模案例，其中紅色是掌握較差的知識點，黃色是掌握一般的知識點，綠色是掌握較好的知識點。

學(xué)生立足于綠色知識點，然后先學(xué)黃色知識點、再學(xué)紅色知識點，這就構(gòu)成了每個學(xué)生獨特的學(xué)習(xí)路徑。這種循序漸進(jìn)的方式，不僅提高了學(xué)習(xí)效率，也可以真正做到因人而異、因材施教。

深入場景和行業(yè)的方法論在教育領(lǐng)域得到了最佳驗證，可以預(yù)見，人工智能對生產(chǎn)生活的改變也將不斷涌現(xiàn)，甚至那些不曾找到破題思路的重大歷史命題，或許也會在人工智能領(lǐng)域找到新解。

3、重大歷史命題的破題新解

但是，由于教育、醫(yī)療、司法這些關(guān)聯(lián)民生剛需的重大歷史命題本身就是多個復(fù)雜問題的集合，所以人工智能即便能夠給出解法，那也一定不再依賴于單一技術(shù)，必須是復(fù)雜系統(tǒng)的合力。

“就拿教育的AI學(xué)習(xí)機(jī)來說，這個里面就涉及到了語音交互和評測、圖文識別、認(rèn)知理解、知識圖譜、多維度學(xué)情畫像等一系列的相關(guān)技術(shù)?！?盛志超說的不假，除了上文中我們已經(jīng)提到的個性化學(xué)習(xí)環(huán)節(jié)中的認(rèn)知診斷、知識圖譜，一個普通學(xué)習(xí)鏈路的完成，遠(yuǎn)比想象中復(fù)雜：

一個學(xué)生通過AI學(xué)習(xí)機(jī)把做完的作業(yè)進(jìn)行拍照上傳，圖文識別技術(shù)把照片進(jìn)行曲面矯正、畫面降噪等處理后即可對布滿印刷體和手寫體甚至是公式的作業(yè)進(jìn)行識別；此后NLP等技術(shù)開始針對問題以及文本中提到的信息去自行推斷答案和批改；而對于做錯的題目，基于知識圖譜的技術(shù)可以針對其所涵蓋的知識點去進(jìn)行最近發(fā)展區(qū)相關(guān)練習(xí)題型的推薦。

創(chuàng)新鏈條上各個關(guān)鍵技術(shù)深度融合，串聯(lián)打通了一個體系化的學(xué)習(xí)鏈路。

倘若我們向前追溯，會發(fā)現(xiàn)關(guān)鍵技術(shù)深度融合也需要至關(guān)重要的底層基建——單點核心技術(shù)突破并跨越應(yīng)用鴻溝。

我們或許可以從多語種交互的實踐中印證這個結(jié)論。

當(dāng)前，語音已成為萬物互聯(lián)時代人機(jī)交互的關(guān)鍵入口，語音輸入、語音搜索、語音交互等技術(shù)已經(jīng)成為手機(jī)、車載、玩具等智能產(chǎn)品的標(biāo)配。另一方面，“一帶一路”國家戰(zhàn)略的建設(shè)依賴語言互通，多語種翻譯技術(shù)價值凸顯。但是要將多語種的智能語音語言技術(shù)做到實用水平，并沒有那么容易。

不同語言獨特的語言現(xiàn)象十分復(fù)雜、小語種語言分析研究的積累和投入不足、訓(xùn)練數(shù)據(jù)稀缺……這些客觀存在的難題就擺在眼前。

大家選擇了迎難而上、各個擊破。

數(shù)據(jù)方面，科大訊飛研發(fā)了基于人機(jī)協(xié)同的多語種數(shù)據(jù)標(biāo)注平臺；算法方面，重點開展了多語種端到端統(tǒng)一建?？蚣堋o監(jiān)督/弱監(jiān)督訓(xùn)練，以及語音/圖片翻譯多任務(wù)協(xié)同優(yōu)化等方向的研究；研發(fā)訓(xùn)練效率優(yōu)化方面，則構(gòu)建了多語種模型自動訓(xùn)練及定制優(yōu)化平臺，以推動多語種系統(tǒng)的批量研發(fā)，解決人工耗時耗力的問題。

這些努力終于迎來了反饋。2021年10月26日，哈工大訊飛聯(lián)合實驗室（HFL）團(tuán)隊以總平均分84.1位列權(quán)威多語言理解評測XTREME（由谷歌舉辦，旨在全面考察模型的多語言理解與跨語言遷移能力）榜首，四個賽道中獲得三項最好成績。而后11月10日，國際低資源多語種語音識別競賽OpenASR落下帷幕，科大訊飛-中科大語音及語言信息處理國家工程實驗室（USTC-NELSLIP）聯(lián)合團(tuán)隊參加了所有15個語種受限賽道和7個語種非受限賽道，并全部取得第一名的成績。

從單點的核心技術(shù)效果上取得突破，跨過應(yīng)用門檻，再到把創(chuàng)新鏈條上各個關(guān)鍵技術(shù)進(jìn)行深度融合，“系統(tǒng)性創(chuàng)新”卻仍沒有形成嚴(yán)格意義上的閉環(huán)。

畢竟解決問題的方法路徑雖然撥開迷霧逐漸清晰，但是“要解決什么問題”才是困擾這些科學(xué)家們的難題本源。

教育、醫(yī)療、司法、城市生態(tài)，每一個詞語都無比厚重，一時間竟也無法用某幾個詞來總結(jié)和概括清楚其背后所牽連出的問題核心所謂何物：不管是教育的“減負(fù)增效”、“因材施教”、“資源均衡”，還是醫(yī)療的“醫(yī)療水平”、“就醫(yī)體驗”······

這些重大系統(tǒng)性命題到科學(xué)問題的轉(zhuǎn)化，也許正回歸了NLP或者說是認(rèn)知智能的本真——定義問題。

“360行行行有專家，如何把各個行業(yè)的問題和知識特色定義好，怎么樣形成一個框架把模型能夠不斷復(fù)制應(yīng)用到各個行業(yè)”，這是盛志超和團(tuán)隊面臨的挑戰(zhàn)，也是科大訊飛未來繼續(xù)突破的關(guān)鍵。

當(dāng)重大系統(tǒng)性命題到科學(xué)問題的轉(zhuǎn)化能力愈加強(qiáng)勁，單點的核心技術(shù)不斷突破后深度融合、有機(jī)串聯(lián)，系統(tǒng)性創(chuàng)新也就真正可以成為宏大歷史命題的破題新解。

4、無限拓寬的神經(jīng)網(wǎng)絡(luò)

我們曾經(jīng)在對話科大訊飛AI研究院CV群的時候，將科大訊飛比喻為一個很寬、很深的生成式神經(jīng)網(wǎng)絡(luò)。

一個典型的生成式神經(jīng)網(wǎng)絡(luò)包括了輸入層、編碼層、輸出層，對于一個AI企業(yè)而言，輸入是AI三要素：算力、數(shù)據(jù)、算法，輸出是技術(shù)和產(chǎn)品，編碼層則是企業(yè)的組織方式和技術(shù)方法論，以及企業(yè)的人才。

在《不一樣的科大訊飛，他們把計算機(jī)視覺踢進(jìn)“世界杯”》這篇文章中，我們了解了科大訊飛對人才的重視，以及獨特的組織方式。

研究院設(shè)立的3個研究方向——CV方向、認(rèn)知方向、語音方向，相互獨立，又深度融合，為優(yōu)秀的人才提供了平等、開放的交流平臺，讓他們得以鍛煉自身、發(fā)揮潛力、博采眾長。

但這只解開了科大訊飛這個神經(jīng)網(wǎng)絡(luò)的編碼層的一半秘密，另一半秘密，也許可以從盛志超和團(tuán)隊在NLP落地路徑上一窺究竟：不管是當(dāng)初勢在必行的轉(zhuǎn)型之路，還是后來在教育、醫(yī)療等場景領(lǐng)域的打磨，一切核心都是在做一件事兒，那就是定義并建立對不同行業(yè)的真正認(rèn)知。

認(rèn)知行業(yè)和定義問題，使得科大訊飛在選擇方向時不受自身行動能力的限制，進(jìn)而無限拓寬了科大訊飛這個神經(jīng)網(wǎng)絡(luò)的寬度。

關(guān)鍵技術(shù)頂天，行業(yè)認(rèn)知立地，當(dāng)打破了實驗室和現(xiàn)實的隔閡之后，技術(shù)不再局限于自身，而是和廣大的外部場景做關(guān)聯(lián)，最終成就了科大訊飛AI技術(shù)能夠迅速從研發(fā)到規(guī)模化落地的能力。我們也就有理由相信，“用人工智能建設(shè)美好世界”的使命絕不是紙上談兵。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

分享：

相關(guān)文章

NLP AI教育科大訊飛

英偉達(dá) Jim Fan：復(fù)刻N(yùn)LP的成功路，用通用模型開啟具 ...

獨家丨前微軟 NLP 大牛姜大昕創(chuàng)立新公司「階躍星辰」 ...

獨家丨王慧文仍在招兵買馬，意向收購兩家清華 NLP 校 ...

哈工大張民：ChatGPT 之后，NLP 還有 12 個待解決命 ...

貝爽

編輯

發(fā)私信

當(dāng)月熱門文章

最新文章

純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

32B 稠密模型推理能力超越 R1？秘密 AI 團(tuán)隊發(fā)布推理小模型 AM-Thinking-v1

首次披露！DeepSeek V3 發(fā)布軟硬一體協(xié)同訓(xùn)練論文，公開“降成本”秘訣

萬字梳理：揭秘 DeepSeek 中的 RL 與 AGI 下一步丨AIR 2025

北京大學(xué)-字節(jié)跳動成立“豆包大模型系統(tǒng)軟件聯(lián)合實驗室”，聚焦AI系統(tǒng)軟件關(guān)鍵技術(shù)問題

全球AI頂會 NeurIPS 2024溫哥華開幕，中國校企上百篇論文被收錄

熱門搜索

谷歌 Android 區(qū)塊鏈車聯(lián)網(wǎng) App Store 投資社交網(wǎng)絡(luò) HTML5 李彥宏硬件 Oculus Rift

科大訊飛認(rèn)知智能，從場景中來，到行業(yè)中去

2、從場景中來，到行業(yè)中去

3、重大歷史命題的破題新解

4、無限拓寬的神經(jīng)網(wǎng)絡(luò)

科大訊飛認(rèn)知智能，從場景中來，到行業(yè)中去

2、從場景中來，到行業(yè)中去

3、重大歷史命題的破題新解