北大教授吳璽宏：從發(fā)聲到語言，具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

本文作者：我在思考中

2021-09-22 10:33

導(dǎo)語：今年8月28日的線上高峰論壇上，北京大學(xué)吳璽宏向大家分享了大規(guī)模訓(xùn)練語言模型的個(gè)人見解，隨后具體闡釋了基于發(fā)聲物理模型的語音發(fā)聲姿態(tài)的自監(jiān)督學(xué)習(xí)。

北大教授吳璽宏：從發(fā)聲到語言，具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

作者 | 吳彤

編輯 | 青暮

讓機(jī)器理解人類的語言是我們長期以來的夢想，經(jīng)過幾十年的發(fā)展，語言與智能技術(shù)發(fā)展到了什么程度？如何評(píng)價(jià)語言理解的智能水平？離強(qiáng)人工智能還有多遠(yuǎn)距離？未來的技術(shù)發(fā)展趨勢如何？這些問題迫切值得研究與探討。

中國計(jì)算機(jī)學(xué)會(huì)和中國中文信息學(xué)會(huì)聯(lián)合創(chuàng)辦了"語言與智能高峰論壇"，每年舉行一次，首屆論壇于2016年在北京舉行，已成功舉辦五屆。

在今年8月28日的線上高峰論壇上，北京大學(xué)吳璽宏向大家分享了大規(guī)模訓(xùn)練語言模型的個(gè)人見解，隨后具體闡釋了基于發(fā)聲物理模型的語音發(fā)聲姿態(tài)的自監(jiān)督學(xué)習(xí)。

北大教授吳璽宏：從發(fā)聲到語言，具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

吳璽宏教授的線上分享

吳璽宏教授現(xiàn)為北京大學(xué)教授、博士生導(dǎo)師，北京大學(xué)信息科學(xué)技術(shù)學(xué)院副院長、智能科學(xué)系主任、言語聽覺研究中心主任。同時(shí)也擔(dān)任南京腦科學(xué)與類腦智能創(chuàng)新中心的主任，研究猴腦介入式言語、猴子在交互過程中腦活動(dòng)、非介入式的人腦介觀的動(dòng)態(tài)圖譜以及和人類行為語言的關(guān)系。長期以來，吳老師致力于機(jī)器聽覺計(jì)算理論、語音信息處理、自然語言理解以及智能機(jī)器人等領(lǐng)域的基礎(chǔ)及應(yīng)用基礎(chǔ)研究，先后主持和參與國家級(jí)、省部級(jí)項(xiàng)目40余項(xiàng)，包括國家973課題、863項(xiàng)目、國家科技重大專項(xiàng)、國家科技支撐計(jì)劃、國家自然科學(xué)基金重大項(xiàng)目及重點(diǎn)項(xiàng)目、國家社會(huì)科學(xué)基金重大項(xiàng)目等。獲國家授權(quán)發(fā)明專利11項(xiàng)，發(fā)表學(xué)術(shù)論文200余篇。

吳老師是做聽覺模型出身，從2005 年起才較晚地進(jìn)入到NLP 領(lǐng)域。近年來吳老師團(tuán)隊(duì)開始深入研究聽覺的發(fā)聲和聽覺的耦合關(guān)系，如何將其整合實(shí)現(xiàn)詞匯的發(fā)音姿態(tài)表達(dá)，并研究發(fā)音姿態(tài)和客體模型的動(dòng)作控制之間的關(guān)系。

本次報(bào)告首先對(duì)語音識(shí)別任務(wù)的工作假設(shè)進(jìn)行反思，在此基礎(chǔ)上基于聽覺的"肌動(dòng)理論(Motor Theory)"，提出了一種結(jié)合發(fā)聲物理模型的非監(jiān)督自主學(xué)習(xí)方法，即具身學(xué)習(xí)(Embodied Learning)方法。

該方法通過正向物理模型和逆向聽覺模型的迭代學(xué)習(xí)，實(shí)現(xiàn)了從任意非標(biāo)注語音到聲門激勵(lì)信號(hào)和發(fā)聲姿態(tài)參數(shù)的推斷，實(shí)現(xiàn)了對(duì)語音具有可解釋性的描述；
通過在線自適應(yīng)實(shí)現(xiàn)了對(duì)新語音的發(fā)聲姿態(tài)推斷，解決了模型學(xué)習(xí)的泛化問題。
基于發(fā)聲姿態(tài)可進(jìn)一步實(shí)現(xiàn)任意語種的音系構(gòu)建，為小語種和方言的語音識(shí)別、個(gè)性化語音合成任務(wù)提供了一個(gè)新的解決思路。

以下是演講全文，AI科技評(píng)論進(jìn)行了不改變原意的整理，文章已經(jīng)過吳老師修改及確認(rèn)。

大規(guī)模訓(xùn)練生成“夢話”

如何把聲音和控制結(jié)合起來？大規(guī)模預(yù)訓(xùn)練模型的效果為什么那么好，背后原因何在？

我們認(rèn)為，這類模型做的是預(yù)測工作，預(yù)測是一個(gè)主體生存最重要的任務(wù)。但它們的預(yù)測實(shí)現(xiàn)，比如基于已有詞匯預(yù)測下一個(gè)詞匯，都是基于詞匯的嵌入向量進(jìn)行的。從語法層面講，這些嵌入向量是抽象的、多維的，不具有語言中的準(zhǔn)確上下文關(guān)系。從語用層面將，言語是一種行為，是在特定語境下與他人之間有意識(shí)地特定行為。但GPT-3缺失主體、時(shí)空、意圖、手段、邏輯等。

因此，為了從表面上模擬這種預(yù)測，它需要巨量的數(shù)據(jù)才能夠?qū)崿F(xiàn)。即便能夠?qū)崿F(xiàn)，GPT-3生成文本也是一種夢話，一種建立在大規(guī)模訓(xùn)練語言模型中的無意識(shí)“遣詞造句”。

2

跳出符號(hào)世界

語言學(xué)家索緒爾認(rèn)為：每一個(gè)符號(hào)都由能指和所指組成，即符號(hào)=能指+所指。能指是語言符號(hào)的聽覺特性，而對(duì)意義的探詢是所指。

舉個(gè)例子：對(duì)面的女孩子對(duì)我笑（能指），她喜歡我（所指）。即在這種情境下，笑＝喜歡（隱喻），但是換種情境，或許笑＝嘲諷（隱喻）。

所以在符號(hào)分析之中，自然語言處理要關(guān)注的就是這種能指和所指之間的斷裂關(guān)系和不穩(wěn)定的關(guān)系。表面來看，我們?nèi)说拿恳豁?xiàng)行為沒有與之呼應(yīng)的意義，但深層次來看，我們掌握的其實(shí)始終只是能指的部分，真正的所指早就躲到潛意識(shí)的復(fù)雜結(jié)構(gòu)里去了。

但世界知識(shí)是如何表示的呢？語言訓(xùn)練僅用符號(hào)來描述的世界是充分的嗎？我們要想辦法跳出符號(hào)世界。

跳出符號(hào)世界就出現(xiàn)圖像和文本的聯(lián)合訓(xùn)練問題。在真實(shí)世界中，因?yàn)橛袌D像的客體空間分布，符號(hào)有一定具象化之后，使得空間的分布、結(jié)構(gòu)都會(huì)對(duì)文本約束，語言訓(xùn)練所要求的數(shù)據(jù)就不再是龐大的的數(shù)據(jù)，而是小數(shù)據(jù)，這樣的話也緩解了對(duì)文本數(shù)據(jù)的要求。

如果某天做出來文本和圖像聯(lián)合的某一種GPT ，盡管它是受語境約束的，但它仍然是夢話，因?yàn)樗鼪]有自己的控制，沒有自己的意圖。

傳統(tǒng)的說法是在人工智能上空有兩朵烏云：常識(shí)、符號(hào)落地。但在這兩朵烏云之外，還有一朵更重要的烏云--主體以及主體的情感和意圖。那如果跳出符號(hào)世界到真實(shí)世界中，符號(hào)產(chǎn)生的條件是什么？

3

符號(hào)的產(chǎn)生和條件

我們認(rèn)為，符號(hào)的產(chǎn)生需要三個(gè)條件：首先要有社會(huì)文化環(huán)境，其次是主體和環(huán)境的交互，所以要有身體，第三個(gè)條件是發(fā)聲能力。三者聯(lián)合則構(gòu)成一個(gè)包含語境和心智的具身結(jié)構(gòu)。這要比小數(shù)據(jù)的語言訓(xùn)練模型巧妙得多。

身體包括生理需要、身體動(dòng)作和身體情緒等，在它與社會(huì)文化環(huán)境的雙重作用下，生成了感知-運(yùn)動(dòng)預(yù)測問題，并由符號(hào)在我們的感知-運(yùn)動(dòng)之間來回對(duì)應(yīng)。在這個(gè)具身結(jié)構(gòu)的符號(hào)建立之后，吳教授認(rèn)為這個(gè)符號(hào)及體系隱含著心智和語境。人工智能上空的第三朵烏云終于被撥開，但最大的障礙在于符號(hào)在感知-運(yùn)動(dòng)和社會(huì)文化環(huán)境之間如何搬運(yùn)。

因此吳教授從第三個(gè)條件，也就是發(fā)聲能力，尋找“搬運(yùn)”的接口。吳教授認(rèn)為，人之所以區(qū)別于其他的動(dòng)物，關(guān)鍵是人的發(fā)聲能力。人類學(xué)研究已經(jīng)表明，人具有獨(dú)特的咽腔結(jié)構(gòu)，能夠產(chǎn)生無數(shù)種發(fā)音變化，因此語音就能對(duì)符號(hào)編碼，它支撐的編碼空間是足夠的，也就產(chǎn)生了第一符號(hào)系統(tǒng)--語音。而我們說的文字符號(hào)，則是第二符號(hào)系統(tǒng)。

文字符號(hào)處理和做語音信號(hào)處理的差別在哪？

一個(gè)差別是語音信號(hào)如果變成文字符號(hào)，過程中會(huì)丟失很多信息。除了詞匯分割以外，還有代表情緒的很多韻律信息。比如在線上聊天時(shí)，我們總會(huì)以表情包彌補(bǔ)丟失的情緒。從最初的顏文字到j(luò)pg到GIF，人們借助表情包傳遞對(duì)話情緒，填補(bǔ)“不在場” 的縫隙。

第二個(gè)是認(rèn)知神經(jīng)科學(xué)的研究表明，我們在語音交流過程中，我說的話和你聽懂的話，聽者并沒有逐詞處理，而是“挑”著來。比如早上媽媽沖進(jìn)房間大吼十分鐘，你只聽到一句“要發(fā)霉了”，便會(huì)自動(dòng)明白今天陽光很好，媽媽嫌棄起床晚。而在符號(hào)處理中，每一個(gè)符號(hào)都必須處理，如果不處理的話，它會(huì)影響對(duì)整個(gè)句子的理解。

在語音識(shí)別領(lǐng)域，近年來它已經(jīng)發(fā)展得十分優(yōu)秀。相對(duì)于自然語言處理來說，語音識(shí)別的識(shí)別率和抗噪音性能很高。但在語義識(shí)別領(lǐng)域，還存在大量繁瑣的數(shù)據(jù)標(biāo)注和計(jì)算資源工作。

但種種跡象表明，語音識(shí)別系統(tǒng)出現(xiàn)了天棚現(xiàn)象，它并沒有達(dá)到100% 完美，盡管還能往里加數(shù)據(jù)，語音識(shí)別的性能卻不增加了。第二個(gè)短板是無法識(shí)別非標(biāo)準(zhǔn)化的數(shù)據(jù)，也就是語音的變異，比如方言、小語種，如果大家沿用數(shù)據(jù)標(biāo)注的方法，無異于降維為“AI民工”。

語音識(shí)別研究隱含的工作假設(shè)

首先，語音識(shí)別研究默認(rèn)為它要識(shí)別的語言必須具有文字符號(hào)，即第二符號(hào)系統(tǒng)必須具備；其次，需要語音學(xué)家提供注音標(biāo)注的音系系統(tǒng)；最后還需要語音學(xué)家提供詞典。

多年來，語音識(shí)別之所以所向披靡，其實(shí)就是借用了語音學(xué)家和語言學(xué)家大量的資源，以及語言的第二符號(hào)系統(tǒng)。但實(shí)際上我們面對(duì)的是什么？

語音隨著講話方式的變化而變化，多變是語音的本質(zhì)；很多語種和方言沒有文字系統(tǒng)，也沒有構(gòu)建音系系統(tǒng)。

這樣的話，我們面臨的挑戰(zhàn)問題是如何實(shí)現(xiàn)新方言、新語種的音系的自動(dòng)構(gòu)建，以及如何實(shí)現(xiàn)對(duì)語音的精細(xì)的自動(dòng)的標(biāo)注。

4

新方法：具有認(rèn)知啟發(fā)的表示學(xué)習(xí)和范疇學(xué)習(xí)

在研究過程中，我們找到一個(gè)新方法，基于具有認(rèn)知啟發(fā)的表示學(xué)習(xí)和范疇學(xué)習(xí)，實(shí)現(xiàn)語音或語種的自動(dòng)標(biāo)注和音系構(gòu)建。首先這涉及到語音的產(chǎn)生和聽覺過程。

語音的產(chǎn)生是氣流經(jīng)過喉、咽、腔，經(jīng)過舌和口腔的調(diào)制，再通過口唇動(dòng)作調(diào)節(jié)產(chǎn)出語音。語音再傳輸?shù)蕉?，?duì)聲音信號(hào)進(jìn)行頻譜分析和加工。

但語音具有多變性，例如同一個(gè)人的zero發(fā)音在平穩(wěn)、憤怒、溫柔、叫喊的情緒下，語音的語譜變化非常激烈；不同人的發(fā)音，比如孩子、男人、女人也有很大的變化。

傳統(tǒng)的語音識(shí)別應(yīng)對(duì)方法是人工打標(biāo)簽，不管語譜如何變化，總能映射到一個(gè)標(biāo)簽，形成一個(gè)范疇。但也因此出現(xiàn)一個(gè)推廣性問題。語音語譜是多變的，不同人、不同的情緒下都有變化，打標(biāo)簽的方法不可能覆蓋所有變化。從AI的演化來看。這是一種非智能的方法。

另外還有一個(gè)可解釋問題。從語音頻譜的角度看，人工標(biāo)記過于粗略，不能描述語音音節(jié)的精細(xì)變化。那還有什么精準(zhǔn)描述語音變化又節(jié)省人力的方法嗎？

我們提出從發(fā)音姿態(tài)的表示對(duì)語音進(jìn)行編碼的方法?；貧w到語音的產(chǎn)生，氣流推動(dòng)聲帶振動(dòng)，經(jīng)由口腔調(diào)制使得語音有不同的共振特性，如果這個(gè)時(shí)候?qū)φZ音以及口腔形狀進(jìn)行編碼，即口腔的發(fā)音姿態(tài)等，是不是能夠捕捉一對(duì)映射。

那我們能不能從發(fā)聲姿態(tài)的角度進(jìn)行范疇化呢？

其實(shí)國際音標(biāo)表就是一個(gè)基于發(fā)聲部位和發(fā)聲方法的發(fā)音表述。

在國際音標(biāo)表中，它涵蓋雙唇、唇齒、齒間、舌尖前等12個(gè)發(fā)聲部位，塞音、塞擦音、鼻音等10中發(fā)音方法。在發(fā)音描述上，國際音標(biāo)表早在1887年就被制定，按照發(fā)音姿態(tài)刻畫全世界各種語言。

不僅如此，言語知覺理論（Motor Theoty）講到，我們感知言語，實(shí)際上是感知講話者的目標(biāo)發(fā)聲動(dòng)作。比如在一些噪聲情況下，你沒聽清楚對(duì)方說的話，但可以通過自己嘴上模仿“聽懂”對(duì)方說的話。

另外嬰兒也是先掌握發(fā)聲的動(dòng)作模式才學(xué)會(huì)詞匯。剛生下來的小嬰兒就會(huì)哭喊，其中有一個(gè)功能就是練習(xí)口腔發(fā)音。通過自己的發(fā)聲動(dòng)作調(diào)整音量大小、口腔形狀，并產(chǎn)生聲音變化，這個(gè)過程實(shí)際上是嬰兒在訓(xùn)練自己發(fā)聲與聽的功能。有這個(gè)基礎(chǔ)之后，才去學(xué)后續(xù)的詞匯。

北大教授吳璽宏：從發(fā)聲到語言，具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

姿態(tài)表示和范疇學(xué)習(xí)的方法框架

肌動(dòng)理論和國際音標(biāo)表證明，我們可以通過發(fā)音姿態(tài)位置感知對(duì)方的言語，甚至是任何發(fā)音都可以通過我的口腔姿態(tài)作逼近模擬。那么，動(dòng)態(tài)的語音信號(hào)也可以自適應(yīng)地用口腔姿態(tài)來描述。另外它具有可解釋性，能夠刻畫聲音在每一時(shí)刻的精細(xì)變化，推演從語音到口腔、再從口腔到語音的因果過程。

語音信號(hào)用發(fā)音姿態(tài)描述出來之后，我們可以進(jìn)一步地通過相似性、區(qū)分性、詞位，對(duì)不同的發(fā)音姿態(tài)建立音位范疇，最終形成音位的符號(hào)串，就可以不使用語言學(xué)家提供的音位系統(tǒng)。

那么，如何實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)？是否可以引入物理發(fā)聲模型？

5

基于發(fā)聲物理模型的語音發(fā)聲姿態(tài)自監(jiān)督學(xué)習(xí)

語音反演：從語音到發(fā)聲姿態(tài)

從語音信號(hào)倒推發(fā)音姿態(tài)，實(shí)際上這個(gè)想法有幾十年了，姿態(tài)獲得是最有難度的問題。傳統(tǒng)的方法是在實(shí)驗(yàn)員的舌上貼不同的磁電傳感器，通過傳感器獲得他在說話過程中的姿態(tài)：舌動(dòng)-口腔聯(lián)動(dòng)-生成對(duì)應(yīng)的語音信號(hào)-記錄對(duì)應(yīng)的語音信號(hào)隨著時(shí)間的變化軌跡，因此獲得一對(duì)映射數(shù)據(jù)。

是否拿到數(shù)據(jù)后就可以通過語音反演出發(fā)音姿態(tài)？

這是一個(gè)自然的想法。但實(shí)際上，這種方法獲取的數(shù)據(jù)代價(jià)太大，一是人力低效，二是數(shù)據(jù)不具備遷移性，如果換另一個(gè)人講話，發(fā)音姿態(tài)也會(huì)隨之有微小的改變。

那么回歸到說和聽的過程，語言和生理的閉環(huán)式如何表現(xiàn)的？在1983年的曹劍芬和任宏謨的《言語鏈：說和聽的科學(xué)》書中，早已詳細(xì)描述聽覺系統(tǒng)和發(fā)聲系統(tǒng)的閉合鏈：說話人大腦中產(chǎn)生想說話的信號(hào)，由肌肉控制生成句子。聲音信號(hào)一方面通過感覺神經(jīng)傳遞到自己的反饋鏈環(huán)節(jié)，另一方面通過言語聲波傳遞給聽話人，從而構(gòu)成一個(gè)從語言學(xué)平面-生理學(xué)平面-聲學(xué)平面-生理學(xué)平面-語言學(xué)平面的閉環(huán)鏈。

北大教授吳璽宏：從發(fā)聲到語言，具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

具身認(rèn)知：將語音的聽覺表示轉(zhuǎn)換成發(fā)聲的肌肉控制，發(fā)聲器官的姿態(tài)成為語音的具有物理意義的表示。

具身學(xué)習(xí)：協(xié)同物理的發(fā)聲過程與聽覺的逆過程，實(shí)現(xiàn)物理系統(tǒng)約束下的自監(jiān)督的學(xué)習(xí)。

在實(shí)驗(yàn)中，我們通過模仿這個(gè)發(fā)聲閉環(huán)，對(duì)發(fā)音過程建立了一個(gè)物理模型。通過氣流、壓力、聲帶的彈性系數(shù)等控制聲音輸入信號(hào)、通過舌位、唇位等控制物理模型的聲音輸出信號(hào)。即能否把物理模型和感知過程結(jié)合起來，實(shí)現(xiàn)閉環(huán)的自監(jiān)督學(xué)習(xí)。

北大教授吳璽宏：從發(fā)聲到語言，具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

聲門-聲道發(fā)聲濾波器TRM模型

在實(shí)驗(yàn)中，我們建立了一個(gè)TRM模型，這是一個(gè)聲門激勵(lì)信號(hào)，通過聲帶進(jìn)入咽腔、軟顎、鼻腔、口腔這種耦合的調(diào)制產(chǎn)出語音信號(hào)。

這是一個(gè)典型的物理模型，氣流進(jìn)入-調(diào)制壓力-發(fā)出不同的語音信號(hào)，其中通過固定參數(shù)和動(dòng)態(tài)參數(shù)調(diào)制不同的聲音信號(hào)，比如固定參數(shù)來刻畫聲道長度，鼻腔長度，軟顎和聲帶的彈性系數(shù)等，動(dòng)態(tài)參數(shù)刻畫舌頭位置的變化、氣流強(qiáng)度等。

拿到語音信號(hào)后通過一個(gè)相同的反模型輸出，對(duì)比正模型和發(fā)模型的參數(shù)差異，并按照梯度下降繼續(xù)迭代學(xué)習(xí)，得到準(zhǔn)確的系數(shù)。

不同于傳統(tǒng)的強(qiáng)化學(xué)習(xí)

這個(gè)物理模型和傳統(tǒng)的強(qiáng)化學(xué)習(xí)不一樣，傳統(tǒng)的強(qiáng)化學(xué)習(xí)需要確定評(píng)價(jià)函數(shù)，每次迭代都需要評(píng)價(jià)，但在語音信號(hào)的評(píng)價(jià)中，兩個(gè)語音信號(hào)距離小并不意味著相似、距離大不意味著不相似，這是強(qiáng)化學(xué)習(xí)的缺陷。

而我們的自監(jiān)督物理模型無需評(píng)價(jià)函數(shù)，利用發(fā)聲姿態(tài)的差異作為梯度；網(wǎng)絡(luò)輸入是物理模型生成的語音，輸入和監(jiān)督信息受物理約束，是一種監(jiān)督學(xué)習(xí)。另外網(wǎng)絡(luò)輸入語音信號(hào)的生成信號(hào)永遠(yuǎn)受物理約束。神經(jīng)網(wǎng)絡(luò)的反模型，實(shí)際上對(duì) TRM 物理的正模型的一個(gè)逆過程。

原始的語音信號(hào)經(jīng)過模型迭代，就可以得到發(fā)音姿態(tài)每時(shí)每刻的變化。這個(gè)物理模型的不僅能發(fā)出聲音，還能準(zhǔn)確提取聲帶肌頻信號(hào)。

在獲得發(fā)音姿態(tài)后，我們希望它是從一個(gè)生物學(xué)信號(hào)的姿態(tài)到物理的口腔形狀姿態(tài)的變換，并依據(jù)發(fā)音姿態(tài)自動(dòng)建立一個(gè)音位范疇，那么就可以進(jìn)一步發(fā)現(xiàn)發(fā)音姿態(tài)的特征點(diǎn)，建立發(fā)音姿態(tài)和語音信號(hào)的映射范疇。

建立一個(gè)固定目標(biāo)標(biāo)記，隨后建立一個(gè)動(dòng)態(tài)的動(dòng)力學(xué)目標(biāo)模型，估計(jì)發(fā)音姿態(tài)中哪些是行動(dòng)發(fā)音過程，比對(duì)最終的發(fā)音目標(biāo)是什么。估計(jì)出來之后，通過一個(gè)決策樹的聚類方法，對(duì)應(yīng)漢語音系。如果漢語音系和這個(gè)語音訓(xùn)練得出的音系基本上對(duì)應(yīng)，說明我們提取的姿態(tài)和音位是可行的。下一步可以在這基礎(chǔ)之上做詞匯，從自然語言中自動(dòng)發(fā)現(xiàn)的詞匯。

6

結(jié)語

基于具身認(rèn)知和肌動(dòng)理論，吳老師提出了一種具身的自監(jiān)督學(xué)習(xí)框架。它通過發(fā)聲的物理模型和深度神經(jīng)網(wǎng)絡(luò)模型之間構(gòu)建了一個(gè)閉環(huán)的協(xié)動(dòng)學(xué)習(xí)模型，實(shí)現(xiàn)了具有強(qiáng)推廣性和精細(xì)描述能力的語音發(fā)聲姿態(tài)的估計(jì)。同時(shí)，范疇學(xué)習(xí)構(gòu)建了漢語的音位范疇體系，符合人類“先口語，后書面語”的言語獲得機(jī)理。

未來，基于物理模型或?qū)嶋H物理過程的具身學(xué)習(xí)方法，還能建構(gòu)任意方言、語種的發(fā)音姿態(tài)和音系體系，并且輔助語音學(xué)家以及語言教學(xué)工作，推動(dòng)方言、小語種的語音識(shí)別和語音合成的研究。不僅如此，還能推廣到視覺運(yùn)動(dòng)、聽覺運(yùn)動(dòng)等機(jī)器感知工作。而且，通過發(fā)音聲帶的彈簧緊張度捕捉一個(gè)人說話時(shí)的情緒變化，語音測謊也將不是難題。

北大教授吳璽宏：從發(fā)聲到語言，具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代