丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

本文作者: 我在思考中 2021-09-22 10:33
導(dǎo)語:今年8月28日的線上高峰論壇上,北京大學(xué)吳璽宏向大家分享了大規(guī)模訓(xùn)練語言模型的個(gè)人見解,隨后具體闡釋了基于發(fā)聲物理模型的語音發(fā)聲姿態(tài)的自監(jiān)督學(xué)習(xí)。
北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

作者 | 吳彤

編輯 | 青暮

讓機(jī)器理解人類的語言是我們長期以來的夢想,經(jīng)過幾十年的發(fā)展,語言與智能技術(shù)發(fā)展到了什么程度?如何評(píng)價(jià)語言理解的智能水平?離強(qiáng)人工智能還有多遠(yuǎn)距離?未來的技術(shù)發(fā)展趨勢如何?這些問題迫切值得研究與探討。
中國計(jì)算機(jī)學(xué)會(huì)和中國中文信息學(xué)會(huì)聯(lián)合創(chuàng)辦了"語言與智能高峰論壇",每年舉行一次,首屆論壇于2016年在北京舉行,已成功舉辦五屆。
在今年8月28日的線上高峰論壇上,北京大學(xué)吳璽宏向大家分享了大規(guī)模訓(xùn)練語言模型的個(gè)人見解,隨后具體闡釋了基于發(fā)聲物理模型的語音發(fā)聲姿態(tài)的自監(jiān)督學(xué)習(xí)。

北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

吳璽宏教授的線上分享
吳璽宏教授現(xiàn)為北京大學(xué)教授、博士生導(dǎo)師,北京大學(xué)信息科學(xué)技術(shù)學(xué)院副院長、智能科學(xué)系主任、言語聽覺研究中心主任。同時(shí)也擔(dān)任南京腦科學(xué)與類腦智能創(chuàng)新中心的主任,研究猴腦介入式言語、猴子在交互過程中腦活動(dòng)、非介入式的人腦介觀的動(dòng)態(tài)圖譜以及和人類行為語言的關(guān)系。長期以來,吳老師致力于機(jī)器聽覺計(jì)算理論、語音信息處理、自然語言理解以及智能機(jī)器人等領(lǐng)域的基礎(chǔ)及應(yīng)用基礎(chǔ)研究,先后主持和參與國家級(jí)、省部級(jí)項(xiàng)目40余項(xiàng),包括國家973課題、863項(xiàng)目、國家科技重大專項(xiàng)、國家科技支撐計(jì)劃、國家自然科學(xué)基金重大項(xiàng)目及重點(diǎn)項(xiàng)目、國家社會(huì)科學(xué)基金重大項(xiàng)目等。獲國家授權(quán)發(fā)明專利11項(xiàng),發(fā)表學(xué)術(shù)論文200余篇。
吳老師是做聽覺模型出身,從2005 年起才較晚地進(jìn)入到NLP 領(lǐng)域。近年來吳老師團(tuán)隊(duì)開始深入研究聽覺的發(fā)聲和聽覺的耦合關(guān)系,如何將其整合實(shí)現(xiàn)詞匯的發(fā)音姿態(tài)表達(dá),并研究發(fā)音姿態(tài)和客體模型的動(dòng)作控制之間的關(guān)系。
本次報(bào)告首先對(duì)語音識(shí)別任務(wù)的工作假設(shè)進(jìn)行反思,在此基礎(chǔ)上基于聽覺的"肌動(dòng)理論(Motor Theory)",提出了一種結(jié)合發(fā)聲物理模型的非監(jiān)督自主學(xué)習(xí)方法,即具身學(xué)習(xí)(Embodied Learning)方法。
  • 該方法通過正向物理模型和逆向聽覺模型的迭代學(xué)習(xí),實(shí)現(xiàn)了從任意非標(biāo)注語音到聲門激勵(lì)信號(hào)和發(fā)聲姿態(tài)參數(shù)的推斷,實(shí)現(xiàn)了對(duì)語音具有可解釋性的描述;
  • 通過在線自適應(yīng)實(shí)現(xiàn)了對(duì)新語音的發(fā)聲姿態(tài)推斷,解決了模型學(xué)習(xí)的泛化問題。
  • 基于發(fā)聲姿態(tài)可進(jìn)一步實(shí)現(xiàn)任意語種的音系構(gòu)建,為小語種和方言的語音識(shí)別、個(gè)性化語音合成任務(wù)提供了一個(gè)新的解決思路。
以下是演講全文,AI科技評(píng)論進(jìn)行了不改變原意的整理,文章已經(jīng)過吳老師修改及確認(rèn)。

1

大規(guī)模訓(xùn)練生成“夢話”
如何把聲音和控制結(jié)合起來?大規(guī)模預(yù)訓(xùn)練模型的效果為什么那么好,背后原因何在?
我們認(rèn)為,這類模型做的是預(yù)測工作,預(yù)測是一個(gè)主體生存最重要的任務(wù)。但它們的預(yù)測實(shí)現(xiàn),比如基于已有詞匯預(yù)測下一個(gè)詞匯,都是基于詞匯的嵌入向量進(jìn)行的。從語法層面講,這些嵌入向量是抽象的、多維的,不具有語言中的準(zhǔn)確上下文關(guān)系。從語用層面將,言語是一種行為,是在特定語境下與他人之間有意識(shí)地特定行為。但GPT-3缺失主體、時(shí)空、意圖、手段、邏輯等。
因此,為了從表面上模擬這種預(yù)測,它需要巨量的數(shù)據(jù)才能夠?qū)崿F(xiàn)。即便能夠?qū)崿F(xiàn),GPT-3生成文本也是一種夢話,一種建立在大規(guī)模訓(xùn)練語言模型中的無意識(shí)“遣詞造句”。

2

跳出符號(hào)世界

語言學(xué)家索緒爾認(rèn)為:每一個(gè)符號(hào)都由能指和所指組成,即符號(hào)=能指+所指。能指是語言符號(hào)的聽覺特性,而對(duì)意義的探詢是所指。
舉個(gè)例子:對(duì)面的女孩子對(duì)我笑(能指),她喜歡我(所指)。即在這種情境下,笑=喜歡(隱喻),但是換種情境,或許 笑=嘲諷(隱喻)。
所以在符號(hào)分析之中,自然語言處理要關(guān)注的就是這種能指和所指之間的斷裂關(guān)系和不穩(wěn)定的關(guān)系。表面來看,我們?nèi)说拿恳豁?xiàng)行為沒有與之呼應(yīng)的意義,但深層次來看,我們掌握的其實(shí)始終只是能指的部分,真正的所指早就躲到潛意識(shí)的復(fù)雜結(jié)構(gòu)里去了。
但世界知識(shí)是如何表示的呢?語言訓(xùn)練僅用符號(hào)來描述的世界是充分的嗎?我們要想辦法跳出符號(hào)世界。
跳出符號(hào)世界就出現(xiàn)圖像和文本的聯(lián)合訓(xùn)練問題。在真實(shí)世界中,因?yàn)橛袌D像的客體空間分布,符號(hào)有一定具象化之后,使得空間的分布、結(jié)構(gòu)都會(huì)對(duì)文本約束,語言訓(xùn)練所要求的數(shù)據(jù)就不再是龐大的的數(shù)據(jù),而是小數(shù)據(jù),這樣的話也緩解了對(duì)文本數(shù)據(jù)的要求。
如果某天做出來文本和圖像聯(lián)合的某一種GPT ,盡管它是受語境約束的,但它仍然是夢話,因?yàn)樗鼪]有自己的控制,沒有自己的意圖。
傳統(tǒng)的說法是在人工智能上空有兩朵烏云:常識(shí)、符號(hào)落地。但在這兩朵烏云之外,還有一朵更重要的烏云--主體以及主體的情感和意圖。那如果跳出符號(hào)世界到真實(shí)世界中,符號(hào)產(chǎn)生的條件是什么?

3

符號(hào)的產(chǎn)生和條件

我們認(rèn)為,符號(hào)的產(chǎn)生需要三個(gè)條件:首先要有社會(huì)文化環(huán)境,其次是主體和環(huán)境的交互,所以要有身體,第三個(gè)條件是發(fā)聲能力。三者聯(lián)合則構(gòu)成一個(gè)包含語境和心智的具身結(jié)構(gòu)。這要比小數(shù)據(jù)的語言訓(xùn)練模型巧妙得多。
北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代
身體包括生理需要、身體動(dòng)作和身體情緒等,在它與社會(huì)文化環(huán)境的雙重作用下,生成了感知-運(yùn)動(dòng)預(yù)測問題,并由符號(hào)在我們的感知-運(yùn)動(dòng)之間來回對(duì)應(yīng)。在這個(gè)具身結(jié)構(gòu)的符號(hào)建立之后,吳教授認(rèn)為這個(gè)符號(hào)及體系隱含著心智和語境。人工智能上空的第三朵烏云終于被撥開,但最大的障礙在于符號(hào)在感知-運(yùn)動(dòng)和社會(huì)文化環(huán)境之間如何搬運(yùn)。
因此吳教授從第三個(gè)條件,也就是發(fā)聲能力,尋找“搬運(yùn)”的接口。吳教授認(rèn)為,人之所以區(qū)別于其他的動(dòng)物,關(guān)鍵是人的發(fā)聲能力。人類學(xué)研究已經(jīng)表明,人具有獨(dú)特的咽腔結(jié)構(gòu),能夠產(chǎn)生無數(shù)種發(fā)音變化,因此語音就能對(duì)符號(hào)編碼,它支撐的編碼空間是足夠的,也就產(chǎn)生了第一符號(hào)系統(tǒng)--語音。而我們說的文字符號(hào),則是第二符號(hào)系統(tǒng)。
文字符號(hào)處理和做語音信號(hào)處理的差別在哪?
一個(gè)差別是語音信號(hào)如果變成文字符號(hào),過程中會(huì)丟失很多信息。除了詞匯分割以外,還有代表情緒的很多韻律信息。比如在線上聊天時(shí),我們總會(huì)以表情包彌補(bǔ)丟失的情緒。從最初的顏文字到j(luò)pg到GIF,人們借助表情包傳遞對(duì)話情緒,填補(bǔ)“不在場” 的縫隙。
第二個(gè)是認(rèn)知神經(jīng)科學(xué)的研究表明,我們在語音交流過程中,我說的話和你聽懂的話,聽者并沒有逐詞處理,而是“挑”著來。比如早上媽媽沖進(jìn)房間大吼十分鐘,你只聽到一句“要發(fā)霉了”,便會(huì)自動(dòng)明白今天陽光很好,媽媽嫌棄起床晚。而在符號(hào)處理中,每一個(gè)符號(hào)都必須處理,如果不處理的話,它會(huì)影響對(duì)整個(gè)句子的理解。
在語音識(shí)別領(lǐng)域,近年來它已經(jīng)發(fā)展得十分優(yōu)秀。相對(duì)于自然語言處理來說,語音識(shí)別的識(shí)別率和抗噪音性能很高。但在語義識(shí)別領(lǐng)域,還存在大量繁瑣的數(shù)據(jù)標(biāo)注和計(jì)算資源工作。
但種種跡象表明,語音識(shí)別系統(tǒng)出現(xiàn)了天棚現(xiàn)象,它并沒有達(dá)到100% 完美,盡管還能往里加數(shù)據(jù),語音識(shí)別的性能卻不增加了。第二個(gè)短板是無法識(shí)別非標(biāo)準(zhǔn)化的數(shù)據(jù),也就是語音的變異,比如方言、小語種,如果大家沿用數(shù)據(jù)標(biāo)注的方法,無異于降維為“AI民工”。
語音識(shí)別研究隱含的工作假設(shè)
首先,語音識(shí)別研究默認(rèn)為它要識(shí)別的語言必須具有文字符號(hào),即第二符號(hào)系統(tǒng)必須具備;其次,需要語音學(xué)家提供注音標(biāo)注的音系系統(tǒng);最后還需要語音學(xué)家提供詞典。
多年來,語音識(shí)別之所以所向披靡,其實(shí)就是借用了語音學(xué)家和語言學(xué)家大量的資源,以及語言的第二符號(hào)系統(tǒng)。但實(shí)際上我們面對(duì)的是什么?
語音隨著講話方式的變化而變化,多變是語音的本質(zhì);很多語種和方言沒有文字系統(tǒng),也沒有構(gòu)建音系系統(tǒng)。
這樣的話,我們面臨的挑戰(zhàn)問題是如何實(shí)現(xiàn)新方言、新語種的音系的自動(dòng)構(gòu)建,以及如何實(shí)現(xiàn)對(duì)語音的精細(xì)的自動(dòng)的標(biāo)注。

4

新方法:具有認(rèn)知啟發(fā)的表示學(xué)習(xí)和范疇學(xué)習(xí)

在研究過程中,我們找到一個(gè)新方法,基于具有認(rèn)知啟發(fā)的表示學(xué)習(xí)和范疇學(xué)習(xí),實(shí)現(xiàn)語音或語種的自動(dòng)標(biāo)注和音系構(gòu)建。首先這涉及到語音的產(chǎn)生和聽覺過程。
語音的產(chǎn)生是氣流經(jīng)過喉、咽、腔,經(jīng)過舌和口腔的調(diào)制,再通過口唇動(dòng)作調(diào)節(jié)產(chǎn)出語音。語音再傳輸?shù)蕉?,?duì)聲音信號(hào)進(jìn)行頻譜分析和加工。
北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代
但語音具有多變性,例如同一個(gè)人的zero發(fā)音在平穩(wěn)、憤怒、溫柔、叫喊的情緒下,語音的語譜變化非常激烈;不同人的發(fā)音,比如孩子、男人、女人也有很大的變化。
北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代
傳統(tǒng)的語音識(shí)別應(yīng)對(duì)方法是人工打標(biāo)簽,不管語譜如何變化,總能映射到一個(gè)標(biāo)簽,形成一個(gè)范疇。但也因此出現(xiàn)一個(gè)推廣性問題。語音語譜是多變的,不同人、不同的情緒下都有變化,打標(biāo)簽的方法不可能覆蓋所有變化。從AI的演化來看。這是一種非智能的方法。
另外還有一個(gè)可解釋問題。從語音頻譜的角度看,人工標(biāo)記過于粗略,不能描述語音音節(jié)的精細(xì)變化。那還有什么精準(zhǔn)描述語音變化又節(jié)省人力的方法嗎?
我們提出從發(fā)音姿態(tài)的表示對(duì)語音進(jìn)行編碼的方法?;貧w到語音的產(chǎn)生,氣流推動(dòng)聲帶振動(dòng),經(jīng)由口腔調(diào)制使得語音有不同的共振特性,如果這個(gè)時(shí)候?qū)φZ音以及口腔形狀進(jìn)行編碼,即口腔的發(fā)音姿態(tài)等,是不是能夠捕捉一對(duì)映射。
那我們能不能從發(fā)聲姿態(tài)的角度進(jìn)行范疇化呢?
其實(shí)國際音標(biāo)表就是一個(gè)基于發(fā)聲部位和發(fā)聲方法的發(fā)音表述。
北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代
在國際音標(biāo)表中,它涵蓋雙唇、唇齒、齒間、舌尖前等12個(gè)發(fā)聲部位,塞音、塞擦音、鼻音等10中發(fā)音方法。在發(fā)音描述上,國際音標(biāo)表早在1887年就被制定,按照發(fā)音姿態(tài)刻畫全世界各種語言。
不僅如此,言語知覺理論(Motor Theoty)講到,我們感知言語,實(shí)際上是感知講話者的目標(biāo)發(fā)聲動(dòng)作。比如在一些噪聲情況下,你沒聽清楚對(duì)方說的話,但可以通過自己嘴上模仿“聽懂”對(duì)方說的話。
另外嬰兒也是先掌握發(fā)聲的動(dòng)作模式才學(xué)會(huì)詞匯。剛生下來的小嬰兒就會(huì)哭喊,其中有一個(gè)功能就是練習(xí)口腔發(fā)音。通過自己的發(fā)聲動(dòng)作調(diào)整音量大小、口腔形狀,并產(chǎn)生聲音變化,這個(gè)過程實(shí)際上是嬰兒在訓(xùn)練自己發(fā)聲與聽的功能。有這個(gè)基礎(chǔ)之后,才去學(xué)后續(xù)的詞匯。

北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

姿態(tài)表示和范疇學(xué)習(xí)的方法框架
肌動(dòng)理論和國際音標(biāo)表證明,我們可以通過發(fā)音姿態(tài)位置感知對(duì)方的言語,甚至是任何發(fā)音都可以通過我的口腔姿態(tài)作逼近模擬。那么,動(dòng)態(tài)的語音信號(hào)也可以自適應(yīng)地用口腔姿態(tài)來描述。另外它具有可解釋性,能夠刻畫聲音在每一時(shí)刻的精細(xì)變化,推演從語音到口腔、再從口腔到語音的因果過程。
語音信號(hào)用發(fā)音姿態(tài)描述出來之后,我們可以進(jìn)一步地通過相似性、區(qū)分性、詞位,對(duì)不同的發(fā)音姿態(tài)建立音位范疇,最終形成音位的符號(hào)串,就可以不使用語言學(xué)家提供的音位系統(tǒng)。
那么,如何實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)?是否可以引入物理發(fā)聲模型?

5

基于發(fā)聲物理模型的語音發(fā)聲姿態(tài)自監(jiān)督學(xué)習(xí)

語音反演:從語音到發(fā)聲姿態(tài)
從語音信號(hào)倒推發(fā)音姿態(tài),實(shí)際上這個(gè)想法有幾十年了,姿態(tài)獲得是最有難度的問題。傳統(tǒng)的方法是在實(shí)驗(yàn)員的舌上貼不同的磁電傳感器,通過傳感器獲得他在說話過程中的姿態(tài):舌動(dòng)-口腔聯(lián)動(dòng)-生成對(duì)應(yīng)的語音信號(hào)-記錄對(duì)應(yīng)的語音信號(hào)隨著時(shí)間的變化軌跡,因此獲得一對(duì)映射數(shù)據(jù)。
是否拿到數(shù)據(jù)后就可以通過語音反演出發(fā)音姿態(tài)?
這是一個(gè)自然的想法。但實(shí)際上,這種方法獲取的數(shù)據(jù)代價(jià)太大,一是人力低效,二是數(shù)據(jù)不具備遷移性,如果換另一個(gè)人講話,發(fā)音姿態(tài)也會(huì)隨之有微小的改變。
北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代
那么回歸到說和聽的過程,語言和生理的閉環(huán)式如何表現(xiàn)的?在1983年的 曹劍芬 和 任宏謨的《言語鏈:說和聽的科學(xué)》書中,早已詳細(xì)描述聽覺系統(tǒng)和發(fā)聲系統(tǒng)的閉合鏈:說話人大腦中產(chǎn)生想說話的信號(hào),由肌肉控制生成句子。聲音信號(hào)一方面通過感覺神經(jīng)傳遞到自己的反饋鏈環(huán)節(jié),另一方面通過言語聲波傳遞給聽話人,從而構(gòu)成一個(gè)從語言學(xué)平面-生理學(xué)平面-聲學(xué)平面-生理學(xué)平面-語言學(xué)平面的閉環(huán)鏈。

北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

具身認(rèn)知:將語音的聽覺表示轉(zhuǎn)換成發(fā)聲的肌肉控制,發(fā)聲器官的姿態(tài)成為語音的具有物理意義的表示。

具身學(xué)習(xí):協(xié)同物理的發(fā)聲過程與聽覺的逆過程,實(shí)現(xiàn)物理系統(tǒng)約束下的自監(jiān)督的學(xué)習(xí)。
在實(shí)驗(yàn)中,我們通過模仿這個(gè)發(fā)聲閉環(huán),對(duì)發(fā)音過程建立了一個(gè)物理模型。通過氣流、壓力、聲帶的彈性系數(shù)等控制聲音輸入信號(hào)、通過舌位、唇位等控制物理模型的聲音輸出信號(hào)。即能否把物理模型和感知過程結(jié)合起來,實(shí)現(xiàn)閉環(huán)的自監(jiān)督學(xué)習(xí)。
北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

聲門-聲道發(fā)聲濾波器TRM模型
在實(shí)驗(yàn)中,我們建立了一個(gè)TRM模型,這是一個(gè)聲門激勵(lì)信號(hào),通過聲帶進(jìn)入咽腔、軟顎、鼻腔、口腔這種耦合的調(diào)制產(chǎn)出語音信號(hào)。
這是一個(gè)典型的物理模型,氣流進(jìn)入-調(diào)制壓力-發(fā)出不同的語音信號(hào),其中通過固定參數(shù)和動(dòng)態(tài)參數(shù)調(diào)制不同的聲音信號(hào),比如固定參數(shù)來刻畫聲道長度,鼻腔長度,軟顎和聲帶的彈性系數(shù)等,動(dòng)態(tài)參數(shù)刻畫舌頭位置的變化、氣流強(qiáng)度等。
拿到語音信號(hào)后通過一個(gè)相同的反模型輸出,對(duì)比正模型和發(fā)模型的參數(shù)差異,并按照梯度下降繼續(xù)迭代學(xué)習(xí),得到準(zhǔn)確的系數(shù)。
北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代
不同于傳統(tǒng)的強(qiáng)化學(xué)習(xí)
這個(gè)物理模型和傳統(tǒng)的強(qiáng)化學(xué)習(xí)不一樣,傳統(tǒng)的強(qiáng)化學(xué)習(xí)需要確定評(píng)價(jià)函數(shù),每次迭代都需要評(píng)價(jià),但在語音信號(hào)的評(píng)價(jià)中,兩個(gè)語音信號(hào)距離小并不意味著相似、距離大不意味著不相似,這是強(qiáng)化學(xué)習(xí)的缺陷。
而我們的自監(jiān)督物理模型無需評(píng)價(jià)函數(shù),利用發(fā)聲姿態(tài)的差異作為梯度;網(wǎng)絡(luò)輸入是物理模型生成的語音,輸入和監(jiān)督信息受物理約束,是一種監(jiān)督學(xué)習(xí)。另外網(wǎng)絡(luò)輸入語音信號(hào)的生成信號(hào)永遠(yuǎn)受物理約束。神經(jīng)網(wǎng)絡(luò)的反模型,實(shí)際上對(duì) TRM 物理的正模型的一個(gè)逆過程。
原始的語音信號(hào)經(jīng)過模型迭代,就可以得到發(fā)音姿態(tài)每時(shí)每刻的變化。這個(gè)物理模型的不僅能發(fā)出聲音,還能準(zhǔn)確提取聲帶肌頻信號(hào)。
在獲得發(fā)音姿態(tài)后,我們希望它是從一個(gè)生物學(xué)信號(hào)的姿態(tài)到物理的口腔形狀姿態(tài)的變換,并依據(jù)發(fā)音姿態(tài)自動(dòng)建立一個(gè)音位范疇,那么就可以進(jìn)一步發(fā)現(xiàn)發(fā)音姿態(tài)的特征點(diǎn),建立發(fā)音姿態(tài)和語音信號(hào)的映射范疇。
建立一個(gè)固定目標(biāo)標(biāo)記,隨后建立一個(gè)動(dòng)態(tài)的動(dòng)力學(xué)目標(biāo)模型,估計(jì)發(fā)音姿態(tài)中哪些是行動(dòng)發(fā)音過程,比對(duì)最終的發(fā)音目標(biāo)是什么。估計(jì)出來之后,通過一個(gè)決策樹的聚類方法,對(duì)應(yīng)漢語音系。如果漢語音系和這個(gè)語音訓(xùn)練得出的音系基本上對(duì)應(yīng),說明我們提取的姿態(tài)和音位是可行的。下一步可以在這基礎(chǔ)之上做詞匯,從自然語言中自動(dòng)發(fā)現(xiàn)的詞匯。

6

結(jié)語

基于具身認(rèn)知和肌動(dòng)理論,吳老師提出了一種具身的自監(jiān)督學(xué)習(xí)框架。它通過發(fā)聲的物理模型和深度神經(jīng)網(wǎng)絡(luò)模型之間構(gòu)建了一個(gè)閉環(huán)的協(xié)動(dòng)學(xué)習(xí)模型,實(shí)現(xiàn)了具有強(qiáng)推廣性和精細(xì)描述能力的語音發(fā)聲姿態(tài)的估計(jì)。同時(shí),范疇學(xué)習(xí)構(gòu)建了漢語的音位范疇體系,符合人類“先口語,后書面語”的言語獲得機(jī)理。
未來,基于物理模型或?qū)嶋H物理過程的具身學(xué)習(xí)方法,還能建構(gòu)任意方言、語種的發(fā)音姿態(tài)和音系體系,并且輔助語音學(xué)家以及語言教學(xué)工作,推動(dòng)方言、小語種的語音識(shí)別和語音合成的研究。不僅如此,還能推廣到視覺運(yùn)動(dòng)、聽覺運(yùn)動(dòng)等機(jī)器感知工作。而且,通過發(fā)音聲帶的彈簧緊張度捕捉一個(gè)人說話時(shí)的情緒變化,語音測謊也將不是難題。

北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

北大教授吳璽宏:從發(fā)聲到語言,具身物理模型讓NLP回到小數(shù)據(jù)時(shí)代

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說