作者 | 吳彤
編輯 | 青暮
讓機器理解人類的語言是我們長期以來的夢想,經(jīng)過幾十年的發(fā)展,語言與智能技術(shù)發(fā)展到了什么程度?如何評價語言理解的智能水平?離強人工智能還有多遠(yuǎn)距離?未來的技術(shù)發(fā)展趨勢如何?這些問題迫切值得研究與探討。
中國計算機學(xué)會和中國中文信息學(xué)會聯(lián)合創(chuàng)辦了"語言與智能高峰論壇",每年舉行一次,首屆論壇于2016年在北京舉行,已成功舉辦五屆。在今年8月28日的線上高峰論壇上,北京大學(xué)吳璽宏向大家分享了大規(guī)模訓(xùn)練語言模型的個人見解,隨后具體闡釋了基于發(fā)聲物理模型的語音發(fā)聲姿態(tài)的自監(jiān)督學(xué)習(xí)。
吳璽宏教授現(xiàn)為北京大學(xué)教授、博士生導(dǎo)師,北京大學(xué)信息科學(xué)技術(shù)學(xué)院副院長、智能科學(xué)系主任、言語聽覺研究中心主任。同時也擔(dān)任南京腦科學(xué)與類腦智能創(chuàng)新中心的主任,研究猴腦介入式言語、猴子在交互過程中腦活動、非介入式的人腦介觀的動態(tài)圖譜以及和人類行為語言的關(guān)系。長期以來,吳老師致力于機器聽覺計算理論、語音信息處理、自然語言理解以及智能機器人等領(lǐng)域的基礎(chǔ)及應(yīng)用基礎(chǔ)研究,先后主持和參與國家級、省部級項目40余項,包括國家973課題、863項目、國家科技重大專項、國家科技支撐計劃、國家自然科學(xué)基金重大項目及重點項目、國家社會科學(xué)基金重大項目等。獲國家授權(quán)發(fā)明專利11項,發(fā)表學(xué)術(shù)論文200余篇。吳老師是做聽覺模型出身,從2005 年起才較晚地進(jìn)入到NLP 領(lǐng)域。近年來吳老師團(tuán)隊開始深入研究聽覺的發(fā)聲和聽覺的耦合關(guān)系,如何將其整合實現(xiàn)詞匯的發(fā)音姿態(tài)表達(dá),并研究發(fā)音姿態(tài)和客體模型的動作控制之間的關(guān)系。本次報告首先對語音識別任務(wù)的工作假設(shè)進(jìn)行反思,在此基礎(chǔ)上基于聽覺的"肌動理論(Motor Theory)",提出了一種結(jié)合發(fā)聲物理模型的非監(jiān)督自主學(xué)習(xí)方法,即具身學(xué)習(xí)(Embodied Learning)方法。- 該方法通過正向物理模型和逆向聽覺模型的迭代學(xué)習(xí),實現(xiàn)了從任意非標(biāo)注語音到聲門激勵信號和發(fā)聲姿態(tài)參數(shù)的推斷,實現(xiàn)了對語音具有可解釋性的描述;
- 通過在線自適應(yīng)實現(xiàn)了對新語音的發(fā)聲姿態(tài)推斷,解決了模型學(xué)習(xí)的泛化問題。
- 基于發(fā)聲姿態(tài)可進(jìn)一步實現(xiàn)任意語種的音系構(gòu)建,為小語種和方言的語音識別、個性化語音合成任務(wù)提供了一個新的解決思路。
以下是演講全文,AI科技評論進(jìn)行了不改變原意的整理,文章已經(jīng)過吳老師修改及確認(rèn)。如何把聲音和控制結(jié)合起來?大規(guī)模預(yù)訓(xùn)練模型的效果為什么那么好,背后原因何在?我們認(rèn)為,這類模型做的是預(yù)測工作,預(yù)測是一個主體生存最重要的任務(wù)。但它們的預(yù)測實現(xiàn),比如基于已有詞匯預(yù)測下一個詞匯,都是基于詞匯的嵌入向量進(jìn)行的。從語法層面講,這些嵌入向量是抽象的、多維的,不具有語言中的準(zhǔn)確上下文關(guān)系。從語用層面將,言語是一種行為,是在特定語境下與他人之間有意識地特定行為。但GPT-3缺失主體、時空、意圖、手段、邏輯等。因此,為了從表面上模擬這種預(yù)測,它需要巨量的數(shù)據(jù)才能夠?qū)崿F(xiàn)。即便能夠?qū)崿F(xiàn),GPT-3生成文本也是一種夢話,一種建立在大規(guī)模訓(xùn)練語言模型中的無意識“遣詞造句”。語言學(xué)家索緒爾認(rèn)為:每一個符號都由能指和所指組成,即符號=能指+所指。能指是語言符號的聽覺特性,而對意義的探詢是所指。舉個例子:對面的女孩子對我笑(能指),她喜歡我(所指)。即在這種情境下,笑=喜歡(隱喻),但是換種情境,或許 笑=嘲諷(隱喻)。所以在符號分析之中,自然語言處理要關(guān)注的就是這種能指和所指之間的斷裂關(guān)系和不穩(wěn)定的關(guān)系。表面來看,我們?nèi)说拿恳豁椥袨闆]有與之呼應(yīng)的意義,但深層次來看,我們掌握的其實始終只是能指的部分,真正的所指早就躲到潛意識的復(fù)雜結(jié)構(gòu)里去了。但世界知識是如何表示的呢?語言訓(xùn)練僅用符號來描述的世界是充分的嗎?我們要想辦法跳出符號世界。跳出符號世界就出現(xiàn)圖像和文本的聯(lián)合訓(xùn)練問題。在真實世界中,因為有圖像的客體空間分布,符號有一定具象化之后,使得空間的分布、結(jié)構(gòu)都會對文本約束,語言訓(xùn)練所要求的數(shù)據(jù)就不再是龐大的的數(shù)據(jù),而是小數(shù)據(jù),這樣的話也緩解了對文本數(shù)據(jù)的要求。如果某天做出來文本和圖像聯(lián)合的某一種GPT ,盡管它是受語境約束的,但它仍然是夢話,因為它沒有自己的控制,沒有自己的意圖。傳統(tǒng)的說法是在人工智能上空有兩朵烏云:常識、符號落地。但在這兩朵烏云之外,還有一朵更重要的烏云--主體以及主體的情感和意圖。那如果跳出符號世界到真實世界中,符號產(chǎn)生的條件是什么?我們認(rèn)為,符號的產(chǎn)生需要三個條件:首先要有社會文化環(huán)境,其次是主體和環(huán)境的交互,所以要有身體,第三個條件是發(fā)聲能力。三者聯(lián)合則構(gòu)成一個包含語境和心智的具身結(jié)構(gòu)。這要比小數(shù)據(jù)的語言訓(xùn)練模型巧妙得多。身體包括生理需要、身體動作和身體情緒等,在它與社會文化環(huán)境的雙重作用下,生成了感知-運動預(yù)測問題,并由符號在我們的感知-運動之間來回對應(yīng)。在這個具身結(jié)構(gòu)的符號建立之后,吳教授認(rèn)為這個符號及體系隱含著心智和語境。人工智能上空的第三朵烏云終于被撥開,但最大的障礙在于符號在感知-運動和社會文化環(huán)境之間如何搬運。因此吳教授從第三個條件,也就是發(fā)聲能力,尋找“搬運”的接口。吳教授認(rèn)為,人之所以區(qū)別于其他的動物,關(guān)鍵是人的發(fā)聲能力。人類學(xué)研究已經(jīng)表明,人具有獨特的咽腔結(jié)構(gòu),能夠產(chǎn)生無數(shù)種發(fā)音變化,因此語音就能對符號編碼,它支撐的編碼空間是足夠的,也就產(chǎn)生了第一符號系統(tǒng)--語音。而我們說的文字符號,則是第二符號系統(tǒng)。一個差別是語音信號如果變成文字符號,過程中會丟失很多信息。除了詞匯分割以外,還有代表情緒的很多韻律信息。比如在線上聊天時,我們總會以表情包彌補丟失的情緒。從最初的顏文字到j(luò)pg到GIF,人們借助表情包傳遞對話情緒,填補“不在場” 的縫隙。第二個是認(rèn)知神經(jīng)科學(xué)的研究表明,我們在語音交流過程中,我說的話和你聽懂的話,聽者并沒有逐詞處理,而是“挑”著來。比如早上媽媽沖進(jìn)房間大吼十分鐘,你只聽到一句“要發(fā)霉了”,便會自動明白今天陽光很好,媽媽嫌棄起床晚。而在符號處理中,每一個符號都必須處理,如果不處理的話,它會影響對整個句子的理解。在語音識別領(lǐng)域,近年來它已經(jīng)發(fā)展得十分優(yōu)秀。相對于自然語言處理來說,語音識別的識別率和抗噪音性能很高。但在語義識別領(lǐng)域,還存在大量繁瑣的數(shù)據(jù)標(biāo)注和計算資源工作。但種種跡象表明,語音識別系統(tǒng)出現(xiàn)了天棚現(xiàn)象,它并沒有達(dá)到100% 完美,盡管還能往里加數(shù)據(jù),語音識別的性能卻不增加了。第二個短板是無法識別非標(biāo)準(zhǔn)化的數(shù)據(jù),也就是語音的變異,比如方言、小語種,如果大家沿用數(shù)據(jù)標(biāo)注的方法,無異于降維為“AI民工”。首先,語音識別研究默認(rèn)為它要識別的語言必須具有文字符號,即第二符號系統(tǒng)必須具備;其次,需要語音學(xué)家提供注音標(biāo)注的音系系統(tǒng);最后還需要語音學(xué)家提供詞典。多年來,語音識別之所以所向披靡,其實就是借用了語音學(xué)家和語言學(xué)家大量的資源,以及語言的第二符號系統(tǒng)。但實際上我們面對的是什么?語音隨著講話方式的變化而變化,多變是語音的本質(zhì);很多語種和方言沒有文字系統(tǒng),也沒有構(gòu)建音系系統(tǒng)。這樣的話,我們面臨的挑戰(zhàn)問題是如何實現(xiàn)新方言、新語種的音系的自動構(gòu)建,以及如何實現(xiàn)對語音的精細(xì)的自動的標(biāo)注。新方法:具有認(rèn)知啟發(fā)的表示學(xué)習(xí)和范疇學(xué)習(xí)
在研究過程中,我們找到一個新方法,基于具有認(rèn)知啟發(fā)的表示學(xué)習(xí)和范疇學(xué)習(xí),實現(xiàn)語音或語種的自動標(biāo)注和音系構(gòu)建。首先這涉及到語音的產(chǎn)生和聽覺過程。語音的產(chǎn)生是氣流經(jīng)過喉、咽、腔,經(jīng)過舌和口腔的調(diào)制,再通過口唇動作調(diào)節(jié)產(chǎn)出語音。語音再傳輸?shù)蕉?,對聲音信號進(jìn)行頻譜分析和加工。但語音具有多變性,例如同一個人的zero發(fā)音在平穩(wěn)、憤怒、溫柔、叫喊的情緒下,語音的語譜變化非常激烈;不同人的發(fā)音,比如孩子、男人、女人也有很大的變化。傳統(tǒng)的語音識別應(yīng)對方法是人工打標(biāo)簽,不管語譜如何變化,總能映射到一個標(biāo)簽,形成一個范疇。但也因此出現(xiàn)一個推廣性問題。語音語譜是多變的,不同人、不同的情緒下都有變化,打標(biāo)簽的方法不可能覆蓋所有變化。從AI的演化來看。這是一種非智能的方法。另外還有一個可解釋問題。從語音頻譜的角度看,人工標(biāo)記過于粗略,不能描述語音音節(jié)的精細(xì)變化。那還有什么精準(zhǔn)描述語音變化又節(jié)省人力的方法嗎?我們提出從發(fā)音姿態(tài)的表示對語音進(jìn)行編碼的方法。回歸到語音的產(chǎn)生,氣流推動聲帶振動,經(jīng)由口腔調(diào)制使得語音有不同的共振特性,如果這個時候?qū)φZ音以及口腔形狀進(jìn)行編碼,即口腔的發(fā)音姿態(tài)等,是不是能夠捕捉一對映射。那我們能不能從發(fā)聲姿態(tài)的角度進(jìn)行范疇化呢?其實國際音標(biāo)表就是一個基于發(fā)聲部位和發(fā)聲方法的發(fā)音表述。在國際音標(biāo)表中,它涵蓋雙唇、唇齒、齒間、舌尖前等12個發(fā)聲部位,塞音、塞擦音、鼻音等10中發(fā)音方法。在發(fā)音描述上,國際音標(biāo)表早在1887年就被制定,按照發(fā)音姿態(tài)刻畫全世界各種語言。不僅如此,言語知覺理論(Motor Theoty)講到,我們感知言語,實際上是感知講話者的目標(biāo)發(fā)聲動作。比如在一些噪聲情況下,你沒聽清楚對方說的話,但可以通過自己嘴上模仿“聽懂”對方說的話。另外嬰兒也是先掌握發(fā)聲的動作模式才學(xué)會詞匯。剛生下來的小嬰兒就會哭喊,其中有一個功能就是練習(xí)口腔發(fā)音。通過自己的發(fā)聲動作調(diào)整音量大小、口腔形狀,并產(chǎn)生聲音變化,這個過程實際上是嬰兒在訓(xùn)練自己發(fā)聲與聽的功能。有這個基礎(chǔ)之后,才去學(xué)后續(xù)的詞匯。
姿態(tài)表示和范疇學(xué)習(xí)的方法框架肌動理論和國際音標(biāo)表證明,我們可以通過發(fā)音姿態(tài)位置感知對方的言語,甚至是任何發(fā)音都可以通過我的口腔姿態(tài)作逼近模擬。那么,動態(tài)的語音信號也可以自適應(yīng)地用口腔姿態(tài)來描述。另外它具有可解釋性,能夠刻畫聲音在每一時刻的精細(xì)變化,推演從語音到口腔、再從口腔到語音的因果過程。語音信號用發(fā)音姿態(tài)描述出來之后,我們可以進(jìn)一步地通過相似性、區(qū)分性、詞位,對不同的發(fā)音姿態(tài)建立音位范疇,最終形成音位的符號串,就可以不使用語言學(xué)家提供的音位系統(tǒng)。那么,如何實現(xiàn)自監(jiān)督學(xué)習(xí)?是否可以引入物理發(fā)聲模型?基于發(fā)聲物理模型的語音發(fā)聲姿態(tài)自監(jiān)督學(xué)習(xí)
從語音信號倒推發(fā)音姿態(tài),實際上這個想法有幾十年了,姿態(tài)獲得是最有難度的問題。傳統(tǒng)的方法是在實驗員的舌上貼不同的磁電傳感器,通過傳感器獲得他在說話過程中的姿態(tài):舌動-口腔聯(lián)動-生成對應(yīng)的語音信號-記錄對應(yīng)的語音信號隨著時間的變化軌跡,因此獲得一對映射數(shù)據(jù)。是否拿到數(shù)據(jù)后就可以通過語音反演出發(fā)音姿態(tài)?這是一個自然的想法。但實際上,這種方法獲取的數(shù)據(jù)代價太大,一是人力低效,二是數(shù)據(jù)不具備遷移性,如果換另一個人講話,發(fā)音姿態(tài)也會隨之有微小的改變。那么回歸到說和聽的過程,語言和生理的閉環(huán)式如何表現(xiàn)的?在1983年的 曹劍芬 和 任宏謨的《言語鏈:說和聽的科學(xué)》書中,早已詳細(xì)描述聽覺系統(tǒng)和發(fā)聲系統(tǒng)的閉合鏈:說話人大腦中產(chǎn)生想說話的信號,由肌肉控制生成句子。聲音信號一方面通過感覺神經(jīng)傳遞到自己的反饋鏈環(huán)節(jié),另一方面通過言語聲波傳遞給聽話人,從而構(gòu)成一個從語言學(xué)平面-生理學(xué)平面-聲學(xué)平面-生理學(xué)平面-語言學(xué)平面的閉環(huán)鏈。
具身認(rèn)知:將語音的聽覺表示轉(zhuǎn)換成發(fā)聲的肌肉控制,發(fā)聲器官的姿態(tài)成為語音的具有物理意義的表示。
具身學(xué)習(xí):協(xié)同物理的發(fā)聲過程與聽覺的逆過程,實現(xiàn)物理系統(tǒng)約束下的自監(jiān)督的學(xué)習(xí)。在實驗中,我們通過模仿這個發(fā)聲閉環(huán),對發(fā)音過程建立了一個物理模型。通過氣流、壓力、聲帶的彈性系數(shù)等控制聲音輸入信號、通過舌位、唇位等控制物理模型的聲音輸出信號。即能否把物理模型和感知過程結(jié)合起來,實現(xiàn)閉環(huán)的自監(jiān)督學(xué)習(xí)。
在實驗中,我們建立了一個TRM模型,這是一個聲門激勵信號,通過聲帶進(jìn)入咽腔、軟顎、鼻腔、口腔這種耦合的調(diào)制產(chǎn)出語音信號。這是一個典型的物理模型,氣流進(jìn)入-調(diào)制壓力-發(fā)出不同的語音信號,其中通過固定參數(shù)和動態(tài)參數(shù)調(diào)制不同的聲音信號,比如固定參數(shù)來刻畫聲道長度,鼻腔長度,軟顎和聲帶的彈性系數(shù)等,動態(tài)參數(shù)刻畫舌頭位置的變化、氣流強度等。拿到語音信號后通過一個相同的反模型輸出,對比正模型和發(fā)模型的參數(shù)差異,并按照梯度下降繼續(xù)迭代學(xué)習(xí),得到準(zhǔn)確的系數(shù)。不同于傳統(tǒng)的強化學(xué)習(xí)這個物理模型和傳統(tǒng)的強化學(xué)習(xí)不一樣,傳統(tǒng)的強化學(xué)習(xí)需要確定評價函數(shù),每次迭代都需要評價,但在語音信號的評價中,兩個語音信號距離小并不意味著相似、距離大不意味著不相似,這是強化學(xué)習(xí)的缺陷。而我們的自監(jiān)督物理模型無需評價函數(shù),利用發(fā)聲姿態(tài)的差異作為梯度;網(wǎng)絡(luò)輸入是物理模型生成的語音,輸入和監(jiān)督信息受物理約束,是一種監(jiān)督學(xué)習(xí)。另外網(wǎng)絡(luò)輸入語音信號的生成信號永遠(yuǎn)受物理約束。神經(jīng)網(wǎng)絡(luò)的反模型,實際上對 TRM 物理的正模型的一個逆過程。原始的語音信號經(jīng)過模型迭代,就可以得到發(fā)音姿態(tài)每時每刻的變化。這個物理模型的不僅能發(fā)出聲音,還能準(zhǔn)確提取聲帶肌頻信號。在獲得發(fā)音姿態(tài)后,我們希望它是從一個生物學(xué)信號的姿態(tài)到物理的口腔形狀姿態(tài)的變換,并依據(jù)發(fā)音姿態(tài)自動建立一個音位范疇,那么就可以進(jìn)一步發(fā)現(xiàn)發(fā)音姿態(tài)的特征點,建立發(fā)音姿態(tài)和語音信號的映射范疇。建立一個固定目標(biāo)標(biāo)記,隨后建立一個動態(tài)的動力學(xué)目標(biāo)模型,估計發(fā)音姿態(tài)中哪些是行動發(fā)音過程,比對最終的發(fā)音目標(biāo)是什么。估計出來之后,通過一個決策樹的聚類方法,對應(yīng)漢語音系。如果漢語音系和這個語音訓(xùn)練得出的音系基本上對應(yīng),說明我們提取的姿態(tài)和音位是可行的。下一步可以在這基礎(chǔ)之上做詞匯,從自然語言中自動發(fā)現(xiàn)的詞匯。基于具身認(rèn)知和肌動理論,吳老師提出了一種具身的自監(jiān)督學(xué)習(xí)框架。它通過發(fā)聲的物理模型和深度神經(jīng)網(wǎng)絡(luò)模型之間構(gòu)建了一個閉環(huán)的協(xié)動學(xué)習(xí)模型,實現(xiàn)了具有強推廣性和精細(xì)描述能力的語音發(fā)聲姿態(tài)的估計。同時,范疇學(xué)習(xí)構(gòu)建了漢語的音位范疇體系,符合人類“先口語,后書面語”的言語獲得機理。未來,基于物理模型或?qū)嶋H物理過程的具身學(xué)習(xí)方法,還能建構(gòu)任意方言、語種的發(fā)音姿態(tài)和音系體系,并且輔助語音學(xué)家以及語言教學(xué)工作,推動方言、小語種的語音識別和語音合成的研究。不僅如此,還能推廣到視覺運動、聽覺運動等機器感知工作。而且,通過發(fā)音聲帶的彈簧緊張度捕捉一個人說話時的情緒變化,語音測謊也將不是難題。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。