0
本文作者: 我在思考中 | 2022-12-07 10:17 |
作者 | 黃楠
編輯 | 陳彩嫻
2022 年 12 月 6 日,SIGGRAPH Asia 2022 大會(huì)官方公布了最佳論文等多個(gè)獎(jiǎng)項(xiàng)。其中,最佳論文獎(jiǎng)由北京大學(xué)劉利斌團(tuán)隊(duì)的論文“Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings”獲得,論文第一作者為北京大學(xué) 2020 級(jí)研究生敖騰隆。
在日常生活中,我們的語(yǔ)言行為時(shí)常會(huì)伴隨著一些非語(yǔ)言的動(dòng)作進(jìn)行:在公開(kāi)演講時(shí)使用手勢(shì)讓內(nèi)容更有感染力,一個(gè)突然降臨的好消息令人不由自主地鼓掌,陷入沉思時(shí)的來(lái)回走動(dòng)和緊握的拳頭......這些非語(yǔ)言的動(dòng)作像是“調(diào)味劑”,有時(shí)可以幫助形象化我們口頭所說(shuō)的一件事物,強(qiáng)化語(yǔ)言所傳遞的態(tài)度,讓人類(lèi)的表達(dá)才會(huì)更加生動(dòng)且高效。
在這項(xiàng)工作中,劉利斌團(tuán)隊(duì)提出了一個(gè)新的由語(yǔ)音和文字來(lái)驅(qū)動(dòng)3D上半身人體模型進(jìn)行手勢(shì)表演的跨模態(tài)生成系統(tǒng),通過(guò)輸入一段時(shí)序同步的語(yǔ)音和文字,系統(tǒng)就能自動(dòng)生成與之對(duì)應(yīng)的上半身手勢(shì)。
圖 1:系統(tǒng)概覽圖
一段手勢(shì)動(dòng)作由單個(gè)手勢(shì)單元(gesture unit)組成,其中,每個(gè)手勢(shì)單元可根據(jù)語(yǔ)調(diào)點(diǎn)、例如強(qiáng)調(diào)重音等,被劃分為單個(gè)手勢(shì)階段(gesture phase),每個(gè)手勢(shì)階段就代表了一小段特定的動(dòng)作,比如抬手、擺臂等,在語(yǔ)言學(xué)中,這些手勢(shì)階段通常被稱(chēng)為手勢(shì)詞(gesture lexeme)。由于日常交流中的手勢(shì)詞數(shù)目有限,將這些手勢(shì)詞進(jìn)行集合后,即可獲得一個(gè)手勢(shì)詞典(gesture lexicon)。
特定演講者在講述過(guò)程中使用的手勢(shì)詞,就是手勢(shì)詞典中的子集,每個(gè)手勢(shì)詞上還會(huì)疊加輕微的變動(dòng)(variation),研究人員通過(guò)假設(shè)此類(lèi)表動(dòng)無(wú)法直接由輸入推斷,將其編碼為一些隱變量(latent variable),這些代表輕微變動(dòng)隱變量的手勢(shì)風(fēng)格編碼(gesture style code)。演講者風(fēng)格不同,因此手勢(shì)風(fēng)格編碼一般跟演講者的風(fēng)格相關(guān),會(huì)受到演講者的音調(diào)等低層次音頻特征影響。
圖 2:系統(tǒng)所使用的字符模型
對(duì)此,該系統(tǒng)依據(jù)手勢(shì)相關(guān)的語(yǔ)言學(xué)研究理論,從韻律和語(yǔ)義兩個(gè)維度出發(fā),對(duì)語(yǔ)音文字和手勢(shì)之間的關(guān)系進(jìn)行建模,從而保證生成的手勢(shì)動(dòng)作既韻律匹配又具備合理的語(yǔ)義。
基于上述理論,劉利斌團(tuán)隊(duì)梳理了一個(gè)層次化結(jié)構(gòu):需要檢測(cè)節(jié)奏點(diǎn)(beat),劃分出手勢(shì)詞,每個(gè)手勢(shì)詞本質(zhì)上已具備明確含義,由輸入語(yǔ)音的高層次語(yǔ)義特征決定;而基于每個(gè)手勢(shì)詞的變動(dòng),即手勢(shì)風(fēng)格編碼,應(yīng)該與輸入語(yǔ)音的低層次音頻特征,例如音調(diào)、音強(qiáng)等因素相關(guān)。
因此在系統(tǒng)中,研究人員首先需要分離出不同層次的音頻特征,由高層次音頻特征決定手勢(shì)詞,低層次音頻特征決定手勢(shì)風(fēng)格編碼。當(dāng)推斷出整段音頻對(duì)應(yīng)的手勢(shì)詞和手勢(shì)風(fēng)格編碼序列后,依照檢測(cè)出的節(jié)奏,研究團(tuán)隊(duì)會(huì)顯式地將上述手勢(shì)塊“拼接”起來(lái),確保生成的手勢(shì)韻律和諧,同時(shí)明確的手勢(shì)詞和手勢(shì)風(fēng)格編碼保證了生成手勢(shì)的語(yǔ)義正確性。
圖 3:第一行為右手高度、第二行為手速、第三行為手半徑的樣式編輯結(jié)果,右側(cè)圖表顯示編輯輸入(平線(xiàn))和輸出運(yùn)動(dòng)的相應(yīng)值,箱形圖顯示輸出的統(tǒng)計(jì)數(shù)據(jù)
系統(tǒng)由數(shù)據(jù)(Data)模塊、訓(xùn)練(Training)模塊和推斷(Inference)模塊三個(gè)部分組成。
其中, 數(shù)據(jù)模塊的任務(wù)是對(duì)語(yǔ)音進(jìn)行預(yù)處理,根據(jù)節(jié)拍將語(yǔ)音分割成標(biāo)準(zhǔn)化塊,并從這些塊中提取出語(yǔ)音特征。此次研究中共使用了三個(gè)數(shù)據(jù)集,分別是 Trinity 數(shù)據(jù)集、TED 數(shù)據(jù)集、以及為這項(xiàng)工作所收集的中文數(shù)據(jù)集。
訓(xùn)練模塊會(huì)從標(biāo)準(zhǔn)化運(yùn)動(dòng)塊中學(xué)習(xí)手勢(shì)詞匯,并訓(xùn)練生成器合成手勢(shì)序列,當(dāng)中要考慮的條件就包括了手勢(shì)詞典、風(fēng)格代碼以及先前運(yùn)動(dòng)塊和相鄰語(yǔ)音塊的特征。隨后的推理模塊中,會(huì)使用解釋器將語(yǔ)音特征轉(zhuǎn)換為手勢(shì)詞典和風(fēng)格代碼,并使用學(xué)習(xí)生成器來(lái)預(yù)測(cè)未來(lái)的手勢(shì)。
圖 4:借助系統(tǒng)從 Trinity Gesture 數(shù)據(jù)集的四個(gè)樣本語(yǔ)音摘錄中合成的手勢(shì)的定性結(jié)果,在說(shuō)“好”時(shí)會(huì)做出一個(gè)隱喻的手勢(shì),當(dāng)在捍衛(wèi)時(shí)會(huì)做出一個(gè)標(biāo)志性的手勢(shì),遇到 thing 和 selling 等詞會(huì)做出節(jié)拍手勢(shì),當(dāng)說(shuō)到“我”時(shí)會(huì)出現(xiàn)指示手勢(shì)
為了驗(yàn)證該研究是否可以實(shí)現(xiàn)“高層次音頻特征決定偏語(yǔ)義的手勢(shì)詞,低層次音頻特征則影響當(dāng)前手勢(shì)詞內(nèi)的輕微變動(dòng)”,劉利斌團(tuán)隊(duì)通過(guò)找到一類(lèi)相似語(yǔ)義的高層次音頻特征,其對(duì)應(yīng)的文本為 many、quite a few、lots of、much、and more 等,就這類(lèi)高層次音頻特征的每個(gè)音頻特征對(duì)應(yīng)生成的手勢(shì)序列,并對(duì)這些手勢(shì)序列編碼到手勢(shì)詞典空間進(jìn)行可視化(圖 4)。
圖 5:手勢(shì)詞典空間動(dòng)作特征向量的 t-SNE 可視化結(jié)果
可以發(fā)現(xiàn),手勢(shì)動(dòng)作序列僅出現(xiàn)在特定的手勢(shì)詞內(nèi),當(dāng)中所出現(xiàn)的手勢(shì)詞對(duì)應(yīng)的動(dòng)作,圖 5(a)中的紅、橙和紫色所對(duì)應(yīng)的骨骼動(dòng)作),的確為“many、lots of、 etc”的意思表征。與之相對(duì)應(yīng)的是,當(dāng)對(duì)同類(lèi)的低層次音頻特征進(jìn)行可視化后,如圖 5(b)可見(jiàn),屬于該低層次音頻特征類(lèi)的動(dòng)作序列不再集中于特定幾類(lèi),而分散到整個(gè)手勢(shì)詞典空間內(nèi),由此可以驗(yàn)證“高層次音頻特征決定偏語(yǔ)義的手勢(shì)詞”。
圖 6:手勢(shì)詞典空間動(dòng)作特征向量的 t-SNE 可視化結(jié)果
當(dāng)不加入手勢(shì)風(fēng)格編碼 z 時(shí),如圖 6(a)所示,所生成的手勢(shì)密集地集中在當(dāng)前手勢(shì)詞的類(lèi)中心,于真值分布存在較大差距。當(dāng)加入手勢(shì)風(fēng)格編碼后,如圖 6(c)所示,所生成的手勢(shì)跟真值分布接近,這說(shuō)明手勢(shì)風(fēng)格編碼已成功建模了手勢(shì)詞的類(lèi)內(nèi)輕微變動(dòng)。由此可以看到,手勢(shì)風(fēng)格編碼主要由低層次音頻特征推斷得到,從而證明“低層次音頻特征影響當(dāng)前手勢(shì)詞內(nèi)的輕微變動(dòng)”。
除了上述結(jié)果外,該系統(tǒng)還具備以下幾項(xiàng)特性:
跨語(yǔ)言生成,即使面對(duì)數(shù)據(jù)集沒(méi)有的語(yǔ)言,也能生成韻律和諧的手勢(shì);長(zhǎng)音頻生成,能夠面對(duì)較長(zhǎng)的輸入音頻序列
手勢(shì)風(fēng)格編輯,通過(guò)加入控制信號(hào)可以控制生成手勢(shì)的風(fēng)格
無(wú)聲狀態(tài)下盡量減少多余的手勢(shì)動(dòng)作
輸入一些特定音樂(lè)可魯棒地捕捉其節(jié)奏并隨之“擺動(dòng)”
劉利斌,北京大學(xué)人工智能研究院前沿計(jì)算研究中心助理教授,2009年本科畢業(yè)于清華大學(xué)數(shù)理基礎(chǔ)科學(xué)專(zhuān)業(yè),后轉(zhuǎn)向計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè),2014年獲得清華大學(xué)博士學(xué)位,曾在加拿大不列顛哥倫比亞大學(xué)及美國(guó)迪士尼研究院進(jìn)行博士后研究,之后加入 DeepMotion Inc. 任首席科學(xué)家。劉利斌教授的主要研究方向是計(jì)算機(jī)圖形學(xué)、物理仿真、運(yùn)動(dòng)控制以及相關(guān)的優(yōu)化控制、機(jī)器學(xué)習(xí)、增強(qiáng)學(xué)習(xí)等領(lǐng)域,曾多次擔(dān)任圖形學(xué)主要國(guó)際會(huì)議如 SIGGRAPH、PacificGraphics、Eurographics 等的論文程序委員。
2.https://github.com/Aubrey-ao/HumanBehaviorAnimation
更多內(nèi)容,點(diǎn)擊下方關(guān)注:
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。