丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

本文作者: 我在思考中 2022-12-07 10:17
導(dǎo)語(yǔ):一個(gè)由語(yǔ)音和文字組成的新的跨模態(tài)生成系統(tǒng)。
一個(gè)由語(yǔ)音和文字組成的新的跨模態(tài)生成系統(tǒng)。

作者 | 黃楠

編輯 | 陳彩嫻

2022 年 12 月 6 日,SIGGRAPH Asia 2022 大會(huì)官方公布了最佳論文等多個(gè)獎(jiǎng)項(xiàng)。其中,最佳論文獎(jiǎng)由北京大學(xué)劉利斌團(tuán)隊(duì)的論文“Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings”獲得,論文第一作者為北京大學(xué) 2020 級(jí)研究生敖騰隆。

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)
論文鏈接:https://arxiv.org/pdf/2210.01448.pdf

在日常生活中,我們的語(yǔ)言行為時(shí)常會(huì)伴隨著一些非語(yǔ)言的動(dòng)作進(jìn)行:在公開(kāi)演講時(shí)使用手勢(shì)讓內(nèi)容更有感染力,一個(gè)突然降臨的好消息令人不由自主地鼓掌,陷入沉思時(shí)的來(lái)回走動(dòng)和緊握的拳頭......這些非語(yǔ)言的動(dòng)作像是“調(diào)味劑”,有時(shí)可以幫助形象化我們口頭所說(shuō)的一件事物,強(qiáng)化語(yǔ)言所傳遞的態(tài)度,讓人類(lèi)的表達(dá)才會(huì)更加生動(dòng)且高效。

在這項(xiàng)工作中,劉利斌團(tuán)隊(duì)提出了一個(gè)新的由語(yǔ)音和文字來(lái)驅(qū)動(dòng)3D上半身人體模型進(jìn)行手勢(shì)表演的跨模態(tài)生成系統(tǒng),通過(guò)輸入一段時(shí)序同步的語(yǔ)音和文字,系統(tǒng)就能自動(dòng)生成與之對(duì)應(yīng)的上半身手勢(shì)。

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

圖 1:系統(tǒng)概覽圖

一段手勢(shì)動(dòng)作由單個(gè)手勢(shì)單元(gesture unit)組成,其中,每個(gè)手勢(shì)單元可根據(jù)語(yǔ)調(diào)點(diǎn)、例如強(qiáng)調(diào)重音等,被劃分為單個(gè)手勢(shì)階段(gesture phase),每個(gè)手勢(shì)階段就代表了一小段特定的動(dòng)作,比如抬手、擺臂等,在語(yǔ)言學(xué)中,這些手勢(shì)階段通常被稱(chēng)為手勢(shì)詞(gesture lexeme)。由于日常交流中的手勢(shì)詞數(shù)目有限,將這些手勢(shì)詞進(jìn)行集合后,即可獲得一個(gè)手勢(shì)詞典(gesture lexicon)。

特定演講者在講述過(guò)程中使用的手勢(shì)詞,就是手勢(shì)詞典中的子集,每個(gè)手勢(shì)詞上還會(huì)疊加輕微的變動(dòng)(variation),研究人員通過(guò)假設(shè)此類(lèi)表動(dòng)無(wú)法直接由輸入推斷,將其編碼為一些隱變量(latent variable),這些代表輕微變動(dòng)隱變量的手勢(shì)風(fēng)格編碼(gesture style code)。演講者風(fēng)格不同,因此手勢(shì)風(fēng)格編碼一般跟演講者的風(fēng)格相關(guān),會(huì)受到演講者的音調(diào)等低層次音頻特征影響。

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

圖 2:系統(tǒng)所使用的字符模型

對(duì)此,該系統(tǒng)依據(jù)手勢(shì)相關(guān)的語(yǔ)言學(xué)研究理論,從韻律和語(yǔ)義兩個(gè)維度出發(fā),對(duì)語(yǔ)音文字和手勢(shì)之間的關(guān)系進(jìn)行建模,從而保證生成的手勢(shì)動(dòng)作既韻律匹配又具備合理的語(yǔ)義。

基于上述理論,劉利斌團(tuán)隊(duì)梳理了一個(gè)層次化結(jié)構(gòu):需要檢測(cè)節(jié)奏點(diǎn)(beat),劃分出手勢(shì)詞,每個(gè)手勢(shì)詞本質(zhì)上已具備明確含義,由輸入語(yǔ)音的高層次語(yǔ)義特征決定;而基于每個(gè)手勢(shì)詞的變動(dòng),即手勢(shì)風(fēng)格編碼,應(yīng)該與輸入語(yǔ)音的低層次音頻特征,例如音調(diào)、音強(qiáng)等因素相關(guān)。

因此在系統(tǒng)中,研究人員首先需要分離出不同層次的音頻特征,由高層次音頻特征決定手勢(shì)詞,低層次音頻特征決定手勢(shì)風(fēng)格編碼。當(dāng)推斷出整段音頻對(duì)應(yīng)的手勢(shì)詞和手勢(shì)風(fēng)格編碼序列后,依照檢測(cè)出的節(jié)奏,研究團(tuán)隊(duì)會(huì)顯式地將上述手勢(shì)塊“拼接”起來(lái),確保生成的手勢(shì)韻律和諧,同時(shí)明確的手勢(shì)詞和手勢(shì)風(fēng)格編碼保證了生成手勢(shì)的語(yǔ)義正確性。

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

圖 3:第一行為右手高度、第二行為手速、第三行為手半徑的樣式編輯結(jié)果,右側(cè)圖表顯示編輯輸入(平線(xiàn))和輸出運(yùn)動(dòng)的相應(yīng)值,箱形圖顯示輸出的統(tǒng)計(jì)數(shù)據(jù)

系統(tǒng)由數(shù)據(jù)(Data)模塊、訓(xùn)練(Training)模塊和推斷(Inference)模塊三個(gè)部分組成。

其中, 數(shù)據(jù)模塊的任務(wù)是對(duì)語(yǔ)音進(jìn)行預(yù)處理,根據(jù)節(jié)拍將語(yǔ)音分割成標(biāo)準(zhǔn)化塊,并從這些塊中提取出語(yǔ)音特征。此次研究中共使用了三個(gè)數(shù)據(jù)集,分別是 Trinity 數(shù)據(jù)集、TED 數(shù)據(jù)集、以及為這項(xiàng)工作所收集的中文數(shù)據(jù)集。

訓(xùn)練模塊會(huì)從標(biāo)準(zhǔn)化運(yùn)動(dòng)塊中學(xué)習(xí)手勢(shì)詞匯,并訓(xùn)練生成器合成手勢(shì)序列,當(dāng)中要考慮的條件就包括了手勢(shì)詞典、風(fēng)格代碼以及先前運(yùn)動(dòng)塊和相鄰語(yǔ)音塊的特征。隨后的推理模塊中,會(huì)使用解釋器將語(yǔ)音特征轉(zhuǎn)換為手勢(shì)詞典和風(fēng)格代碼,并使用學(xué)習(xí)生成器來(lái)預(yù)測(cè)未來(lái)的手勢(shì)。

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

圖 4:借助系統(tǒng)從 Trinity Gesture 數(shù)據(jù)集的四個(gè)樣本語(yǔ)音摘錄中合成的手勢(shì)的定性結(jié)果,在說(shuō)“好”時(shí)會(huì)做出一個(gè)隱喻的手勢(shì),當(dāng)在捍衛(wèi)時(shí)會(huì)做出一個(gè)標(biāo)志性的手勢(shì),遇到 thing 和 selling 等詞會(huì)做出節(jié)拍手勢(shì),當(dāng)說(shuō)到“我”時(shí)會(huì)出現(xiàn)指示手勢(shì)

為了驗(yàn)證該研究是否可以實(shí)現(xiàn)“高層次音頻特征決定偏語(yǔ)義的手勢(shì)詞,低層次音頻特征則影響當(dāng)前手勢(shì)詞內(nèi)的輕微變動(dòng)”,劉利斌團(tuán)隊(duì)通過(guò)找到一類(lèi)相似語(yǔ)義的高層次音頻特征,其對(duì)應(yīng)的文本為 many、quite a few、lots of、much、and more 等,就這類(lèi)高層次音頻特征的每個(gè)音頻特征對(duì)應(yīng)生成的手勢(shì)序列,并對(duì)這些手勢(shì)序列編碼到手勢(shì)詞典空間進(jìn)行可視化(圖 4)。

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

圖 5:手勢(shì)詞典空間動(dòng)作特征向量的 t-SNE 可視化結(jié)果

可以發(fā)現(xiàn),手勢(shì)動(dòng)作序列僅出現(xiàn)在特定的手勢(shì)詞內(nèi),當(dāng)中所出現(xiàn)的手勢(shì)詞對(duì)應(yīng)的動(dòng)作,圖 5(a)中的紅、橙和紫色所對(duì)應(yīng)的骨骼動(dòng)作),的確為“many、lots of、 etc”的意思表征。與之相對(duì)應(yīng)的是,當(dāng)對(duì)同類(lèi)的低層次音頻特征進(jìn)行可視化后,如圖 5(b)可見(jiàn),屬于該低層次音頻特征類(lèi)的動(dòng)作序列不再集中于特定幾類(lèi),而分散到整個(gè)手勢(shì)詞典空間內(nèi),由此可以驗(yàn)證“高層次音頻特征決定偏語(yǔ)義的手勢(shì)詞”。

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

圖 6:手勢(shì)詞典空間動(dòng)作特征向量的 t-SNE 可視化結(jié)果

當(dāng)不加入手勢(shì)風(fēng)格編碼 z 時(shí),如圖 6(a)所示,所生成的手勢(shì)密集地集中在當(dāng)前手勢(shì)詞的類(lèi)中心,于真值分布存在較大差距。當(dāng)加入手勢(shì)風(fēng)格編碼后,如圖 6(c)所示,所生成的手勢(shì)跟真值分布接近,這說(shuō)明手勢(shì)風(fēng)格編碼已成功建模了手勢(shì)詞的類(lèi)內(nèi)輕微變動(dòng)。由此可以看到,手勢(shì)風(fēng)格編碼主要由低層次音頻特征推斷得到,從而證明“低層次音頻特征影響當(dāng)前手勢(shì)詞內(nèi)的輕微變動(dòng)”。

除了上述結(jié)果外,該系統(tǒng)還具備以下幾項(xiàng)特性:

  • 跨語(yǔ)言生成,即使面對(duì)數(shù)據(jù)集沒(méi)有的語(yǔ)言,也能生成韻律和諧的手勢(shì);長(zhǎng)音頻生成,能夠面對(duì)較長(zhǎng)的輸入音頻序列

  • 手勢(shì)風(fēng)格編輯,通過(guò)加入控制信號(hào)可以控制生成手勢(shì)的風(fēng)格

  • 無(wú)聲狀態(tài)下盡量減少多余的手勢(shì)動(dòng)作

  • 輸入一些特定音樂(lè)可魯棒地捕捉其節(jié)奏并隨之“擺動(dòng)”

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

劉利斌,北京大學(xué)人工智能研究院前沿計(jì)算研究中心助理教授,2009年本科畢業(yè)于清華大學(xué)數(shù)理基礎(chǔ)科學(xué)專(zhuān)業(yè),后轉(zhuǎn)向計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè),2014年獲得清華大學(xué)博士學(xué)位,曾在加拿大不列顛哥倫比亞大學(xué)及美國(guó)迪士尼研究院進(jìn)行博士后研究,之后加入 DeepMotion Inc. 任首席科學(xué)家。劉利斌教授的主要研究方向是計(jì)算機(jī)圖形學(xué)、物理仿真、運(yùn)動(dòng)控制以及相關(guān)的優(yōu)化控制、機(jī)器學(xué)習(xí)、增強(qiáng)學(xué)習(xí)等領(lǐng)域,曾多次擔(dān)任圖形學(xué)主要國(guó)際會(huì)議如 SIGGRAPH、PacificGraphics、Eurographics 等的論文程序委員。

參考鏈接:
1.https://sa2022.siggraph.org/en/

2.https://github.com/Aubrey-ao/HumanBehaviorAnimation

更多內(nèi)容,點(diǎn)擊下方關(guān)注:

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng):用語(yǔ)音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)