北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎：用語音和文字驅動數字人打手勢

本文作者：我在思考中

2022-12-07 10:17

導語：一個由語音和文字組成的新的跨模態(tài)生成系統(tǒng)。

一個由語音和文字組成的新的跨模態(tài)生成系統(tǒng)。

作者 | 黃楠

編輯 | 陳彩嫻

2022 年 12 月 6 日，SIGGRAPH Asia 2022 大會官方公布了最佳論文等多個獎項。其中，最佳論文獎由北京大學劉利斌團隊的論文“Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings”獲得，論文第一作者為北京大學 2020 級研究生敖騰隆。

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎：用語音和文字驅動數字人打手勢

論文鏈接：https://arxiv.org/pdf/2210.01448.pdf

在日常生活中，我們的語言行為時常會伴隨著一些非語言的動作進行：在公開演講時使用手勢讓內容更有感染力，一個突然降臨的好消息令人不由自主地鼓掌，陷入沉思時的來回走動和緊握的拳頭......這些非語言的動作像是“調味劑”，有時可以幫助形象化我們口頭所說的一件事物，強化語言所傳遞的態(tài)度，讓人類的表達才會更加生動且高效。

在這項工作中，劉利斌團隊提出了一個新的由語音和文字來驅動3D上半身人體模型進行手勢表演的跨模態(tài)生成系統(tǒng)，通過輸入一段時序同步的語音和文字，系統(tǒng)就能自動生成與之對應的上半身手勢。

圖 1：系統(tǒng)概覽圖

一段手勢動作由單個手勢單元（gesture unit）組成，其中，每個手勢單元可根據語調點、例如強調重音等，被劃分為單個手勢階段（gesture phase），每個手勢階段就代表了一小段特定的動作，比如抬手、擺臂等，在語言學中，這些手勢階段通常被稱為手勢詞（gesture lexeme）。由于日常交流中的手勢詞數目有限，將這些手勢詞進行集合后，即可獲得一個手勢詞典（gesture lexicon）。

特定演講者在講述過程中使用的手勢詞，就是手勢詞典中的子集，每個手勢詞上還會疊加輕微的變動（variation），研究人員通過假設此類表動無法直接由輸入推斷，將其編碼為一些隱變量（latent variable），這些代表輕微變動隱變量的手勢風格編碼（gesture style code）。演講者風格不同，因此手勢風格編碼一般跟演講者的風格相關，會受到演講者的音調等低層次音頻特征影響。

圖 2：系統(tǒng)所使用的字符模型

對此，該系統(tǒng)依據手勢相關的語言學研究理論，從韻律和語義兩個維度出發(fā)，對語音文字和手勢之間的關系進行建模，從而保證生成的手勢動作既韻律匹配又具備合理的語義。

基于上述理論，劉利斌團隊梳理了一個層次化結構：需要檢測節(jié)奏點（beat），劃分出手勢詞，每個手勢詞本質上已具備明確含義，由輸入語音的高層次語義特征決定；而基于每個手勢詞的變動，即手勢風格編碼，應該與輸入語音的低層次音頻特征，例如音調、音強等因素相關。

因此在系統(tǒng)中，研究人員首先需要分離出不同層次的音頻特征，由高層次音頻特征決定手勢詞，低層次音頻特征決定手勢風格編碼。當推斷出整段音頻對應的手勢詞和手勢風格編碼序列后，依照檢測出的節(jié)奏，研究團隊會顯式地將上述手勢塊“拼接”起來，確保生成的手勢韻律和諧，同時明確的手勢詞和手勢風格編碼保證了生成手勢的語義正確性。

圖 3：第一行為右手高度、第二行為手速、第三行為手半徑的樣式編輯結果，右側圖表顯示編輯輸入（平線）和輸出運動的相應值，箱形圖顯示輸出的統(tǒng)計數據

系統(tǒng)由數據（Data）模塊、訓練（Training）模塊和推斷（Inference）模塊三個部分組成。

其中，數據模塊的任務是對語音進行預處理，根據節(jié)拍將語音分割成標準化塊，并從這些塊中提取出語音特征。此次研究中共使用了三個數據集，分別是 Trinity 數據集、TED 數據集、以及為這項工作所收集的中文數據集。

訓練模塊會從標準化運動塊中學習手勢詞匯，并訓練生成器合成手勢序列，當中要考慮的條件就包括了手勢詞典、風格代碼以及先前運動塊和相鄰語音塊的特征。隨后的推理模塊中，會使用解釋器將語音特征轉換為手勢詞典和風格代碼，并使用學習生成器來預測未來的手勢。

圖 4：借助系統(tǒng)從 Trinity Gesture 數據集的四個樣本語音摘錄中合成的手勢的定性結果，在說“好”時會做出一個隱喻的手勢，當在捍衛(wèi)時會做出一個標志性的手勢，遇到 thing 和 selling 等詞會做出節(jié)拍手勢，當說到“我”時會出現(xiàn)指示手勢

為了驗證該研究是否可以實現(xiàn)“高層次音頻特征決定偏語義的手勢詞，低層次音頻特征則影響當前手勢詞內的輕微變動”，劉利斌團隊通過找到一類相似語義的高層次音頻特征，其對應的文本為 many、quite a few、lots of、much、and more 等，就這類高層次音頻特征的每個音頻特征對應生成的手勢序列，并對這些手勢序列編碼到手勢詞典空間進行可視化（圖 4）。

圖 5：手勢詞典空間動作特征向量的 t-SNE 可視化結果

可以發(fā)現(xiàn)，手勢動作序列僅出現(xiàn)在特定的手勢詞內，當中所出現(xiàn)的手勢詞對應的動作，圖 5（a）中的紅、橙和紫色所對應的骨骼動作），的確為“many、lots of、 etc”的意思表征。與之相對應的是，當對同類的低層次音頻特征進行可視化后，如圖 5（b）可見，屬于該低層次音頻特征類的動作序列不再集中于特定幾類，而分散到整個手勢詞典空間內，由此可以驗證“高層次音頻特征決定偏語義的手勢詞”。

圖 6：手勢詞典空間動作特征向量的 t-SNE 可視化結果

當不加入手勢風格編碼 z 時，如圖 6（a）所示，所生成的手勢密集地集中在當前手勢詞的類中心，于真值分布存在較大差距。當加入手勢風格編碼后，如圖 6（c）所示，所生成的手勢跟真值分布接近，這說明手勢風格編碼已成功建模了手勢詞的類內輕微變動。由此可以看到，手勢風格編碼主要由低層次音頻特征推斷得到，從而證明“低層次音頻特征影響當前手勢詞內的輕微變動”。

除了上述結果外，該系統(tǒng)還具備以下幾項特性：

跨語言生成，即使面對數據集沒有的語言，也能生成韻律和諧的手勢；長音頻生成，能夠面對較長的輸入音頻序列

手勢風格編輯，通過加入控制信號可以控制生成手勢的風格

無聲狀態(tài)下盡量減少多余的手勢動作

輸入一些特定音樂可魯棒地捕捉其節(jié)奏并隨之“擺動”

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎：用語音和文字驅動數字人打手勢

劉利斌，北京大學人工智能研究院前沿計算研究中心助理教授，2009年本科畢業(yè)于清華大學數理基礎科學專業(yè)，后轉向計算機科學與技術專業(yè)，2014年獲得清華大學博士學位，曾在加拿大不列顛哥倫比亞大學及美國迪士尼研究院進行博士后研究，之后加入 DeepMotion Inc. 任首席科學家。劉利斌教授的主要研究方向是計算機圖形學、物理仿真、運動控制以及相關的優(yōu)化控制、機器學習、增強學習等領域，曾多次擔任圖形學主要國際會議如 SIGGRAPH、PacificGraphics、Eurographics 等的論文程序委員。

參考鏈接：

1.https://sa2022.siggraph.org/en/

2.https://github.com/Aubrey-ao/HumanBehaviorAnimation

更多內容，點擊下方關注：

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎：用語音和文字驅動數字人打手勢