從實驗室到現(xiàn)實，AI+手語識別，路向何方？｜GAIR live

本文作者：任平

2024-03-26 10:19

專題：AI for Science

導(dǎo)語：數(shù)據(jù)、算法與社會融合，四位教授大論道，客觀審視人工智能如何融入聽障人士的日常生活。

在數(shù)據(jù)和算法塑造的現(xiàn)代世界中，人工智能正快速地推動社會變革。

在此背景下，一群學(xué)者將關(guān)注投向了社會邊緣群體——聽障人士。他們通過深入的研究和開放的對話，探索科技如何成為溝通的橋梁，為每個人帶來溫暖。

最近，雷峰網(wǎng)組織的“AI+手語識別：技術(shù)革新與應(yīng)用前景”線上圓桌論壇，匯聚了田英利、倪蘭、蘇劍波、方昱春四位教授，他們憑借對聽障社群和AI技術(shù)的深刻理解，進行了一場內(nèi)容豐富的對話。

兩個小時的時間里，他們談到手語與計算機視覺技術(shù)、語言學(xué)技術(shù)的結(jié)合，還討論了倫理、隱私保護和實際應(yīng)用等關(guān)鍵議題，為理解聽障人士如何與科技融合提供了新的視角。

這不免讓人回憶起喬布斯所言：“技術(shù)本身并不足以改變世界，關(guān)鍵在于技術(shù)背后的人?！边@四位教授正是通過技術(shù)實現(xiàn)社會變革的代表。

田英利教授，作為計算機視覺領(lǐng)域的權(quán)威專家，這十年來專注于將手語識別技術(shù)應(yīng)用于改善聽障人群的溝通。疫情期間，她團隊的手語識別系統(tǒng)的遠程測試引發(fā)了一個關(guān)鍵猜想：手語識別系統(tǒng)的有效性可能更依賴于上下文語義理解，而非細致的多層標注，這一發(fā)現(xiàn)為實際應(yīng)用開辟了新的可能性。

倪蘭教授，擁有豐富的語言學(xué)背景，二十年來專注于“手語語言學(xué)”的研究。她探討了語言學(xué)對手語識別的深層意義，提出了在AI時代重新定義語言學(xué)家角色和貢獻的必要性。

蘇劍波教授，從產(chǎn)品開發(fā)視角出發(fā)，強調(diào)了手語識別技術(shù)面臨的實際挑戰(zhàn)，尤其是樣本采集的場景特定性與技術(shù)和產(chǎn)品通用性之間的平衡問題。

方昱春教授，同樣作為一位CV學(xué)者，指出手語識別的復(fù)雜性遠超人臉識別，并基于七年的研究經(jīng)驗，對手語數(shù)據(jù)的收集和管理提出了見解，指出面部隱私保護技術(shù)“DeID”，可能為手語數(shù)據(jù)的安全共享提供新的解決方案。

這場論壇不僅促進了技術(shù)交流，更是跨學(xué)科合作的典范，正如在圓桌結(jié)束后觀眾所言：如果說交叉學(xué)科研究中最稀缺什么，那一定是敞開心扉的對話。

以下是線上圓桌的全文（經(jīng)編輯）：

01 全球視野下的突破

田英利：歡迎大家齊聚線上，也感謝雷峰網(wǎng)的組織。我相信大家和我一樣，都對接下來手語識別討論充滿期待。在開始之前，請大家介紹下自己。

倪蘭：我是倪蘭，來自上海大學(xué)文學(xué)院，語言學(xué)及應(yīng)用語言學(xué)專業(yè)。我進入手語研究領(lǐng)域至今已經(jīng)整整二十年。在上海大學(xué)，我們成立了中國手語及聾人研究中心，這個中心致力于手語的學(xué)術(shù)研究和聾人群體的社會調(diào)查，以此增進社會對這個群體及其語言的理解。

蘇劍波：大家好！我是蘇劍波，來自上海交通大學(xué)和上海靈至科技有限公司。很高興有這個機會與大家交流我在手語識別方面的研究。我的工作最初源于人機交互領(lǐng)域，最開始并非專門針對聾啞或殘障人士。我的初衷是讓機器人能夠通過人類的下意識行為、表情和肢體語言來識別意圖和情緒。在這個過程中，我逐漸意識到手語在表達情感中的重要性，并開始專注于聾/啞人群的手語識別。

我目前的研究仍未完全區(qū)分健聽人和聽障人士的手勢識別，我將繼續(xù)在這個混合領(lǐng)域進行探索。希望今晚能與大家分享我的研究成果。

方昱春：我是方昱春，來自上海大學(xué)計算機工程與科學(xué)學(xué)院。自2017年起，我開始涉足手語研究，并深感榮幸能得到倪老師的支持和指導(dǎo)開展交叉學(xué)科研究。手語作為一門自然語言，遠不止是符號系統(tǒng)那么簡單，這深深吸引了我。我們有幸獲得國家文字語言委員會和上海市科學(xué)技術(shù)委員會科研經(jīng)費的支持，在上海大學(xué)建立了專門的語言采集實驗室和推廣基地，并開展了相關(guān)教學(xué)課程建設(shè)。期待未來能與大家進行更深入的合作。

田英利：我是田英利，自1998年在美國卡內(nèi)基梅隆大學(xué)開始接觸人的表情識別研究。在那里，我與導(dǎo)師和團隊共同創(chuàng)建了第一個微表情識別數(shù)據(jù)庫，多年來被同領(lǐng)域廣泛使用。在IBM工作三年后，我于2008年加入紐約城市大學(xué)，開始思考如何將計算機視覺研究應(yīng)用于幫助有特殊需求的人群，特別是盲人和聾人。

手語作為聾人與外界交流的主要方式，不僅包括手勢，還涉及面部表情和身體動作。掌握手語對聾人和健聽人來說都不容易，因此，如果能開發(fā)出自動識別手語的技術(shù)，將極大地幫助聾人在就業(yè)和社交方面。

盡管各國都在努力，但手語識別仍面臨挑戰(zhàn)。我希望今天的論壇能讓我們更深入地理解這一領(lǐng)域，為未來的研究和產(chǎn)業(yè)應(yīng)用提供實際指導(dǎo)。

田英利：第一個問題，關(guān)于手語識別領(lǐng)域的進展，盡管眾多團隊和個人已在這個方向上努力多年，但仍有許多值得探討的空間。國內(nèi)外有哪些學(xué)術(shù)和工業(yè)團隊在這一領(lǐng)域取得了顯著成就？他們的研究成果是如何推動手語識別技術(shù)發(fā)展的？倪蘭教授，請您先開始。

倪蘭：作為從事語言學(xué)研究的學(xué)者，我對手語識別領(lǐng)域的認識可能不夠深入，但可以和大家分享一些我所了解的情況。

2003年當我們開始手語研究項目時，哈爾濱工業(yè)大學(xué)和中國科學(xué)院的自動化所、計算所等已在進行相關(guān)研究，早期側(cè)重于穿戴式設(shè)備而非計算機視覺（CV）。隨著CV技術(shù)進步，這個領(lǐng)域發(fā)生了顯著變化。

目前，國內(nèi)活躍的從事手語識別技術(shù)團隊不僅包括哈工大和中科院的團隊，還有中科大的周文罡教授團隊已在該領(lǐng)域深耕十多年，北京聯(lián)合大學(xué)的姚登峰教授，作為聽障學(xué)者，他的研究具有獨特視角，他也正在建設(shè)中國手語和漢語的平行語料庫，讓聾人學(xué)生進入團隊采集手語數(shù)據(jù)，取得了不少成果。天津理工大學(xué)的聾人工學(xué)院多年前開始建設(shè)中國手語長篇語料數(shù)據(jù)集。我所在的上海大學(xué)自2017年成立手語研究中心起，就開始建立實驗室，采集手語視頻視頻，借鑒了國外數(shù)據(jù)采集的經(jīng)驗，在較為純凈的背景下進行拍攝，便于計算機后期建模，盡管在實驗室采集，我們也盡量使用各種方式以誘導(dǎo)更自然的手語表達，以便獲取自然語料。

蘇劍波：我對手語識別領(lǐng)域的研究，起于對機器人領(lǐng)域的人機交互理論和技術(shù)的關(guān)注，并非一開始就專注于聾人手語。我更關(guān)心的是如何讓機器人能夠通過對人的手勢，乃至肢體行為的自動識別，來理解人類的情緒和意圖。

因此，我對相關(guān)團隊的關(guān)注點可能與倪老師提到的有所不同。

在機器人學(xué)領(lǐng)域，國內(nèi)外許多研究機構(gòu)如中科院自動化所、哈工大，以及我所在的上海交通大學(xué)和曾做過訪問研究的香港中文大學(xué)等，都在進行相關(guān)研究，盡管尚未形成完整體系。這些研究通?；谔囟椖炕虍a(chǎn)業(yè)化需求，利用計算機視覺技術(shù)和工具積累，在企業(yè)提出的應(yīng)用需求上，開發(fā)各種能幫助殘障人士或聾啞人交流的技術(shù)或工具。

應(yīng)用場景如政府機關(guān)職員或醫(yī)院中醫(yī)生與聾啞病人的交流，所需的語料庫相對有限，側(cè)重于典型詞匯的表達意圖或含義，而非全面的語言學(xué)研究。

但相似的是，我們的研究同樣從視頻入手，專注于語義和含義的識別，更側(cè)重于通用語料庫的應(yīng)用。

方昱春：作為計算機視覺專業(yè)的學(xué)者，我踏入手語識別這一研究領(lǐng)域，最初是受到手語語言學(xué)的啟發(fā)，激發(fā)了我的研究熱情。

國內(nèi)，中國科學(xué)技術(shù)大學(xué)手語識別團隊在手語識別領(lǐng)域取得了顯著成就。國際上，德國亞琛工業(yè)大學(xué)的研究團隊同樣在這一領(lǐng)域享有盛譽。這兩個團隊憑借超過十年的研究積累，發(fā)布了多代數(shù)據(jù)集，推動了孤立詞識別、連續(xù)手語識別和手語翻譯等關(guān)鍵問題的研究，并引領(lǐng)了整個領(lǐng)域的發(fā)展。

此外，中科院計算所、西安電子科技大學(xué)、清華大學(xué)、香港科技大學(xué)、西湖大學(xué)，中科院自動化所、合肥工業(yè)大學(xué)、東北大學(xué)近年來也在手語識別領(lǐng)域持續(xù)發(fā)表了高水平成果。天津理工大學(xué)也建立了數(shù)據(jù)集。

特別值得一提的是，中科院計算所陳益強研究員團隊，在基于數(shù)據(jù)手套的手語理解領(lǐng)域取得了顯著成就，他的團隊在聾校進行了教學(xué)應(yīng)用和人機交互場景的探索。在2017年我們正準備采用計算機視覺技術(shù)進行手語識別時，陳益強教授鼓勵我們嘗試，盡管當時成功的可能性并不確定。畢竟，當時“人臉識別”取得了限定范圍應(yīng)用，“手語識別”的難度無疑更高。

2023年，參與手語識別研究的學(xué)校和企業(yè)數(shù)量進一步增加。

國內(nèi)外企業(yè)如小米、華為、騰訊，以及微軟、谷歌等也都積極參與這一領(lǐng)域的研究。很多企業(yè)關(guān)注開發(fā)具備手語能力的數(shù)字人，以提升人機交互體驗。

手語識別領(lǐng)域近年來的快速發(fā)展，新的數(shù)據(jù)集和相關(guān)競賽的頻繁發(fā)布預(yù)示著這一領(lǐng)域的未來潛力。

田英利：我接著談?wù)勎以诿绹鍪终Z識別的經(jīng)驗，以及對國際手語識別領(lǐng)域的觀察。

相比較而言，歐洲比美國更早關(guān)注殘障人士研究，但美國很快跟上了步伐，我很高興看到中國許多單位也開始這一領(lǐng)域的研究。這背后最大的推動力是人工智能和機器學(xué)習(xí)的進步，以及計算機算力的提升，使得原本不可能的研究變得可行。

正如剛才倪教授所說，早期手語識別研究，包括與語言相關(guān)的研究，一開始是依賴于穿戴手套等設(shè)備來捕捉手指運動，實現(xiàn)基本詞匯的識別。但現(xiàn)在，隨著技術(shù)的發(fā)展，尤其是微軟為游戲設(shè)計的RGBD攝像頭的應(yīng)用，許多學(xué)校開始使用RGBD技術(shù)進行捕捉。這不僅提供了視頻信息，還增加了深度信息，極大地提高了計算機視覺算法的精度。

目前，手語識別的主要瓶頸是缺乏通用的大型數(shù)據(jù)庫。盡管自然語言學(xué)習(xí)領(lǐng)域數(shù)據(jù)庫技術(shù)已有顯著進展，但手語識別仍面臨挑戰(zhàn)。美國、德國，希臘、土耳其等國也在進行數(shù)據(jù)采集和識別工作。

我們的團隊自2004年起研究手語識別，結(jié)合計算機視覺技術(shù)和語言學(xué)研究，希望將人的表情、手勢和身體動作結(jié)合起來進行識別，滿足聾人的真實需求。

這個過程中，我們與很多高校建立起合作，比如羅切斯特理工大學(xué)（RIT），他們擁有規(guī)模龐大的聾人學(xué)院，超過1000名聾人學(xué)生；以及紐約城市大學(xué)亨特學(xué)院的Elaine Gale教授，她是一位失聰者，精通唇語，并在手語教育方面有著豐富的經(jīng)驗。

所以我們團隊的工作流程相當于一條龍服務(wù)：RIT負責數(shù)據(jù)采集和標注，我們負責開發(fā)系統(tǒng)算法，然后Gale教授的團隊在他的課堂上與學(xué)生一起驗證我們的系統(tǒng)，并提供反饋，以便我們進一步改進。

我們意識到手語是一種完整的語言，不僅限于有限的詞匯。我們的目標是研究手語的語法結(jié)構(gòu)，而非單一手勢。目前我們打造出一條針對美國手語的語法實時識別系統(tǒng)，能自動反饋學(xué)生手語的語法正確性，提供快速反饋。

我期望國內(nèi)能建立跨學(xué)科的、成體系的研究環(huán)境，不僅僅是語言學(xué)者或計算機學(xué)院的獨立研究，而是能夠整合不同學(xué)科、聚集各類人才。我相信，隨著研究的深入，這一領(lǐng)域?qū)〉酶蟮倪M步。

02 從理論到實踐

田英利：第二個問題：如何從零開始構(gòu)建并部署一套高效的手語識別系統(tǒng)，在這一過程中我們面臨了哪些技術(shù)難題？大家是如何克服這些難題的？還有哪些問題尚未解決？倪老師，請先開始。

倪蘭：手語識別系統(tǒng)構(gòu)建不是我的專業(yè)，我可以從語言學(xué)的角度提供一些參考。在我看來，手語識別的過程類似于人類學(xué)習(xí)一門新語言的過程，我們需要理解詞匯的意義、語法結(jié)構(gòu)，最終達到理解整個語言系統(tǒng)的目的。從某種意義上說，手語識別就是將人類的語言學(xué)習(xí)經(jīng)驗傳授給機器的過程。

在構(gòu)建手語識別系統(tǒng)時，我們需要解決的關(guān)鍵問題是如何匹配形式和意義。剛才田老師提到的方法，似乎是將整個句子視為一個結(jié)構(gòu)來處理，而不是單獨識別每個詞。這種方法似乎更側(cè)重于語言單位的整體性，而不是單個詞的識別。

在國內(nèi)，許多團隊可能是先從識別孤立的詞匯開始，然后逐步擴展到整個句子或段落的識別。但田老師提到的方法是不要求具體詞的精確識別，而是關(guān)注整個句子的意義匹配。這實際上涉及到語言學(xué)中的“語塊理論”，即“以意義為單位進行語言分析”。

我很想知道，田老師的方法是否需要人工標注句子的意義，以及在形式和意義的匹配過程中，如何界定語言單位，以及如何進行標注。這些可能是我們在構(gòu)建手語識別系統(tǒng)時需要深入討論的問題。

田英利：倪老師，您提到的問題非常關(guān)鍵。確實，手語的連續(xù)性和句子間的切分對于理解整個表達非常重要。機器學(xué)習(xí)在切分方面可能與傳統(tǒng)語言學(xué)的方法有所不同。在我們的研究中，雖然我們沒有對每個詞進行識別，但我們確實對一些與語法相關(guān)的關(guān)鍵詞進行了識別，比如表示時間的“昨天”、“前天”以及“明天”、“后天”，這些都是通過手勢、位置和表情來表達的語法元素。

我認為，隨著對手語每個詞識別精度的提高，我們將能夠更好地理解整個句子。就像我們在說話時，即使每個詞都聽得懂，但如果沒有上下文的理解，我們也無法完全把握說話者的意圖。同樣，在手語中，上下文的理解也非常關(guān)鍵。同一個手勢，在不同的上下文中可能表達完全不同的意義。

總的來說，我認為，對手語中單個詞的理解是必要的一步，但同時，我們也需要關(guān)注上下文和整體句子的理解。這樣才能更全面地把握手語的含義。再次感謝倪老師您的寶貴意見，它們對我們的研究工作具有重要的啟發(fā)意義。

倪蘭：田老師，您剛才提到了語言理解，包括語法中的時間詞和疑問詞等。您在處理這些問題時，會考慮句子的語序嗎？比如，時間詞在句子中的位置，我們是將其放在句首、句中還是句尾？例如在漢語中，我們可能會說“我昨天去了哪里”，這里的“昨天”是放在中間的。您在研究中會考慮這種語法結(jié)構(gòu)嗎？

田英利：是的，我們會考慮這些因素。我們不僅關(guān)注詞的位置，還關(guān)注它們的時間因素。

例如，我們不能在說出“倪老師，你吃飯了嗎？”這個問題之后，過了很久才做出詢問的表情（比如眉毛上挑），這樣的話，表情就與問題脫節(jié)了。因此，我們不僅要考慮表情發(fā)生的時間，還要考慮它與關(guān)鍵詞、問題句子的相對時間關(guān)系。這樣的考慮才能賦予其語法意義。在美國手語和中國手語中，這些都是關(guān)鍵問題。

蘇劍波：這個問題確實是手語識別領(lǐng)域中非常核心的技術(shù)難題。我很難說我們已經(jīng)克服了哪些挑戰(zhàn)，或者更準確地說，我認為在手語識別方面，我們?nèi)匀幻媾R著大多數(shù)問題尚未解決的現(xiàn)實。

正如方老師剛才所指出的，手語識別是一個比人臉識別要復(fù)雜得多的領(lǐng)域。確實如此，十多年前，我有一個碩士研究生專注于人臉識別研究，他取得了非常好的成果，并發(fā)表了優(yōu)秀的論文。畢業(yè)后，他去了香港中文大學(xué)攻讀博士學(xué)位，那里的導(dǎo)師希望他能將他在人臉識別研究中的經(jīng)驗和成果應(yīng)用到手語識別上。他深思熟慮了好幾個月，最終還是放棄了，因為他了解到手語識別的難度，所以沒有繼續(xù)這個方向的研究。

手語識別領(lǐng)域的要求和對不同場景的適應(yīng)能力，以及對語言語料庫的積累，都使得它在模式識別領(lǐng)域中獨樹一幟。盡管我也是從計算機視覺和模式識別技術(shù)起步的，自然而然地會尋找能夠代表某一類模式的特征集合，這是我們這些受過模式識別專業(yè)訓(xùn)練的人的本能反應(yīng)。

但這種傳統(tǒng)模式識別領(lǐng)域內(nèi)有效的方法，在手語識別領(lǐng)域可能就不那么適用了。手語的多樣性和變化性——場景、人物、職業(yè)的不同，甚至不同地區(qū)和方言的差異——使得手語的特征選擇和定位變得異常困難，遠遠超出了人臉識別等其他模式識別任務(wù)的復(fù)雜性。手語識別不僅包括靜態(tài)手勢的識別，還包括動態(tài)手勢的識別，這就像文字斷句一樣，不同的斷句方式可能導(dǎo)致完全不同的語言含義。手勢的這種“斷句”差異可能會導(dǎo)致真實含義的巨大變化，甚至完全相反的意思。更不用說不同國家和方言的差別了。

在實際研究過程中，我們可能都會遇到類似的經(jīng)歷。如果我們基于公開的標準數(shù)據(jù)庫集進行手語研究，相對來說進展會比較容易。但如果我們基于真實人物采集的數(shù)據(jù)庫進行研究，難度就會大大增加，因為手語和手勢的特征提取也會變得非常個性化！因此，如何將這些研究成果轉(zhuǎn)化為廣泛接受的手勢或手語表達形式，是手語研究中極具挑戰(zhàn)性的問題。

在模式識別領(lǐng)域，無論是語音識別、人臉識別還是指紋識別，都有專門針對這些領(lǐng)域的工具和技術(shù)。然而，針對手語識別，我們似乎更多地是將其他領(lǐng)域的成功方法應(yīng)用到這里，而沒有針對手語識別開發(fā)出專門的技術(shù)手段和算法。

這反映了我們在這個領(lǐng)域開發(fā)特定技術(shù)難度的問題，或者說是通用性的難以實現(xiàn)。我們現(xiàn)在所做的工作，大多是基于模式識別領(lǐng)域內(nèi)公認的技術(shù)，如卷積神經(jīng)網(wǎng)絡(luò)和各種濾波手段。然而，很難期望一個并非為特定領(lǐng)域中特定環(huán)境下解決特定問題而設(shè)計的工具，能夠?qū)⒃擃I(lǐng)域的問題解決到極致。

我們提出了所謂的“特征完備性”概念，針對常用的幾百個手勢，無論背景、職業(yè)、應(yīng)用場景和文化背景如何不同，人們在表達同一語義時手勢之間的相似性，及不同語義時的手勢之間的差別，都可以通過一個足夠完備的特征集合給予描述；同時，為了減少識別的計算量又期望特征的整體規(guī)模要足夠小，即特征之間的正交性。這是我們把在其他模式識別領(lǐng)域的一些成功思想，拓展到手語研究。

通過上海靈至科技有限公司和上海追求人工智能科技有限公司兩家公司的市場化合作，我們試圖將模式識別的通用技術(shù)應(yīng)用于幫助殘障人士領(lǐng)域，他們擁有市場資源，能夠獲得特殊行業(yè)如多地聾啞學(xué)校的支持，從而采集特定的樣本。

但是，我們有時也會質(zhì)疑，在特定場景下采集的樣本對于樣本的拓展性和通用性究竟有多大的價值？這很難說清楚。這些都是我們在手語研究方面的一些困惑和難點。我提出的問題多于解決方案，接下來請問方老師，您那邊有什么想法嗎？

方昱春：我先回答問題的第一部分，關(guān)于如何構(gòu)建和部署手語識別系統(tǒng)。

我的研究小組還沒有開發(fā)出真正能夠應(yīng)用于實際場景的手語識別系統(tǒng)。但是，在觀看了田老師的專訪后，我深刻地理解了為什么田老師的工作，倪老師會認為特別有價值。因為田老師她們選擇的問題——將計算機視覺方法應(yīng)用于幫助學(xué)習(xí)手語的人，以便更準確地表達語法——實際上是手語語言學(xué)與計算機視覺模式識別交叉學(xué)科中的一個非常精彩的問題。

選擇這樣的問題進行研究，應(yīng)該是非常有智慧，是交叉學(xué)科研究和應(yīng)用非常好的例子。它不僅具有很高的實用價值，而且從語言學(xué)的角度來看，也具有很高的學(xué)術(shù)價值。這對我們來說是一個非常好的啟示。

手語方面，最大的困難在于數(shù)據(jù)標注。與自然語言相比，我們目前擁有的手語數(shù)據(jù)集標注量非常少。自然語言可以進行字、詞、語法、語義、語用的復(fù)雜標注，有大量的語言學(xué)家可以幫助完成這些工作。然而，要獲得如此詳盡的手語標注數(shù)據(jù)，難度就非常大了。這與手語本身的復(fù)雜性有關(guān)，它涉及到上半身多個部位的協(xié)調(diào)運動，并且具有很強的語言模式，這本身就是一個挑戰(zhàn)。

要像自然語言理解那樣去做手語理解，難度是非常高的。正如蘇老師剛才總結(jié)的一些經(jīng)典問題，比如復(fù)雜性光照、背景復(fù)雜性、姿態(tài)復(fù)雜性等，這些都是我們在計算機視覺問題中需要面對的挑戰(zhàn)。這些問題可能只有一部分可以通過計算方法解決，但我認為選擇一個好的應(yīng)用場景也很重要。例如，田老師語法糾正的應(yīng)用就是一個實例。如果我們的應(yīng)用場景是限定的，那么我們現(xiàn)在已經(jīng)實現(xiàn)的一些視覺方法就可能落地應(yīng)用。

至于其他的難點，可能要等到前面提到的數(shù)據(jù)采集和標注問題解決后，以及一個好的應(yīng)用場景的選擇，我們才能慢慢理解手語，進而促進我們理解人類的語言智能和認知智能。在這個基礎(chǔ)上，可能會逐漸發(fā)展出更加普遍化的手語識別技術(shù)。

倪蘭：在討論手語識別的過程中，我們不得不提到語言學(xué)的分類。

我們知道，目前的許多語言學(xué)研究，包括像ChatGPT這樣的模型，主要處理的是文本，也就是我們所說的書面語。對于書面語的標注，我們有很多數(shù)據(jù)庫，無論是現(xiàn)代漢語還是古代漢語，都有相應(yīng)的標注資源。然而，當我們轉(zhuǎn)向口語，也就是有聲語言時，雖然現(xiàn)在漢語口語的數(shù)據(jù)庫并不多。但至少在語音識別領(lǐng)域，我們已經(jīng)有一定的標注基礎(chǔ)，語音標注可能主要關(guān)注元音和輔音等方面。

但在手語標注方面，我很想了解你們在計算機識別或合成領(lǐng)域主要需要什么類型的標注。我們在使用一些軟件進行語言學(xué)標注時，可以實現(xiàn)多層標注，最多可以達到50層甚至60層。但這樣的標注對于計算機的手語識別有用嗎？

我曾看過一些用于打榜的標注，比如西班牙手語的標注，主要是對個別詞進行切分和語義標注，而不是完整的詞匯切分。對于與語言學(xué)家的合作來說，你們最需要的標注是哪一種？你們需要標注到多少層，才能解決識別一個句子或一段話的問題？我對這個問題非常好奇。

田英利：對于視覺領(lǐng)域的手語識別來說，我們最關(guān)心的是語義理解。也就是說，當我們看到一整個手語句子時，我們想要知道它在表達什么意思。至于詞的層面，了解孤立詞的語義對我們來說已經(jīng)足夠了，并不需要像語言學(xué)研究那樣進行50層細節(jié)的標注。

我們的主要應(yīng)用目標是實現(xiàn)正常的交流，這是首要的一步。但是僅從視覺角度來解決這個問題基本上是不現(xiàn)實的，我們必須與語言學(xué)家、手語使用者，包括聾人社區(qū)合作，共同解決問題。

接下來，我們要考慮的是如何將這個復(fù)雜的問題簡化。就像自然語言處理一樣，即使是像ChatGPT這樣的大規(guī)模模型，最初的研究也是集中在“新聞報道”這樣比較官方、正式的內(nèi)容上。只有在這些基礎(chǔ)工作做好之后，我們才能慢慢擴展到不同的口語或其他領(lǐng)域。如果第一步做不好，后續(xù)的工作基本上就無法進行。

倪蘭：那么回到這個問題上來，就是說在構(gòu)建系統(tǒng)的過程中，我們需要對標注的規(guī)范達成一致的標準，對嗎？這是我們需要明確的。

田英利：確實如此，拿我們團隊來說，從一開始就明確了我們的研究方向。無論是系統(tǒng)開發(fā)還是視頻手語捕捉，我們都事先討論并決定了使用哪些傳感器，以及捕捉的詳細要求，比如是捕捉整個句子還是多個句子。我們最終選擇了多個句子的方法，這樣一來，我們就涉及到了不同句子之間以及不同詞之間的分割問題。

另一個挑戰(zhàn)是，正如我們在口語中不是每個詞都有意義一樣，手語中的手勢也不全是有意義的。有些手勢具有意義，而有些則沒有。在實驗室環(huán)境中，人們可能會刻意減少這些無意義的手勢，但在實際應(yīng)用中，人們會自然地使用各種無意義的連接手勢。因此，如何準確地進行分割變得尤為重要。

我尤其想說一個插曲。當我們基本上開發(fā)出這個系統(tǒng)，并準備在課堂上進行測試時，新冠疫情爆發(fā)了，學(xué)生們無法到校上課。面對這種情況，我們不得不讓學(xué)生在家中使用手機完成作業(yè)，并將視頻發(fā)給我們進行系統(tǒng)測試。由于原本使用的是RGBD傳感器，現(xiàn)在D（深度信息）的部分沒有了，我們發(fā)現(xiàn)學(xué)生的視頻中手的位置、遠近不一，有時手勢甚至超出了畫面。

這對系統(tǒng)的考驗非常大。在這種情況下，即使我們不能識別每一個詞，我們也需要能夠理解整句話的意義。這就像我們在網(wǎng)絡(luò)通話中，即使偶爾丟失了幾個詞，我們?nèi)匀荒軌蚶斫庹麄€對話或段落的意思。因此，我認為在實際應(yīng)用中，我們不一定需要非常細致的多層標注，但我們需要能夠識別整個句子或段落的含義。如果我們能夠做到這一點，那么這個系統(tǒng)就可以投入使用了。

蘇劍波：我來補充一點。在實際應(yīng)用中，我們面臨一個挑戰(zhàn)，那就是基于標準手語庫訓(xùn)練出的識別系統(tǒng)如何應(yīng)對真實用戶，比如聾人在實際使用中的手勢并不總是那么標準？

從模式識別的角度來看，這就像是你收集了大量的語料庫，但在實際應(yīng)用中，如何將系統(tǒng)擴展到具體用戶的樣本上，你的系統(tǒng)可擴展性到底能達到何種程度？實際上，這非常制約整個系統(tǒng)的實用性。

田英利：這確實是一個問題。就像ChatGPT一樣，盡管它現(xiàn)在非常強大，但它也不能提供任何問題的答案。特別是對于幫助殘障人士的系統(tǒng)，一定要有個性化定制的那一步。也就是說，基本系統(tǒng)建成后，針對每個人的具體應(yīng)用，必須有一個調(diào)整過程。這是必不可少的。否則，對于個人用戶來說，應(yīng)用過程中會存在斷層。

蘇劍波：確實，我們需要一個標準系統(tǒng)作為基礎(chǔ)，然后針對特定用戶進行自我學(xué)習(xí)或調(diào)整的過程，這樣才能逐漸提高系統(tǒng)對該特定用戶的準確度。

田英利：是的，無論如何，還有另一個問題是關(guān)于用戶界面的。無論你的技術(shù)有多好，如果你的界面不友好，用戶就不會去使用它。

蘇劍波：對，所以這個磨合過程往往會讓用戶失去耐心。

田英利：這就是為什么我們在最開始的時候就要把聾人朋友納入到整個系統(tǒng)的開發(fā)中來。這些朋友對新技術(shù)充滿熱情，他們也愿意幫助和貢獻。然后再進行推廣。如果一個不成熟的產(chǎn)品在推廣時讓用戶決定不再使用，那么以后想要讓他們重新使用就會變得非常困難。

倪蘭：我理解蘇老師的困惑所在。可能因為美國手語的發(fā)展時間比中國手語要長，但在中國手語中，我們確實面臨著蘇老師提到的各種“地方變體”的問題。

對語言學(xué)家來說，語言的多樣性是語言成熟度的表現(xiàn)，我們非常樂于接受。但手語有自身的復(fù)雜性，有方言的問題，還有群體內(nèi)部的異質(zhì)性（因為不同的教育背景、家庭情況、聽損情況等，他們的手語使用情況千差萬別）。

不同于普通話，我們可能只關(guān)注發(fā)音是否標準。聾人群體中，手語的好壞差異巨大。即使在公認的手語較好的聾人中，也存在差異。很多聾人并沒有接受過系統(tǒng)的手語教育，他們大多靠自學(xué)。

手語的標準并沒有像有聲語言那樣有一個明確的評判標準。通用手語目前只是一些詞匯，而這些詞匯也是從各地手語中采集來的，未來還需要進一步完善。

實際上，我們比較過通用手語常用詞表和之前手語詞典的詞匯，發(fā)現(xiàn)詞匯差異并沒有我們想象的那么大。比如通用手語中的“安靜”是一個復(fù)合詞，即兩個手勢，但上海聾人可能只用一個手勢，這種情況實際上并不影響核心意義的傳達。

我特別關(guān)注田老師所做的工作，她不僅僅關(guān)注孤立詞的識別，而是關(guān)注整個句子意思的理解，這對我們有很大的啟發(fā)性。因為手語的方向和位置變化很大（例如我看到小孩學(xué)手語時在頭的位置打出“牛奶”的手語，其他人也能看懂），如果我們能找到一些工具專門提取手語中有價值的特征，可能會對手語識別技術(shù)非常有幫助。

田英利：我認為您補充得非常好。實際上，在應(yīng)用過程中，即使我們無法準確識別單個詞，我們?nèi)匀豢梢酝ㄟ^視覺方法來理解整個句子的意思。

確實，要在現(xiàn)有技術(shù)水平下完全準確地通過視覺方法識別出所有意思有些困難。但蘇老師團隊的公司在針對特定場景研發(fā)技術(shù)，這非常能幫助到聾人。

例如，我們可以開發(fā)一些特定的產(chǎn)品，比如一個小軟件，專門用于醫(yī)療場景中的對話，包含與病痛或醫(yī)生溝通的詞匯。這樣，當他們?nèi)タ瘁t(yī)生時，只需要使用有限的詞匯，比如三百到五百個，甚至幾個手勢，比如“肚子疼”、“頭疼”，就能表達他們的不適。這樣簡化復(fù)雜問題，即使不能完全解決問題，也能在實際生活中為殘障人士提供便利。

蘇劍波：是的，這是一個很好的方法。我們在實際操作中，可以先讓系統(tǒng)猜測病人可能的意思，然后再確認，這樣的交互可能更實用，而不是追求一次性識別出完整的意思。

田英利：在開發(fā)系統(tǒng)時，一定要將聾人納入系統(tǒng)的一部分。因為他們是系統(tǒng)的直接用戶，所以讓他們參與驗證可以大大提高系統(tǒng)的準確率。當系統(tǒng)明確知道他們的意思后，可以將其翻譯給醫(yī)生。即使醫(yī)生沒有學(xué)過手語，通過語音或文字的翻譯，就能理解他們的意思。

蘇劍波：是的，對于福利院、養(yǎng)老院或?qū)ｉT用于照顧殘障人士的機器人，它們可以通過人臉識別來識別出某個人習(xí)慣使用的手勢。經(jīng)過一段時間的自我學(xué)習(xí)后，它們就能快速準確地識別出特定聾人的手語。但在許多應(yīng)用場景中，機器人沒有這樣的機會進行學(xué)習(xí)，所以這一步就無法實現(xiàn)。如果能讓機器人長期陪伴一個聾人，那么這方面的壓力就會減少很多。這就是我們的方向。

03 AI的啟示

田英利：第三個問題，ChatGPT、Sora等大型語言模型在自然語言處理（NLP）領(lǐng)域取得了顯著成就。這些模型背后的設(shè)計理念和技術(shù)路徑，對手語識別研究有何啟示？方老師，請您先分享。

方昱春：我認為ChatGPT作為大模型的典型例子，其成功的實用化范例很大程度上依賴于海量數(shù)據(jù)的支持。那么，這對手語識別有何關(guān)聯(lián)呢？

我們認為，大型模型實際上是在大量文本語料上學(xué)習(xí)語義之間的關(guān)聯(lián)性。而手語識別處理的是視覺方式傳達的語義。人類在表達社會生活時，在語義空間中仍有許多共通之處。因此，我們認為大型模型的成功經(jīng)驗可以借鑒，特別是在構(gòu)建語義空間方面，可能會加速我們對手語理解的研究。

這目前還只是一個猜想，我們尚未真正付諸實踐。

此外，像Sora這樣的文生視頻大模型在多模態(tài)信息處理方面展現(xiàn)出了強大的能力。手語本身也是一種多模態(tài)形式，其形式是視覺信號，而內(nèi)容傳達的是語言信息。因此，我們也認為Sora這種多模態(tài)的工作方式可以給我們提供很好的啟示。

主要在這兩個方面——語義和多模態(tài)——我們可以借鑒和使用大模型，對手語識別技術(shù)提供支持。

倪蘭：ChatGPT在2023年成為了最熱門的話題，從年初到年末都備受關(guān)注。在我們語言學(xué)界，ChatGPT的出現(xiàn)引起了巨大的轟動。以前我們認為理解語言需要依賴語言學(xué)家來提供有價值的信息，然而ChatGPT和Sora等模型似乎表明，只要有數(shù)據(jù)就足夠了。

許多學(xué)者也在探討：人工智能時代，語言學(xué)家能做些什么？

盡管在有聲語言識別，尤其是文本識別方面，人們可能認為語言學(xué)家的作用不再重要，但我認為在初期，語言學(xué)家提供的一些關(guān)于語言的重要信息是有價值的，包括語法結(jié)構(gòu)等。

結(jié)構(gòu)主義對我們?nèi)宋念I(lǐng)域產(chǎn)生了深遠影響，我們知道語音、句子和詞匯都是可以切分的，這種結(jié)構(gòu)化的認識對于今天的大語言模型可能已經(jīng)被遺忘，但它們最初的工作是至關(guān)重要的。

關(guān)于通用性，我們也在思考是否能夠在手語領(lǐng)域找到一些最核心的信息，比如它的結(jié)構(gòu)。盡管目前缺乏大規(guī)模的數(shù)據(jù)集，但也許我們可以找到一些關(guān)鍵的手語信息，這可能對手語識別有一定的推動作用。在與方老師和其他老師的溝通中，我們發(fā)現(xiàn)，許多老師認為手語是一個無法結(jié)構(gòu)化的混沌整體，但一旦進行了結(jié)構(gòu)化分析，就可以反復(fù)應(yīng)用這些規(guī)律，這就是結(jié)構(gòu)的力量。

因此，我們可以從ChatGPT中得到啟示，思考在手語識別中哪些核心架構(gòu)是關(guān)鍵的。

我記得在早期的GPT-3.0版本中，有些句子的搭配感覺有問題，但經(jīng)過不斷的訓(xùn)練后，它就能夠擴展。我們是否也能在手語識別中找到一些關(guān)鍵的結(jié)構(gòu)？比如手語動詞的方向性，如果我們知道這一點，那么我們就不會將“我愛你”和“你愛我”識別成兩個獨立的手勢，而是能夠理解方向性動詞的開始和結(jié)束位置是可以標記成句子的主、賓語。還有手指的朝向，它也可以表示賓語，這些都是結(jié)構(gòu)化的特征。我們在分析手形時發(fā)現(xiàn)，中國手語中表示”錢“的時候，很多人認為必須拇、食指要捏成圓形。但實際上，在實際使用中并不會完全捏圓，這時不捏圓和捏圓的手形在意義上沒有差別。當我們在語料中發(fā)現(xiàn)這兩種手形實際上不區(qū)別意義時，這是否可以提高識別的準確性？

所以，我認為一方面ChatGPT告訴我們需要大量數(shù)據(jù)的積累，另一方面也提示我們有些核心信息需要早期放入到標注中，或者在構(gòu)建手語識別系統(tǒng)時，可以提供給計算機一些知識庫信息。

正如大家所討論的，實際應(yīng)用中，每次向ChatGPT提問得到的回答都會有所不同，我們可以在缺乏數(shù)據(jù)的情況下通過關(guān)鍵信息讓系統(tǒng)不斷自我學(xué)習(xí)，自我應(yīng)用。

當我們?nèi)狈ψ銐虻恼Z言學(xué)者和標注人員時，未來實現(xiàn)自動標注可能是解決大數(shù)據(jù)問題的途徑，因為系統(tǒng)可以自適應(yīng)地學(xué)習(xí)。

蘇劍波：這個問題我已經(jīng)思考了很久。包括ChatGPT和Sora這樣的工具，從技術(shù)發(fā)展的角度來看，它們都是非常清晰的人工智能工具。

ChatGPT主要是基于文本的人工智能工具，而Sora則是基于圖像和視頻的人工智能工具。因此，從手語識別的角度來看，我個人感覺Sora對手語識別的幫助可能要超過ChatGPT。

我們一直在思考的問題是，傳統(tǒng)上我們總是需要從圖像或視頻中提取各種特征，無論是幾何特征還是統(tǒng)計特征，并評價這些特征能否表達圖像所代表的語義含義。從這個角度來看，無論是目標識別、運動分析、顏色識別，還是其他類似的任務(wù)，最終都要拓展到語義層面。

但我一直思考的是，比如我們觀看一段視頻或電影時，我們關(guān)注的是視頻中的人物、情節(jié)和行為，我們可以從頭到尾理解視頻的內(nèi)容和意義，而不會過分關(guān)注計算機提取的圖像或視頻特征。那么我們在做手語識別時，真的需要通過提取視頻中的特征來識別手語的語義嗎？

當然，計算機視覺的傳統(tǒng)理論都是這樣，選用什么樣的特征表達關(guān)注的語義決定了基于計算的人工智能系統(tǒng)的性能，因此而考慮特征選擇和提取的魯棒性、速度和準確性。

Sora給我的沖擊是，它是通過視頻的方式來理解內(nèi)容，但它的機理是什么？我不清楚。

它是通過傳統(tǒng)意義上的計算機視覺特征提取來完成視頻理解，還是通過其他手段？

這激發(fā)了我們對手語知識表達最有效的手段是什么的思考，包括語義的拓展和新的情緒、語義生成手段是什么？

如何讓機器人能夠生成手語來表達自己的意思，或者理解殘障人士的意思，并通過手語解釋給他們聽？

在這個過程中，可能真的需要理解人類的思考或意圖，這種計算模型是什么？

是否一定要基于我們在計算機視覺中學(xué)到的統(tǒng)計或幾何特征？

我不清楚，但我體會到了ChatGPT和Sora給我的這種反向刺激。

觀察人與人之間的交流時，包括健康聽人和聾啞人的交流，人們是如何通過各種手勢來理解他人的情緒或殘障人士的手勢含義的。

反過來說，計算機的計算能力遠遠超過人類，它是否一定要模仿人類不一定是計算方式的理解他人或殘障人士手勢的過程？

在這個過程中，它應(yīng)該使用什么樣的特征和模型來表達？這些模型或特征未必是人類需要或使用的。

我們以前總是說人工智能首先要學(xué)習(xí)人類是如何獲得智能的，或者智能是如何進化的。我現(xiàn)在懷疑，計算機在發(fā)展人工智能或計算智能時，是否一定要走人類智能生成、發(fā)展和進化的同一條路？

田英利：回答您這個問題確實頗具挑戰(zhàn)性，因為關(guān)于人腦如何產(chǎn)生智能的問題，目前科學(xué)界還沒有確切的結(jié)論。

眾所周知，任何關(guān)于人類智能進展的研究，都會對計算機人工智能的發(fā)展產(chǎn)生重大影響。然而，即便是小孩子的思維也不是二進制的，而計算機只能通過0和1的二進制來進行運算。計算機必須依靠其強大的計算能力來模擬，甚至達到小學(xué)生水平的智能。

最近，得益于強大的計算力和海量數(shù)據(jù)，ChatGPT似乎實現(xiàn)了一個飛躍。但我們也必須承認，盡管ChatGPT取得了巨大進步，它提供的想法或答案并不總是準確的。有時我們開玩笑說，ChatGPT經(jīng)常一本正經(jīng)地胡說八道，看似頭頭是道，實則可能是錯誤的。

為什么會出錯？因為它缺乏判斷能力，只能依據(jù)以往的大數(shù)據(jù)來得出結(jié)論。

Sora也是如此，它可以基于幾個關(guān)鍵詞生成逼真的視頻，但這些視頻真的符合我們最初的預(yù)期嗎？并不一定。因此，我認為使用大數(shù)據(jù)進行手語識別仍然有一段路要走。

在我們的研究團隊中，我們在等待收集數(shù)據(jù)庫和標注數(shù)據(jù)的同時，采取了一種方法：我們直接從YouTube上獲取那些已經(jīng)有手語翻譯的演講視頻，將演講內(nèi)容作為標注，使用視頻中的小框內(nèi)的手語進行識別，得到了不錯的結(jié)果。但這些都是比較官方的內(nèi)容，涵蓋的范圍相對有限。另外，視頻中手語的質(zhì)量也非常有限。

不過，我認為將來有了強大的計算力，可以將這類數(shù)據(jù)作為一種可行的備選大數(shù)據(jù)資源，利用現(xiàn)在的自主學(xué)習(xí)或無需標注的學(xué)習(xí)技術(shù)，自動剔除不準確的部分，提取最關(guān)鍵的語義信息。

這樣，我們就能理解手語者在表達什么，這已經(jīng)足夠了。我們不需要精確地識別每一個詞。這是我們自己的一種嘗試和探索。

蘇劍波：目前我們通過這種方法實現(xiàn)目標是完全可行的。但從技術(shù)的完備性角度來看，我個人并不特別喜歡所謂的標注過程，因為任何標注都可能帶有標注者個人的主觀意圖。

正如在人工智能領(lǐng)域，比如早期讓計算機學(xué)習(xí)下圍棋，最初是通過學(xué)習(xí)人類的棋譜來進行的。但后來發(fā)現(xiàn)計算機無法判斷人類高手棋譜中的錯招和漏招，因此后來改變了策略，讓計算機自我對弈。

現(xiàn)在，計算機只知道圍棋規(guī)則是由人類設(shè)定的，但它通過自我進化來提高下棋技術(shù)，而不是通過學(xué)習(xí)人類的棋譜來達成目標。計算機圍棋已經(jīng)通過這種方式達到了遠超人類的水平，但它并非是通過學(xué)習(xí)人類智能的方式實現(xiàn)的。

這個案例對我來說是一個極具啟發(fā)性的思路，它表明機器智能的進化和提升未必需要通過學(xué)習(xí)人類智能來實現(xiàn)。這是我的觀點。

田英利：然而，在最初階段，我們?nèi)匀恍枰祟惖臉俗ⅲ缒岬降膰謇?，它有一套完整的?guī)則。

對于手語和語言，尤其是受到地域限制的情況下，規(guī)則越明確，計算機學(xué)習(xí)的效果就越好。

但當規(guī)則不明確時，我們該怎么辦？最初的時候，一定要有人來教它，告訴我們?nèi)绾芜M行。

方昱春：算法應(yīng)該還是依賴了大量的棋譜數(shù)據(jù)，展現(xiàn)了記憶的巨大優(yōu)勢。

倪蘭：蘇老師，這個問題在語言學(xué)上有一個解釋。

根據(jù)喬姆斯基（當代著名的語言學(xué)家和思想家）的理論，所有人類都有語言的潛質(zhì)和本能，但如果把一個孩子扔到森林里，不讓他接觸人類，他其實很難學(xué)習(xí)到語言，仍然需要激發(fā)，需要父母不斷地為他提供語言數(shù)據(jù)的刺激和糾錯機制。

我們教孩子語言時，并不是只教他“a是b”這樣的句型，他就能照做。他會將規(guī)則用到極致，創(chuàng)造出我們從未教過的新句子。這其實和機器學(xué)習(xí)是一樣的，我們告訴它基本規(guī)則，然后它產(chǎn)生新的東西。當然，人類的語言機制可能更復(fù)雜。

所以，我們目前對手語的構(gòu)造了解還不夠。很多時候，即使我自己的手勢并不標準，但有時候一個表情就能讓聾人立刻理解我想說什么。

我認為，我們的視覺捕捉到的信息比我們通過有聲語言表達的信息要多得多。如果我們對手勢和身勢語有更深入的了解，一定能幫助我們更好地理解他人的意圖和言語含義。手語雖然源自身勢語，但它已經(jīng)發(fā)展出了一個相對完整的體系。

我們首先對身勢語了解不足，然后對發(fā)展出的手語的語法規(guī)則也沒有完全掌握，這就帶來了識別的復(fù)雜性。聾人在表達時，同時也會使用身勢語。我們可以做一個實驗，觀察視頻中的人邊說話邊打手勢，當把聲音關(guān)掉時，你完全不知道手勢代表的含義。聾人能將他們的身勢語和手語融合在起來進行表達。因此在手語識別時，我們?nèi)绻荒軈^(qū)分身勢語和手語，就會覺得復(fù)雜，沒有規(guī)則。

手語是一種語言符號系統(tǒng)，它的表達有一定的限制性和語音規(guī)則。但因為它太復(fù)雜，融合了很多多模態(tài)要素，包括表情體態(tài)等，而我們對表情的認識和了解還遠遠不夠，這就是為什么手語識別起來異常很困難。

田英利：我覺得蘇老師提出的問題非常有趣，技術(shù)上如何解決？

倪老師談到的也確實如此，有時候我們的語言只占交流的30%，大部分時候，尤其是在家庭中，有時甚至不需要說話，一個眼神就足以傳達意圖。人的交流有多個渠道，我認為不需要準確地識別出每一個字、每一個細節(jié)才能進行應(yīng)用。

所以，我們現(xiàn)在自然地過渡到了下一個討論議題，即盡管技術(shù)困難，包括特征提取的難度，但我們?nèi)绾慰朔@些困難，在現(xiàn)有的技術(shù)條件下盡可能地幫助聽障人士的生活？

04 技術(shù)與現(xiàn)實的碰撞

問題四：從技術(shù)研究走向?qū)嶋H應(yīng)用，我們可能會遇到哪些現(xiàn)實困難？如何將手語識別技術(shù)更好地融入到聽障人士的日常生活中？

方昱春：從計算機應(yīng)用系統(tǒng)的角度來看，難點集中在“接口設(shè)計”上。

許多信息類產(chǎn)品，如果對使用者的約束太多，例如人臉識別時需要用戶配合特定的姿勢、光照條件和設(shè)備，那么用戶在受限的環(huán)境中使用，體驗就會不佳，最終這項技術(shù)也可能被拋棄。為了讓聾人能更好地使用我們的技術(shù)，應(yīng)該提供一種更自然、更無感的體驗，讓他們能方便地在更多公共場合中感知語言的表達。因此，我認為一個適當?shù)慕涌谑亲呦驅(qū)嶋H應(yīng)用中的一個典型問題。

還有其他一些問題我們在前面的討論中已經(jīng)涉及過，比如手語的變化性很大，我們?nèi)绾螡M足用戶的個性化需求？這些都是需要解決的問題。

另外，我們也多次提到手語識別的難度很高，這會影響我們開發(fā)的技術(shù)的精度，這些情況都是存在的，這些因素都會影響到整個技術(shù)的實際落地和推廣。

倪蘭：去年我和方老師合作指導(dǎo)了一個關(guān)于應(yīng)急手語的學(xué)生科創(chuàng)項目。大家普遍認為聾人群體在日常生活中會頻繁使用手語，但實際上，聾人群體是多元化的，也包括那些不會打手語的聽障人士，他們的手語熟練程度和教育水平也各不相同。他們對字幕和文本的理解能力也不盡相同，因此我們需要確定哪些場景最需要手語識別技術(shù)。

有時，我們在新聞中看到的手語翻譯可能并不總是被聾人理解，但它代表了一種對語言權(quán)益的尊重。

如果手語識別技術(shù)能夠發(fā)展到聾人在日常生活中都能方便使用，就像拿出手機發(fā)短信那樣簡單，那將是一個巨大的進步。之前vivo曾推出過手語識別和合成技術(shù)，聾人朋友嘗試使用后發(fā)現(xiàn)，輸入一句漢語可以逐字打出手勢，但如果要識別一個聾人打的手語句子，目前的技術(shù)水平還做不到。

在需求分析方面，我們可能需要深入了解聾人最迫切的需求場景，比如醫(yī)療領(lǐng)域，中老年聽障人士的需求尤其大，他們可能更依賴手語。與年輕人不同，他們可能不太熟悉語音轉(zhuǎn)文字的電子設(shè)備。在這種情況下，我們需要考慮手語數(shù)據(jù)應(yīng)該采集自哪些人群，以及把醫(yī)療術(shù)語翻譯成手語的挑戰(zhàn)，因為很多術(shù)語可能在手語中并不存在，直接翻譯反而會造成誤解。

因此，我認為可能需要將“語音識別”與“手語識別”結(jié)合起來使用，并且要考慮數(shù)據(jù)庫采集對象的多樣性。

另一個場景是教育領(lǐng)域，聾人也需要學(xué)習(xí)手語。在學(xué)習(xí)手語的過程中，提供標準化和規(guī)則化的內(nèi)容是很重要的。

例如，鄭州工程技術(shù)學(xué)院等院校在招收全國各地聾人學(xué)生時，會先培訓(xùn)他們共同使用一套手語，然后在四年的學(xué)習(xí)中不斷練習(xí)和使用。

在教育領(lǐng)域，我們需要考慮如何為聾人提供課程支持。目前，招收聾人的學(xué)校大多使用字幕機，但我們需要更深入了解聾人在哪些場合需要這些產(chǎn)品，并考慮在窗口、銀行等公共服務(wù)場所的應(yīng)用。我認為手語識別產(chǎn)品可能需要結(jié)合多元化的模式，如果只依賴單一的手語識別，可能會在某些場合受到限制，因為情況特別復(fù)雜，尤其是在中國這樣地域廣闊的國家。手語有很多地域分支，統(tǒng)一的標準可能無法滿足所有聾人的需求。

蘇劍波：我這邊的工作主要是關(guān)于機器識別聾人的手勢，并將其翻譯給健聽人，以便在各種環(huán)境中，如服務(wù)窗口、教育場所或醫(yī)療場所，促進聾人與健聽人之間的交流。

但我一直不太確定，應(yīng)該使用什么樣的工具來實現(xiàn)這一點。

比如，是否讓健聽人手持iPad，實時拍攝聾人的手勢，然后屏幕上就能顯示出他們所說的內(nèi)容？

這種方式有助于促進雙方的交流。然而，在實際應(yīng)用中，聾人往往不愿意被拍攝。即便解釋說拍攝的目的是為了翻譯他們的手勢，他們通常也不愿意接受。除非在迫不得已的情況下，比如在政府部門或醫(yī)院需要辦事時，他們才會勉強接受這種方式的翻譯。但在正常情況下，比如在馬路上交流，如果用設(shè)備拍攝他們，他們肯定會反感。

我一直在思考，這種技術(shù)究竟應(yīng)該如何轉(zhuǎn)化為實際應(yīng)用？甚至連最基本的工具使用方式都沒搞清楚。我們通常習(xí)慣于使用手機，比如不認識的花，就用百度拍一下識別，這是我們?nèi)粘Ｉ钪谐Ｓ玫墓ぞ摺?/p>

但與聾人交流時，我們不能總是帶著iPad，或者讓他們在iPad顯示下進行手勢，然后翻譯出來。我不知道該如何應(yīng)對這種情況。

倪老師提到，在特定領(lǐng)域，如醫(yī)療和教育，可能不得不使用某些工具來幫助理解他們的意圖。但如果要設(shè)計一個適合聾人使用的產(chǎn)品，或者一個可以隨身攜帶的設(shè)備，讓他們在需要與正常人交流時，能夠?qū)崟r顯示他們的意圖，那將是非常有益的。

但這樣的產(chǎn)品是什么呢？我還不太清楚。就像手機那樣，但具體該如何操作呢？是通過拍攝手勢，然后在手機屏幕上直接表達他們的意圖，還是通過語音說出來？我還在探索這方面的解決方案。

田英利：針對蘇老師的問題，我認為我們的討論非常有益。從技術(shù)到產(chǎn)品的落地，確實還有許多困難需要克服，路還很長。

關(guān)于應(yīng)該開發(fā)什么樣的產(chǎn)品，近年來VR和AR技術(shù)被頻繁提及。我們需要一種自然的產(chǎn)品，而不是讓人們感覺像是扛著攝像機或iPad來錄制。

想象一下，如果聾人可以戴上一種眼鏡，這種眼鏡內(nèi)置有針孔攝像頭，能夠捕捉他們自己的手勢，并將這些手勢直接翻譯成語音。

當我知道他們的意思后，我就可以回答他們。這種眼鏡當然也會有麥克風，能夠捕捉我的語音，這時就不需要手語，而是直接將我的語音轉(zhuǎn)化成文字，顯示在他們的AR眼鏡上。

這樣一來，我們就能理解蘇老師所講的情況，即不僅僅是通過攝像頭來識別手語，而是將語音、文字和部分肢體語言這些多渠道信息綜合起來，幫助我們進行溝通交流。我們不需要成為他們的“靈魂伴侶”，只需要大致理解他們的意圖，這對他們的生活就已經(jīng)是很大的幫助了。

此外，蘇老師提到了一個非常重要的問題，即關(guān)于拍攝的隱私問題。在攝像頭無處不在的今天，我們?nèi)绾卧诒Ｗo隱私和技術(shù)發(fā)展之間找到平衡？

05 倫理與隱私

問題五：在開發(fā)和部署手語識別系統(tǒng)時，如何確保聽障人士的隱私得到保護？我們?nèi)绾卧诩夹g(shù)創(chuàng)新與倫理道德之間找到平衡？

倪蘭：這確實是我們在構(gòu)建數(shù)據(jù)庫時一直面臨的困擾。起初，我并沒有強烈的隱私保護或知識產(chǎn)權(quán)意識，是方老師向我強調(diào)了在計算機領(lǐng)域中數(shù)據(jù)保護的重要性，我才開始重視這個問題。

我們采集了大量的數(shù)據(jù)，但在采集過程中，我們都會與聾人被調(diào)查者簽訂協(xié)議，確保他們的隱私受到保護。因此，在數(shù)據(jù)的公開使用上，我們非常謹慎，會明確詢問數(shù)據(jù)的使用目的。

有時，一些企業(yè)會委托進行數(shù)據(jù)采集工作，我們也會非常小心，擔心數(shù)據(jù)被用于其他目的。

文本數(shù)據(jù)的情況不同，因為ChatGPT所使用的大部分文本數(shù)據(jù)都是公開發(fā)表的，如新聞報道、出版的書籍或?qū)W術(shù)論文等。但手語數(shù)據(jù)無法屏蔽肖像，即使是在臉部任何部位打上馬賽克，都會導(dǎo)致語義信息損失。眼睛是表情中最重要的部分，我們經(jīng)常說它們是心靈的窗戶，眼睛的睜大、閉合，甚至眼神都包含了豐富的信息。如果在處理數(shù)據(jù)時屏蔽了這些信息，就無法進行有效的識別。

因此，我們目前的做法是--有限度的授權(quán)使用。

我們確實意識到，如果不發(fā)布數(shù)據(jù)，它們就無法得到廣泛應(yīng)用，但一旦發(fā)布，又如何保護這些信息呢？

因此，對于表示不愿讓自己的信息被發(fā)布的聾人，我們都會做出承諾。保留了原始數(shù)據(jù)，但僅在不公開的情況下，用于我們自己的研究和觀察。

蘇劍波：關(guān)于隱私保護的問題，我并沒有一個特別好的答案。但在這個過程中，我一直在向遇到的人們解釋，在公共場合，無論你是殘障人士還是健聽人，大家都是沒有隱私的。

當然，如果有人惡意使用你的肖像或生理特征，那就是另一回事了。這種情況下，應(yīng)該從法律角度對濫用者進行懲罰。

實際上，任何人只要不在自己家里，在外面就都沒有隱私。所以，隱私該如何保護？如何進行過濾？

包括馬賽克等手段，現(xiàn)在都可以用人工智能算法恢復(fù)成正常狀態(tài)，這些技術(shù)已經(jīng)沒有什么秘密可言。在這個問題上，確實很難做到完全的過濾。當然，倪老師剛才提到的也很對，我們需要尊重使用者的個人意愿。

我會告訴他們，我會如何使用他們的生理圖像，如果他們同意，我就使用；如果不同意，我就不使用。

但實際上，我也不斷向他們解釋，在公共場合下，你的圖像很容易被別人使用。所以，讓他們逐漸了解現(xiàn)代科技已經(jīng)發(fā)展到何種程度。通過我?guī)状谓忉尯螅麄円材芾斫饬?。我會給他們看各種各樣的視頻，讓他們明白公共場合下的監(jiān)控是多么普遍。

但如果有人惡意使用他們的信息，他們完全可以起訴對方，我也會提供幫助。這樣，他們就能理解這個問題了。目前沒有特別好的辦法，每個人都有自己的權(quán)利，不容侵犯。

方昱春：盡管在公共場合，我們的部分隱私確實容易泄露，但從管理的角度來看，我們?nèi)匀恍枰⑼晟频闹贫葋磉M行倫理審查。

例如，針對手語識別項目，我們可以邀請專家和聾人代表共同制定符合道德倫理要求的規(guī)則。

在數(shù)據(jù)采集過程中，就像我和倪老師在制作數(shù)據(jù)集時所做的那樣，我們需要向聾人透明地說明為何收集這些數(shù)據(jù)，以及我們將如何使用這些數(shù)據(jù)，并征得他們的同意。這本身就是一種保護措施。

在數(shù)據(jù)管理上，我們也應(yīng)該制度化，盡量尊重并保護數(shù)據(jù)，防止泄露。尤其是在涉及商業(yè)運作時，我們需要特別注意，因為不當處理可能會讓人感到被侵犯。如果能通過預(yù)防來保護隱私，那么從使用者的角度來看，他們會更加滿意。

在部署手語識別系統(tǒng)時，我們應(yīng)該避免收部署那些與個人相關(guān)的信息。對于這部分數(shù)據(jù)，我們可以進行加密，并在傳輸和存儲過程中將安全性放在重要位置。我們需要仔細考慮哪些數(shù)據(jù)應(yīng)該上傳到云端，哪些不應(yīng)該。

隱私保護也是我們領(lǐng)域的一個重要研究方向。我自己也在研究面部隱私保護技術(shù)，目前我們稱之為“Face DeID”。早期DeID會對面部打馬賽克或添加噪音作為保護方法，但這樣就無法保留手語的語言學(xué)特征。現(xiàn)在，我們可以使用AIGC等技術(shù)，在保留手語語言學(xué)特征的同時，保護個人身份信息。

我認為我們的技術(shù)有可能實現(xiàn)一個較好的平衡：我們可以利用數(shù)據(jù)，但同時也能確保使用的數(shù)據(jù)是安全的。如果我們考慮全面，制度合理，在技術(shù)進步同時也捍衛(wèi)倫理道德。

田英利：我認為各位老師的討論非常精彩，特別是在手語識別方面，因為我們需要面部表情、手勢以及身體動作的配合。所以，如果簡單地對視頻打馬賽克或其他處理，其他人可能就無法使用這些數(shù)據(jù)了。正如方老師所提到的，信息保護在這一領(lǐng)域中極為重要。

我在IBM工作時，我們組參與過指紋識別項目。指紋是唯一的，一旦丟失，就無法再用于銀行密碼等。但我們的同事提出了一種可撤銷的生物特征識別方法。這啟發(fā)我思考，未來我們或許可以對手臉進行某種變換，既保留了對計算機視覺有用的信息，又不泄露個人的重要信息，這是一個值得探索的方向。

06 讀者提問

1，用多模態(tài)大模型來做識別手語會不會更好？

田英利：關(guān)于使用多模態(tài)大型模型進行手語識別的問題，我的回答是肯定的。當然，采用多模態(tài)的方法肯定會帶來更好的識別效果。目前，研究和開發(fā)的趨勢正是朝著這個方向發(fā)展。因此，簡單來說，使用多模態(tài)大型模型進行手語識別是一個明確且必要的前進方向。

2.有團隊正在考慮如何建立一個類似于“手語-GPT”的基礎(chǔ)模型，能兼容全球各地的手語。那么，手語語法和方言是難題嗎？還是說，只要數(shù)據(jù)充足就能完成“暴力美學(xué)”？

方昱春：這個問題讓我想起了我國著名的語言學(xué)家趙元任，他是一位能夠在極短的時間內(nèi)學(xué)會不同地方方言和多國語言的超級語言學(xué)家。

他掌握和使用語言的速度非?？?，是人類智能的一個杰出代表。雖然這樣的例子可能非常罕見，但如果我們的人類能夠具備這樣的能力，對多種方言和語言具有極高的適應(yīng)性，那么我們也許能夠讓一個“手語GPT”模型也具備這種多方言的適配能力。

因為盡管語言千變?nèi)f化，但每種語言都有其共性，不是完全無法互相學(xué)習(xí)的。因此，我認為這是一個值得探索的有益想法。

倪蘭：語言學(xué)的終極目標是探索人類語言的普遍性原理。包括美國語言學(xué)家喬姆斯基在內(nèi)，許多學(xué)者都在尋找方案，希望用一套規(guī)則來解釋人類語言的共性，語言的核心在于形式如何表達意義，我們希望找到語言形式的共同規(guī)則，以及與意義的匹配方式。

比如，所有的語言都包含否定和疑問的表達，盡管表現(xiàn)形式各異；又比如每種語言中能夠表達意義的語音數(shù)量是有限的。但我們尚未找到一套完美的規(guī)則來解釋所有人類語言，這是因為我們對語言的理解還不夠深入。

有時看國外的聾人電影或電視劇，我發(fā)現(xiàn)不同國家的手語之間存在一定的相似性。

例如，我們會看到日本手語與中國手語有很多相同的手勢，這表明手語的前身——身勢語——在人類中有著共通之處。如大多數(shù)人通過搖頭表示否定，盡管也有的文化中使用仰頭來表示否定。

我相信，手語之間的可懂度可能比有聲語言高。

有研究表明，使用不同手語的人之間的可懂度，高于使用不同有聲語言的人。周文罡教授也曾提到，他們使用美國手語、德國手語等其他國家的手語數(shù)據(jù)集來訓(xùn)練，這表明其中存在一些共通的元素。

我們目前對手語的語音分析都基于美國學(xué)者William .Stokoe對手語的手形、位置和運動的切分，以及后來加入的方向和表情體態(tài)分析。這些基本特征分析在每一種手語中都具有價值。因此，如果我們能夠構(gòu)建這樣一個模型，并將這些特征導(dǎo)入手語的分析標注中，我們一定能發(fā)現(xiàn)許多人類語言共通的東西。

蘇劍波：我的想法可能相對簡單，但我認為這里有一個值得探討的小方向。我們知道人類有多種不同的語言表達方式，包括口語、手語、肢體語言，以及各種方言等，這些都是非常個性化的表達形式。我在思考，是否有可能通過識別個體的腦波來取代對語言的感知和手語的識別？這是否是一個可行的方向？

因為腦波的感知更加個性化，這可能會為我們提供一個全新的交流方式。我提出這個問題，希望能與大家一起探討這個可能性。

田英利：馬斯克的Neuralink項目就在探索人腦與計算機接口的可能性。他們最近似乎也取得了一些進展，這可能是最直接的方式來實現(xiàn)人腦與機器的交流。

至于“手語GPT”，從技術(shù)角度看，如果我們能夠獲取全球范圍內(nèi)的大規(guī)模數(shù)據(jù)，我認為是有可能的。就像現(xiàn)在不同語言之間的翻譯，曾經(jīng)被認為是一項艱巨的任務(wù)，但現(xiàn)在ChatGPT可以輕松地在英文和中文之間切換，沒有任何問題。

但從實施的角度來看，我認為還存在一些困難。畢竟，聾人群體相對較小，當需要大量的計算資源和技術(shù)支持時，是否有政府或產(chǎn)業(yè)愿意投入巨大的財力和數(shù)據(jù)來服務(wù)這樣一個相對較小的受眾群體？

他們需要考慮實際的投資回報，如果投入巨大但收益有限，甚至可能不賺錢，只有少數(shù)人受益，他們是否愿意這樣做？

因此，我認為對于手語識別或幫助殘障人群的項目，需要政府的政策支持和資助，以及不同產(chǎn)業(yè)的協(xié)助。但這些項目能盈利多少，我持保留態(tài)度。

此外，殘障人士本身對高科技的接受程度可能有限，加之全球老齡化問題，一些老年人可能存在聽力或視力損失。讓他們使用電話或平板電腦可能更加困難。我們?nèi)绾巫屵@些弱勢群體享受到科技的紅利，需要政府的大力推廣和支持，單靠個人力量是難以實現(xiàn)的。

不知不覺，我們已經(jīng)討論了兩個小時，非常感謝大家的分享。由于時間關(guān)系，我們今天的論壇討論就要告一段落了。非常感謝大家，感謝雷峰網(wǎng)(公眾號：雷峰網(wǎng))為我們提供了這樣一個交流思想、碰撞智慧的平臺。

希望在未來的論壇中，能有更多有需求的人士加入我們的討論。

也希望我們的技術(shù)能夠在不久的將來，真正應(yīng)用到他們的日常生活中。

本文作者吳彤，關(guān)注AI for Science，歡迎添加微信（icedaguniang），交流認知，互通有無。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章