0
本文作者: 任平 | 2024-03-15 17:20 | 專題:AI for Science |
作為上海交通大學自動化系的資深教授,蘇劍波堅守著一條科研信條:研究工作需源源不斷地注入活力。
他曾闡釋這一理念:“一個研究者在踏入某一科學領(lǐng)域時,應選取一個能夠長期深耕、并隨著理論及技術(shù)進步而能不斷更新研究內(nèi)容的主題,這才是研究者始終能保持學術(shù)活力的根本原因。”
蘇教授的研究領(lǐng)域覆蓋了智能機器人理論與技術(shù)、多傳感器信息與智能融合、機器學習與人機交互等科學研究持續(xù)的熱點領(lǐng)域。在這些領(lǐng)域中,手語作為人類交流的基本方式,始終是蘇教授想賦予機器人的技能之一,并成為他將理論知識與實踐應用相結(jié)合的重要體現(xiàn)。
為何要格外關(guān)注手語?蘇教授指出,“手語不僅是聾/啞人群體溝通的重要工具,也是人類信息表達的一種常見和高效的方式。”他強調(diào),手語的國際性和多樣性是研究的核心,因為不同地區(qū)和國家的手語存在明顯差異,甚至包含方言差異。
目前,蘇教授及其團隊專注于手語識別和情緒識別兩大技術(shù)領(lǐng)域,他們通過視頻捕捉和分析,深入探討靜態(tài)與動態(tài)手語的表達方式及其在不同情境下的變化。終極目標是開發(fā)出能夠精準解讀聾啞人手語/手勢及正常人的手勢,并將其轉(zhuǎn)化為文字或語言系統(tǒng)。這一技術(shù)不僅能夠促進與正常人的溝通,也蘊含著巨大的商業(yè)潛力。
與此同時,蘇教授坦言,手語語料庫的匱乏是當前研究面臨的一大挑戰(zhàn)。因此,他們的研究主要集中在國內(nèi)聾啞人使用的標準化手語上,而方言手語的研究是第二階段的目標。
蘇教授的學術(shù)追求不止于理論研究,近年來,他積極將科研成果轉(zhuǎn)化為實際應用。
2016年,他依托上海交通大學智能機器人系統(tǒng)與技術(shù)研究中心,創(chuàng)立了上海靈至科技有限公司,該公司專注于提供人工智能技術(shù)解決方案,開發(fā)智能機器人、智慧家居、車載自動駕駛軟件等產(chǎn)品。2019年,靈至科技的核心團隊又聯(lián)合成立了上海追求人工智能科技有限公司,進一步深化拓展已開發(fā)的人機交互技術(shù)和產(chǎn)品,為全球殘障人士提供專門化的人工智能解決方案。
談及手語識別產(chǎn)品方面的規(guī)劃,蘇教授表示,目前產(chǎn)品已在特定場景如銀行、醫(yī)院和政府部門中得到了初步的應用,正需擴展更多的應用場景。
近期在與雷峰網(wǎng)-AI科技評論的對話中,蘇劍波教授從計算機視覺角度梳理了手語研究中的關(guān)鍵問題,也分享了對手語識別領(lǐng)域眾團隊的發(fā)展建議。
3月18日(周一)20:00-22:00,雷峰網(wǎng)將舉辦主題為「AI+手語識別,技術(shù)革新與應用前景」的線上圓桌論壇,屆時蘇教授將分享更多前沿觀察。
以下為對話(經(jīng)編輯):
雷峰網(wǎng):蘇教授,您是自動化出身,怎么看待手語這個細分研究方向和應用價值?
蘇劍波:我開始手語研究最初是出于關(guān)注正常人使用手勢來表達情緒的嘗試,隨后擴展到聾啞人群體的溝通需求。
手語的特點是具有國際性和多樣性,不同地區(qū)和國家的手語存在差異,甚至還有方言之分。但從本質(zhì)上看,手語是人類信息表達的一種方式,因此理解和研究手語的多樣性和標準化問題至關(guān)重要。此外,手勢識別與手語識別有很大區(qū)別。
讓機器理解聾啞人的手勢,并將這些手勢轉(zhuǎn)換成文字或語言,以便讓正常人理解。反之亦然,當正常人說話時,機器也能轉(zhuǎn)換成手語將信息傳達給聾啞人,實現(xiàn)雙方的溝通。
這項工作自2016年開始,但實際上,相關(guān)的研究工作要更早。大約是在2010年左右,開始涉及機器人識別人類手勢并理解人類情緒的研究。
雷峰網(wǎng)(公眾號:雷峰網(wǎng)):能再詳細解釋一下在手語識別這項技術(shù)嗎,也就是CV技術(shù)如何參與到手語研究中?
蘇劍波:我們主要專注于兩大類技術(shù):手語識別和情緒識別。這些技術(shù)基本上都是基于視頻的。計算機或機器人通過攝像機捕捉人的手勢/手語視頻,再分析視頻中的手勢/手語的含義。
舉個例子,手語分為靜態(tài)手語和動態(tài)手語,還涉及到方言和國際化的問題。手指伸/縮或手掌張/閉狀態(tài)屬于靜態(tài)手語,而表達“不行”或“過來”等手指和/或手臂的動作則屬于動態(tài)手語。我們從視頻采集出發(fā),研究靜態(tài)和動態(tài)手語的表達方式,以及它們在不同情境下的表達差異。
我們目前主要針對國內(nèi)聾啞人使用的標準化手語進行研究,并未涉及太多方言,主要是受限于語料庫的不足及語料采集的差異化。
雷峰網(wǎng):國內(nèi)正在推廣中國通用手語,會使得以后的手語識別研究難度變小嗎?
蘇劍波:中國通用手語在實際推廣和執(zhí)行過程中還會遇到一些挑戰(zhàn)的。
這是因為聾啞人群體也存在地域性差異,他們可能并不熟悉通用手語。這與許多偏遠地區(qū)的人們聽不懂普通話的情況類似,他們可能將普通話視為另一種方言。
手語同樣如此,同一個手勢在不同地區(qū)可能表達不同的意義,使得制定統(tǒng)一標準變得復雜。
國家已經(jīng)嘗試過多次推廣通用手語,但效果并不顯著。如果某個地方的聾啞人不遵循這些規(guī)則,或者他們已經(jīng)有了自己約定俗成的手語交流方式,我們又能如何呢?我們不能指責他們的交流方式不正確。
這樣來看,推廣標準化手語的難度可能比推廣普通話要大得多。
但即便如此,我們的最終夢想還是能在開發(fā)出一個能夠識別標準化手語的系統(tǒng)的基礎(chǔ)上,充分利用機器智能生成和進化的自學習特點,完成識別具有地區(qū)和個人特色的手語識別系統(tǒng),特別是那些與政府部門交流時常用的手語。
我們希望能夠為聾啞人提供個性化的實時翻譯,比如在政府辦事窗口,通過計算機系統(tǒng)將他們的手語翻譯成文字,同時也為聾啞學校的老師提供培訓。
目前,我們的目標是實現(xiàn)對日常使用的大約2000個手語詞匯的識別,其中最常用的大約500個詞匯,我們的識別準確率可以達到90%以上。對于這500個詞匯以外的不太常用的詞匯,識別率會因采集的角度、光照、背景等有所下降,可能需要多次手勢才能提高識別的準確率。
雷峰網(wǎng):數(shù)據(jù)是打造手語識別系統(tǒng)的第一步,這個過程中,您親身經(jīng)歷過哪些困難?
蘇劍波:確實,數(shù)據(jù)的缺乏是一個主要問題。因為除了要精準捕捉聾啞人手語動作,還要考慮到肖像權(quán)和隱私權(quán)的問題,這無疑增加了研究的復雜性。
其次,與聾啞人合作拍攝視頻時可能會遇到問題,比如他們可能會感到不適或生氣。有時候,即使我們有最好的意圖,也可能難以解釋清楚我們的研究目的,這可能導致一些誤解和沖突。
但無論如何,這項工作必須繼續(xù)進行,因為我們的目標是通過人工智能和技術(shù)賦能,打破人與人之間交流的障礙,特別是幫助殘疾人與政府部門等機構(gòu)進行有效溝通,幫助他們的意愿能最準確地為他人所知和理解。
雷峰網(wǎng):目前手語識別領(lǐng)域的算法和模型,是借鑒了許多其他領(lǐng)域的成果,還是專門針對手語研究開發(fā)的?
蘇劍波:在算法創(chuàng)新方面,我們確實借鑒了許多其他領(lǐng)域的成果。
例如,我們使用的卷積神經(jīng)網(wǎng)絡等工具,和特征完備化等基礎(chǔ)算法,包括隱馬爾可夫模型等,都是在語音識別和人臉識別等領(lǐng)域已經(jīng)嘗試并證明有效的技術(shù)。
到目前為止,我還沒有發(fā)現(xiàn)有專門針對手語識別領(lǐng)域的技術(shù),我們目前使用的都是通用的模式識別工具。所以說,手語識別領(lǐng)域的研究進展相對于其他更活躍的模式識別領(lǐng)域,還有一定的差距。
我們的工作主要集中在尋找能夠準確代表和區(qū)分不同手型或手勢的更魯棒的特征。這是模式識別領(lǐng)域的通用目標,無論是人臉識別還是語音識別,都需要找到能夠精確描述特定含義的特征集合。
然而,手語識別面臨的挑戰(zhàn)在于,手勢的含義可能會因為光照、角度、速度等各種因素的影響而發(fā)生變化,存在多種干擾。我們的工作關(guān)鍵在于能夠針對濾除這些不同的干擾因素,找到最能準確代表特定手勢的魯棒穩(wěn)定的特征。
雷峰網(wǎng):ChatGPT、Sora等大型語言模型在自然語言處理(NLP)領(lǐng)域取得了顯著成就。這些模型背后的設(shè)計理念和技術(shù)路徑,對手語識別研究有何啟示?
蘇劍波:確實,這些模型的設(shè)計理念和技術(shù)路徑對我們的研究是有啟發(fā)的,但遺憾的是,這些模型的具體實現(xiàn)細節(jié)往往不公開。
這在AI領(lǐng)域并不罕見,許多團隊在開發(fā)先進技術(shù)時,出于商業(yè)競爭的考慮,會選擇保留關(guān)鍵信息。
例如,機器人領(lǐng)域的波士頓動力公司,他們的機器人技術(shù)和各種機器人原型系統(tǒng)發(fā)展迅速,但他們很少在國際會議或?qū)W術(shù)刊物上公開具體的、真實的研究技術(shù)路線。我們只能從他們的產(chǎn)品表現(xiàn)來推測可能的技術(shù)實現(xiàn)方式。
國內(nèi)在手語識別領(lǐng)域相對于國外確實存在一定的差距。例如,聾啞學校非常希望引入這些技術(shù),但由于疫情等因素的影響,相關(guān)項目曾被迫暫停,這個過程相當曲折。
此外,技術(shù)進步可能會對某些職業(yè)造成沖擊,這可能導致一些行業(yè)從業(yè)者對人工智能技術(shù)的接受度不高。盡管他們認識到人工智能的潛力,但從生存的角度出發(fā),他們可能并不希望人工智能取代他們的工作。這種心態(tài)在實際合作中可能會成為障礙。
雷峰網(wǎng):我們觀察到,在國內(nèi)外的大型賽事如亞運會、殘運會期間,許多公司推出了他們自己的手語數(shù)字人。其中一些公司所使用的手語數(shù)據(jù)由一兩家公司自行采集后出售的,導致不同公司開發(fā)的數(shù)字人產(chǎn)品同質(zhì)化,缺乏突破,而且有聾啞人反饋無法看懂這些數(shù)字人打出的手語。您怎么看這個現(xiàn)象?
蘇劍波:這個問題非常關(guān)鍵。如果一個旨在為聾啞人服務的產(chǎn)品,連目標用戶群體都無法理解,那么它的服務價值就大打折扣了。目前我們?nèi)狈σ粋€國家權(quán)威機構(gòu)來鑒定這些成果的有效性,或者提供服務的權(quán)威性認證。至于服務的實際效果,很少人去深究聾人同胞的滿意度。
雷峰網(wǎng):最后想請問您,因為您在上交有自己的課題團隊,還孵化了兩家公司(母公司“靈至科技”、以及專門打造手語產(chǎn)品的“上海追求”),那么您今年在手語識別方面有什么規(guī)劃?
蘇劍波:我和團隊的重點是提高機器識別手語的準確率,并盡可能擴大語料庫和應用場景。
從學術(shù)角度出發(fā),機器對手語的識別,不過是手語特征被機器表達和計算的準確度和效率。我們鼓勵博士生和碩士生進行創(chuàng)新研究,尋找能夠更精準、有效、快速地表達手語蘊含的主體人意圖的可計算的、完備且正交的手勢特征集合。我們希望我們的工作不僅能在國內(nèi)產(chǎn)生影響,也能為國際同行提供借鑒,幫助他們在自己的領(lǐng)域或語言體系中應用我們的研究成果。
我們的目標是建立行業(yè)內(nèi)公認的標準,這是我們努力的方向。
目前國內(nèi)從事手語識別的團隊正在增多,在這一發(fā)展勢頭下,我們需要提前確立統(tǒng)一的測試場景,來驗證手語識別系統(tǒng)的實用效果,否則很難真正認可其研究價值。此外,還要考慮到聾人群體的實際需求和接受程度,保證這些研究的應用價值。
從公司角度來說,我們希望能夠?qū)⑽覀兊募夹g(shù)應用到實際產(chǎn)品中,進行測試和驗證。目前我們產(chǎn)品的應用程度有限,在銀行、醫(yī)院和政府部門等特定場景下,我們的產(chǎn)品可以發(fā)揮作用。我們希望未來能夠達到一個更廣泛的應用水平,但目前還很難說能做到什么程度,我們只能繼續(xù)努力。
至于產(chǎn)品的應用區(qū)域,由于我們在上海,所以語料和數(shù)據(jù)標注可能更傾向于江浙滬一帶的方言。這可能導致我們的產(chǎn)品在這些地區(qū)的醫(yī)院等場景中應用得更多。我們希望未來能夠擴大應用范圍,更好地服務于更廣泛的聾人同胞。
同時,我們也熱切期待有更多資本能理解手語識別目前從公益性向市場化發(fā)展的初級階段屬性,而義無反顧地介入,以加速手語研究和產(chǎn)品開發(fā)的進程,為具有中國特色的人工智能產(chǎn)業(yè)的發(fā)展注入新的活力。
本文作者吳彤,歡迎添加微信(icedaguniang),交流認知,互通有無。
|GAIR live 圓桌預告
3月18日,北京時間20:00-22:00,雷峰網(wǎng)將舉辦主題為「AI+手語識別,技術(shù)革新與應用前景」的線上圓桌論壇。
本次論壇嘉賓有,美國紐約城市大學田英利教授、上海交通大學自動化系蘇劍波教授、上海大學計算機工程與科學學院方昱春教授、上海大學文學院倪蘭教授,共同分享他們的見解和研究成果。
“全球人工智能與機器人大會”(GAIR)始于2016年雷峰網(wǎng)與中國計算機學會(CCF)合作創(chuàng)立的CCF-GAIR大會,旨在打造人工智能浪潮下,連接學術(shù)界、產(chǎn)業(yè)界、投資界的新平臺,而雷峰網(wǎng)“連接三界”的全新定位也在此大會上得以確立。
經(jīng)過幾年發(fā)展,GAIR大會已成為行業(yè)標桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學術(shù)、工業(yè)和投資領(lǐng)域盛會。
GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容,打造輻射產(chǎn)、學、研、投的特色線上平臺。
|手語相關(guān)資料
1,《專訪紐約城市大學田英利教授:用多通道、多模態(tài)的方法「看懂」手語》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA
2,《Multi-Modal Multi-Channel American Sign Language Recognition https://gairdao.com/doi/10.1142/S2972335324500017
|IJAIRR正在邀約論文和專題
《國際人工智能與機器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,簡稱IJAIRR),是由新加坡GAIR研究院與世界科技出版社聯(lián)合出版的國際學術(shù)期刊。
作為全球首本專注于人工智能(AI)、機器人技術(shù)(Robotics)以及基礎(chǔ)科學交叉研究(Research)的期刊,IJAIRR致力于成為AI與機器人領(lǐng)域研究的權(quán)威發(fā)布平臺。
IJAIRR歡迎各類研究論文、評論文章、短篇論文、書評以及專題(Special Issue)形式的投稿。
我們特別關(guān)注那些在頂級AI會議上發(fā)表并現(xiàn)場展示,但缺乏長期沉淀平臺的優(yōu)秀論文。為了給這些論文及其作者提供一個更廣泛的發(fā)表和推廣渠道,IJAIRR現(xiàn)正積極邀約相關(guān)論文投稿。
(1)“如果您在本領(lǐng)域頂級會議上發(fā)表的文章(或即將發(fā)表)不超過一年,我們將協(xié)助您稍作修改后在IJAIRR期刊上發(fā)表。
(2)如果您領(lǐng)導的團隊在頂級會議上有多篇論文發(fā)表,并希望在IJAIRR上圍繞特定主題策劃一個專題(Special Issue),我們誠摯邀請您深入討論合作事宜。
(3)如果您是頂級會議的組織者,并有意與IJAIRR合作,針對特定會議策劃一個專題(Special Issue),我們也期待與您具體商討合作細節(jié)。
IJAIRR期待與您攜手,共同推動人工智能與機器人研究的發(fā)展。
聯(lián)系人:IJAIRR創(chuàng)刊主編朱曉蕊博士,xiaorui_zhu@gair.sg
關(guān)于期刊創(chuàng)刊主編等更多信息,可點擊
https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA
關(guān)于雷峰網(wǎng)、GAIR大會、GAIR研究院(期刊和在線社區(qū))的詳細介紹,請閱讀朱曉蕊教授的專訪:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw
IJAIRR期刊的主頁鏈接為:https://gairdao.com/journals/ijairr
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章