0
本文作者: 郭仁賢 | 2019-05-20 20:52 |
雷鋒網(wǎng)按:據(jù)2019年3月份世界衛(wèi)生組織公布的最新數(shù)據(jù),超過全世界人口的5%(約4.66億人)患有殘疾性聽力障礙。據(jù)估計,到2050年這一數(shù)據(jù)將達到9億。與此同時,手語作為聽障者使用較多的語言,能正確理解手語的健全人士卻寥寥無幾。
5月16日,騰訊優(yōu)圖實驗室聯(lián)合深圳市信息無障礙研究會發(fā)布“優(yōu)圖AI手語翻譯機”。據(jù)官方資料顯示,用戶通過面對翻譯機攝像頭進行手語表達,翻譯機屏幕界面便能快速把手語轉換為文字。
據(jù)公開資料顯示,騰訊優(yōu)圖實驗室創(chuàng)立于2012年,是騰訊三大人工智能實驗室之一。去年,騰訊優(yōu)圖實驗室已升級為騰訊計算機視覺研發(fā)中心。此外,更與國際期刊《科學》達成戰(zhàn)略合作,共享在計算機視覺領域的資源和信息。
任何技術的發(fā)展都不是一蹴而就的,尤其是近些年來,優(yōu)圖AI手語翻譯機也并不是第一款針對手語應用的的產(chǎn)品,在此之前,手語識別技術已經(jīng)發(fā)展多年,包括國內(nèi)IT企業(yè)級科研院校都曾針對這一技術進行研究,并有此類成果和產(chǎn)品推出:
2013年7月,微軟團隊和中國科學院計算技術研究所進行合作,通過Kinect For Windows創(chuàng)建手語識別軟件,可根據(jù)手語動作的追蹤識別轉換成正常人能夠讀懂的內(nèi)容;
2018年2月,中科大發(fā)布了一篇手語識別的論文被人工智能頂級學術會議AAAI 2018收錄;該論文提出一種新型連續(xù)手語識別框架 LS-HAN,無需時間分割;
2018年3月,Magic Leap的頭戴式設備識別手語和文本“感官眼鏡”,據(jù)3月新專利申請,相關信息概述了使用頭戴式設備檢測和翻譯手語的方法,并介紹了如何識別標牌和店面上的文字;
2018年7月,軟件開發(fā)者 Abhishek Singh演示了一款能夠理解手語手勢的 MOD,通過攝像頭的捕捉和深度學習,讓亞馬遜 Alexa 對手語手勢作出反饋;
2018年12月,愛奇藝研發(fā)的AI手語主播在中國網(wǎng)絡視聽大會上首次亮相,可識別用戶語音并轉換為文字,還能對健聽人自然語言進行理解,并智能翻譯為手語表達。
手語識別技術的困境與突破
傳統(tǒng)的手語識別方法通常會針對特定的數(shù)據(jù)集設計合理的特征,再利用這些特征進行動作和手勢的分類。受限于人工的特征設計和數(shù)據(jù)量大小,這些方法在適應性、泛化性和魯棒性上都非常有限。
近年來,得益于大數(shù)據(jù)和深度學習技術不斷的進步,人工智能算法的發(fā)展也水漲船高,尤其在計算機視覺、音頻處理和自然語言處理等方面,這助推了AI算法在許多應用和場景中實現(xiàn)落地,研究人員開始嘗試應用深度學習和數(shù)據(jù)驅動的算法來解決手語識別中的難題。
然而,不同于大部分的計算機問題,手語特有的地域性、復雜性和多樣性給AI算法帶來了難度。不僅增加了數(shù)據(jù)采集和清洗的成本,也使得這門技術的落地存在很大的挑戰(zhàn),難以被實際應用。
目前,針對解決聽障人群溝通問題的研究,其研究方向多集中在將文字轉化成手語;反過來,將聽障人群的手語轉化成文字就比較難了。
據(jù)公開資料顯示,雷鋒網(wǎng)了解到騰訊優(yōu)圖實驗室手語識別數(shù)據(jù)集覆蓋了近千句日常表達,900個常用詞匯。此外,優(yōu)圖AI手語翻譯機能夠實現(xiàn)整句的識別和翻譯,用戶表達的時候可以將整個句子連貫表達完畢,不需要設定特定的結束或起始動作,也無需在句中故意停頓或放慢速度。
據(jù)官方資料顯示,優(yōu)圖AI手語翻譯機核心技術是與聽障者手語表達高度符合的數(shù)據(jù)集與手語識別算法。
針對AI手語翻譯機的手語識別數(shù)據(jù)集、特征提取器等關鍵技術能力,雷鋒網(wǎng)根據(jù)官方資料整理如下:
手語識別數(shù)據(jù)集
目前,AI手語翻譯機的數(shù)據(jù)集覆蓋近千句日常表達,900個常用詞匯。此外,采集數(shù)據(jù)集還考慮了手語表達的地域性和多樣性,包含了不同的表達習慣和速度。
特征提取器
結合普通2D卷積網(wǎng)絡和3D卷積網(wǎng)絡的優(yōu)勢,通過2D卷積網(wǎng)絡來提取手語中的手勢和身體姿勢等靜態(tài)信息,同時通過3D卷積網(wǎng)絡來提取手語中普遍存在的細微而快速的變換動作的動態(tài)信息,最后將這兩個信息相結合,產(chǎn)生最后的特征表達。
通過結合應用視頻中的動態(tài)、靜態(tài)信息,從而實現(xiàn)利用單純的RGB視頻圖像進行手語識別。
句子表達中挖掘詞級信息
該算法在視頻幀與最后的輸出之間加入了詞級信息提取單元,詞級信息提取單元利用長短時網(wǎng)絡充分考慮特征提取器所提取出的信息,并結合視頻中相鄰的信息計算出詞級的特征表達。這個單元使得算法能夠更好地在句子中找到詞語表達的邊界,并提升對各種地域性表達的總結能力。
單句切分并充分考慮句中上下文信息
算法在提取詞級信息的基礎上還會充分將整句中的上下文信息進行綜合考慮,然后再輸出最后的識別結果。同時,為了減少用戶在使用過程中的限制,技術團隊在手語識別之前加入人臉檢測和動作檢測兩個模塊,用人臉檢測確定手語表達者的位置,然后用動作檢測判斷用戶是否在進行手語表達。
目前來看,雖然AI手語識別技術受限于計算機性能、語料庫豐富程度等因素的影響,但是隨著人工智能和圖像識別技術不斷受到關注,目前包括曠世、商湯等國內(nèi)獨角獸企業(yè),以及國內(nèi)的BAT、國外的谷歌、微軟、亞馬遜,無不針對這一技術砸重金立項研究。
在智能語音技術帶來了智能音箱后,AI視覺技術是否能帶來類似的爆款硬件產(chǎn)品,此前大家更多關注的是受眾人群更大的智能攝像機,騰訊優(yōu)圖此次發(fā)布的“優(yōu)圖AI手語翻譯機”雖然難免有些“劍走偏鋒”,卻也不失為是一種更為場景化的應用和嘗試。至于是否能為特殊人群帶來真實便利,還有待真實應用場景中的用戶反饋數(shù)據(jù)來呈現(xiàn)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。