丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給付靜
發(fā)送

2

索尼「無聲語音識(shí)別」大法:脖頸貼合傳感器,AI 轉(zhuǎn)換皮膚震動(dòng)信息

本文作者: 付靜 2020-04-03 18:17
導(dǎo)語:利用 AI,將觸診唇讀法自動(dòng)化。

如今,對于聽力有障礙的群體來說,聽不到的聲音,可以觸摸到了。

“觸摸”聽不到的語言,是由東京大學(xué)和索尼計(jì)算機(jī)科學(xué)研究所(CSL)共同研發(fā)的 AI 系統(tǒng)「Derma」實(shí)現(xiàn)的。有了 Derma 系統(tǒng),只要在喉嚨周圍的皮膚上貼上傳感器,利用喉嚨和下顎的皮膚震動(dòng),就能將口形轉(zhuǎn)化為語音。

索尼「無聲語音識(shí)別」大法:脖頸貼合傳感器,AI 轉(zhuǎn)換皮膚震動(dòng)信息

可“觸摸”的語言

根據(jù)病癥的嚴(yán)重程度,現(xiàn)階段治療聽力障礙的主流手段包括:

  • 藥物治療:通過靜脈點(diǎn)滴或局部滴藥(如激素、抗菌素、抗病毒藥物等)消退炎癥,使聽力盡快恢復(fù);

  • 手術(shù)治療:主要針對外、中耳畸形、各種壓迫咽鼓管疾病、耳外傷等進(jìn)行手術(shù);

  • 儀器輔助:如助聽器(聽力損失程度≤80dB)、人工耳蝸(聽力損失程度>80dB)。

其中,人工耳蝸植入是當(dāng)前讓重度、極重度耳聾患者恢復(fù)聽力的唯一有效辦法。

雷鋒網(wǎng)了解到,早在 1957 年,法國科學(xué)家首次將電極植入一位全聾病人的耳蝸內(nèi),使該患者感知到周圍的環(huán)境音。直到上世紀(jì) 90 年代,人工耳蝸進(jìn)入臨床應(yīng)用階段,給極重度耳聾患者帶來了“新生”。

實(shí)際上,人工耳蝸的發(fā)展離不開電子技術(shù)、計(jì)算機(jī)技術(shù)、語音學(xué)、電生理學(xué)、材料學(xué)、耳顯微外科學(xué)的發(fā)展。在這些學(xué)科興起、發(fā)展之前,針對聽力障礙患者,科學(xué)家給出的應(yīng)對措施是一種叫做 Tadoma 的觸診唇讀法。顧名思義,這種療法是指——聽力障礙患者通過用手指觸摸說話者的嘴唇、下巴、脖頸處,讀取說話者想表達(dá)的內(nèi)容。

而上述日本團(tuán)隊(duì)研發(fā) AI 系統(tǒng) Derma 的靈感,最初正是源于 Tadoma。

通過機(jī)器學(xué)習(xí)將 Tadoma 自動(dòng)化

該團(tuán)隊(duì)的設(shè)計(jì)其實(shí)就是將 Tadoma 療法的過程通過機(jī)器學(xué)習(xí)自動(dòng)化了。

就其原理而言,如下圖所示,在喉嚨周邊的皮膚上貼上一個(gè)加速度/角速度傳感器,獲取無聲發(fā)聲時(shí)下顎、舌肌運(yùn)動(dòng)引起的從下顎到喉嚨的皮膚顫動(dòng)信息,采用深度學(xué)習(xí)進(jìn)行分析識(shí)別,最終實(shí)現(xiàn)將無聲語音轉(zhuǎn)換為語音輸入的無聲語音交互(Silent Speech Interaction,SSI)。

索尼「無聲語音識(shí)別」大法:脖頸貼合傳感器,AI 轉(zhuǎn)換皮膚震動(dòng)信息

雷鋒網(wǎng)注意到,該傳感器可獲取 12 維的皮膚運(yùn)動(dòng)信息,深度學(xué)習(xí)可以分析、識(shí)別 35 種發(fā)聲類型。實(shí)驗(yàn)表明,識(shí)別皮膚顫動(dòng)信息的精準(zhǔn)度超過 94%。

值得一提的是,研究團(tuán)隊(duì)訓(xùn)練模型用到了連接時(shí)間分類(Connectionist Temporal Classification, CTC)。

實(shí)際上,在訓(xùn)練語音識(shí)別器的過程中,受說話者語速等因素影響,將輸入與輸出對齊是一個(gè)難點(diǎn)。為解決這一問題,連接時(shí)間分類就派上用場了。

就其外形而言,與現(xiàn)有的一些無聲語音交互設(shè)備相比,這一設(shè)備體積小、重量輕、并不顯眼。此外,這一系統(tǒng)耗電量低,不易受到環(huán)境亮度等因素的影響,不會(huì)影響到佩戴者的正常生活,可以說是非常實(shí)用了。

另外研究團(tuán)隊(duì)表示,經(jīng)轉(zhuǎn)換后的語音合成不僅可以輸入到具有語音識(shí)別功能的數(shù)字設(shè)備(語音助手),同時(shí)也能幫助有語言障礙的患者進(jìn)行交流。

將來,該團(tuán)隊(duì)的研究方向則是可穿戴電子設(shè)備和體內(nèi)嵌入式計(jì)算集成。

基于 AI 的無聲語音交互 

近年來,無聲語音交互領(lǐng)域方興未艾,當(dāng)前產(chǎn)業(yè)和學(xué)界在該領(lǐng)域的思路主要有 2 條——通過感知?dú)饬髯R(shí)別話語(氣流采集)和通過感知肌肉運(yùn)動(dòng)的方式識(shí)別話語(EMG 信號(hào)采集)。以下是該領(lǐng)域發(fā)展的大致時(shí)間線:

  • 2009 年,麻省理工學(xué)院感知交流組研發(fā)的觸覺設(shè)備能夠克服讀唇語無法清晰識(shí)別的障礙,成本比人工耳蝸植入手術(shù)低幾個(gè)數(shù)量級(jí);

  • 2016 年,牛津大學(xué)人工智能實(shí)驗(yàn)室、谷歌 DeepMind 和加拿大高等研究院(CIFAR)聯(lián)合開發(fā)了結(jié)合深度學(xué)習(xí)技術(shù)的唇讀程序 LipNet;

  • 2016 年,DeepMind 經(jīng) 1 萬小時(shí)的新聞視頻訓(xùn)練,將 AI 唇讀準(zhǔn)確率提升至 46.8%;

  • 2019 年,世界知識(shí)產(chǎn)權(quán)組織公布了微軟申請的“無聲語音輸入”(Silent Voice Input)專利,豐富了“機(jī)器聽懂人話”的場景;

  • 2020 年 3 月,浙江工業(yè)大學(xué)、中科院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室及中國科學(xué)院大學(xué)共同提出了在局部特征層和全局序列層上引入互信息約束,增強(qiáng)口型特征與語音內(nèi)容的關(guān)系,將計(jì)算機(jī)唇讀精度提升至 84.41%。

實(shí)際上,無聲語音識(shí)別不僅可以幫助有聽力、語言障礙的人群,也適用于包括災(zāi)害現(xiàn)場、艙外探索、水下作業(yè)、工廠車間在內(nèi)的場景。

不過,無聲語音交互設(shè)備要想真正成為消費(fèi)級(jí)產(chǎn)品,還需打磨。正如微軟全球資深技術(shù)院士、微軟云與人工智能事業(yè)部負(fù)責(zé)人黃學(xué)東博士曾表示:

公開的測試、已發(fā)表的學(xué)術(shù)文章,雖不能與現(xiàn)實(shí)完全割裂,但相比消費(fèi)級(jí)產(chǎn)品與商業(yè)場景,仍需要不一樣的評(píng)判標(biāo)準(zhǔn)。

關(guān)于索尼 CSL

正如上文所述,Derma 由東京大學(xué)和索尼 CSL 共同研發(fā)。

索尼「無聲語音識(shí)別」大法:脖頸貼合傳感器,AI 轉(zhuǎn)換皮膚震動(dòng)信息

在中國人民大學(xué)出版社 2011 年出版的一本名為《索尼研究所的經(jīng)營哲學(xué)》的書中,索尼 CSL 董事長所真理雄便講述了索尼 CSL 的經(jīng)營管理理念。所真理雄寫道,索尼 CSL 遵循“小即是美”的經(jīng)營理念,堅(jiān)持不擴(kuò)大規(guī)模,因此誕生了眾多的“異類和天才”,同時(shí)也支持人才的“流通”。

雷鋒網(wǎng)了解到,索尼 CSL 成立于 1988 年,作為索尼公司的“創(chuàng)新工廠”,廣泛關(guān)注計(jì)算機(jī)科學(xué)、生命科學(xué)、腦科學(xué)和經(jīng)濟(jì)學(xué)等多個(gè)領(lǐng)域。當(dāng)前索尼 CSL 的研究方向包括「全球議程」(涵蓋從能源到食品和醫(yī)療保健的問題)、「人類增強(qiáng)」(包括探索人類創(chuàng)造力和人機(jī)交互/集成的研究)與「網(wǎng)絡(luò)智能」(AI)。

2019 年 11 月,索尼宣布成立索尼 AI 部門,以“利用 AI 激發(fā)人類的想象力和創(chuàng)造力” 為使命,旨在推進(jìn) AI 技術(shù)的基礎(chǔ)研發(fā),而索尼 CSL 總裁兼 CEO Hiroaki Kitano 便是索尼 AI 的全球負(fù)責(zé)人。

引用來源:

[1] https://www.itmedia.co.jp/news/articles/2003/18/news046.html

[2] https://www.sonycsl.co.jp/

[3] https://mp.weixin.qq.com/s/qvq2H7d0p0slydZpXWeJCQ

[4] https://baike.baidu.com/item/%E5%90%AC%E5%8A%9B%E9%9A%9C%E7%A2%8D/5155092?fr=aladdin#5

[5] https://baike.baidu.com/item/%E4%BA%BA%E5%B7%A5%E8%80%B3%E8%9C%97/250269?fr=aladdin#1

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

關(guān)注前沿科技。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說