丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給張莉
發(fā)送

0

百度AI輸入法邁入全感官輸入2.0時代,語音技術取得世界級突破

本文作者: 張莉 2019-01-17 18:09
導語:百度輸入法AI探索版正式亮相,主打全語音輸入,并調動表情、肢體等進行全感官輸入。

一年前, All in AI 的百度在北京發(fā)布了百度 AI 輸入法,即百度輸入法的 8.0 版本。當時,百度特意將著名主持人、“中國好舌頭”華少請到了現(xiàn)場擔任主持,在華少的主持之下,百度高級副總裁王海峰、百度語音技術部負責人高亮以及百度中文輸入法負責人蔡玉婷悉數(shù)登場。王海峰向雷鋒網(wǎng)在內的媒體表示:

"百度輸入法是百度 AI 技術應用的橋頭堡,新的 AI 技術將會首先應用在輸入法上,未來將會賦予更多 AI 能力,提升人機交互的體驗。"

時隔一年之后,1月16日,百度輸入法在北京舉辦“AI·新輸入 全感官輸入2.0”發(fā)布會,這次,百度請來的主持人變成了現(xiàn)象級網(wǎng)綜《吐槽大會》當家主持張紹剛,經(jīng)過一年的打磨和發(fā)展,百度輸入法AI探索版正式亮相,據(jù)介紹, 這是一款默認輸入方式為全語音輸入,并調動表情、肢體等進行全感官輸入的全新輸入產(chǎn)品。

百度AI輸入法邁入全感官輸入2.0時代,語音技術取得世界級突破

雷鋒網(wǎng)注:百度高級副總裁王海峰

同時,在語音技術上,百度輸入法又取得了一項對全球學術界和工業(yè)界都具備重大意義的技術突破——流式截斷的多層注意力建模(SMLTA)將在線語音識別精度提升了15%,并在世界范圍內首次實現(xiàn)了基于 Attention 技術的在線語音識別服務大規(guī)模上線應用。

發(fā)布會現(xiàn)場,百度高級副總裁王海峰再一次重申了百度輸入法是百度AI落地“橋頭堡”的戰(zhàn)略定位,也給出了輸入法行業(yè)的“未來畫像”,他認為,雖然目前的輸入法產(chǎn)品主要應用于手機端,但未來的輸入法將應用于各種智能設備與用戶的交互,并走向世界,為全球用戶提供更多元的輸入方式。

據(jù)介紹,截至2018年底,百度輸入法月活躍人數(shù)已達5億,語音日請求量峰值突破5.5億,AR表情使用次數(shù)超過1億。同時,百度海外輸入法全球安裝量超過1億,支持120種語言,覆蓋全球190個國家地區(qū),并已與超過100個全球知名IP達成合作。

概括來說,百度輸入法AI探索版功能創(chuàng)新共有三點:新交互、新表達、新探索。

新交互:首次提出流式截斷的多層注意力模型(SMLTA)

此次發(fā)布的百度輸入法 AI 探索版,是一款全語音交互的輸入法,其默認輸入方式為語音輸入。

百度AI輸入法邁入全感官輸入2.0時代,語音技術取得世界級突破

雷鋒網(wǎng)注:百度語音技術部負責人 高亮

首先,在線語音識別領域:百度首次發(fā)布流式截斷多層注意力建模(SMLTA),據(jù)介紹,這是中文在線語音識別歷史上的兩個重大突破:

  • 世界上首次實現(xiàn)了局部注意力建模識別精度超過全局注意力模型;

  • 世界上第一次大規(guī)模部署在線語音交互注意力模型。

語音領域 Attention 模型(注意力模型)的提出已有好幾年的時間,注意力模型的核心思想,是通過機器學習的方法,把一句話中每個音節(jié)或者漢字的音頻特征,從整句話的音頻特征中,通過機器學習的方法,自動的挖掘出來。

其建模過程完全拋棄了傳統(tǒng)語音識別的狀態(tài)建模和按語音幀進行解碼等傳統(tǒng)技術框架。直接實現(xiàn)了語音和文本一體化的端到端建模,從而成為公認的有更高的建模精度的建模方法。

近幾年,不少專家和學者都在語音識別任務中嘗試了注意力模型,實驗室環(huán)境下,相對于傳統(tǒng)技術,也獲得到了一系列的提升。但是截止目前,注意力模型在在線語音服務中的大規(guī)模使用,一直鮮有成功案例。主要是因為語音識別的注意力模型存在兩個問題:流式解碼的問題和長句建模的精度下降問題。

針對以上問題,百度語音技術團隊提出了 SMLTA 模型(流式多級截斷注意力模型 Streaming trancated multi-layer attention),這種建模方法的識別率不但超越了傳統(tǒng)的全局 Attention 建模,同時還能夠保持計算量、解碼速度等在線資源耗費和傳統(tǒng)CTC模型持平。

據(jù)介紹,SMLTA模型是基于 CTC 的尖峰信息對語音流進行截斷,然后在每一截斷的語音小段上進行當前建模單元的注意力建模。

SMLTA 把原來的全局的整句 Attention 建模,變成了局部語音小段的 Attention 的建模。同時,為了克服 CTC 模型的不可避免的插入刪除錯誤對系統(tǒng)造成的影響,該算法引入一種特殊的多級 Attention 機制,實現(xiàn)特征層層遞進的更精準的特征選擇。最終,這種建模方法的識別率不但超越了傳統(tǒng)的全局 Attention 建模,同時還能夠保持計算量、解碼速度等在線資源耗費和傳統(tǒng) CTC 模型持平。

這一技術能夠解決傳統(tǒng) Attention 模型在識別中的時延性,以及因此導致的無法進行大規(guī)模在線語音實時交互的問題,并將在線語音相對準確率提升15%,百度輸入法在線語音相對準確率依然好于最優(yōu)競品15%。

百度AI輸入法邁入全感官輸入2.0時代,語音技術取得世界級突破

迄今為止,百度語音識別模型經(jīng)歷了從 DNN、CNN、LSTM 和深度尖峰一代、二代的迭代再到最新的 SMLTA 模型迭代過程,至于這種演變過程所遵循的依據(jù)是什么,高亮在接受包括雷鋒網(wǎng)在內的媒體采訪時表示:

迭代過程有一些路徑可循,最開始的時候我們用 RNN 做,然后過渡到 CNN,是因為 CNN 并行計算的能力特別強。到后來發(fā)現(xiàn),LSTM 的模型邏輯上對于我們已經(jīng)說出來的語音回溯性比較強,因為它有一定的記憶能力。后來引入 CTC,更多的并不是說在模型上的改變,而是把代價函數(shù)變了。這樣的話,引入尖峰就會預測得更好。這次把這種局部流式的 Attention 又給引進來,等于前后的 Correlation,也就是出來一個字以后,我再打一個字的話,根據(jù)前面輸入的字來預測后者出現(xiàn)哪個字的準確度會進一步增強。

其次,離線語音輸入領域:過去,離線語音與在線語音相比,準確率相差懸殊,體驗得不到根本解決。面對這一實際問題,百度語音技術團隊優(yōu)化了輸入法上嵌入式識別的 deep peak2 系統(tǒng),大幅提升了離線語音識別準確率。據(jù)介紹,目前百度輸入法「離線語音」輸入準確率已高于行業(yè)平均水平35%。

百度AI輸入法邁入全感官輸入2.0時代,語音技術取得世界級突破


除此之外,百度輸入法還推出了「中英自由說」、「方言自由說」功能,前者可以實現(xiàn)在完全不影響中文語音輸入準確率的情況下,高精準的中英文混合語音識輸入;后者將普通話和六大方言融合成一個語音識別模型,實現(xiàn)了方言與方言、方言與普通話的混合語音輸入。

新表達:表情、動作成為輸入新方式

除了語音輸入,百度中文輸入法負責人蔡玉婷在現(xiàn)場還介紹了拍立活、秀場、表情秀社區(qū)等新玩法。

“拍立活”功能可以讓用戶通過自己的動作“驅動”偶像或寵物做出相同表情;發(fā)布會現(xiàn)場,百度特意邀請來了網(wǎng)紅“發(fā)際線哥”演示了該項功能。

百度AI輸入法邁入全感官輸入2.0時代,語音技術取得世界級突破

“秀場”功能采取圖像分割技術,配合360度全景動態(tài)素材,可以將人物置身于虛擬場景,增加創(chuàng)作表情時的場景感,用戶提供了更加豐富、生活的表達方式。

百度AI輸入法邁入全感官輸入2.0時代,語音技術取得世界級突破

同時,百度輸入法AI探索版開辟了“表情秀”社區(qū),用戶可以把自制好玩的AR表情直接分享到社區(qū),被點贊最多的表情制作者會被給予“表情帝”的封號,并會階段性給予獎勵。目前“表情秀”社區(qū)已經(jīng)有多個明星、網(wǎng)紅、以及民間高手入駐。

新探索:推出“凌空手寫”功能

百度AI輸入法邁入全感官輸入2.0時代,語音技術取得世界級突破

發(fā)布會現(xiàn)場,蔡玉婷介紹了一款百度自主研發(fā)推出的“炫酷”功能——凌空手寫。雷鋒網(wǎng)編輯現(xiàn)場觀察到,工作人員在沒有任何實體觸控點的空中用手指寫出了“凌空手寫”幾個字,接著,又將主持人張紹剛的名字也打了出來。

據(jù)介紹,凌空手寫是一種全新的文字識別技術,區(qū)別于其它正在實驗室中的類似技術,它不需要特殊的手寫筆,也不需要類似深度攝像頭或多目攝像頭等硬件支持。只需要最普通的 RGB 攝像頭就可以完美支持。

凌空手寫采用雙神經(jīng)網(wǎng)絡模型的方案:一個是基于灰度圖的指尖跟蹤模型,另一個是基于多方向特征文字識別模型。

此外,研發(fā)團隊發(fā)現(xiàn)鋸齒和連筆在三維空間的手寫識別中對識別率影響較大,于是對抗鋸齒和連筆消除算法進行了大量優(yōu)化工作,在多種模型算法的共同加持下,保證了最終識別結果的連續(xù)及穩(wěn)定,整體上接近觸屏手寫方式的順滑、流暢,目前整體識別率已達到大規(guī)模應用的要求。

目前,百度輸入法已經(jīng)與小天才/小尋手表達成了合作,會輸出“凌空手寫”能力給智能手表使用。百度輸入法AI探索版也增加了該功能,只需說出“小度小度,打開凌空手寫”就能開啟該功能。

百度海外輸入法:推出三大創(chuàng)新功能

百度AI輸入法邁入全感官輸入2.0時代,語音技術取得世界級突破

雷鋒網(wǎng)注:百度海外輸入法負責人 姜鋒

發(fā)布會現(xiàn)場,百度海外輸入法負責人姜鋒介紹了海外輸入法市場最新進展和三大技術創(chuàng)新。

據(jù)介紹,截至目前,百度海外輸入法已經(jīng)擴充到了120門語言,并在全球190多個國家和地區(qū)分發(fā)。近兩年,百度在語音技術上持續(xù)發(fā)力,陸續(xù)上線了日語、英語、印地語、印英混輸、西語識別等,并在日本、美國、印度、印尼、泰國、新加坡等地布局了本地團隊?,F(xiàn)在全球安裝量達到一億,在美國GP商店輸入法品類排名第一。

百度海外輸入法圍繞海外市場痛點做出三大技術創(chuàng)新:

  • 智能語音:為了適應某些國家語言混用的特點,百度輸入法推出本地語言和英語混輸?shù)墓δ?,滿足各個國家日常交流需要。

  • 智能推薦:為了解決場景化的問題,百度海外輸入法提供智能推薦功能;除了在基礎輸入層面的技術突破,百度海外輸入法基于百度自然語言處理能力,在智能推薦上做了更多的探索,比如表情預測。

  • 智能表情:百度海外輸入法基于人臉識別技術為海外的安卓手機用戶提供3D AR表情功能。

同時,百度海外輸入法與 hello kitty、懶蛋蛋、輕松熊、LT DUCK、工作細胞血小板、雙子星、格林奇、大黃蜂等超過100個知名 IP 進行了合作。

雷鋒網(wǎng)總結

2018年以來,三大輸入法都紛紛打出了AI牌——王海峰前面提到,百度輸入法是百度 AI 技術應用的橋頭堡,新的 AI 技術將會首先應用在輸入法上;搜狗 CEO 王小川也表示將 AI 賦能升級輸入法列為搜狗 2018 年度 AI 戰(zhàn)略之一,并且輸入法不止可以打字,還將承載信息獲取和流量分發(fā);科大訊飛最新發(fā)布的輸入法版本也主打AI語音輸入。

語音交互目前已經(jīng)被行業(yè)內普遍視為下一個互聯(lián)網(wǎng)超級入口,而輸入法又具備高頻次、強導流、全場景使用的產(chǎn)品優(yōu)勢,AI語音輸入,顯然已經(jīng)成為頭部廠商對決博弈的新戰(zhàn)場,雷鋒網(wǎng)曾經(jīng)在《輸入法都打AI牌的年代,訊飛的先發(fā)優(yōu)勢還在不在?》一文中提到過,目前輸入法市場格局形成了一超多強的局面,搜狗輸入法目前市場份額位列第一;百度輸入法借AI之力奮起直追;訊飛等輸入法也在不斷差異化,努力加強個性化特色功能。

目前來看,百度發(fā)布的新語音識別模型在技術上取得了非常大的突破,而其推出的各種好玩炫酷的個性化功能也有利于俘獲90后、00后等年輕一代用戶的喜愛,但搜狗和訊飛在語音識別領域的積累、在整體輸入法和語音輸入市場占有率方面的優(yōu)勢也對百度輸入法造成了強有力的競爭,未來的市場格局如何,仍需市場進一步檢驗。

相關文章:

百度輸入法 8.0 版本上線,王海峰稱其是“百度 AI 的橋頭堡”

在輸入法都打 AI 牌的年代,訊飛的先發(fā)優(yōu)勢還在不在?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

分享:
相關文章

主筆

本人微信:15010591263
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說