丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
智能硬件 正文
發(fā)私信給張丹
發(fā)送

2

揭秘:搜狗語音實(shí)時(shí)翻譯是怎么煉成的

本文作者: 張丹 2016-11-26 20:59
導(dǎo)語:新技術(shù)的突破總會讓人感到興奮。谷歌和訊飛對機(jī)器翻譯與語音翻譯新進(jìn)展的披露也是如此。搜狗語音交互中心技術(shù)負(fù)責(zé)人陳偉對搜狗語音實(shí)時(shí)翻譯進(jìn)行了揭秘。

今年的互聯(lián)網(wǎng)大會現(xiàn)場,搜狗 CEO 王小川將自己的演講內(nèi)容用搜狗語音實(shí)時(shí)翻譯成中英對照的形式,“技驚四座”的同時(shí),也讓各位看官們覺得代替同傳的工具要來了。雖然搜狗語音實(shí)時(shí)翻譯將王小川說的“搜索的未來就是人工智能時(shí)代的皇冠”準(zhǔn)確翻譯成了“In the future, search will be the Crown of the AI Era”,但王小川坦言,在演示之前沒做預(yù)先的試驗(yàn),對效果并沒有把握,就連他也是捏著一把冷汗,也不認(rèn)為機(jī)器可以把人干掉。

然而,新技術(shù)的突破總會讓人感到興奮。谷歌和訊飛對機(jī)器翻譯與語音翻譯新進(jìn)展的披露也是如此。

近日,搜狗語音交互中心開了一場媒體溝通會,向大家對搜狗語音翻譯技術(shù)進(jìn)行了解析。據(jù)搜狗語音交互中心技術(shù)負(fù)責(zé)人陳偉介紹,搜狗實(shí)時(shí)翻譯技術(shù)是搜狗知音引擎技術(shù)框架的新能力,按照量化的指標(biāo),準(zhǔn)確率可以達(dá)到90%。此外,搜狗語音識別請求規(guī)?,F(xiàn)在達(dá)到了1.9 億次左右,語料達(dá)到了16萬小時(shí),在使用場景方面,主要集中在車載、智能家居和可穿戴設(shè)備。

以下是陳偉對搜狗實(shí)時(shí)翻譯技術(shù)的講解,在不改變原意的情況下對原文有刪減。

先判斷

8月3日發(fā)布搜狗知音引擎時(shí),我們提出了一個(gè)口號,“更自然的語音交互”,包括從說到聽到理解三個(gè)過程,其中就涵蓋了語音識別。但現(xiàn)在三個(gè)月的時(shí)間過去了,知音引擎又具備了新的能力以及新進(jìn)展。今年下半年,基于已有的深度學(xué)習(xí)平臺和技術(shù),搭建了我們自己語音翻譯技術(shù),這是無到有的技術(shù)。在谷歌神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)刷屏之前,我們就已經(jīng)把這個(gè)技術(shù)用運(yùn)用在我們的后臺了,從口語來看,我們的技術(shù)比 Google 要強(qiáng)一些。

與以前語音識別相比,實(shí)時(shí)翻譯技術(shù)框包括了語音識別、機(jī)器翻譯兩個(gè)大的方向,其次是一些細(xì)節(jié)的優(yōu)化與系統(tǒng)的調(diào)優(yōu)。

從系統(tǒng)框架來看,第一步就是如何斷句。我們需要支持長時(shí)間的語音識別,另外,還要做到實(shí)時(shí)。語音識別的反映時(shí)間是2秒,翻譯要盡量做到實(shí)時(shí)同步,要先根據(jù)聽停頓一集其他的信息分成短的語音片段進(jìn)行識別斷句。

語音的時(shí)間概念是按幀來劃分的,一幀是 20-30 毫秒左右的一個(gè)小片段。人在發(fā)音的時(shí)候,小片段之間有協(xié)同發(fā)音的現(xiàn)象,幀與幀之間有重疊,我們稱之為幀移。

揭秘:搜狗語音實(shí)時(shí)翻譯是怎么煉成的

當(dāng)有一個(gè)特別長的語音信號的時(shí)候,系統(tǒng)要判斷什么時(shí)候是靜音,什么時(shí)候是有效的語音,通常用 0(非語音)、1(語音)來標(biāo)記。一般來說,判斷的方法有兩種:第一是基于能量檢測的方式,能量小就是靜音,能量大就是語音;第二是基于深度學(xué)習(xí)模型的判斷,通過大量的數(shù)據(jù)進(jìn)行建模,建模之后可以通過模型自動檢測,根據(jù)非語音概率的高低來判定是否為語音。根據(jù)以上判斷,我們就會得到一些語音序列。

對于判斷不準(zhǔn)的地方,我們要做平滑處理。按照規(guī)則,我們把出現(xiàn)一些比較奇異、不太正常的點(diǎn)去掉,生成一個(gè)看上去比較規(guī)整的結(jié)構(gòu)。

做語音斷句主要有兩個(gè)好處:省去靜音片段的語音識別,可提升整體識別效率;語音判斷可以區(qū)分成很多句送到框架下面,大大提高了語音識別的次數(shù)。

再識別

接下來是對判斷進(jìn)行語音識別。語音和文本之間的影射通過一種概率的目標(biāo)來描述,這個(gè)概率目標(biāo)希望給定當(dāng)前的語音信號,最大化輸出W的概率,輸出對應(yīng)的W區(qū)別就是我禎正想要的最優(yōu)語音識別結(jié)果,在語音識別框架下面,涉及到兩個(gè)非常重要的模型,一個(gè)是聲學(xué)模型,就是人在發(fā)音每個(gè)單元的時(shí)候這個(gè)模型和聲音信號之間的相似形,另一個(gè)是語言模型,描述的就是識別結(jié)果中詞和詞之間連接的可能性,從而更好地規(guī)范整個(gè)的輸出結(jié)果,更加通順、流暢。

兩種模型,共通輸出一個(gè)文本結(jié)果,叫做搜狗語音。

揭秘:搜狗語音實(shí)時(shí)翻譯是怎么煉成的

從2012年開始,我們逐步開始用這種系統(tǒng)框架后,做了非常多的思考和探索,目前比較穩(wěn)定的線上系統(tǒng)是 CLDNN 系統(tǒng)。集合了三種不同的機(jī)構(gòu) CNN(卷積神經(jīng)網(wǎng)絡(luò)層)、5LSTM(長短記憶模型) 與 DNN。CNN 可以對變換祈禱不變性的作用,5LSTM 能夠?qū)⒎浅iL的上下文以及歷史或?qū)淼男畔⑷谌氲疆?dāng)前的識別中來,DNN 可以提出非常深層的抽象特征。三層結(jié)構(gòu)融合在一起,形成了線上主流的機(jī)構(gòu)。但這只是線上的結(jié)構(gòu),除此之外,我們也在探索一些新的結(jié)構(gòu)。

除了剛才說的兩種模型,加上深度學(xué)習(xí)的整合,也就是神經(jīng)網(wǎng)絡(luò)技術(shù)??梢宰尫浅?fù)雜的流程變換成一個(gè)非常清爽、單一的端到端的影射。我們認(rèn)為,端到端的技術(shù)可能是將來人工智能基于學(xué)習(xí)非常重要的發(fā)展趨勢。

語音信號處理的機(jī)構(gòu)是 CTC ,所以綜上,我們駐留在用的機(jī)構(gòu)就是 CTC+ CLDNN。

做斷句

第三部分就是文本斷句,如何切分比較細(xì)的斷句呢?第一是內(nèi)容平滑,我想找你去吃飯,不知道你有沒有空?有幾個(gè)問題,里面出現(xiàn)了很多的語氣詞,對后面的翻譯和用戶理解沒有太多的作用,我們需要把這種語氣詞去掉。還有一些重復(fù)詞也要去掉,內(nèi)容平滑以后,就會變成比較通順的話。

怎么切分成比較獨(dú)立的單句呢?解決方法是進(jìn)行詞序劃分、加標(biāo)點(diǎn)。方式有兩種,一種是基于規(guī)則的方式,即用戶在說話時(shí),一旦出現(xiàn)停頓,就判斷為前面比較完整的語音句子已經(jīng)說完了;另一種是基于模型的方式,人在講話時(shí),停頓點(diǎn)可能會是在句中,不一定是在句尾,這就需要用基于詞序模型進(jìn)行劃分。

在識別和翻譯之間最為關(guān)鍵的一個(gè)橋梁就是文本斷句,這個(gè)模塊是可以讓語音實(shí)時(shí)翻譯放到實(shí)際場景中進(jìn)行使用的重要原因。

要對齊

另外就是輸出判斷,用戶一直在說話,我們是實(shí)時(shí)出結(jié)果,我怎么知道用戶這句話說沒說完?不知道你有沒有空、來找我吃飯?下一個(gè)語音過來的時(shí)候,可能是接著這個(gè)空來說的,所以我們需要判定,在什么時(shí)候需要把這句話送給翻譯去翻譯,所以輸出判定決定輸出結(jié)果哪部分送給翻譯,哪一部分留下來再做決策之后送到翻譯模塊里,所以這塊也是我們在今后需要著重優(yōu)化和改善的功能。

以前的方法更多是把整個(gè)的翻譯切分成單詞、短語,把中文、英文短語之間的影射關(guān)系建立起來,解決的是對齊的問題,會有一些對應(yīng)的關(guān)系,對應(yīng)的關(guān)系建立起來以后,使用語言模型把中文翻譯成英文以后的各種小短語,就是機(jī)器翻譯的技術(shù)。

最近機(jī)器翻譯逐漸遷移到了基于神經(jīng)網(wǎng)絡(luò)的技術(shù),這個(gè)技術(shù)是非常清爽的結(jié)構(gòu),是一個(gè)端到端的影射,我喜歡運(yùn)動,進(jìn)入到一個(gè)編碼器,這個(gè)編碼器會把我喜歡運(yùn)動進(jìn)行整句上面的翻譯,或者每一個(gè)單詞建立一個(gè)詞向量,這個(gè)已經(jīng)具備了語譯的能力,進(jìn)行進(jìn)一步的特征提取,就會得到編碼器的解釋。

 之后是進(jìn)入對齊,現(xiàn)在完成交給模型去做,模型告訴你哪些詞和哪些詞可以對應(yīng)在一起,是自己學(xué)習(xí)出來的。當(dāng)把這些詞語的特征貢獻(xiàn)到解碼端以后就會出來文本,起到一個(gè)端到端的影射作用。

揭秘:搜狗語音實(shí)時(shí)翻譯是怎么煉成的

這個(gè)結(jié)構(gòu)是這樣的,這是更加詳細(xì)的結(jié)構(gòu),第一部是編碼端的技術(shù),最后是Decoder。準(zhǔn)確率上我們實(shí)際評測來看,GRU的結(jié)構(gòu)會更輕便,而且運(yùn)算的速度更快,目前的同傳技術(shù)里面,我們用到的是GRU結(jié)構(gòu),使用雙向的GRU技術(shù),共同構(gòu)建編碼端的結(jié)構(gòu)。解碼端共同抽象以后接入到Softmax里面輸出結(jié)果。

 真正的模型是需要跟數(shù)據(jù)結(jié)合非常緊密,你只有有了大的數(shù)據(jù)才能學(xué)習(xí)出復(fù)雜的模型,剛才的模型結(jié)構(gòu)非常的復(fù)雜,我會覺得對目前機(jī)器翻譯而言,搜索公司在語料上面的積累,非常有助于我們在很多領(lǐng)域完全機(jī)器翻譯比較好的產(chǎn)品。

后記

王小川在互聯(lián)網(wǎng)大會上說,搜狗現(xiàn)在的語音識別準(zhǔn)確率在95%-97%之間,取決于語音環(huán)境。陳偉告訴雷鋒網(wǎng),搜狗語音識別加機(jī)器翻譯的準(zhǔn)確率在90%,技術(shù)的研發(fā)只用了三個(gè)月左右的時(shí)間,語音翻譯的終極夢想是能輸入一個(gè)語音后,可以直接出對應(yīng)的結(jié)果,中間所有的事情都交給模型去做。毫無疑問,神經(jīng)網(wǎng)絡(luò)給翻譯行業(yè)帶來了一個(gè)新的質(zhì)變。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

如果你讀了我的文章,也想和我聊聊,歡迎加微信451766945
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說