丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給李詩
發(fā)送

0

百度發(fā)布AI同傳,詳解人工同傳與機器同傳優(yōu)劣勢

本文作者: 李詩 2018-10-24 12:19
導語:未來幾年,人工同傳與AI同傳將共存。

上個月,由于科大訊飛“AI同傳造假”事件,AI同傳被推上輿論的風口浪尖。不過,這件事顯然并沒有影響到AI同傳技術(shù)的發(fā)展,今天,百度正式公布自家的AI同傳。

在10月19日的百度大腦行業(yè)創(chuàng)新論壇上,雷鋒網(wǎng)編輯在現(xiàn)場就發(fā)現(xiàn)了百度的AI同傳。百度AI技術(shù)生態(tài)部總經(jīng)理喻友平在演講時,左右兩邊的屏幕上實時呈現(xiàn)了中英文字幕,從現(xiàn)場效果來看,語音識別的準確率很高,實時的機器翻譯也做得不錯,順利支持了整個演講。

人工同傳與機器同傳的優(yōu)劣勢

近年來,AI的發(fā)展對人類的職業(yè)造成很大的影響,不少領(lǐng)域的從業(yè)者都面臨著被AI替代的風險。據(jù)雷鋒網(wǎng)了解,AI已經(jīng)替代了一些工廠里機械化的工作,AI同傳的推出使得原本門檻較高的同傳領(lǐng)域也感受到了危機。

科大訊飛“AI同傳造假”事件引發(fā)大量關(guān)于人工同傳與AI同傳的討論,不少言論抨擊AI同傳目前技術(shù)尚未達到同傳要求,要替代人類同傳還言之尚早。

AI同傳目前無法取代人工同傳,而推出AI同傳的公司也不會夸口自己要去取代人工同傳。從這場爭論中,我們其實更清楚地明白人工同傳和AI同傳各自的優(yōu)劣勢。

同聲傳譯,簡稱“同傳”,是指在不打斷講話者的條件下,將講話內(nèi)容不間斷的實時的翻譯給聽眾。其最大的特點在于效率高,譯文與原文間隔一般3-4秒,聽眾可以及時地獲取信息,被廣泛地應用于國際會議、外交談判等重要場合。在百度看來,目前機器同傳離人類專家的水平仍然有較大差距。尤其是在重要會議如外交、商務等場合,必須依靠人類同傳高質(zhì)量、專業(yè)的翻譯完成。

不過人工同傳也有一些劣勢:

1)精力體力的挑戰(zhàn):與交替?zhèn)髯g不同的是,同傳需要邊聽、邊記、邊翻,同步進行,對譯員的要求極高。由于需要高度集中注意力,人類同傳一般兩人一組,且每隔20多分鐘就要換人休息,對人的精力、體力都是極大的挑戰(zhàn)。

2)譯出率不高:據(jù)統(tǒng)計,同傳譯員的譯出率一般在60%-70%左右。譯出率不高的原因,一般由于未聽清或者難翻譯,人類譯員通常會選擇性的忽略某些句子,保證總體上的準確率和實時性。(譯出率:指實際翻譯的句子個數(shù)占演講者總句子個數(shù)的比例,比如演講者說了100個句子,同傳實際翻譯了60個句子,則譯出率為60%。)

3)全球同傳譯員稀缺:由于苛刻的要求,全球同傳譯員稀缺,只有幾千人。與巨大的市場需求相比,人才嚴重短缺。且由于同傳譯員的稀缺性,高級同傳譯員價格不菲,一般會議難以承受。

相比之下機器同聲傳譯的優(yōu)勢有:機器最大的優(yōu)勢是不會因為疲倦而導致譯出率下降,能將所有“聽到”的句子全部翻譯出來,這使得機器的“譯出率”可以達到100%,遠高于人類譯員的60%-70%。同時,在價格上也占有優(yōu)勢。

但是,機器同傳傳譯也有劣勢:受限于語音識別及機器翻譯技術(shù),目前機器同傳的總體翻譯質(zhì)量與人類相比還有較大差距。主要面臨以下挑戰(zhàn):

1)語音識別錯誤:由于演講者的口音、語速以及會場的噪聲影響,語音識別通常會存在一定的錯誤率,這錯誤會在翻譯中進一步放大。例如“我們在酒店大堂見面吧”,如果“大堂”被錯誤的是別為“大唐”,雖然只是錯了一個字,但是就會導致翻譯完全錯誤。解決這一問題,需要從兩方面下功夫,一是高質(zhì)量的語音識別系統(tǒng),二是具有容錯能力、高魯棒性的翻譯模型。

2)質(zhì)量與時延的平衡:同傳最具魅力的地方在于其低時延,這對于人類也是一個極具挑戰(zhàn)性的任務。高質(zhì)量翻譯和低時延之間存在天然矛盾。要想獲得高質(zhì)量的翻譯,需要等待演講者更多的信息,時延就會變長。如果追求低時延,需要在演講者還未說完一句話的情況下,就開始翻譯,會損失掉一些信息,造成翻譯質(zhì)量不高。這在中英、中日等詞序差異較大的語種中體現(xiàn)更為明顯。

例如在漢語句子中“布什總統(tǒng)在莫斯科會見普京”,漢語動詞“會見”出現(xiàn)在句子末尾,而在翻譯為英語時,需要將動詞”meet”提前。

人類語言中詞序的這種差異一直是人類同聲傳譯員和可靠的同聲機器翻譯系統(tǒng)發(fā)展的主要障礙。目前,幾乎所有的“實時”翻譯系統(tǒng)仍然使用傳統(tǒng)的全句(即,非同時的)翻譯方法,造成至少一個句子的延遲,使得譯文與說話者不同步。

3)小語種覆蓋難題:目前絕大多數(shù)的翻譯硬件,都局限在幾個大語種范圍內(nèi)。

4)讓實時語音翻譯或更大概念上的翻譯成為一種平臺化的資源:如何讓實時語音翻譯,或者更大概念上的翻譯,成為一種平臺化的資源,這既是各個公司產(chǎn)品商業(yè)化的考量,也是人工智能普惠化的終極目的。

百度AI同傳核心技術(shù)

AI同傳的核心技術(shù)是語音技術(shù)和機器翻譯技術(shù),機器同傳利用語音識別技術(shù)自動識別演講者的講話內(nèi)容,將語音轉(zhuǎn)化為文字,然后調(diào)用機器翻譯引擎,將文字翻譯為目標語言,顯示在大屏幕或者通過語音合成播放出來。

在機器同傳領(lǐng)域,百度聯(lián)合語音技術(shù)、機器翻譯技術(shù),從語音識別、翻譯質(zhì)量、時延、融合領(lǐng)域知識等四大方面推出了“一攬子”解決方案。

1) 高質(zhì)量語音識別系統(tǒng)

百度語音識別是采用的基于Deep Peak 2的中英文混合建模,包1749個上下文無關(guān)中文音節(jié)和1868個上下文無關(guān)英文音節(jié);區(qū)別于傳統(tǒng)的都采用上下文相關(guān)建模,基于Deep Peak 2的中英文混合建模采用的是上下文無關(guān)音素組合的建模單元,該建模單元具有數(shù)量少、泛化性能好、對噪聲魯棒等特點。具體而言,百度采用如下三個步驟實現(xiàn)上下無關(guān)音素建模單元的構(gòu)建:

1、基于“協(xié)同發(fā)音”的一級切分,發(fā)音和聽覺領(lǐng)域知識check,刻畫“協(xié)同發(fā)音”導致的音素黏連物理特性;

2、基于“統(tǒng)計共現(xiàn)”的二級切分,中文N-Gram的分詞方案,同等黏連下等價于中文分詞;

3、基于數(shù)據(jù)驅(qū)動的“中英文音節(jié)”綁定和多發(fā)音標注方案,解決“B超”和“必超”、“大地”和“大D”類的問題。在模型結(jié)構(gòu)方面,我們采用底層CNN+多層LSTM+一層DNN的模型結(jié)構(gòu),并且采用CTC作為優(yōu)化準則。該方案很好的解決了實際場景中遇到的中英文混合場景,同時能夠保持中文性能不降低,在國際化溝通日益頻繁引入的中文中混合有部分英文短語的場景得到良好解決。

百度發(fā)布AI同傳,詳解人工同傳與機器同傳優(yōu)劣勢

據(jù)雷鋒網(wǎng)了解,目前,語音識別技術(shù)已經(jīng)基本成熟,各家的語音識別能力相差不大。在雷鋒網(wǎng)看來,AI同傳的技術(shù)難點在于機器翻譯如何實現(xiàn)實時翻譯,以及當語音識別出現(xiàn)錯誤時,機器翻譯如何能夠容錯。

人工智能領(lǐng)域,兩種語言的“即時互譯”是一項難以攻克的技術(shù)問題,其主要原因在于源語言和目標語言之間存在較大的詞序和語序差異。百度研發(fā)了具備預測能力和可控延遲的即時機器翻譯系統(tǒng),可實現(xiàn)兩種語言之間的高質(zhì)量、低延遲翻譯。這是自然語言處理方面的重大技術(shù)突破,將對機器即時筆譯和口譯的發(fā)展起到極大地推動作用。

2) 高魯棒性翻譯模型

百度提出了“語音容錯”的對抗訓練翻譯模型,大幅提高了翻譯系統(tǒng)的魯棒性。一般的翻譯模型訓練,數(shù)據(jù)質(zhì)量越高越好。百度提出的模型反其道而行之,根據(jù)語音識別模型常犯的錯誤,在訓練數(shù)據(jù)中有針對性的加入噪聲數(shù)據(jù),使得模型在接受到錯誤的語音識別結(jié)果時,也能夠在譯文中糾正過來。

與傳統(tǒng)的方法“偽造”噪音數(shù)據(jù)不同,百度模型的創(chuàng)新之處在于針對語音識別系統(tǒng)易犯的錯誤產(chǎn)生噪聲數(shù)據(jù)。比如,語音識別系統(tǒng)將“大堂”錯誤的識別為“大唐”,那么這就作為一對噪聲詞放到訓練數(shù)據(jù)中,將源語言句子“我們在酒店大堂見面吧”替換為“我們在酒店大唐見面吧”,而保持目標語言翻譯不變“Let's meet at the lobby of the hotel.”。并將這兩個句子同時用于訓練。這樣得到的模型對于語音識別具有更強的容錯能力。 實驗結(jié)果表明,在中英方向上,該模型甚至達到與正確文本(意味著由語音識別造成的錯誤基本被修正相媲美的效果。

3) 質(zhì)量與時延的平衡

為了降低時延,人類譯員通常對演講內(nèi)容進行合理預測。百度團隊借鑒人類同聲傳譯員的靈感來應對這一挑戰(zhàn)。然而,與人類譯員不同,該模型并不預測說話人講話中的源語言單詞,而是直接預測翻譯中的目標語言單詞,更重要的是,它把翻譯和預測融合在一個統(tǒng)一的“wait-k words”模型中。在這個模型中,在等待講話者開始后的第K個字,就開始翻譯。模型在每個步驟使用源語句的可用前綴(以及到目前為止的翻譯)來決定翻譯中的下一個單詞。在上述例子中,考慮到漢語前綴“布什總統(tǒng)在莫斯科”和迄今為止的英譯“President Bush”在漢語后面k=2個詞,系統(tǒng)精確地預測下一個翻譯詞是“會見”。在演講者還沒有說出漢語動詞之前,系統(tǒng)預測到布什很可能在莫斯科“遇見”某人(例如普京)。正如人類口譯員需要事先熟悉說話者的話題和風格一樣,該模型也需要從大量的訓練數(shù)據(jù)中進行訓練,這些訓練數(shù)據(jù)具有相似的句子結(jié)構(gòu),以便以合理的準確性進行預測。

該模型一個顯著的優(yōu)點是其具有可調(diào)節(jié)性,達到質(zhì)量和時延的平衡。用戶可根據(jù)需要指定所需的延遲時間(比如,延遲一詞或延遲五詞)。如果是法語和西班牙語這種比較接近的語言,延遲可設置在比較低的水平,因為就算是逐詞翻譯的效果也很好。但是,對于英語和漢語這種差異較大的語言,以及英語和德語這種詞序不同的語言,延遲應當設置高一點,以獲得更高的翻譯質(zhì)量。

4) 融合領(lǐng)域知識

人類同傳譯員在接到一個同傳任務時,都會做大量的功課,掌握所譯領(lǐng)域的術(shù)語詞匯、表達方式等。然而留給同傳譯員準備的時間卻很有限,一般僅有幾天的時間,在一些術(shù)語量大、晦澀難懂的領(lǐng)域,對人類譯員是一個極大的挑戰(zhàn)。

與人類同傳準備過程類似,如果能將所譯領(lǐng)域的資料提前教給自動同傳系統(tǒng),那么整體的翻譯質(zhì)量將有非常大的提高。模仿人類同傳的準備過程,百度提出了快速融合領(lǐng)域知識策略。

百度發(fā)布AI同傳,詳解人工同傳與機器同傳優(yōu)劣勢

該策略原理如下:依托百度海量的互聯(lián)網(wǎng)大數(shù)據(jù),首先訓練得到通用的翻譯模型,該模型具有通用的翻譯能力;進一步的,如果接到某一個領(lǐng)域的同傳翻譯任務,該系統(tǒng)收集領(lǐng)域數(shù)據(jù)并在通用模型的基礎上進行增強訓練,得到領(lǐng)域增強模型,在該領(lǐng)域翻譯質(zhì)量上超過通用模型;最后,將該領(lǐng)域術(shù)語庫加到解碼過程進行強制解碼,使得術(shù)語翻譯準確可靠。在多個領(lǐng)域的實驗表明,領(lǐng)域優(yōu)化后的系統(tǒng)可以穩(wěn)定的獲得6個百分點以上的BLEU值提升。(BLEU值是機器翻譯領(lǐng)域國際通用評估指標,通常1個百分點的提升即被認為是顯著提升)。

該方法模擬人類同傳準備過程,且優(yōu)勢明顯, 準備過程短,只需要將領(lǐng)域數(shù)據(jù)在通用模型基礎上進行訓練,數(shù)小時即可得到優(yōu)化后的模型,術(shù)語詞典生效時間更是縮小到秒級,大大提升了效率。

百度發(fā)布AI同傳,詳解人工同傳與機器同傳優(yōu)劣勢

 AI同傳與人工同傳共存

在百度看來,在未來多年里,機器和人類即時翻譯員將同時并存。人類翻譯員的專業(yè)服務仍將存在大量需求,特別是需要連貫、精準翻譯的高端場合。即時翻譯的需求很高,但人類翻譯員卻十分緊俏。因此機器的介入,能讓即時翻譯服務更加普及。該技術(shù)可打開實現(xiàn)會議即時翻譯、隱藏字幕等多種應用的大門,在即將到來的百度世界大會上也將現(xiàn)場展示。

目前的技術(shù),機器同傳離人類專家的水平仍然有較大差距。尤其是在重要會議如外交、商務等場合,必須依靠人類同傳高質(zhì)量、專業(yè)的翻譯完成?,F(xiàn)階段,機器同傳可以作為人類同傳的輔助手段或者有效補充,例如有大量的會議,聘請專業(yè)同傳費用太高或者沒有相關(guān)領(lǐng)域的同傳譯員,此時可以借助于機器同傳完成。會議舉辦方、演講者、聽眾充分認識到機器同傳的優(yōu)勢和局限性,容忍機器犯錯,就可以達成共識,促進交流。



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

關(guān)注AI業(yè)界、NLP、VR、AR技術(shù)與產(chǎn)品。采訪報道、行業(yè)交流請加微信“Hanass”
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說