丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給叨叨
發(fā)送

0

專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

本文作者: 叨叨 2017-05-18 15:13
導(dǎo)語:神經(jīng)網(wǎng)絡(luò)翻譯帶來的提升是過去十年的總和

近日,網(wǎng)易有道正式對外公布:由網(wǎng)易公司自主研發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯( Neural Machine Translation)技術(shù)正式上線,網(wǎng)易內(nèi)部人士稱,該項目受到了丁磊的親自過問。

有道2008年誕生,誕生伊始的核心業(yè)務(wù)是搜索。在2013年剝離搜索業(yè)務(wù)之后,有道僅翻譯業(yè)務(wù)(包括有道詞典、有道翻譯官等)就獲得了7億用戶,體量龐大。

就此,雷鋒網(wǎng)獨(dú)家專訪了有道首席科學(xué)家段亦濤,聊了聊有道在機(jī)器翻譯領(lǐng)域的研究和探索。

專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

有道是國內(nèi)第一批提供機(jī)器翻譯服務(wù)的互聯(lián)網(wǎng)公司,從2008年正式推出到現(xiàn)在,已近十年。十年時間里,有道一直聚焦于中文與其他外語之間的翻譯,通過不斷提升機(jī)器翻譯的質(zhì)量,吸引了大量用戶,積累了海量的語料和數(shù)據(jù)。

即便如此,機(jī)器翻譯的質(zhì)量還是差強(qiáng)人意。隨著人工智能技術(shù)的發(fā)展,深度學(xué)習(xí)逐漸應(yīng)用在機(jī)器翻譯領(lǐng)域,神經(jīng)網(wǎng)絡(luò)翻譯模型開始得以運(yùn)用,而有道也借此將其機(jī)器翻譯能力提到了一個新的高度。用段亦濤的話來說就是:

神經(jīng)網(wǎng)絡(luò)翻譯是人工智能及深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的具體應(yīng)用,是目前最前沿的機(jī)器翻譯技術(shù),它帶來的翻譯質(zhì)量提升是過去十年的總和。

通過機(jī)器來實(shí)現(xiàn)翻譯一直是人類一個夢想,在計算機(jī)誕生之前,人類就設(shè)想過用自動化的方法將一種語言的文字翻譯成另外一種語言。計算機(jī)誕生之后,人類開始希望做出一個能夠?qū)崿F(xiàn)自動翻譯的程序。早期的嘗試都不太成功,統(tǒng)計翻譯模型的出現(xiàn),給機(jī)器翻譯領(lǐng)域帶來了第一次飛躍。

統(tǒng)計翻譯模型不依賴于人為設(shè)定的規(guī)則,而是從大量的平行語料里總結(jié)語言規(guī)律,從而得到翻譯的結(jié)果。但它的問題也很多,最大的問題在于統(tǒng)計翻譯模型是一個由很多組件組成的模型,比如分詞、短語、對齊,調(diào)序等組件,這些組件獨(dú)立存在,各司其職,每個組件完成自己的意向任務(wù),最后“拼湊”起來,產(chǎn)生一個“還看得過去”的翻譯結(jié)果,遠(yuǎn)遠(yuǎn)談不上“滿意”。但兩年前,無論是我們熟知的谷歌翻譯、百度翻譯,還是其他翻譯類產(chǎn)品,用的基本都是統(tǒng)計翻譯模型。

當(dāng)神經(jīng)網(wǎng)絡(luò)模型用于機(jī)器翻譯之后,這一切有了改觀。神經(jīng)網(wǎng)絡(luò)翻譯能夠?qū)φ麄€句子進(jìn)行編碼,更充分地利用上下文信息,判定多義詞的詞義,生成更自然的譯文。最直觀的一點(diǎn),是神經(jīng)網(wǎng)絡(luò)翻譯的譯文句子結(jié)構(gòu)完整,語序更符合人類語言使用習(xí)慣,翻譯結(jié)果通順。

專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

神經(jīng)網(wǎng)絡(luò)翻譯原理

如此評價,除了實(shí)際使用中用戶的感知,還有一個更為理性的標(biāo)準(zhǔn),由IBM在2002年建立,被稱為BLEU(Bilingual Evaluation understudy)值。據(jù)維基百科介紹,BLEU是一種評價機(jī)器翻譯文本質(zhì)量的算法,該算法的核心價值觀認(rèn)為:機(jī)器翻譯越接近專業(yè)翻譯,質(zhì)量越高。

BLEU的具體方法是將候選譯文和參考答案做對比,把單個翻譯片段(一般是句子)與一組良好的質(zhì)量參考譯文進(jìn)行比較,判斷詞語、語序的重合部分,重合越多,得分越高,之后通過整個語料庫平均得出翻譯的總體質(zhì)量的估計。

在機(jī)器翻譯領(lǐng)域,神經(jīng)網(wǎng)絡(luò)翻譯模型逐漸取代了統(tǒng)計翻譯模型,其中一個重要原因就是,前者的BLEU值大幅度提升。

除了縱向?qū)Ρ?,橫向和其他同行比較的話,BLEU值也是一個重要參考標(biāo)準(zhǔn)。按照有道官方給出的數(shù)據(jù)顯示,在英語學(xué)習(xí)場景中,有道神經(jīng)網(wǎng)絡(luò)翻譯的英譯中和中譯英的BLEU值領(lǐng)先了同行7個百分點(diǎn);而在新聞文章翻譯場景中,其英譯中BLEU值超同行6個百分點(diǎn),而中譯英超過了8個百分點(diǎn)。

專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

神經(jīng)網(wǎng)絡(luò)翻譯中譯英對比

之所以能比同行高出6-8個百分點(diǎn),段亦濤認(rèn)為優(yōu)勢在于兩個方面:

  • 以中文為核心,更加專注。針對中文特有的語言現(xiàn)象做了非常多的優(yōu)化,包括中文的分詞等;

  • 詞典近十年積累了龐大數(shù)據(jù),依托有道詞典積累的語料和用戶數(shù)據(jù),能夠在英語學(xué)習(xí)這種翻譯場景下做到最好。

“效果不錯”,但段亦濤也承認(rèn),“在缺乏完備的理論基礎(chǔ)的情況下,實(shí)踐中需要非常依賴經(jīng)驗(yàn)和摸索。效果是最硬的指標(biāo),理論再完美,不起效果對我們來說就沒有意義”。

在行業(yè)里曾經(jīng)有人做過一個類比,“深度學(xué)習(xí)(包括神經(jīng)網(wǎng)絡(luò)模型)就像煉丹,把各種素材放在一起,然后掌握火候,在不斷試煉中才能達(dá)到最好效果”,或許這也反映了,在行業(yè)缺乏完備的理論基礎(chǔ)的情況下,現(xiàn)實(shí)的困難是——大家都只能摸索,這就存在非常大的不確定性。但對目前有道做出來的效果,段亦濤還是滿意的。

當(dāng)然,這離不開一個強(qiáng)大的技術(shù)團(tuán)隊。段亦濤表示,有道團(tuán)隊將會持續(xù)聚焦在機(jī)器翻譯領(lǐng)域,未來將著力于三個方面:

  • 調(diào)整模型和算法

  • 獲取更多數(shù)據(jù)

  • 不同領(lǐng)域適配

雷鋒網(wǎng)了解到,有道神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)已經(jīng)在有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品中應(yīng)用,覆蓋用戶超過7億。

小結(jié)

在采訪的最后,段亦濤還向雷鋒網(wǎng)聊起加入網(wǎng)易有道的經(jīng)歷。段亦濤本碩專業(yè)讀的是北航的飛機(jī)設(shè)計,專注研究"隱身技術(shù)",和計算機(jī)基本沒關(guān)系。但去加州大學(xué)伯克利分校讀博時,因?yàn)榕d趣,轉(zhuǎn)到了計算機(jī)科學(xué),讀的方向是分布式計算領(lǐng)域的隱私和加密。對于這種轉(zhuǎn)變,段亦濤覺得難度沒有想象那么大,因?yàn)樵诠こ躺隙际窍嗤ǖ?,其次他有?shù)學(xué)的優(yōu)勢。

在伯克利讀博期間,段亦濤結(jié)識了的周楓,也就是現(xiàn)在網(wǎng)易有道CEO。

當(dāng)時,周楓受丁磊之邀,正在考慮加入網(wǎng)易開發(fā)有道項目。于是,周楓便邀請段亦濤一起加入了網(wǎng)易。從2008年到2017年,接近十年,段亦濤熱情不減,他說"我還是挺喜歡的"。

很多業(yè)內(nèi)人士,并不知道網(wǎng)易有道也在做 Al方面的研究。段方濤表示,希望有更多 Al人才加入進(jìn)來。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪網(wǎng)易有道段亦濤:丁磊親自過問的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)到底是什么?

分享:
相關(guān)文章

編輯

雷鋒網(wǎng)北京編輯。關(guān)注人工智能,略雜。微信(yougo5654)可以找到我。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說