AAAI 2020 | 中科院自動化所：通過識別和翻譯交互打造更優(yōu)的語音翻譯模型

本文作者：叢末

2020-01-03 10:58

導(dǎo)語：作者 | 劉宇宸、張家俊本文對中科院宗成慶、張家俊團(tuán)隊完成、被 AAAI-20 錄用的口頭報告論文《Synchronous Speech Recognition

作者 | 劉宇宸、張家俊

本文對中科院宗成慶、張家俊團(tuán)隊完成、被 AAAI-20 錄用的口頭報告論文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》進(jìn)行解讀。

AAAI 2020 | 中科院自動化所：通過識別和翻譯交互打造更優(yōu)的語音翻譯模型

論文：https://arxiv.org/abs/1912.07240

語音翻譯技術(shù)是指利用計算機(jī)實現(xiàn)從一種語言的語音到另外一種語言的語音或文本的自動翻譯過程。該技術(shù)可以廣泛應(yīng)用于會議演講、商業(yè)會談、跨境客服、出國旅游等各個領(lǐng)域和場景，具有重要的研究價值和廣闊的應(yīng)用前景。

近年來，隨著人工智能技術(shù)在語音、翻譯等相關(guān)領(lǐng)域的蓬勃發(fā)展，語音翻譯技術(shù)逐漸成為學(xué)術(shù)界和企業(yè)界競相研究的熱點。當(dāng)前的語音翻譯系統(tǒng)通常由語音識別、機(jī)器翻譯和語音合成等多個模塊串聯(lián)組成，方法簡單，但面臨著噪聲容錯、斷句標(biāo)點、時間延遲等一系列技術(shù)難題。

端到端的語音翻譯模型在理論上可以緩解級聯(lián)系統(tǒng)的缺陷，它通過直接建立源語言語音到目標(biāo)語言文本的映射關(guān)系，一步實現(xiàn)跨模態(tài)跨語言的翻譯，一旦技術(shù)成熟，理論上可以讓語音翻譯更準(zhǔn)更快，極大地提升模型的性能。我們發(fā)現(xiàn)語音識別和語音翻譯兩個任務(wù)是相輔相成的。

如圖1所示，

AAAI 2020 | 中科院自動化所：通過識別和翻譯交互打造更優(yōu)的語音翻譯模型

圖1語音識別和語音翻譯交互示例相比于直接將原始語音作為輸入，如果能夠動態(tài)獲取到識別出的文本信息，語音翻譯將變得更加容易；而翻譯出的結(jié)果也有助于同音詞識別的消歧，使識別結(jié)果更加準(zhǔn)確。因此，我們希望設(shè)計一種交互式的模型，讓語音識別與語音翻譯兩個任務(wù)可以動態(tài)交互學(xué)習(xí)，實現(xiàn)知識的共享和傳遞。

方法

針對上述問題，中科院自動化所自然語言處理組博士生劉宇宸、張家俊研究員、宗成慶研究員和百度公司合作提出了一種基于交互式解碼的同步語音識別與語音翻譯模型。

如圖2所示，

AAAI 2020 | 中科院自動化所：通過識別和翻譯交互打造更優(yōu)的語音翻譯模型

圖 2 基于交互式解碼的同步語音識別與語音翻譯

我們使用基于自注意力機(jī)制的Transformer模型作為主框架，語音識別任務(wù)和語音翻譯解碼任務(wù)共享同一個編碼器，在解碼器中加入一個交互注意力機(jī)制層，實現(xiàn)兩個任務(wù)的知識交互和傳遞。

如圖3所示，

AAAI 2020 | 中科院自動化所：通過識別和翻譯交互打造更優(yōu)的語音翻譯模型

圖3 交互注意力機(jī)制層

交互注意力機(jī)制層包含一個自注意力模塊和一個跨任務(wù)注意力模塊。其中前者用于提取當(dāng)前任務(wù)輸出端的特征表示，后者用于提取另一個任務(wù)輸出端的特征表示，兩者通過一個線性插值函數(shù)融合得到包含兩個任務(wù)信息的特征表示。

在訓(xùn)練階段，兩個任務(wù)同時優(yōu)化；在解碼階段，兩個任務(wù)同步進(jìn)行。如此，在預(yù)測下一個詞的過程中既可以用到當(dāng)前任務(wù)的已生成的詞語，也可以利用到另一個任務(wù)上已生成的詞語。為了進(jìn)一步提升語音翻譯的性能，我們采用了一種wait-k的方法，使得語音翻譯任務(wù)相比語音識別任務(wù)延遲k個詞語進(jìn)行，以獲得更多更可靠的文本信息作為輔助。

實驗結(jié)果

目前語音翻譯數(shù)據(jù)十分匱乏且質(zhì)量不高，為此我們構(gòu)建了一個新的語音翻譯數(shù)據(jù)集。我們從TED網(wǎng)站上爬取了視頻和字幕文件，從中提取出音頻、英文字幕和多語言翻譯字幕，得到了語音、識別文本、翻譯文本的對齊語料。這里使用了英德、英法、英中、英日四種語言，前兩種屬于較為相似的語言對，后兩種是不相似的語言對。

語音識別和語音翻譯的結(jié)果分別使用詞錯誤率(WER)和BLEU進(jìn)行衡量。我們與多個強(qiáng)基線模型進(jìn)行了對比，包括由語音識別和機(jī)器翻譯模型串聯(lián)組成的級聯(lián)系統(tǒng)(Pipeline)，在語音識別語料上進(jìn)行預(yù)訓(xùn)練的端到端語音翻譯模型(E2E)，語音識別和語音翻譯共享編碼器的多任務(wù)模型(Multi-task)，以及一個兩階段模型(Two-stage)(第一階段解碼器用于獲取識別文本的中間表示，第二階段解碼器基于編碼器的表示和第一階段解碼器的中間表示生成對應(yīng)的翻譯)。

AAAI 2020 | 中科院自動化所：通過識別和翻譯交互打造更優(yōu)的語音翻譯模型

表1不同模型在多個語言對上的實驗結(jié)果

表1給出了不同模型在英德、英法、英中、英日不同語言對上的識別和翻譯效果?？梢钥闯鲈诖蠖鄶?shù)情況下，基于交互式解碼的同步語言識別與語音翻譯模型的性能表現(xiàn)不管在語音識別任務(wù)還是語音翻譯任務(wù)上都要顯著高于預(yù)訓(xùn)練的端到端模型、多任務(wù)模型和兩階段模型。在相似的語言對上基于交互式解碼的模型可以超越級聯(lián)系統(tǒng)，在不相似的語言對上也與級聯(lián)系統(tǒng)可比。值得注意的是之前端到端的語音翻譯模型幾乎都很難達(dá)到級聯(lián)系統(tǒng)的性能。

AAAI 2020 | 中科院自動化所：通過識別和翻譯交互打造更優(yōu)的語音翻譯模型

表2 wait-k對翻譯性能的影響

為了進(jìn)一步提升語音翻譯的性能，我們讓語音翻譯任務(wù)相比語音識別任務(wù)延遲k個詞語進(jìn)行，以獲得更多的文本信息作為輔助。表2給出了在開發(fā)集和測試集上不同的延遲詞語數(shù)對于模型性能的影響?？梢钥闯?，雖然延遲詞語會輕微影響識別任務(wù)的表現(xiàn)，但是語音翻譯任務(wù)的性能可以得到提升。

AAAI 2020 | 中科院自動化所：通過識別和翻譯交互打造更優(yōu)的語音翻譯模型

表3 模型參數(shù)、訓(xùn)練速度和解碼速度

我們也對比了不同模型的參數(shù)量、訓(xùn)練和解碼速率。表3給出了模型的參數(shù)量大小、每秒的訓(xùn)練步數(shù)和每秒的解碼句子數(shù)?？梢钥闯?，我們的模型較好的平衡了參數(shù)量和解碼速率，相比級聯(lián)系統(tǒng)，參數(shù)量獲得的大幅降低；訓(xùn)練和解碼速率顯著低于兩階段模型；雖然解碼速率略低于預(yù)訓(xùn)練端到端模型和多任務(wù)模型，但是我們的方法可以實現(xiàn)兩個任務(wù)的同步解碼。

相關(guān)細(xì)節(jié)可參考發(fā)表于人工智能頂級學(xué)術(shù)會議AAAI2020的論文：

Yuchen Liu, Jiajun Zhang,Hao Xiong, Long Zhou, Zhongjun He, Hua Wu, Haifeng Wang, and Chengqing Zong.Synchronous Speech Recognition and Speech-to-Text Translation with InteractiveDecoding. AAAI-2020. (available on https://arxiv.org/abs/1912.07240)

Youtube上也有學(xué)者介紹我們的工作：https://www.youtube.com/watch?v=ZgbUBmVFcBc

雷鋒網(wǎng) AI 科技評論報道雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。