0
本文作者: 叢末 | 2020-01-03 10:58 |
作者 | 劉宇宸、張家俊
本文對中科院宗成慶、張家俊團隊完成、被 AAAI-20 錄用的口頭報告論文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》進行解讀。
語音翻譯技術是指利用計算機實現從一種語言的語音到另外一種語言的語音或文本的自動翻譯過程。該技術可以廣泛應用于會議演講、商業(yè)會談、跨境客服、出國旅游等各個領域和場景,具有重要的研究價值和廣闊的應用前景。
近年來,隨著人工智能技術在語音、翻譯等相關領域的蓬勃發(fā)展,語音翻譯技術逐漸成為學術界和企業(yè)界競相研究的熱點。當前的語音翻譯系統(tǒng)通常由語音識別、機器翻譯和語音合成等多個模塊串聯(lián)組成,方法簡單,但面臨著噪聲容錯、斷句標點、時間延遲等一系列技術難題。
端到端的語音翻譯模型在理論上可以緩解級聯(lián)系統(tǒng)的缺陷,它通過直接建立源語言語音到目標語言文本的映射關系,一步實現跨模態(tài)跨語言的翻譯,一旦技術成熟,理論上可以讓語音翻譯更準更快,極大地提升模型的性能。我們發(fā)現語音識別和語音翻譯兩個任務是相輔相成的。
如圖1所示,
圖1語音識別和語音翻譯交互示例相比于直接將原始語音作為輸入,如果能夠動態(tài)獲取到識別出的文本信息,語音翻譯將變得更加容易;而翻譯出的結果也有助于同音詞識別的消歧,使識別結果更加準確。因此,我們希望設計一種交互式的模型,讓語音識別與語音翻譯兩個任務可以動態(tài)交互學習,實現知識的共享和傳遞。
針對上述問題,中科院自動化所自然語言處理組博士生劉宇宸、張家俊研究員、宗成慶研究員和百度公司合作提出了一種基于交互式解碼的同步語音識別與語音翻譯模型。
如圖2所示,
圖 2 基于交互式解碼的同步語音識別與語音翻譯
我們使用基于自注意力機制的Transformer模型作為主框架,語音識別任務和語音翻譯解碼任務共享同一個編碼器,在解碼器中加入一個交互注意力機制層,實現兩個任務的知識交互和傳遞。
如圖3所示,
圖3 交互注意力機制層
交互注意力機制層包含一個自注意力模塊和一個跨任務注意力模塊。其中前者用于提取當前任務輸出端的特征表示,后者用于提取另一個任務輸出端的特征表示,兩者通過一個線性插值函數融合得到包含兩個任務信息的特征表示。
在訓練階段,兩個任務同時優(yōu)化;在解碼階段,兩個任務同步進行。如此,在預測下一個詞的過程中既可以用到當前任務的已生成的詞語,也可以利用到另一個任務上已生成的詞語。為了進一步提升語音翻譯的性能,我們采用了一種wait-k的方法,使得語音翻譯任務相比語音識別任務延遲k個詞語進行,以獲得更多更可靠的文本信息作為輔助。
目前語音翻譯數據十分匱乏且質量不高,為此我們構建了一個新的語音翻譯數據集。我們從TED網站上爬取了視頻和字幕文件,從中提取出音頻、英文字幕和多語言翻譯字幕,得到了語音、識別文本、翻譯文本的對齊語料。這里使用了英德、英法、英中、英日四種語言,前兩種屬于較為相似的語言對,后兩種是不相似的語言對。
語音識別和語音翻譯的結果分別使用詞錯誤率(WER)和BLEU進行衡量。我們與多個強基線模型進行了對比,包括由語音識別和機器翻譯模型串聯(lián)組成的級聯(lián)系統(tǒng)(Pipeline),在語音識別語料上進行預訓練的端到端語音翻譯模型(E2E),語音識別和語音翻譯共享編碼器的多任務模型(Multi-task),以及一個兩階段模型(Two-stage)(第一階段解碼器用于獲取識別文本的中間表示,第二階段解碼器基于編碼器的表示和第一階段解碼器的中間表示生成對應的翻譯)。
表1不同模型在多個語言對上的實驗結果
表1給出了不同模型在英德、英法、英中、英日不同語言對上的識別和翻譯效果??梢钥闯鲈诖蠖鄶登闆r下,基于交互式解碼的同步語言識別與語音翻譯模型的性能表現不管在語音識別任務還是語音翻譯任務上都要顯著高于預訓練的端到端模型、多任務模型和兩階段模型。在相似的語言對上基于交互式解碼的模型可以超越級聯(lián)系統(tǒng),在不相似的語言對上也與級聯(lián)系統(tǒng)可比。值得注意的是之前端到端的語音翻譯模型幾乎都很難達到級聯(lián)系統(tǒng)的性能。
表2 wait-k對翻譯性能的影響
為了進一步提升語音翻譯的性能,我們讓語音翻譯任務相比語音識別任務延遲k個詞語進行,以獲得更多的文本信息作為輔助。表2給出了在開發(fā)集和測試集上不同的延遲詞語數對于模型性能的影響??梢钥闯?,雖然延遲詞語會輕微影響識別任務的表現,但是語音翻譯任務的性能可以得到提升。
表3 模型參數、訓練速度和解碼速度
我們也對比了不同模型的參數量、訓練和解碼速率。表3給出了模型的參數量大小、每秒的訓練步數和每秒的解碼句子數??梢钥闯觯覀兊哪P洼^好的平衡了參數量和解碼速率,相比級聯(lián)系統(tǒng),參數量獲得的大幅降低;訓練和解碼速率顯著低于兩階段模型;雖然解碼速率略低于預訓練端到端模型和多任務模型,但是我們的方法可以實現兩個任務的同步解碼。
相關細節(jié)可參考發(fā)表于人工智能頂級學術會議AAAI2020的論文:
Yuchen Liu, Jiajun Zhang,Hao Xiong, Long Zhou, Zhongjun He, Hua Wu, Haifeng Wang, and Chengqing Zong.Synchronous Speech Recognition and Speech-to-Text Translation with InteractiveDecoding. AAAI-2020. (available on https://arxiv.org/abs/1912.07240)
Youtube上也有學者介紹我們的工作:https://www.youtube.com/watch?v=ZgbUBmVFcBc
雷鋒網 AI 科技評論報道 雷鋒網雷鋒網
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。