丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給蔣寶尚
發(fā)送

0

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

本文作者: 蔣寶尚 2020-04-05 15:54
導(dǎo)語(yǔ):同一個(gè)世界,同一個(gè)視覺(jué)

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

作者 | 蔣寶尚


當(dāng)兩個(gè)語(yǔ)言不通的人進(jìn)行交流時(shí)候,手勢(shì)和眼神自然就成了溝通神器。有時(shí)候,手勢(shì)和眼神在表達(dá)意思的時(shí)候能勝過(guò)千言萬(wàn)語(yǔ)。

能不能將這種類(lèi)似的優(yōu)勢(shì)用在機(jī)器翻譯?

近日,來(lái)自DeepMind、牛津大學(xué)以及卡內(nèi)基梅隆的研究者合力發(fā)表了論文《Visual Grounding in Video for Unsupervised Word Translation》,提出用視覺(jué)基礎(chǔ)改善無(wú)監(jiān)督的單詞映射。

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

(雷鋒網(wǎng))此篇論文也被收錄到CVPR 2020。論文下載地址:https://arxiv.org/pdf/2003.05078.pdf

論文的基本思想是:地球上的人類(lèi)可能說(shuō)著數(shù)千種不同的語(yǔ)言,但用“眼”看到的世界確是只有一個(gè),有了這個(gè)視覺(jué)基礎(chǔ),就可以彌合語(yǔ)言之間的差距。


總體思路:利用教學(xué)視頻獲取共享視覺(jué)

作者在論文用的方法也很簡(jiǎn)單,模型通過(guò)“觀看”視頻,能夠在兩種語(yǔ)言之間建立共同的視覺(jué)表征,即在給定共享嵌入情況下構(gòu)建視覺(jué)-文本混合映射算法。

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

(雷鋒網(wǎng))雖多種語(yǔ)言,描述的是同一種事物


舉個(gè)簡(jiǎn)單的例子,兒童在學(xué)習(xí)語(yǔ)言的時(shí)候,更多的是觀察環(huán)境并與周?chē)娜嘶?dòng),在這過(guò)程中,并不需要任何明確的指導(dǎo)和監(jiān)督。他們?cè)趯W(xué)習(xí)多門(mén)語(yǔ)言的時(shí)候,可以利用不同情況下的相似情境:他在周一聽(tīng)到“狗在吃東西”時(shí)候看到景象,與周五聽(tīng)到“l(fā)e chien mange”句子時(shí)候看到的景象是類(lèi)似的。

作者們?cè)跇?gòu)建無(wú)監(jiān)督翻譯系統(tǒng)的時(shí)候,就借鑒了上述思路:向系統(tǒng)提供不同國(guó)家人做事情的視頻,同時(shí)用他們本國(guó)語(yǔ)言解釋他們?cè)谧鍪裁?。選用內(nèi)容大致相似的教學(xué)視頻,比如雖然是不同語(yǔ)種,但是都是在教人如何榨橙汁的教學(xué)類(lèi)視頻。

教學(xué)視頻在YouTube上大量存在,并且內(nèi)容相似度非常高,所以作者使用了教學(xué)視頻作為訓(xùn)練數(shù)據(jù)。
雖然使用自動(dòng)語(yǔ)言識(shí)別技術(shù)能夠得到了很多視頻和相應(yīng)的字幕,但收集的數(shù)據(jù)有很多瑕疵:首先對(duì)教學(xué)視頻中的內(nèi)容進(jìn)行聚類(lèi)并不容易,其次有時(shí)候教學(xué)視頻中的“講師”說(shuō)著與主題無(wú)關(guān)的廢話(huà)。

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

雖然有挑戰(zhàn),但是這種共享視覺(jué)促進(jìn)了翻譯的精準(zhǔn)度。如上圖所示,作者在論文提出的英法翻譯。據(jù)說(shuō),通過(guò)看視頻,在翻譯常用詞和視覺(jué)詞時(shí)能達(dá)到28.0%和45.3%的正確率,對(duì)比基于檢索翻譯方法正確率12.5%和18.6%高了不少。

模型架構(gòu):多語(yǔ)言無(wú)監(jiān)督學(xué)習(xí)


小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

(雷鋒網(wǎng))

如上圖所示,整個(gè)模型包括3個(gè)編碼器,一個(gè)是針對(duì)語(yǔ)言X的,一個(gè)是針對(duì)Y的,一個(gè)是針對(duì)視頻Z的。這三個(gè)編碼器組成的模型,經(jīng)過(guò)訓(xùn)練之后,其目標(biāo)是能夠視頻Z建立X語(yǔ)言與Y語(yǔ)言的映射。

語(yǔ)言X編碼器由3部分組成:1、詞嵌入層;2、簡(jiǎn)單的位置的全連接前饋網(wǎng)絡(luò)層(a position-wise fully connected feed-forward layer);3、一個(gè)線(xiàn)性層。其中詞嵌入層的作用是將序列轉(zhuǎn)換成維度向量;全連接前饋網(wǎng)絡(luò)層作用是現(xiàn)在單詞上進(jìn)行最大池化,然后生成序列維度向量;線(xiàn)性層的作用是建立聯(lián)合嵌入空間與中間表示(Intermediate Representation)的映射。

對(duì)于語(yǔ)言Y的編碼器,作者使用了跨語(yǔ)言共享模型權(quán)重,即語(yǔ)言X和語(yǔ)言Y編碼器之間共享前饋層和最后一個(gè)線(xiàn)性層的權(quán)重。為了將不同的語(yǔ)言輸入到共享層,作者在語(yǔ)言Y中的單詞嵌入層之后添加一個(gè)名為AdaptLayer的線(xiàn)性層。

AdaptLayer的作用是改變語(yǔ)言Y的單詞嵌入空間,使語(yǔ)言Y中的單詞嵌入盡可能地與語(yǔ)言X中的單詞嵌入相似。

關(guān)于視頻編碼器,作者使用了標(biāo)準(zhǔn)I3D模型,再加上一個(gè)將輸出映射到聯(lián)合嵌入空間中的線(xiàn)性層。
編者注:I3D模型可以理解為基于2D卷積網(wǎng)絡(luò)的增強(qiáng)版,全稱(chēng)是Two-Stream Inflated 3D ConvNet,其論文被2017年CVPR收錄。

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

f、g、h分別對(duì)應(yīng)語(yǔ)言X、Y以及視頻Z的嵌入函數(shù),L定義為損失函數(shù)。


整個(gè)模型的優(yōu)化目標(biāo)如上公式所示,據(jù)作者介紹,通過(guò)定義上面公式,能夠?qū)⒂?xùn)練策略擴(kuò)展到多語(yǔ)言情況。


上述公式L(f,h)定義如下:

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

NCE定義如下:

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好


通過(guò)最小化上述聯(lián)合損失函數(shù)訓(xùn)練模型能夠建立兩種語(yǔ)言的映射關(guān)系,即對(duì)于給定的x∈X,能夠找到y(tǒng)∈Y。

實(shí)驗(yàn):“我”的模型更加穩(wěn)健

在實(shí)驗(yàn)部分,對(duì)比當(dāng)前能夠達(dá)到SOTA的基于文本的翻譯模型,作者發(fā)現(xiàn)他們的模型在翻譯方面更加優(yōu)秀。

在實(shí)驗(yàn)過(guò)程中,作者對(duì)視頻的轉(zhuǎn)錄本進(jìn)行了token化,把每種語(yǔ)言的65536個(gè)最常用的單詞匯聚到了一個(gè)詞匯庫(kù)。經(jīng)過(guò)預(yù)處理,作者使用了word2vec訓(xùn)練單語(yǔ)單詞嵌入,并在MUVE(作者文章中提出的算法)、MUSE和VecMap模型中使用這些預(yù)訓(xùn)練的嵌入。

在訓(xùn)練時(shí),作者從給定的數(shù)據(jù)集中抽取一個(gè)視頻片段及其相應(yīng)的旁白。每個(gè)訓(xùn)練批包括來(lái)自任一語(yǔ)種語(yǔ)言的片段,而NCE損失中的每個(gè)元素的負(fù)值是來(lái)自該批中的其他相同語(yǔ)言的元素。

另外,對(duì)于視頻編碼器,作者在Kinetics-400數(shù)據(jù)集上預(yù)訓(xùn)練的I3D模型進(jìn)行微調(diào),對(duì)于語(yǔ)言模型作者在相應(yīng)的HowToW-Text數(shù)據(jù)集上預(yù)訓(xùn)練了單詞嵌入層。

作者使用了Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為10^-3,批處理量為128,并在2個(gè)Cloud TPU上訓(xùn)練模型200k次迭代。

在研究能否提高單詞翻譯質(zhì)量方面,作者將自己的模型另外兩個(gè)基線(xiàn)進(jìn)行比較。第一個(gè)基線(xiàn)(Random Chance)采用的是在不使用視頻的情況下檢索出的翻譯,第二個(gè)基采用了視頻檢索(Video Retrieval),使用視頻創(chuàng)建兩種語(yǔ)言之間的并行語(yǔ)料庫(kù)。

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

如上圖在英語(yǔ)到法語(yǔ)翻譯上,作者的模型在這兩個(gè)基準(zhǔn)上的表現(xiàn)明顯優(yōu)于基準(zhǔn)線(xiàn)。另外,MUVE(第4行)比單獨(dú)的基礎(chǔ)模型(第3行)有了顯著的改進(jìn)(在字典和簡(jiǎn)單詞基準(zhǔn)上分別有+19.8%和+30.3%的絕對(duì)改進(jìn))

那么,模型能在多大程度上改進(jìn)基于文本的單詞翻譯方法?作者實(shí)驗(yàn)了三種無(wú)監(jiān)督方法和一種有監(jiān)督方法,所有的方法都使用了在HowToW-Text上訓(xùn)練的單詞嵌入方法。

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

如上,作者在對(duì)比英語(yǔ)和法語(yǔ)、韓語(yǔ)和日語(yǔ)之間的翻譯結(jié)果之后,作者的MUVE方法最優(yōu),英韓和英日之間的翻譯比基于文本的方法有著非常大的改進(jìn)。

但這也表明了單純的基于文本的方法更適合“長(zhǎng)相”類(lèi)似的語(yǔ)言,如英語(yǔ)和法語(yǔ)。

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

無(wú)監(jiān)督單詞翻譯的穩(wěn)健性如何?如上圖所示,作者展示了MUVE、MUSE[10]、VecMap[4]在英法字典數(shù)據(jù)集中Recall@10的表現(xiàn),并用JS距離( jensen-shannon,上表中用~表示)測(cè)量異同度。

結(jié)果顯示,當(dāng)當(dāng)語(yǔ)料庫(kù)相似時(shí)(例如Wiki-En和Wiki-FR),所有的方法都表現(xiàn)良好。當(dāng)語(yǔ)料庫(kù)不相似的時(shí)候,MUVE明顯優(yōu)于其他方法,也更加穩(wěn)健。

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

當(dāng)訓(xùn)練數(shù)據(jù)量不同的時(shí)候,模型表現(xiàn)如何呢?上圖展示了用原數(shù)據(jù)集體量的100%、10%、1%數(shù)據(jù)訓(xùn)練的結(jié)果,用 Recall@10衡量時(shí),顯然作者的方法在低資源(訓(xùn)練語(yǔ)料不足)情況下表現(xiàn)更好。


小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

另外,當(dāng)詞匯量變化的時(shí)候,如上圖所示,只有MUSE方法的性能沒(méi)有下降。其他基于文本的方法都依賴(lài)于詞匯量大小。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

小狗Puppy都是狗!DeepMind大招,以視覺(jué)為媒介,做無(wú)監(jiān)督機(jī)器翻譯,效果極好

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)