丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給高云河
發(fā)送

0

揭開多語言詞嵌入模型的神秘面紗

本文作者: 高云河 編輯:楊曉凡 2018-03-31 13:16
導語:「每一種語言都需要單獨的分類器嗎?」「不了吧」

揭開多語言詞嵌入模型的神秘面紗

雷鋒網(wǎng) AI 科技評論按:如今 Facebook 有超過一半的用戶使用英語以外的語言,使用了超過 100 種語言。這也給 Facebook 提出了一個巨大的挑戰(zhàn),針對 Facebook 這種服務規(guī)模下,使用機器學習和自然語言處理方法(NLP),為每個人提供緊密貼合他們常用語言的良好用戶體驗。為了更好地服務于 Facebook 社區(qū),無論是通過提供多語言的類似 Recommendations 和 M Suggestion 這樣的服務,還是訓練系統(tǒng)來檢測和刪除違規(guī)內(nèi)容的,都需要一種更好的方法來將自然語言處理方法(NLP)拓展到更多語言上去。

現(xiàn)有的特定語言的自然語言處理(NLP)技術無法應對這一挑戰(zhàn),因為支持每種語言相當于從頭重新解決這個問題并建立起全新的應用。接下來,本文將介紹通過多語言嵌入方法幫助 Facebook 擴展到更多語言的新技術,幫助人工智能驅(qū)動的產(chǎn)品更快適用于新的語言,最終為用戶提供更好的使用 Facebook 的體驗。

跨語言NLP的挑戰(zhàn):

NLP 中一個常見的任務就是文本分類,它指的是給一系列文本文件分配類別的任務。在某種程度上,F(xiàn)acebook 幾乎每個部分都要用到文本分類模型。例如,識別某人在帖子中要求的推薦,或自動刪除垃圾信息等令人反感的內(nèi)容。分類模型通常是通過給神經(jīng)網(wǎng)絡提供大量帶有這些類別標簽的數(shù)據(jù)樣本進行訓練。通過這一過程,分類模型可以學到如何對新數(shù)據(jù)進行分類,并用來做出預測以提高用戶體驗。

訓練過程通常是用于特定語言的,這意味著對于每個要被分類的語言,需要分別收集大量的訓練數(shù)據(jù)。收集數(shù)據(jù)是一個昂貴且耗時的過程,而且,當規(guī)模擴大到 100 多種語言時,收集也變得越來越困難。

可以采取的另一種方法是收集大量英語數(shù)據(jù)來訓練一個英語分類器,然后如果有需要對其他語言進行分類,如土耳其語文本,則將土耳其語文本翻譯成英語,再用英語分類器進行分類。

揭開多語言詞嵌入模型的神秘面紗

但是,這個方法有一些缺點。首先,翻譯過程中的錯誤會傳遞到分類過程,導致性能下降。其次,對于需分類的每一條非英語內(nèi)容,必須額外調(diào)用翻譯服務。這種方法顯著增加了分類的延遲,因為通常翻譯比分類耗時更長。

但是這些解決方案都不夠好。因此希望有一些更通用的解決辦法,可以在各種支持的所有語言中產(chǎn)生一致且準確的結(jié)果。

使用多語言詞嵌入模型的文本分類

文本分類模型使用詞嵌入(word embedding),或以多維向量表示的單詞,作為理解語言的基本表示。詞嵌入具有一些性質(zhì)使得它能夠很容易進一步操作,比如近義詞在向量空間中距離很近。傳統(tǒng)意義上,詞嵌入是用于特定語言的,每個語言需要分開訓練,而且嵌入結(jié)果存在于完全不同的向量空間中。

揭開多語言詞嵌入模型的神秘面紗

一種實現(xiàn)多語言文本分類的方法是開發(fā)多語言詞嵌入模型。 通過這種技術,每個語言都映射到同一個向量空間里,并且保持這個性質(zhì):近義詞(不管是哪種語言)在向量空間里距離都很近。例如,土耳其語中的 futbol 和英語中的 soccer 在向量空間中靠的很近,因為他們在不同的語言里有相同的意思。

揭開多語言詞嵌入模型的神秘面紗

為了使文本分類可以跨多種語言工作,可以用具有以上性質(zhì)的多語言詞嵌入作為文本分類模型的基本表示。由于新語言中的單詞與嵌入空間中訓練好的語言中同意思的單詞距離很近,所以新語言環(huán)境下,分類器也能夠表現(xiàn)良好。因此,只需訓練一個或幾個語言,即可學習到一個良好的分類器,即使面對訓練集中從未出現(xiàn)過的語言,也能得到很好的結(jié)果。

訓練多語言嵌入模型

為了訓練這些多語言詞嵌入模型,首先使用 fastText 以及來自 Facebook 和 Wikipedia 的數(shù)據(jù)分別訓練每種語言的嵌入。然后,使用字典將每個嵌入空間投影到一個公共空間(英語)中。字典是由相似的數(shù)據(jù)自動產(chǎn)生的,即數(shù)據(jù)集是由不同語言,但是相同含義的句子組成,通過它來訓練翻譯系統(tǒng)。

使用一個矩陣將嵌入投影到公共空間中。這個矩陣是通過最小化單詞xi與其投影對應單詞yi的距離選擇的。也就是說,如果詞典里包含一些(xi,yi),選擇投影矩陣M,使得:

揭開多語言詞嵌入模型的神秘面紗

其中||2表示L2范數(shù)。此外,加入約束條件:投影矩陣是正交矩陣,以保留嵌入單詞向量的原始距離。

Facebook 將這些嵌入整合到文本分類框架 DeepText 中。DeepText 包含各種以詞嵌入為基本表示的分類算法。為了訓練多語言模型,F(xiàn)acebook 使用了上面提到的多語言詞嵌入作為 DeepText 的基礎表示,并在訓練過程中「凍結(jié)」它們,即保證它們在訓練過程中是沒有改變的。Facebook 還有提供了針對不同語言訓練集和測試集的工作流程,且可以計算在同一語言內(nèi)或跨語言的性能測試。這將助力于開發(fā)跨語言模型。

對于一些分類問題,使用多語言詞嵌入所訓練的模型的跨語言性能,與特定單一語言的分類器十分接近。以通過特定語言數(shù)據(jù)集訓練的分類器為參照,F(xiàn)acebook 的多語言詞嵌入模型在分類訓練中沒有出現(xiàn)過的新語言時,能夠達到 95% 的性能。之前的翻譯再分類的方法只能達到特定語言訓練的分類器的 82%。同時,該方法相較于之前的先翻譯再訓練的方法,能夠有 20-30 倍的速度提升。

應用在 Facebook 上

Facebook將之前使用特定語言的模型轉(zhuǎn)換為多語言詞嵌入模型,作為通用和底層架構(gòu):

  • 一些 AI 驅(qū)動的方法,例如 Recommendation 和 M Suggestions 能夠更快的服務到新語言

  • 快速推出更多語言的產(chǎn)品和功能

  • 這種方法通常比上述提到的其他方法更精準,這意味著人們在 Facebook 上使用他們的首選語言時會有更好的體驗。

    揭開多語言詞嵌入模型的神秘面紗

Facebook 生態(tài)系統(tǒng)中很多方面中都使用了多語言詞嵌入模型,從檢測違規(guī)內(nèi)容的到支持事件推薦功能的分類器。

正在進行的工作:

通過多語言詞嵌入進行擴展是很有前景的,但目前還有更多的事情需要做。

多語言詞嵌入模型對于英語,德語,法語和西班牙語以及聯(lián)系更緊密的語言有更好的表現(xiàn)。隨著不斷擴大應用范圍,F(xiàn)acebook 正致力于嘗試適用于沒有大量數(shù)據(jù)的語言的新技術。同時 Facebook 還在努力尋找各語言在文化背景下捕捉細微差別的方法,例如這種俗語「it's raining cats and dogs」(雷鋒網(wǎng) AI 科技評論注:直譯是下貓又下狗,而實際的意思是傾盆大雨)。

展望未來,F(xiàn)acebook 正在與 FAIR 合作研究比詞嵌入模型更好的方法,以改善多語言 NLP,并通過使用諸如句子或段落等更高級結(jié)構(gòu)的嵌入來捕獲更多語義含義。通過這項技術,希望與訓練特定語言的模型相比,能夠得到更高的性能,并提高特定文化或語言背景下的和措辭準確性。

FAIR 也在探索不使用雙語詞典的多語言詞嵌入方法。這些方法已經(jīng)展現(xiàn)出與目前使用的監(jiān)督方法相近的性能,可以幫助在難以獲得雙語詞典的少見語言中取得更好的結(jié)果。FAIR 已經(jīng)開源了 MUSE 庫中無監(jiān)督和監(jiān)督的多語言嵌入模型。

via Facebook,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

揭開多語言詞嵌入模型的神秘面紗

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說