丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給圖普科技
發(fā)送

0

“弱監(jiān)督”下的神經(jīng)排序模型

本文作者: 圖普科技 編輯:谷磊 2017-05-17 13:07
導語:實驗的結果反映,提前對大量的“弱標記數(shù)據(jù)”進行訓練,對有監(jiān)督的神經(jīng)排序模型非常有益

雷鋒網(wǎng)按:本文由圖普科技工程師編譯自《Beating the Teacher: Neural Ranking Models with Weak Supervision》,雷鋒網(wǎng)獨家首發(fā)。

近年來,無監(jiān)督的深度神經(jīng)網(wǎng)絡在計算機視覺技術、自然語言處理和語音識別任務上都已經(jīng)取得了很大的進步,而在信息檢索的排序上卻仍在原地踏步,沒有太大的改進。其中的原因可能在于排序問題本身的復雜性,因為在沒有監(jiān)督信號的情況下,神經(jīng)網(wǎng)絡很難從查詢內(nèi)容和文檔中獲取信息。因此,我們在這篇文章中提出了使用“弱監(jiān)督”來訓練神經(jīng)排序模型。也就是說,所有訓練所需的標簽都是機器自己獲取的,不存在任何人工輸入的標簽。

為此,我們把一個“無監(jiān)督”排序模型的輸出結果,比如BM25,當做一個“弱監(jiān)督”模型的信號來使用。接下來,我們會進一步基于“前饋神經(jīng)網(wǎng)絡”對一系列簡單卻十分高效的排序模型進行訓練。我們還會考察它們在不同的訓練場景下的效果,例如:使用不同的輸入表征(密集/稀疏表征向量,或者是“嵌入”文字表征),分別訓練“逐點模型”和“成對模型”。我們能夠從無監(jiān)督IR模型中輕易地獲得“弱標記數(shù)據(jù)”,實驗的結果反映,提前對大量的“弱標記數(shù)據(jù)”進行訓練,對有監(jiān)督的神經(jīng)排序模型非常有益。 

我們調(diào)查的三個主要問題:

  • 問題一:單憑來自無監(jiān)督IR模型的標簽作為弱監(jiān)督訓練數(shù)據(jù),比如BM25,有可能完成一個神經(jīng)排序模型的訓練嗎?

  • 問題二:在這樣的情況下,什么樣的輸入表征和學習目標是最適合模型訓練的?

  • 問題三:弱監(jiān)督的操作過程,尤其是在標記數(shù)據(jù)有限的情況下,能否優(yōu)化有監(jiān)督的學習模型?

排序的體系結構

我們對三種神經(jīng)排序模型進行了嘗試:

1、分數(shù)模型

這種架構實際上是一個預測“查詢文檔”組合的檢索分數(shù)的逐點排序模型。專業(yè)地來說,這種架構的目標就是掌握一個“分數(shù)功能”,這一功能能夠決定一個“查詢文檔”的檢索分數(shù)。我們可以用線性回歸圖來大致地表示這個問題:

“弱監(jiān)督”下的神經(jīng)排序模型

2、排序模型

與第一種“分數(shù)模型”相同的是,“排序模型”的目標也是掌握“分數(shù)功能”。但不同的是,“排序模型”并不是為了使分數(shù)搜索功能標準化。因此我們在“排序模型”的訓練中使用了“雙情境”。具體來說就是我們在訓練中使用了兩個參數(shù)相同的逐點模型。為了最大程度地降低損耗,我們更新了其中的參數(shù):

“弱監(jiān)督”下的神經(jīng)排序模型

在推導過程中,由于兩個模型是完全一樣的,我們只取了其中一個作為最終的分數(shù)功能模型,并且把經(jīng)過訓練的模型以逐點的方式使用。

3、試驗排序模型

第三種排序架構的基礎是一個包括訓練和推導的“雙情境”。這種模型是為了學習包含一個查詢內(nèi)容和兩個文檔(d1和d2)的“排序功能”而設計的。根據(jù)查詢內(nèi)容,模型會預測d1文檔排名高于d2文檔的可能性。這個問題可以用回歸圖大致表達:

“弱監(jiān)督”下的神經(jīng)排序模型

輸入表征

輸入層表征能夠把一個輸入的“查詢文檔組合”用一個固定大小的向量表示出來,接著,這個固定大小的向量就會被輸入至完全的連接層。

在實驗中,我們對三種不同的輸入層表征展開了研究:

1、密集向量表征

一個常規(guī)的密集向量表征涵蓋了各種各樣的輸入“查詢文檔組合”的數(shù)據(jù)信息。我們還特別建立了一個包含BM25特征的密集向量表征,讓網(wǎng)絡在收到相同輸入的時候,也能適應BM25公式中所描述的功能。

2、稀疏向量表征

現(xiàn)在,我們試著不去管那些僅包含聚合數(shù)據(jù)的、完全是特制的表征,讓機器自己幫我們完成特征的提取。通過提取查詢內(nèi)容和文檔中的詞頻向量,我們專門建立了一個“詞袋”表征,并且將這三個向量的串聯(lián)輸入至網(wǎng)絡中。

3、“嵌入”表征

前面兩種輸入表征最大的不足就在于,文字被當成了離散的單元。正因為如此,網(wǎng)絡無法在語義上相似的文字中執(zhí)行“軟匹配”。在這一個輸入表征中,我們依靠文字嵌入來達到一個更加強大的查詢文檔表征,一個能夠跨越詞法鴻溝的表征。

機器能夠從訓練數(shù)據(jù)中提取有識別力的信號,而這些輸入表征決定了網(wǎng)絡提取信號的能力,也決定了不同的網(wǎng)絡推廣行為。

不同的排序結構的組合,以及不同的輸入表征都可以被納入排名模型的改進方案。我們用了來自兩個標準集——同質(zhì)的新聞集(Robust)和一個大規(guī)模的異結構網(wǎng)絡集(ClueWeb)——的超過六百萬個查詢和文檔,來進行網(wǎng)絡訓練。我們的實驗結果顯示,如果我們采用了恰當?shù)哪繕撕瘮?shù),并且讓網(wǎng)絡根據(jù)“弱監(jiān)督數(shù)據(jù)”(實驗排名模型+嵌入模型)來學習輸入表征,我們的網(wǎng)絡就能有非常出色的表現(xiàn)。

因為我們僅使用了BM25作為模型訓練的監(jiān)督,并且經(jīng)過訓練的模型甚至還超越了BM25,所以現(xiàn)在來說,模型的表現(xiàn)已經(jīng)非常了不起了。

一方面,盡管完全的“詞匹配”是檢索和排序的一個重要特征,但它還不足以獲得相關性的概念。另一方面,BM25仍是一個相對高效的文字匹配方法。

如何工作

我們向我們的神經(jīng)網(wǎng)絡提供的雖然只是一些弱標記的案例,但是我們成功地讓網(wǎng)絡超越了信號本身,并從不同的角度看到了這些案例中的相關性。因此,當“詞匹配”無法正確指示相關性的時候,模型可以自己完成相關性的推導。舉個例子:學習密集表征(比如“嵌入表征”)能幫助網(wǎng)絡捕捉語義匹配,檢測語義相關性;而BM25就無法做到這些。

關鍵信息:

從我們的“弱監(jiān)督”模型訓練實驗中,我大致總結了一些關鍵信息:

主要內(nèi)容:利用大量的無監(jiān)督數(shù)據(jù)來推斷“弱標簽”,并把那些“弱標簽”的弱信號用于有監(jiān)督模型的學習。

  • 定一個能夠讓你的模型遠離弱監(jiān)督數(shù)據(jù)缺陷的目標。

  • 讓機器自己決定采用哪種表征,并讓它自己提取其中的特征。向機器人工輸入特征,會扼殺模型的創(chuàng)造力!

  • 如果輸入的特征數(shù)據(jù)是經(jīng)過設計的,那么模型的普遍性就很有可能會被削弱,你可能會面臨“過度擬合”的問題。

  • 假如你有足夠多的訓練數(shù)據(jù),那么你的機器就能僅通過一個個本地的案例,輕松掌握全球范圍內(nèi)的信息。

  • 如果你有足夠的數(shù)據(jù)源,你可以學習與你的任務更加匹配的“嵌入”。通過不斷的更新,“嵌入”與你的任務會更加匹配。但前提是你有足夠多的數(shù)據(jù)源。

  • 當你的模型中不存在表征學習時,神經(jīng)網(wǎng)絡中的非線性部分的用處不大。深度神經(jīng)網(wǎng)絡最重要的優(yōu)越性在于它高效的表征學習的能力,當你的深度網(wǎng)絡“深”到一定程度的時候,它的優(yōu)越性就不起作用了。

雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

“弱監(jiān)督”下的神經(jīng)排序模型

分享:
相關文章

專欄作者

基于圖像識別技術多維度解讀圖片和視頻
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說