丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給圖普科技
發(fā)送

0

“弱監(jiān)督”下的神經(jīng)排序模型

本文作者: 圖普科技 編輯:谷磊 2017-05-17 13:07
導(dǎo)語(yǔ):實(shí)驗(yàn)的結(jié)果反映,提前對(duì)大量的“弱標(biāo)記數(shù)據(jù)”進(jìn)行訓(xùn)練,對(duì)有監(jiān)督的神經(jīng)排序模型非常有益

雷鋒網(wǎng)按:本文由圖普科技工程師編譯自《Beating the Teacher: Neural Ranking Models with Weak Supervision》,雷鋒網(wǎng)獨(dú)家首發(fā)。

近年來(lái),無(wú)監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺技術(shù)、自然語(yǔ)言處理和語(yǔ)音識(shí)別任務(wù)上都已經(jīng)取得了很大的進(jìn)步,而在信息檢索的排序上卻仍在原地踏步,沒有太大的改進(jìn)。其中的原因可能在于排序問(wèn)題本身的復(fù)雜性,因?yàn)樵跊]有監(jiān)督信號(hào)的情況下,神經(jīng)網(wǎng)絡(luò)很難從查詢內(nèi)容和文檔中獲取信息。因此,我們?cè)谶@篇文章中提出了使用“弱監(jiān)督”來(lái)訓(xùn)練神經(jīng)排序模型。也就是說(shuō),所有訓(xùn)練所需的標(biāo)簽都是機(jī)器自己獲取的,不存在任何人工輸入的標(biāo)簽。

為此,我們把一個(gè)“無(wú)監(jiān)督”排序模型的輸出結(jié)果,比如BM25,當(dāng)做一個(gè)“弱監(jiān)督”模型的信號(hào)來(lái)使用。接下來(lái),我們會(huì)進(jìn)一步基于“前饋神經(jīng)網(wǎng)絡(luò)”對(duì)一系列簡(jiǎn)單卻十分高效的排序模型進(jìn)行訓(xùn)練。我們還會(huì)考察它們?cè)诓煌挠?xùn)練場(chǎng)景下的效果,例如:使用不同的輸入表征(密集/稀疏表征向量,或者是“嵌入”文字表征),分別訓(xùn)練“逐點(diǎn)模型”和“成對(duì)模型”。我們能夠從無(wú)監(jiān)督IR模型中輕易地獲得“弱標(biāo)記數(shù)據(jù)”,實(shí)驗(yàn)的結(jié)果反映,提前對(duì)大量的“弱標(biāo)記數(shù)據(jù)”進(jìn)行訓(xùn)練,對(duì)有監(jiān)督的神經(jīng)排序模型非常有益。 

我們調(diào)查的三個(gè)主要問(wèn)題:

  • 問(wèn)題一:?jiǎn)螒{來(lái)自無(wú)監(jiān)督IR模型的標(biāo)簽作為弱監(jiān)督訓(xùn)練數(shù)據(jù),比如BM25,有可能完成一個(gè)神經(jīng)排序模型的訓(xùn)練嗎?

  • 問(wèn)題二:在這樣的情況下,什么樣的輸入表征和學(xué)習(xí)目標(biāo)是最適合模型訓(xùn)練的?

  • 問(wèn)題三:弱監(jiān)督的操作過(guò)程,尤其是在標(biāo)記數(shù)據(jù)有限的情況下,能否優(yōu)化有監(jiān)督的學(xué)習(xí)模型?

排序的體系結(jié)構(gòu)

我們對(duì)三種神經(jīng)排序模型進(jìn)行了嘗試:

1、分?jǐn)?shù)模型

這種架構(gòu)實(shí)際上是一個(gè)預(yù)測(cè)“查詢文檔”組合的檢索分?jǐn)?shù)的逐點(diǎn)排序模型。專業(yè)地來(lái)說(shuō),這種架構(gòu)的目標(biāo)就是掌握一個(gè)“分?jǐn)?shù)功能”,這一功能能夠決定一個(gè)“查詢文檔”的檢索分?jǐn)?shù)。我們可以用線性回歸圖來(lái)大致地表示這個(gè)問(wèn)題:

“弱監(jiān)督”下的神經(jīng)排序模型

2、排序模型

與第一種“分?jǐn)?shù)模型”相同的是,“排序模型”的目標(biāo)也是掌握“分?jǐn)?shù)功能”。但不同的是,“排序模型”并不是為了使分?jǐn)?shù)搜索功能標(biāo)準(zhǔn)化。因此我們?cè)凇芭判蚰P汀钡挠?xùn)練中使用了“雙情境”。具體來(lái)說(shuō)就是我們?cè)谟?xùn)練中使用了兩個(gè)參數(shù)相同的逐點(diǎn)模型。為了最大程度地降低損耗,我們更新了其中的參數(shù):

“弱監(jiān)督”下的神經(jīng)排序模型

在推導(dǎo)過(guò)程中,由于兩個(gè)模型是完全一樣的,我們只取了其中一個(gè)作為最終的分?jǐn)?shù)功能模型,并且把經(jīng)過(guò)訓(xùn)練的模型以逐點(diǎn)的方式使用。

3、試驗(yàn)排序模型

第三種排序架構(gòu)的基礎(chǔ)是一個(gè)包括訓(xùn)練和推導(dǎo)的“雙情境”。這種模型是為了學(xué)習(xí)包含一個(gè)查詢內(nèi)容和兩個(gè)文檔(d1和d2)的“排序功能”而設(shè)計(jì)的。根據(jù)查詢內(nèi)容,模型會(huì)預(yù)測(cè)d1文檔排名高于d2文檔的可能性。這個(gè)問(wèn)題可以用回歸圖大致表達(dá):

“弱監(jiān)督”下的神經(jīng)排序模型

輸入表征

輸入層表征能夠把一個(gè)輸入的“查詢文檔組合”用一個(gè)固定大小的向量表示出來(lái),接著,這個(gè)固定大小的向量就會(huì)被輸入至完全的連接層。

在實(shí)驗(yàn)中,我們對(duì)三種不同的輸入層表征展開了研究:

1、密集向量表征

一個(gè)常規(guī)的密集向量表征涵蓋了各種各樣的輸入“查詢文檔組合”的數(shù)據(jù)信息。我們還特別建立了一個(gè)包含BM25特征的密集向量表征,讓網(wǎng)絡(luò)在收到相同輸入的時(shí)候,也能適應(yīng)BM25公式中所描述的功能。

2、稀疏向量表征

現(xiàn)在,我們?cè)囍蝗ス苣切﹥H包含聚合數(shù)據(jù)的、完全是特制的表征,讓機(jī)器自己幫我們完成特征的提取。通過(guò)提取查詢內(nèi)容和文檔中的詞頻向量,我們專門建立了一個(gè)“詞袋”表征,并且將這三個(gè)向量的串聯(lián)輸入至網(wǎng)絡(luò)中。

3、“嵌入”表征

前面兩種輸入表征最大的不足就在于,文字被當(dāng)成了離散的單元。正因?yàn)槿绱耍W(wǎng)絡(luò)無(wú)法在語(yǔ)義上相似的文字中執(zhí)行“軟匹配”。在這一個(gè)輸入表征中,我們依靠文字嵌入來(lái)達(dá)到一個(gè)更加強(qiáng)大的查詢文檔表征,一個(gè)能夠跨越詞法鴻溝的表征。

機(jī)器能夠從訓(xùn)練數(shù)據(jù)中提取有識(shí)別力的信號(hào),而這些輸入表征決定了網(wǎng)絡(luò)提取信號(hào)的能力,也決定了不同的網(wǎng)絡(luò)推廣行為。

不同的排序結(jié)構(gòu)的組合,以及不同的輸入表征都可以被納入排名模型的改進(jìn)方案。我們用了來(lái)自兩個(gè)標(biāo)準(zhǔn)集——同質(zhì)的新聞集(Robust)和一個(gè)大規(guī)模的異結(jié)構(gòu)網(wǎng)絡(luò)集(ClueWeb)——的超過(guò)六百萬(wàn)個(gè)查詢和文檔,來(lái)進(jìn)行網(wǎng)絡(luò)訓(xùn)練。我們的實(shí)驗(yàn)結(jié)果顯示,如果我們采用了恰當(dāng)?shù)哪繕?biāo)函數(shù),并且讓網(wǎng)絡(luò)根據(jù)“弱監(jiān)督數(shù)據(jù)”(實(shí)驗(yàn)排名模型+嵌入模型)來(lái)學(xué)習(xí)輸入表征,我們的網(wǎng)絡(luò)就能有非常出色的表現(xiàn)。

因?yàn)槲覀儍H使用了BM25作為模型訓(xùn)練的監(jiān)督,并且經(jīng)過(guò)訓(xùn)練的模型甚至還超越了BM25,所以現(xiàn)在來(lái)說(shuō),模型的表現(xiàn)已經(jīng)非常了不起了。

一方面,盡管完全的“詞匹配”是檢索和排序的一個(gè)重要特征,但它還不足以獲得相關(guān)性的概念。另一方面,BM25仍是一個(gè)相對(duì)高效的文字匹配方法。

如何工作

我們向我們的神經(jīng)網(wǎng)絡(luò)提供的雖然只是一些弱標(biāo)記的案例,但是我們成功地讓網(wǎng)絡(luò)超越了信號(hào)本身,并從不同的角度看到了這些案例中的相關(guān)性。因此,當(dāng)“詞匹配”無(wú)法正確指示相關(guān)性的時(shí)候,模型可以自己完成相關(guān)性的推導(dǎo)。舉個(gè)例子:學(xué)習(xí)密集表征(比如“嵌入表征”)能幫助網(wǎng)絡(luò)捕捉語(yǔ)義匹配,檢測(cè)語(yǔ)義相關(guān)性;而BM25就無(wú)法做到這些。

關(guān)鍵信息:

從我們的“弱監(jiān)督”模型訓(xùn)練實(shí)驗(yàn)中,我大致總結(jié)了一些關(guān)鍵信息:

主要內(nèi)容:利用大量的無(wú)監(jiān)督數(shù)據(jù)來(lái)推斷“弱標(biāo)簽”,并把那些“弱標(biāo)簽”的弱信號(hào)用于有監(jiān)督模型的學(xué)習(xí)。

  • 定一個(gè)能夠讓你的模型遠(yuǎn)離弱監(jiān)督數(shù)據(jù)缺陷的目標(biāo)。

  • 讓機(jī)器自己決定采用哪種表征,并讓它自己提取其中的特征。向機(jī)器人工輸入特征,會(huì)扼殺模型的創(chuàng)造力!

  • 如果輸入的特征數(shù)據(jù)是經(jīng)過(guò)設(shè)計(jì)的,那么模型的普遍性就很有可能會(huì)被削弱,你可能會(huì)面臨“過(guò)度擬合”的問(wèn)題。

  • 假如你有足夠多的訓(xùn)練數(shù)據(jù),那么你的機(jī)器就能僅通過(guò)一個(gè)個(gè)本地的案例,輕松掌握全球范圍內(nèi)的信息。

  • 如果你有足夠的數(shù)據(jù)源,你可以學(xué)習(xí)與你的任務(wù)更加匹配的“嵌入”。通過(guò)不斷的更新,“嵌入”與你的任務(wù)會(huì)更加匹配。但前提是你有足夠多的數(shù)據(jù)源。

  • 當(dāng)你的模型中不存在表征學(xué)習(xí)時(shí),神經(jīng)網(wǎng)絡(luò)中的非線性部分的用處不大。深度神經(jīng)網(wǎng)絡(luò)最重要的優(yōu)越性在于它高效的表征學(xué)習(xí)的能力,當(dāng)你的深度網(wǎng)絡(luò)“深”到一定程度的時(shí)候,它的優(yōu)越性就不起作用了。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

“弱監(jiān)督”下的神經(jīng)排序模型

分享:
相關(guān)文章

專欄作者

基于圖像識(shí)別技術(shù)多維度解讀圖片和視頻
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)