
整理 | Mr Bear
在今年智源大會(huì)上,中國(guó)人民大學(xué)高領(lǐng)人工智能學(xué)院執(zhí)行院長(zhǎng)、北京智源人工智能研究院首席科學(xué)家文繼榮教授以「從相關(guān)性到有用性」為線索,對(duì)搜索技術(shù)的發(fā)展歷程以及未來(lái)的研究方向進(jìn)行了梳理和展望。上世紀(jì) 90 年代,互聯(lián)網(wǎng)剛剛興起。彼時(shí),我們將搜索任務(wù)定義為語(yǔ)法匹配。起初搜索技術(shù)面向的用戶和任務(wù)較少,Google 研制的第一個(gè)搜索引擎索引了 2000 多萬(wàn)網(wǎng)頁(yè)。搜索技術(shù)最早的受眾人群是圖書(shū)管理員、讀者,以及早期的網(wǎng)民,當(dāng)時(shí)語(yǔ)法匹配方法就可以滿足搜索的要求。隨著互聯(lián)網(wǎng)的發(fā)展,搜索技術(shù)逐漸向語(yǔ)義匹配發(fā)展。此時(shí)出現(xiàn)了更多樣化、多噪聲的數(shù)據(jù),受眾也逐漸發(fā)展為了大量的互聯(lián)網(wǎng)網(wǎng)民。我們希望搜索系統(tǒng)能夠理解用戶表達(dá)的并不清晰、完整的查詢,因此進(jìn)行準(zhǔn)確的語(yǔ)義的理解是非常關(guān)鍵的。目前,搜索技術(shù)正在向語(yǔ)用匹配過(guò)渡。在未來(lái)的移動(dòng)互聯(lián)網(wǎng)等場(chǎng)景中,我們需要能夠隨時(shí)隨地進(jìn)行搜索,得到理想的答案,從而幫我們完成任務(wù)。汽車(chē)未來(lái)也可能成為一個(gè)重要的搜索場(chǎng)景,移動(dòng)的環(huán)境中存在多種可以隨時(shí)隨地獲取信息的傳感器,幫助人類(lèi)完成各種任務(wù)。為了實(shí)現(xiàn)搜索技術(shù)從相關(guān)性到可用性的革新,我們需要考慮以下 3 個(gè)關(guān)鍵的因素:(1)循因果、可解釋。挖掘出事物內(nèi)在的運(yùn)行規(guī)律,做到知其然且知其所以然。(2)多輪交互。未來(lái)的搜索系統(tǒng)應(yīng)該扮演人類(lèi)助手的角色,人類(lèi)可以與之進(jìn)行交互,而不僅僅只是單獨(dú)完成一次次的查詢。(3)多模態(tài)。結(jié)合多個(gè)模態(tài)的數(shù)據(jù)幫助人類(lèi)作出決策。基于因果的搜索技術(shù)初探
第一,基于因果的搜索。因果性不光是信息檢索領(lǐng)域,各個(gè)領(lǐng)域都非常關(guān)注,這就是為什么要知其所以然?,F(xiàn)在有很多模型,包括悟道2.0預(yù)訓(xùn)練模型,還主要是基于相關(guān)性而非因果性的。基于因果的智能是當(dāng)下多個(gè)研究領(lǐng)域的熱點(diǎn)問(wèn)題。目前我們建立的大多數(shù)智能系統(tǒng)仍然是以相關(guān)性為基礎(chǔ)的,它們存在諸多不足之處。以網(wǎng)頁(yè)排序?yàn)槔?,在使?PageRank 算法時(shí),我們假設(shè)網(wǎng)頁(yè)的鏈接數(shù)越則多網(wǎng)頁(yè)的可信度和重要性越高。然而,實(shí)際上這種假設(shè)將因果倒置了。真正的因果可能是,網(wǎng)頁(yè)質(zhì)量高導(dǎo)致網(wǎng)頁(yè)的鏈接數(shù)較多。而如果我們將上述因果關(guān)系倒置,該漏洞可能會(huì)被「搜索引擎優(yōu)化者」(SEO)利用。SEO 可以通過(guò)「灌水」增加網(wǎng)頁(yè)的鏈接數(shù),從而提升網(wǎng)頁(yè)的排名,即 Link Spam。此外,用戶點(diǎn)擊行為還會(huì)受到選擇偏置和位置偏置等因素的影響。排名靠前的網(wǎng)頁(yè)被點(diǎn)擊的可能性往往較大,排在后面的點(diǎn)擊率則較小。如果某網(wǎng)頁(yè)沒(méi)有被排在第一頁(yè),它甚至沒(méi)有機(jī)會(huì)被點(diǎn)擊。以往的搜索系統(tǒng)大多沒(méi)沒(méi)有考慮選擇偏置和位置偏置。實(shí)際上,「是否展示」、「網(wǎng)頁(yè)排名」、「點(diǎn)擊」和「相關(guān)性」會(huì)構(gòu)成復(fù)雜的因果關(guān)系,我們不應(yīng)該簡(jiǎn)單地構(gòu)建點(diǎn)擊率與網(wǎng)頁(yè)排名的相關(guān)性。圖 10:忽略因果關(guān)系將導(dǎo)致模型偏置在搜索系統(tǒng)中,我們可以利用用戶的反饋結(jié)果改進(jìn)排序算法,而這一過(guò)程會(huì)使上述偏置不斷在系統(tǒng)中積累??梢?jiàn),忽略因果關(guān)系將導(dǎo)致模型偏置對(duì)系統(tǒng)性能的影響越來(lái)越大。未來(lái),我們需要將因果推斷集成到搜索引擎中,從而實(shí)現(xiàn)更可信、公平、可解釋的搜索,使搜索引擎不易被攻擊、不受到偏置因素的影響、解釋得到搜索結(jié)果的理由。面向信息檢索的反事實(shí)學(xué)習(xí)
圖 12:面向信息檢索的反事實(shí)學(xué)習(xí)信息檢索可以利用反事實(shí)學(xué)習(xí)消除偏置的影響,從而實(shí)現(xiàn)因果推斷。反事實(shí)技術(shù)指的是通過(guò)改變某些條件,并觀察改變條件之前的結(jié)果是否還會(huì)發(fā)生,從而判斷該條件對(duì)結(jié)果的影響。在該場(chǎng)景下,我們一般會(huì)處理三種數(shù)據(jù):(1)觀測(cè)到的有偏數(shù)據(jù);(2)觀測(cè)到的無(wú)偏數(shù)據(jù);(3)未觀測(cè)數(shù)據(jù)。面向檢索的反事實(shí)學(xué)習(xí)包含四個(gè)部分:(1)反事實(shí)數(shù)據(jù)學(xué)習(xí)(2)對(duì)觀測(cè)到的有偏數(shù)據(jù)進(jìn)行校正(3)雙魯棒方法,同時(shí)處理未觀測(cè)到的數(shù)據(jù)和觀測(cè)到的有偏數(shù)據(jù)(4)通過(guò)干預(yù)方法結(jié)合觀測(cè)到的有偏和無(wú)偏數(shù)據(jù)我們與華為諾亞方舟實(shí)驗(yàn)室合作設(shè)計(jì)了一種雙穩(wěn)健排序算法,可以在排序?qū)W習(xí)過(guò)程中同時(shí)對(duì)選擇偏置和位置偏置建模,同時(shí)處理觀測(cè)到的有偏數(shù)據(jù)和未觀測(cè)的數(shù)據(jù),通過(guò) IPS 消除位置偏置的影響,用直接法消除選擇偏置的影響。圖 14:基于用戶模擬的反事實(shí)排序模型訓(xùn)練我們可以直接將用戶的點(diǎn)擊日志和深度學(xué)習(xí)模型組合起來(lái)模擬用戶的行為,構(gòu)建一個(gè)訓(xùn)練排序模型的虛擬環(huán)境,并基于該環(huán)境對(duì)未觀測(cè)的數(shù)據(jù)做反事實(shí)學(xué)習(xí)。圖 15:延遲反饋下的反事實(shí)獎(jiǎng)勵(lì)修正在我們最近被 SIGIR 2021 接收的論文「Counterfactual Reward Modification for Streaming Recommendation with Delayed Feedback」中,我們用反事實(shí)約束的方法消除用戶的延遲反饋。具體而言,我們利用模擬的延遲反饋構(gòu)建反事實(shí)的 Deadline,并采取了多臂老虎機(jī)強(qiáng)化學(xué)習(xí)策略,從而將實(shí)際產(chǎn)品數(shù)據(jù)離線測(cè)試的 CVR 提升了 3.86%。圖 16:基于反事實(shí)數(shù)據(jù)增強(qiáng)的序列化用戶行為建模推薦任務(wù)中往往存在數(shù)據(jù)稀疏的問(wèn)題。比如,用戶購(gòu)買(mǎi)了商品 A,后面又瀏覽或者購(gòu)買(mǎi)了其它的商品。我們可以利用反事實(shí)技術(shù),假設(shè)該用戶沒(méi)有購(gòu)買(mǎi)商品 A,預(yù)測(cè)他接下來(lái)的行為。在 SIGIR 2021 論文「Counterfactual Data-Augmented Sequential Recommendation」中,我們用反事實(shí)數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),根據(jù)觀測(cè)數(shù)據(jù)生成反事實(shí)用戶行為樣本,進(jìn)而緩解了序列建模中的數(shù)據(jù)稀疏問(wèn)題。多輪交互
多輪交互很多領(lǐng)域都在研究,自然語(yǔ)言處理、信息檢索領(lǐng)域?qū)ζ潢P(guān)注尤其多。我們認(rèn)為未來(lái)的信息檢索不是一趟式的。現(xiàn)在的搜索引擎強(qiáng)迫用戶采用單輪的搜索來(lái)找答案,而更好的方式是與系統(tǒng)交互,有問(wèn)有答,層層遞進(jìn)尋找答案。多輪交互式自然語(yǔ)言處理、信息檢索領(lǐng)域的另一個(gè)熱門(mén)研究課題。我們希望未來(lái)的信息檢索不僅僅局限于單趟交互,能夠在多輪交互中從用戶并不完整、清晰的表達(dá)中充分獲取信息需求,這種層層遞進(jìn)的方式更加符合人類(lèi)的使用習(xí)慣。例如,我們?cè)谟啿宛^的過(guò)程中,需要通過(guò)多輪交互逐漸確定對(duì)于餐館、菜品、交通等因素的需求。多輪交互和信息檢索的結(jié)合面臨諸多挑戰(zhàn),例如:意圖跟蹤、語(yǔ)言問(wèn)答的生成、結(jié)果的評(píng)價(jià)等。在 SIGIR 2020 論文「Recent Advances in Conversational Information Retrieval」中,作者提出了一種交互式搜索框架。在該框架下,用戶首先給出一個(gè)查詢,系統(tǒng)會(huì)搜索到一些與查詢匹配的文檔,并通過(guò)將多個(gè)文檔綜合起來(lái)最終形成回答結(jié)果。在下一輪問(wèn)答中,系統(tǒng)會(huì)將用戶在對(duì)話中的查詢和上一輪的回答結(jié)合起來(lái)生成考慮上下文信息的查詢。系統(tǒng)在回答查詢問(wèn)題的同時(shí)也可以給向用戶做推薦、與用戶進(jìn)行交互,或者反過(guò)來(lái)想用戶詢問(wèn)一些需要進(jìn)一步說(shuō)明的問(wèn)題。問(wèn)答系統(tǒng)除了要理解用戶的問(wèn)題,還需要利用信息資源語(yǔ)義空間中的對(duì)象的語(yǔ)義。為此,我們同時(shí)在資源空間和用戶空間內(nèi)構(gòu)建了知識(shí)圖譜,并分別對(duì)它們進(jìn)行表示學(xué)習(xí),然后基于互信息最大化技術(shù)對(duì)上述兩個(gè)圖譜進(jìn)行了語(yǔ)義融合,從而使系統(tǒng)可以根據(jù)問(wèn)題推測(cè)出用戶關(guān)注的是哪些對(duì)象及其屬性。我們常常希望以自然的方式在對(duì)話中進(jìn)行推薦。然而,缺乏測(cè)試和訓(xùn)練數(shù)據(jù)集是我們面臨的主要挑戰(zhàn),為此我們收集大量用戶在推薦網(wǎng)站上的行為數(shù)據(jù)(例如,電影瀏覽的序列),從而生成對(duì)話數(shù)據(jù),并發(fā)布了話題引導(dǎo)的對(duì)話式信息獲取數(shù)據(jù)集 TG-Redial。圖 22:基于認(rèn)知模型的交互式搜索評(píng)價(jià)我們分析了搜索滿意度的生成機(jī)制,設(shè)計(jì)了同時(shí)考慮級(jí)聯(lián)衰減效應(yīng)和近因效應(yīng)的多輪交互式檢索評(píng)價(jià)指標(biāo)。具體而言,我們考慮通過(guò)以下三個(gè)模型為交互式搜索任務(wù)提供一種高質(zhì)量的評(píng)價(jià)體系:(1)瀏覽模型:記錄用戶在瀏覽階段的行為(例如,點(diǎn)擊、提問(wèn)等)。(3)效用累計(jì)模型:在交互式搜索中如何逐漸尋找到要理想的答案。我們發(fā)布了學(xué)術(shù)界第一個(gè)基于對(duì)話的推薦工具包 CRSLab,覆蓋了四個(gè)主要任務(wù)下的 18 種模型和大量已公開(kāi)的數(shù)據(jù)集。此外,在交互式搜索領(lǐng)域中,我們還針對(duì)「問(wèn)題生成」,「融合多輪上下文的排序模型」和「面向交互式搜索的預(yù)訓(xùn)練」等問(wèn)題展開(kāi)了研究。圖 25:推薦系統(tǒng)開(kāi)源工具庫(kù)“伯樂(lè)”趙鑫教授團(tuán)隊(duì)發(fā)布了推薦系統(tǒng)開(kāi)源工具庫(kù)“伯樂(lè)”,目前已在 Github 上收獲了近 1000個(gè) Star。智源信息檢索團(tuán)隊(duì)基于交互式搜索開(kāi)發(fā)了智能政務(wù)助手。該系統(tǒng)的第一個(gè)版本的開(kāi)發(fā)工作已經(jīng)完成,具備任務(wù)型多論問(wèn)答、政務(wù)辦事指南導(dǎo)航、基于機(jī)器閱讀理解的模型問(wèn)答、答案融合排序等功能。從文本到多模態(tài)
圖 27:人腦處理多模態(tài)信息的機(jī)制多模態(tài)預(yù)訓(xùn)練技術(shù)對(duì)于搜索任務(wù)也具有十分重要的意義。人類(lèi)在做信息搜索時(shí)往往會(huì)使用多模態(tài)的數(shù)據(jù)。在 2005 年《自然》雜志刊登的的一篇論文中,作者指出人腦會(huì)自動(dòng)將對(duì)應(yīng)于同一個(gè)概念的多模態(tài)信息映射到相同的語(yǔ)義空間的表征上,我們期望計(jì)算機(jī)也能實(shí)現(xiàn)同樣的功能。圖 28:文瀾——大規(guī)模多模態(tài)預(yù)訓(xùn)練模型人腦的強(qiáng)大之處在于,我們可以利用弱相關(guān)的信息。例如,看到圖 28 中的蛋糕,人類(lèi)會(huì)想到吃蛋糕不利于減肥。目前主流的模型旨在理解圖文數(shù)據(jù)間的強(qiáng)相關(guān)信息,中國(guó)人民大學(xué)、中科院計(jì)算所、清華大學(xué)、智源人工智能研究院聯(lián)合組成的文瀾團(tuán)隊(duì)開(kāi)發(fā)了能夠有效利用圖文數(shù)據(jù)間弱相關(guān)信息的大規(guī)模預(yù)訓(xùn)練模型,更加符合實(shí)際需求。此外,文瀾團(tuán)隊(duì)還收集了海量的數(shù)據(jù)用于模型預(yù)訓(xùn)練。我們主要使用了圖片和文字兩個(gè)模態(tài)的數(shù)據(jù),根據(jù)圖文匹配程度對(duì)樣本進(jìn)行了排序,從而提升匹配精度,并使用了跨模態(tài)對(duì)比學(xué)習(xí)技術(shù)構(gòu)建了雙塔的 BriVL 架構(gòu)。與 OpenAI 的 CLIP 和谷歌的 ALIGN 大規(guī)模預(yù)訓(xùn)練模型相比,文瀾模型的性能均取得了較大程度的提升。圖 29:多語(yǔ)言多模態(tài)預(yù)訓(xùn)練此外,我們還研發(fā)了多語(yǔ)言多模態(tài)預(yù)訓(xùn)練模型,旨在結(jié)合多模態(tài)與多語(yǔ)言與訓(xùn)練的優(yōu)勢(shì),利用視覺(jué)作為多種語(yǔ)言知識(shí)遷移的橋梁,為多模態(tài)模型提供更廣闊的應(yīng)用場(chǎng)景。圖 30:文瀾多模態(tài)神經(jīng)元示例——詩(shī)句當(dāng)我們向文瀾模型輸入詩(shī)句時(shí),模型會(huì)自動(dòng)生成符合詩(shī)句內(nèi)容和意境的圖像,這證明了多模態(tài)數(shù)據(jù)之間的相關(guān)性。基于文瀾模型,我們可以實(shí)現(xiàn)跨模態(tài)檢索,只需向系統(tǒng)輸入關(guān)鍵詞,就可以檢索出來(lái)之前并沒(méi)有標(biāo)注過(guò)的圖像。未來(lái)的研究方向
兩年前,智源信息檢索與挖掘團(tuán)隊(duì)成立時(shí),我們的愿景就是未來(lái)能夠創(chuàng)造出類(lèi)似于電影《鋼鐵俠》中的智能信息助手賈維斯這樣的搜索系統(tǒng)。無(wú)論人類(lèi)想知道什么信息,都可以通過(guò)與該系統(tǒng)進(jìn)行對(duì)話得到最智慧的答案。由于人的存儲(chǔ)計(jì)算和能力是有限的,所以我們需要使用這樣的「外掛」,從而使人類(lèi)的能力得到提升,最終將信息和知識(shí)轉(zhuǎn)化為有用的行動(dòng)。交互式個(gè)人智能信息助手需要具備自然交互的能力,在主動(dòng)的多輪交互中做到自然語(yǔ)言對(duì)話;需要為用戶指定專屬的用戶畫(huà)像、考慮專屬的個(gè)性化服務(wù),做到場(chǎng)景感知;同時(shí),我們需要整合多源數(shù)據(jù)、多模態(tài)數(shù)據(jù)、個(gè)人數(shù)據(jù)、來(lái)自第三方 APP 的數(shù)據(jù)解決多模態(tài)整合的問(wèn)題;此外,我們還需要向該系統(tǒng)中融入知識(shí),基于因果推理技術(shù)實(shí)現(xiàn)安全、可解釋的搜索,實(shí)現(xiàn)搜索的高準(zhǔn)確性、高魯棒性。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。