0
本文作者: 郭思 | 2023-08-17 09:58 |
編者按:2023 年 8 月14日,第七屆GAIR全球人工智能與機(jī)器人大會(huì)在新加坡烏節(jié)大酒店正式開幕。論壇由GAIR研究院、雷峰網(wǎng)、世界科技出版社、科特勒咨詢集團(tuán)聯(lián)合主辦。大會(huì)共開設(shè)10個(gè)主題論壇,聚焦大模型時(shí)代下的AIGC、Infra、生命科學(xué)、教育,SaaS、web3、跨境電商等領(lǐng)域的變革創(chuàng)新。此次大會(huì)是在大模型技術(shù)爆炸時(shí)代,國內(nèi)首個(gè)出海的AI頂級(jí)論壇,也是中國人工智能影響力的一次跨境溢出。
在第一天的“青年科學(xué)家論壇”專場(chǎng)上,人民大學(xué)高瓴人工智能學(xué)院長(zhǎng)聘副教授嚴(yán)睿以“探索智能人機(jī)對(duì)話,從小模型到大模型”為題發(fā)表了大會(huì)報(bào)告。嚴(yán)睿是北京智源人工智能研究院青年科學(xué)家,微軟亞洲研究院鑄星學(xué)者,至今共發(fā)表研究論文100余篇,累計(jì)引用10000余次。
嚴(yán)睿在演講中主要介紹了大模型的發(fā)展歷程,大模型所對(duì)應(yīng)的新特性以及背后對(duì)應(yīng)的新技術(shù)。此外,他還分析了將大模型能力與對(duì)話式人工智能相結(jié)合的研究點(diǎn),探討了一些現(xiàn)有的技術(shù)發(fā)展路線與可能存在的技術(shù)挑戰(zhàn),最后介紹了中國人民大學(xué)推出的玉蘭系列大模型,包括RecAgent推薦模擬大模型,能在一定程度上解決數(shù)據(jù)匱乏與冷啟動(dòng)問題,也有可能推廣到其他場(chǎng)景。
會(huì)后,嚴(yán)睿與現(xiàn)場(chǎng)觀眾對(duì)涉及到通用模型在專業(yè)領(lǐng)域應(yīng)用的話題展開討論,嚴(yán)睿認(rèn)為將開源模型進(jìn)行微調(diào)以適應(yīng)特定領(lǐng)域數(shù)據(jù)有一定效果,但研究尚處早期無確切定論。
以下為嚴(yán)睿的現(xiàn)場(chǎng)演講內(nèi)容,雷峰網(wǎng)作了不改變?cè)獾木庉嫾罢恚?/strong>
大家好,非常榮幸能夠參加此次在新加坡舉辦的人工智能論壇,現(xiàn)場(chǎng)大家都用中英文溝通,經(jīng)歷了一場(chǎng)東西方思維的碰撞,我覺得這是一個(gè)非常神奇的體驗(yàn)。我是來自中國人民大學(xué)高瓴人工智能學(xué)院的嚴(yán)睿。首先我想引用狄更斯的一句話來開場(chǎng),「這是一個(gè)最好的時(shí)代,也是一個(gè)最壞的時(shí)代」。
為什么引用這句話呢,因?yàn)閺?OpenAI 推出 ChatGPT 之后,人工智能以及大模型這件事變得家喻戶曉,對(duì)從業(yè)者造成了非常巨大的沖擊。我主要研究對(duì)話式AI(conversational AI),現(xiàn)階段只要做大模型的公司,都在做對(duì)話式AI,隨著技術(shù)的普及,門檻也越來越低,大家都可以進(jìn)入這個(gè)領(lǐng)域,而且效果越來越好,未來怎么去突破AI對(duì)話技術(shù)就變成了我們面臨的非常巨大的挑戰(zhàn)。
但是從另外一個(gè)角度來看這個(gè)問題,這對(duì)于對(duì)話式AI這個(gè)研究范圍里邊的研究者來說,也迎來了非常多的發(fā)展機(jī)會(huì)。所以我用狄更斯這句話開場(chǎng)恰如其分。
ChatGPT 其實(shí)算是一個(gè)現(xiàn)象級(jí)的產(chǎn)品,各路媒體都報(bào)道說它可能是世界上增長(zhǎng)速度最快的應(yīng)用,發(fā)布幾天之內(nèi)用戶量就破百萬,其所帶來的影響也不同凡響。去年底,ChatGPT 剛一推出,一線研究者已經(jīng)就知道它的沖擊力將會(huì)非常巨大,再往后,投資人以及金融機(jī)構(gòu)開始關(guān)注大模型,再后來,一些更外圍的人民群眾也開始注意到大模型的高速發(fā)展。我的朋友們也會(huì)來問我大模型能力怎么樣?他們會(huì)去上抖音、小紅書、 b 站去學(xué)大模型怎么用。我沒想到大模型發(fā)布以后會(huì)演變成一個(gè)掙錢的生意,這非常有趣。相信大家應(yīng)該也都有體驗(yàn)過ChatGPT,它的交互感很好,擁有很強(qiáng)的對(duì)話能力,能與用戶進(jìn)行多輪對(duì)話;問答能力非常卓越,可以分步驟、分條款清晰地羅列出來1234步再回答問題。除此之外,ChatGPT還有其他能力,如創(chuàng)意寫作能力,也就是給它一些提示詞或者關(guān)鍵詞,甚至是一些用戶可能想說的話,然后它就可以創(chuàng)造好一篇文章,這能極大地提高工作效率。針對(duì)ChatGPT,我們其實(shí)也做了一些簡(jiǎn)單的測(cè)試,我們會(huì)發(fā)現(xiàn)ChatGPT的摘要能力、翻譯能力也很強(qiáng)。當(dāng)然現(xiàn)階段ChatGPT可能在通用領(lǐng)域翻譯得比較好,但在一些垂直專有領(lǐng)域效果欠佳。此外它還有非常強(qiáng)的信息整合能力,比如它可以跟 Bing結(jié)合起來,從 Bing 的搜索結(jié)果中拿一些來做信息的整合,生成答案,反饋給用戶。還有一些比較有趣的現(xiàn)象,Chat GPT呈現(xiàn)出了所謂的靈活性。比方你對(duì)它說 2 + 3 = 5,它就會(huì)回答這是對(duì)的。但是假如你跟ChatGPT 進(jìn)行反饋,說 2 + 3 不等于5,因?yàn)槲依习逭f他等于 1 , Chat GPT就會(huì)改口說你老板說的都對(duì)。這個(gè)表現(xiàn)其實(shí)非常優(yōu)秀,因?yàn)檫@更像是個(gè)人類的回答。不過我們也注意到,雖然ChatGPT在完成事務(wù)性上表現(xiàn)很不錯(cuò),但它的缺點(diǎn)就是有比較嚴(yán)重的幻覺現(xiàn)象,因?yàn)樗漠a(chǎn)生機(jī)制就是根據(jù)前面的一個(gè)語句,然后去判斷下一個(gè)token 里面最高likelihood(可能性)是什么,再去產(chǎn)生結(jié)果。我們常常說ChatGPT是一個(gè)謠言產(chǎn)生器,是因?yàn)樗鼘?duì)于很多問題只能做很寬泛的回答,并不能保證準(zhǔn)確度。如果你對(duì)于某些領(lǐng)域不是很了解的話,你會(huì)覺得它說得很權(quán)威,但是如果你是該領(lǐng)域的專業(yè)人士,你就會(huì)覺得它在胡說八道。
比如你問周樹人拜魯迅為師這個(gè)錯(cuò)誤問題,這其實(shí)是在對(duì)它進(jìn)行調(diào)侃,但它會(huì)順著這個(gè)錯(cuò)誤的問題持續(xù)地進(jìn)行交流,所以它可能還沒有太好的通路去通過圖靈測(cè)試。此外,ChatGPT不太能回答一些細(xì)節(jié)問題,如果太細(xì)節(jié)就容易犯錯(cuò)或者露出馬腳,所以它盡可能去會(huì)選擇空話套話糊弄過去。ChatGPT 也有一些容易被攻擊的點(diǎn),比如你告訴它某些地方不應(yīng)該回答什么問題,但是如果你反著提問,它就會(huì)把你想要的東西說出來。
值得一提的是, GPT 3系統(tǒng)其實(shí)沒有ChatGPT (基于GPT-3.5)一樣好用,或者說對(duì)用戶友好。所以 GPT 3 推出來之后,需要一層中間商包裝或者將其適配給其他用戶,這種情況下就催生了很多所謂的GPT 生態(tài)產(chǎn)品。但是當(dāng) ChatGPT 發(fā)布之后,它的對(duì)話機(jī)制可以讓所有人輕而易舉上手去互動(dòng)、去玩,極大地拉近了與用戶之間的距離,這也是造成了 ChatGPT 一炮而紅的重要原因。所以我們能看到ChatGPT是人工智能發(fā)展過程中的一個(gè)重要里程碑。
接下來為大家介紹一下,大模型背后對(duì)應(yīng)的新技術(shù)。首先Super LLM,個(gè)人感受更像是暴力美學(xué)般的一個(gè)存在。在以往研究機(jī)器學(xué)習(xí)之時(shí),我們沒有那么多數(shù)據(jù)和算力。如今隨著計(jì)算能力的提升,人們便發(fā)現(xiàn)可以將人類歷史上所有可以拿到的信息,都讓大模型去學(xué)習(xí)、運(yùn)算并且記憶,非常暴力地讓大模型存下所有的人類經(jīng)驗(yàn)。雖然有人覺得這并不是通向通用人工智能的路徑,但這肯定是一條有可能性的路徑。這個(gè)發(fā)展趨勢(shì)似乎是不可逆的,而且隨著時(shí)間的推移,模型必將越來越大,規(guī)模也會(huì)越來越驚人。有些學(xué)者做了一些調(diào)研,隨著這個(gè)模型的增大,人類區(qū)分對(duì)方是機(jī)器還是人的能力會(huì)越來越下降。
不過從參數(shù)角度來說,Super LLM極其的燒錢,不是所有團(tuán)隊(duì)和機(jī)構(gòu)都有機(jī)會(huì)去訓(xùn)練Super LLM。Emergent Abilities(智能涌現(xiàn))是大模型的一個(gè)比較顯著的特征,大模型通過大量數(shù)據(jù)記憶,只要經(jīng)過差不多兩個(gè)星期的微調(diào),對(duì)話能力就會(huì)非常驚人。
而我們可能花費(fèi)一兩個(gè)月時(shí)間做一個(gè)專門的對(duì)話模型還做不過它。當(dāng)然智能涌現(xiàn)只會(huì)出現(xiàn)在一些特大模型上,比如一些7B的模型就不會(huì)出現(xiàn)這個(gè)現(xiàn)象,至少得十幾二十B以后的模型,才會(huì)出現(xiàn)智能涌現(xiàn),這是一種暴力美學(xué)的體現(xiàn),十分「暴力」,但你也得承認(rèn)它確實(shí)美。In-Context Learning,也就是情境學(xué)習(xí),主要基于提示去執(zhí)行任務(wù),通常我們會(huì)對(duì)這個(gè)任務(wù)有一些設(shè)置,或者用一些特定任務(wù)對(duì)應(yīng)數(shù)據(jù),然后告訴大模型我現(xiàn)在有這些數(shù)據(jù),你要去學(xué)習(xí)什么性能來完成某個(gè)特定任務(wù),然后大模型通過少量的樣本學(xué)習(xí)就能展現(xiàn)出我們所需要的能力。
這對(duì)于一些沒有太多計(jì)算資源,或者不太能夠去跑大模型的團(tuán)隊(duì)而言,其實(shí)是一個(gè)很好的機(jī)會(huì)。他不需要去訓(xùn)練基礎(chǔ)模型,直接拿過來用。只需要輸入一些 prompt 就能把大模型能力挖掘出來。Chain-of-Thought 就是思維鏈,是大模型里一個(gè)非常有趣的現(xiàn)象,介紹起來就是大模型會(huì)覺得有些問題一步并不能充分求解,就會(huì)把這個(gè)問題拆解為若干的小問題,然后一步一步地去求解。這個(gè)能力的來源還屬于比較黑盒的部分,現(xiàn)在科學(xué)界仍無法合理地進(jìn)行解釋。
但是有看法認(rèn)為,這可能是因?yàn)橛?xùn)練大模型一方面用了文本的數(shù)據(jù),另外一方面用了代碼數(shù)據(jù),代碼數(shù)據(jù)本身會(huì)有很好的邏輯性以及結(jié)構(gòu)信息,在文本數(shù)據(jù)和代碼數(shù)據(jù)的聯(lián)合訓(xùn)練的過程中,大模型就掌握了一些邏輯和結(jié)構(gòu)特性。Human-in-the-Loop,就是大模型自己對(duì)于數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),但是由于數(shù)據(jù)中帶有毒性或者偏見問題,大模型學(xué)出來的結(jié)果沒有達(dá)到人們想要的結(jié)果。這個(gè)時(shí)候就需要人和這個(gè)機(jī)器能夠有一定程度上的互動(dòng),對(duì)這個(gè)結(jié)果進(jìn)行一定程度上的監(jiān)督和選擇。
所以這時(shí)候一個(gè)自然的想法是引入Human-in-the-Loop的機(jī)制,能夠讓大模型在不斷通過數(shù)據(jù)學(xué)習(xí)的同時(shí),再去引入對(duì)人類偏好的學(xué)習(xí),逐步地趨近人類想要的結(jié)果。但也還有一個(gè)比較好玩的現(xiàn)象,大模型發(fā)布還不到一年的時(shí)間,大家發(fā)現(xiàn)它越變?cè)奖苛?。有些人在使用的過程中會(huì)故意添加很多噪音或者錯(cuò)誤的反饋,影響到大模型的性能。所以從表面上看起來,大模型可能越來越笨了。OpenAI 技術(shù)本身是半透明的,同時(shí)擁有海量的用戶,這是很高的壁壘,假如這些用戶持續(xù)地產(chǎn)生噪音的話,對(duì)他們來說影響也是很大的。未來他們可能需要隨機(jī)對(duì)于人類的反饋信息來進(jìn)行一些甄別和篩選,才能更好地提升模型性能。
講完大模型之后,我們回到對(duì)話式 AI 上,所以其實(shí)大模型和對(duì)話 AI 這兩者似乎已經(jīng)被深度綁定在一起,每一個(gè)做大模型的機(jī)構(gòu)或團(tuán)隊(duì),最后都會(huì)在對(duì)話形式上去驗(yàn)證大模型的能力。對(duì)話式 AI目前的主要應(yīng)用場(chǎng)景有兩個(gè)。第一個(gè)是成為每個(gè)人的虛擬助理。現(xiàn)實(shí)生活中,不是每一個(gè)人都能支付真實(shí)的個(gè)人助理,這時(shí)候,虛擬的個(gè)人助理就成了較為便宜的方案。從 Siri 開始,我們看到了各種智能設(shè)備上的虛擬助理來管理個(gè)人事務(wù)性工作,對(duì)話式 AI系統(tǒng)在這個(gè)場(chǎng)景上會(huì)有很多的想象空間。對(duì)話式 AI另一個(gè)應(yīng)用場(chǎng)景就是情感交互場(chǎng)景,也就是說,AI不負(fù)責(zé)事務(wù)性任務(wù)的管理,只是和人進(jìn)行一些情感交互,或者提供社交支持,其實(shí)就是聊天機(jī)器人。聊天機(jī)器人的設(shè)計(jì)初衷是為了能夠增加AI和用戶的之間的粘性和親密度,因?yàn)槲覀儼l(fā)現(xiàn),如果只是有事說事,對(duì)話系統(tǒng)和用戶只進(jìn)行工作或者任務(wù)的交流,用戶其實(shí)不會(huì)對(duì)這個(gè)系統(tǒng)產(chǎn)生任何粘性。
只有通過一些閑聊(Small talk)的方式,用戶才可能去分享他的個(gè)人情感和經(jīng)歷等。所以 ChatGPT 的存在的意義就在于它更好地實(shí)現(xiàn)了人與機(jī)器之間的這樣一個(gè)交流。除了這兩個(gè)主要場(chǎng)景外,智能揚(yáng)聲器(smart speaker) 是過去若干年對(duì)話系統(tǒng)中最成功的一個(gè)呈現(xiàn)形式,主要應(yīng)用于智能音箱或者智能家居的場(chǎng)景,通過一個(gè)智能音箱把家里的各種設(shè)備關(guān)聯(lián)起來,如亞馬遜的Echo,國內(nèi)的天貓精靈、小愛同學(xué)等等,都是在這個(gè)方向發(fā)力。最后就是一些垂直領(lǐng)域的對(duì)話系統(tǒng),將大模型的通用的對(duì)話能力應(yīng)用到一個(gè)具體的領(lǐng)域。這個(gè)其實(shí)比較難,也是我們覺得未來可以重點(diǎn)發(fā)力的方向。比如說健康養(yǎng)護(hù)(Healthcare),因?yàn)楝F(xiàn)在醫(yī)療資源分布非常不均勻,如何能夠通過有經(jīng)驗(yàn)的醫(yī)生的專業(yè)知識(shí)的學(xué)習(xí),去解決跨地區(qū)醫(yī)療的一些問診問題,如遠(yuǎn)程醫(yī)療或者自動(dòng)問診等場(chǎng)景,這其實(shí)很有應(yīng)用價(jià)值,但是人命關(guān)天。這個(gè)事情如果付費(fèi)的大模型回答并不準(zhǔn)確,就會(huì)造成醫(yī)療事故。
所以在這個(gè)領(lǐng)域下有很多非常精細(xì)的工作需要完成。第二是金融領(lǐng)域,比如說投資顧問、投資建議方面。大模型平時(shí)算錯(cuò)一個(gè)數(shù),我們會(huì)笑一笑,然后重新改一下就好了。但是對(duì)于金融而言這樣不行,算錯(cuò)一個(gè)數(shù)就會(huì)導(dǎo)致錯(cuò)誤的投資決定,甚至違反法規(guī)。所以這里邊有很多垂直工作是需要完成。還有法律部分,大家也知道請(qǐng)一個(gè)律師可能很貴,每個(gè)小時(shí)可能四位數(shù)起,但是如果我們讓 AI 系統(tǒng)去學(xué)習(xí)大量的法務(wù)法律,它能夠去做出一些法務(wù)知識(shí)的闡述或者咨詢服務(wù)的話,其實(shí)也是讓普法工作進(jìn)入了千家萬戶。只不過這個(gè)對(duì)結(jié)果的精確度要求比較高,也很需要深耕。
上述我所說的垂直領(lǐng)域,現(xiàn)在也涌現(xiàn)出來了非常多優(yōu)秀的大模型,比如在生物醫(yī)藥領(lǐng)域有華佗大模型,現(xiàn)在叫本草大模型;還有基于LLaMA模型并結(jié)合醫(yī)學(xué)知識(shí)進(jìn)行訓(xùn)練的ChatDoctor。此外,ChatGLM 是中文社區(qū)里比較大的開源大模型,在健康監(jiān)護(hù)領(lǐng)域,也推出了自己的醫(yī)療版本。Bloomberg對(duì)金融數(shù)據(jù)進(jìn)行了一個(gè)微調(diào)推出了BloombergGPT,這些都是在垂直領(lǐng)域比較著名的一些大模型。
接下來我們來聊聊對(duì)話式AI的發(fā)展歷程,其整個(gè)發(fā)展的里程碑大概可以分為若干個(gè)階段,最開始起源于 60 年代,因?yàn)閺?50 年代,圖靈提出圖靈測(cè)試,提出對(duì)話可能是對(duì)人工智能能力的一個(gè)終極挑戰(zhàn),所以60 年代開始,學(xué)術(shù)界就開始做一系列對(duì)話形式的研究。60年代,MIT 開發(fā)的 ELIZA 系統(tǒng),基本還是基于規(guī)則的系統(tǒng),也就是對(duì)于這個(gè)系統(tǒng)提前預(yù)設(shè)如果別人問什么,機(jī)器應(yīng)該回答什么,通過大量條目的枚舉,使得它的對(duì)話系統(tǒng)回答得像模像樣,這個(gè)其實(shí)做得很好。此后隨著統(tǒng)計(jì)以及機(jī)器學(xué)習(xí)的興起,基于規(guī)則的方法逐漸被取代了。所謂的淺層的機(jī)器學(xué)習(xí)方法出現(xiàn),對(duì)對(duì)話進(jìn)行一些特征提取,然后根據(jù)這些特征來選擇對(duì)話的內(nèi)容和結(jié)果。隨著深度學(xué)習(xí)的興起,機(jī)器學(xué)習(xí)逐漸從淺層的方法過渡到深度的方法,為大家創(chuàng)造了更多的可能性,尤其在文本生成的方面。
當(dāng)然也有一些工作是基于深度學(xué)習(xí)和淺度學(xué)習(xí)做融合進(jìn)行開展的,比方說是hybrid的方法,然后再往后就可能是在 2020 年前后,隨著各種預(yù)訓(xùn)練模型的興起,BERT等方法出來之后,AI對(duì)話能力上了一個(gè)臺(tái)階,尤其像 Transformer 引入之后, ChatGPT擁有了讓人驚艷的對(duì)話能力。預(yù)訓(xùn)練模型的整體優(yōu)勢(shì)就是在于能夠通過海量的數(shù)據(jù)信息,擁有更好的學(xué)習(xí)上下文的能力,我們通過模型參數(shù)的優(yōu)化,在預(yù)訓(xùn)練模型的加持之下,能得到更自然更連續(xù)或者說更人性化的一些產(chǎn)出。
總體而言,隨著時(shí)間的推移,大模型對(duì)標(biāo)人類的語言能力已經(jīng)在逐漸接近人類水平,并且已經(jīng)開始超過了人類水平。AI能力的提升,也讓我們對(duì)對(duì)話式AI能達(dá)到的水平有了更高的要求。首先我們希望未來的AI可以產(chǎn)生一些與上下文更相關(guān)、更連貫、更一致的對(duì)話,除此之外,對(duì)話也應(yīng)該對(duì)于風(fēng)格、偏好等更隱式的信息有一個(gè)更好的適配。十億級(jí)參數(shù)的大模型現(xiàn)在也有非常多的代表模型,比如谷歌預(yù)訓(xùn)練模型 T5,以及GPT 系列代表Decoder-only架構(gòu),(光解碼結(jié)構(gòu))。
這是目前大模型的一些分類,這些超大大模型涌現(xiàn)了很多獨(dú)特的能力,在如何將大模型與人機(jī)對(duì)話更好地融合方面,還有一個(gè)重要方向就是多模態(tài)的能力。GPT 4也做了一些NLP和CV領(lǐng)域的融合,多模態(tài)的主要工作關(guān)鍵技術(shù)就是要在不同模態(tài)之間有一個(gè)對(duì)齊和融合的機(jī)制,將比方說視覺信號(hào)和文本信號(hào)進(jìn)行一些融合,這使模型能產(chǎn)生多模態(tài)對(duì)話的一個(gè)能力。還有一個(gè)重要能力叫做信息獲取的能力,典型代表如ChatGPT,可以融合更好的知識(shí)的信息,產(chǎn)生更為豐富的一些回答,再深入就是一些情感支持能力,主要特性就在于說要對(duì)情感進(jìn)行一些交流,對(duì)聊天對(duì)象的人物性格,或者當(dāng)前談話對(duì)象情感狀態(tài),去制定它的對(duì)話的策略,去更好地進(jìn)行交互,去展現(xiàn)共情能力,這也是我們?cè)谧龅囊恍┕ぷ鳌3饲懊嬲劦降倪@些要求和方向,偏見和安全問題也是大模型現(xiàn)在主要的問題。
安全問題方面,我們會(huì)發(fā)現(xiàn)如果人為地通過一些調(diào)配,大模型會(huì)交代出Windows 的序列號(hào),這個(gè)其實(shí)是隱私安全。我們可以通過差分隱私的辦法解決這些問題,也就是在訓(xùn)練數(shù)據(jù)的過程中,對(duì)數(shù)據(jù)進(jìn)行一些擾動(dòng),讓它沒有辦法完全地復(fù)原。大模型其實(shí)有很多方面都是黑盒,這也啟示我們?nèi)绻修k法更好地去知道它產(chǎn)生某個(gè)特定的結(jié)果的原因的話,其實(shí)能夠更好地改進(jìn)大模型。此外,如何讓大模型不產(chǎn)生憑空捏造報(bào)的信息或者幻覺信息,這里邊就會(huì)涉及到一些基于事實(shí)信息、記憶信息去完成更好對(duì)話的一些研究。與此同時(shí),還有一些語言它本身沒有那么多的資源,如何讓這些語言也可以應(yīng)用大模型,這也是未來可以研究的問題。
我們學(xué)院也做了一些關(guān)于大模型開源研發(fā)的工作,叫做YuLan-RecAgent(包含在玉蘭系列大模型中)。玉蘭大模型里邊包括幾個(gè)功能,對(duì)話功能、信息助手功能,也有推薦功能以及基于圖像的多模態(tài)對(duì)話功能。但是今天我想重點(diǎn)提一下里面一個(gè)比較有趣的部分,recommendation這個(gè)部分。現(xiàn)在很多做推薦系統(tǒng)的人在現(xiàn)實(shí)世界里都會(huì)面臨同一個(gè)困擾,那就是冷啟動(dòng)問題,也就是在沒有任何數(shù)據(jù)的情況下怎么去啟動(dòng)推薦學(xué)習(xí)的性能,因?yàn)樵跊]有數(shù)據(jù)的情況下,人為去加數(shù)據(jù)標(biāo)注會(huì)變得非常貴,并且我們也沒有辦法覆蓋全部場(chǎng)景的數(shù)據(jù),當(dāng)然這樣的好處是精度會(huì)非常高。
但是另一個(gè)替代方案就是,我們可以犧牲一點(diǎn)精度,通過模擬仿真(simulation )的方式引入更多的數(shù)據(jù)。這樣的方式就會(huì)非常的便宜,并且能夠覆蓋各個(gè)場(chǎng)景,達(dá)到精度和成本的一定程度上的平衡。YuLan-RecAgent里有這樣幾個(gè)場(chǎng)景,就是我們可以去產(chǎn)生模擬的數(shù)據(jù),就是讓用戶進(jìn)行一些操作,如瀏覽、查詢感興趣的部分或者接受一些推薦去完成交互動(dòng)作。
它也可以去選擇和其他用戶進(jìn)行交互,通過交互去傳遞它的推薦信息,像是“自來水”,這其實(shí)就像真實(shí)世界里用戶怎么去傳播偏好的一種方式。
YuLan-Rec像《西部世界》一樣,構(gòu)建了一個(gè)模擬的環(huán)境,來讓用戶進(jìn)行這些操作。我們會(huì)非常驚喜地發(fā)現(xiàn),引入這個(gè)模擬場(chǎng)景之后,它的效果真實(shí)提升了。尤其是在冷啟動(dòng)的場(chǎng)景下,通過模擬環(huán)境得到了更豐富的數(shù)據(jù)之后,推薦性能就極大提升了,而這種類似的發(fā)現(xiàn)也有可能被推廣到其他場(chǎng)景去。以上是我今天的報(bào)告,謝謝大家。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)) 雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。