0
雷鋒網(wǎng) AI 科技評論按:打造能夠通過語言與人類自然交流并向人類學(xué)習(xí)的智能體,對 AI 科技的進(jìn)步而言價值重大。百度 Research 研究人員的目標(biāo)就是,開發(fā)能夠通過自然交互來向人類學(xué)習(xí)的 AI 智能體。
在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評論的數(shù)據(jù)庫項目「AI影響因子」中,憑借百度 PaddlePaddle 開源平臺負(fù)責(zé)人王益專訪、百度數(shù)據(jù)可視化實(shí)驗(yàn)室的成立及NLP 團(tuán)隊在微軟 MARCO 閱讀理解數(shù)據(jù)集上的突出表現(xiàn)、被ACL 2018 接收的論文「Interactive Language Acquisition with One-shot Visual Concept Learning through a Conversational Game」,排在「AI影響因子」前列。
百度曾在去年的 6 月份發(fā)表過一篇「Learning to Speak via Interaction」,該方法教 AI 智能體如何通過與一位虛擬老師的互動來學(xué)習(xí)說話。在一項最新的研究中,百度重點(diǎn)關(guān)注了虛擬老師與 AI 智能體之間的對話互動,這種互動既可以作為語言學(xué)習(xí)的自然途徑,也可以作為學(xué)習(xí)新的知識的自然途徑。百度提出的聯(lián)合仿真和強(qiáng)化方法可以通過一個對話互動游戲,來訓(xùn)練 AI 智能體學(xué)習(xí)接地氣的語言和進(jìn)行快速概念學(xué)習(xí)。
用該方法訓(xùn)練的 AI 智能體可以提問關(guān)于新事物的問題以主動獲得信息,并在隨后的對話中使用剛剛學(xué)到的知識;這個學(xué)習(xí)過程是單樣本學(xué)習(xí)的。AI 智能體的「主動」體現(xiàn)在,它能夠主動向老師問關(guān)于未知事物的信息,與此形成對比的是目前大多數(shù)的 AI 智能體范例還只能被動地學(xué)習(xí)預(yù)先收集好的標(biāo)簽數(shù)據(jù)?!敢淮涡浴挂馕吨?,在部署之后,被老師教會過一次的 AI 智能體就可以在無需進(jìn)一步訓(xùn)練的情況下,學(xué)會識別一個此前從未見過的事物并且還將能正確地回答老師針對該新事物提出的相關(guān)問題。
為了教會智能體認(rèn)知新事物,百度在虛擬環(huán)境中搭建了一位老師來同 AI 智能體交談。該虛擬環(huán)境與老師的設(shè)計靈感來自人類如何教嬰兒學(xué)習(xí)語言和認(rèn)知新事物的經(jīng)歷。在每一節(jié)課程的開頭,虛擬老師會隨機(jī)選擇一個事物來與學(xué)生(AI 智能體)互動,并針對這個事物隨機(jī)提出一個問題(如「它是什么」),然后保持沉默或者給出一個陳述語句(如「它是猴子」)。隨后,老師將根據(jù)學(xué)生的回答來做出相應(yīng)行為,要么回答智能體提出的問題,要么轉(zhuǎn)向下一個隨機(jī)事物再繼續(xù)。老師也會依據(jù) AI 智能體回答的適當(dāng)程度提供給它一個鼓勵或者不鼓勵的獎勵信號,例如,AI 智能體問關(guān)于新事物的信息的時候,或者在僅僅教了一次之后就能正確回答問題到時候,AI 智能體都會收到激勵信號。
百度的該 AI 智能體始于新生兒般的白紙狀態(tài)。它必須學(xué)會破解語言的奧秘并理解原始視覺和語言信號。AI 智能體只會通過與老師交流來評估自己的知識狀態(tài)和記住有用的信息,與老師的交流包括聽,冒泡,通過模仿進(jìn)行學(xué)習(xí)以及通過老師的激勵進(jìn)行強(qiáng)化學(xué)習(xí)。經(jīng)過最初的訓(xùn)練后,AI 智能體無需進(jìn)一步的任何訓(xùn)練就能成功地將成熟的語言和「一次性」概念認(rèn)知能力遷移至新的測試場景。
例如,經(jīng)過動物數(shù)據(jù)集的訓(xùn)練后的 AI 智能體,在面對屬于此前它從未見過的事物類別的一張櫻桃圖片時,AI 智能體能夠問提問「它是什么」并且只需要被教會一次「這是櫻桃」,在面對新的一張櫻桃圖像的時候也能正確回答其中是櫻桃。
百度的下一步目標(biāo)是進(jìn)一步增加該語言學(xué)習(xí)任務(wù)的復(fù)雜性和多樣性,以及研究該方法在其他相關(guān)任務(wù)上的應(yīng)用和普遍性。該教學(xué)環(huán)境在百度自己的開源引擎 XWorld 模擬環(huán)境上運(yùn)行,模型訓(xùn)練則在 PaddlePaddle 深度學(xué)習(xí)平臺上完成的。更多細(xì)節(jié),大家可以前往查看這篇 ACL 2018 的接收論文 https://arxiv.org/abs/1805.00462。
via 百度 Research,雷鋒網(wǎng)AI科技評論編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。