0
本文作者: 叢末 | 2019-01-18 18:19 |
雷鋒網(wǎng) AI 科技評論按:現(xiàn)在的聊天 AI 除了比較出眾的那幾個——如微軟「小冰」,普遍無法給人類帶來較好的對話體驗,其「答非所問」的回復(fù)往往讓人啼笑皆非。近日,F(xiàn)acebook 人工智能研究院和斯坦福大學(xué)的研究員們共同開發(fā)了一款能通過從對話中提取訓(xùn)練數(shù)據(jù)進行自我提高的聊天 AI,通過實驗測試,相比于一般聊天 AI ,其對話準(zhǔn)確率提高了 31%??萍济襟w記者 Kyle Wiggers 在 venturebeat 網(wǎng)站上對這項成果進行了報道,雷鋒網(wǎng) AI 科技評論編譯如下。
聊天 AI 中很少有不錯的健談家。除了擁有 4 千萬用戶和人均 23 次對話的微軟「小冰」以及每天服務(wù)近 350 萬顧客的智能銷售客服阿里巴巴「店小蜜」,對于其他大多數(shù)聊天 AI,人類的關(guān)注時長一般不會超過 15 分鐘。但是這并不能影響人類對 AI 的使用——實際上,據(jù) Gartner 預(yù)計,到 2020 年,這些聊天 AI 將承擔(dān) 85% 的客服交互工作。
幸運的是,AI 研究領(lǐng)域的不斷進展,為有朝一日實現(xiàn)高級得多的聊天 AI 帶來了很大希望。這周在預(yù)印本網(wǎng)站 Arxiv.org 上發(fā)表的一篇論文(《Learning from Dialogue after Deployment: Feed Yourself, Chatbot!》)中,來自 Facebook 人工智能研究院和斯坦福大學(xué)的科學(xué)家們描繪了這么一個聊天 AI——它能夠通過從對話中提取訓(xùn)練數(shù)據(jù)進行自我提高。
論文作者解釋道:「當(dāng)對話看上去正在順利進行時,用戶的回復(fù)就會變成聊天 AI 模擬的新訓(xùn)練樣本。(并且)當(dāng)智能體認(rèn)為自己出現(xiàn)了錯誤時,它會尋求反饋,并學(xué)著去預(yù)測反饋,這會進一步提高聊天 AI 的對話能力... 這些新的樣本可以提升智能體的對話水平。而且這個過程只需要使用用戶的自然回復(fù),不要求這些回復(fù)有任何的特殊結(jié)構(gòu),也不需要同時還伴隨著數(shù)值化的反饋,更不需要額外的人為干預(yù)?!?/p>
研究人員們假設(shè)這種 AI 系統(tǒng)在不進行太多人類監(jiān)督的情況下,依舊能夠持續(xù)地調(diào)整。那唯一的問題是什么?一個在自身的對話上進行訓(xùn)練的聊天 AI 存在強化錯誤的風(fēng)險,從而導(dǎo)致產(chǎn)生「荒謬」的對話。
研究人員們提出的聊天 AI 與人類之間的典型對話
圖片來源:Chatbot
在研究人員們的示例中,這個解決方案原來是「滿意度」——也就是說,AI 的聊天對象對它的回復(fù)的滿意度。他們通過讓臨時雇傭人員與 AI 智能體進行閑聊,然后在 1~5 的分值區(qū)間中對智能體的每次回復(fù)的質(zhì)量進行打分,來收集「滿意度」數(shù)據(jù)集,其中智能體的每次回復(fù),都會被用來「教」系統(tǒng)去預(yù)測:人類對于它們的說話方式是「滿意的」還是「不滿意的」。(為了增加「一個更干凈的訓(xùn)練集」的類別之間的距離,分?jǐn)?shù)為 2 的對話上下文會被舍棄掉。)
在聊天 AI 與人類聊天的過程中,前者會同時在兩項任務(wù)中進行訓(xùn)練:對話任務(wù)(它接下來要說什么)以及反饋任務(wù)(它的回復(fù)的一致性)。對于每一輪對話,它都會考慮之前的對話(用以生成接下來的回復(fù)),以及大量分值在 0 到 1 范圍內(nèi)的滿意度分?jǐn)?shù)。如果滿意度達到一個特定的門檻,它就會利用之前的對話上下文以及人類的回復(fù)來提取訓(xùn)練集;但是如果分?jǐn)?shù)太低,聊天 AI 就會提出一個問題來詢問人類的反饋,進而使用這一回復(fù)來為反饋任務(wù)創(chuàng)建一個新的樣本。
例如,假設(shè)聊天 AI 對問題「法國這個時候的天氣怎么樣?」回復(fù)的是「它很美味」等不相干的回答,一般來說,聊天對象(人類)可能會接話:「你到底在說什么?」,根據(jù)他們的語氣,這個聊天 AI 會推斷出他們對它的回復(fù)不滿意,進而正如它們事先被設(shè)計好的那樣,去禮貌地提示聊天對象來糾正它(「哎呀!我搞糊涂了。我應(yīng)該說什么呢?」)。一旦它們得到正確的答案(「也許你應(yīng)該告訴我法國現(xiàn)在很冷?!梗?,它就會從中提取出訓(xùn)練樣本,以防止在未來犯同樣的錯誤。
在他們的研究課題中,這些科學(xué)家為創(chuàng)建在 Transformer(在語言翻譯任務(wù)中表現(xiàn)優(yōu)于最先進模型的神經(jīng)架構(gòu),https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)上的聊天 AI 喂養(yǎng)了 131,438 個「人類-人類」的對話樣本,這些樣本源自于 PersonaChat——一個旨在「與其他人交流... 并且嘗試了解彼此」的由職工人員之間的短對話組成的對外開放的數(shù)據(jù)集。在測試中,他們發(fā)現(xiàn)當(dāng)給定學(xué)習(xí)曲線處于最陡峭部分的小訓(xùn)練集時,聊天 AI 的準(zhǔn)確率相比基線提高了 31%,同時表現(xiàn)最好的模型實現(xiàn)了 46.3% 的準(zhǔn)確率,并在對話任務(wù)和反饋任務(wù)上,分別實現(xiàn)了 68.4% 的準(zhǔn)確率。
至于聊天 AI 預(yù)測用戶滿意度的能力,即便在只有 1000 個訓(xùn)練樣本的情況下,它也「明顯優(yōu)于」之前的方法。
研究人員們寫道:「我們展示了,聊天 AI 可以通過模仿人類滿意時的回復(fù),或者通過在他們不滿意時詢問其反饋,并增加輔助性任務(wù)預(yù)測反饋,來提高它們的對話能力。并且我們還證明了,對用戶滿意度進行分類是自學(xué)過程中非常重要的學(xué)習(xí)任務(wù),這樣的自學(xué)過程,表現(xiàn)會明顯優(yōu)于一個基于模型不確定性的方法?!?/p>
他們表示,論文中所涉及的數(shù)據(jù)集、模型和訓(xùn)練代碼將會通過 Facebook 的 ParlAI 平臺對外開放。如果運氣好的話,它們或許能夠幫助實現(xiàn)真正值得與之交談的下一代聊天 AI。
via:
https://venturebeat.com/2019/01/17/facebook-and-stanford-researchers-design-a-chatbot-that-learns-from-its-mistakes/ 雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。