0
本文作者: 黃善清 | 2019-07-09 14:19 |
雷鋒網(wǎng) AI 科技評(píng)論按:從蘋果 Siri 到亞馬遜 Echo,聊天機(jī)器人在我們的生活中扮演著越來(lái)越重要的角色。肉眼可見(jiàn)的變化是,在那些對(duì)知識(shí)廣深度要求不高的領(lǐng)域/行業(yè),聊天機(jī)器人大有逐漸取代人工客服的趨勢(shì),且隨著物聯(lián)網(wǎng)技術(shù)的普及,該技術(shù)也漸漸成為人們遠(yuǎn)程操控家電的手段之一。然而聊天機(jī)器人目前存在的問(wèn)題不少,比如對(duì)上下文語(yǔ)境的理解、知性對(duì)話、去噪,都是自然語(yǔ)言處理學(xué)者正在努力攻克的難點(diǎn),而近期的一場(chǎng)「SMP 機(jī)器人群聊」賽事,則試圖將該領(lǐng)域的研究再往前一步推進(jìn)——人機(jī)多方混合對(duì)話/機(jī)器人多方群聊。過(guò)去,我們經(jīng)常說(shuō)「三個(gè)女人一臺(tái)戲」,如果是三個(gè)機(jī)器人,又會(huì)給到我們什么樣的驚喜呢?
該賽事的全名為 SMP 機(jī)器人群聊比賽(SMP Multi-bot Conversation Challenge, ),由中國(guó)中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)社交機(jī)器人工作組主辦,哈工大深圳王軒教授提供原始想法,哈工大社會(huì)計(jì)算與信息檢索研究中心張偉男副教授細(xì)化落實(shí),賽后在天津大學(xué)召開(kāi)研討會(huì)。主辦方認(rèn)為,學(xué)界過(guò)往對(duì)人機(jī)對(duì)話領(lǐng)域的關(guān)注僅限于人機(jī)雙方的對(duì)話模式,在更具挑戰(zhàn)性的人機(jī)多方混合對(duì)話乃至機(jī)器人多方群聊任務(wù)方面,無(wú)論是研究還是應(yīng)用上都鮮有涉及。因此,他們希望通過(guò)本次比賽促進(jìn)人機(jī)對(duì)話技術(shù)在多方對(duì)話場(chǎng)景上的發(fā)展,充分挖掘人機(jī)對(duì)話技術(shù)在各種應(yīng)用場(chǎng)景下的潛力,為人機(jī)對(duì)話技術(shù)相關(guān)的學(xué)術(shù)界研究人員和產(chǎn)業(yè)界從業(yè)人員提供一個(gè)良好的溝通平臺(tái)。
由于機(jī)器人群聊比賽在國(guó)內(nèi)尚無(wú)先例,因此,在賽事籌備、規(guī)則制定、評(píng)估標(biāo)準(zhǔn)等方面務(wù)必會(huì)面臨諸多思考。為了了解賽事的舉辦初衷,雷鋒網(wǎng) AI 科技評(píng)論專門采訪了本次賽事的組織委員會(huì)成員,也是賽事的主要發(fā)起人和評(píng)測(cè)方案的主要制定人,來(lái)自哈爾濱工業(yè)大學(xué)張偉男副教授,具體采訪內(nèi)容如下:
1)中國(guó)中文信息學(xué)會(huì)舉辦賽事的初衷是什么?
機(jī)器人群聊的形式最初是劉挺老師在首屆社交機(jī)器人論壇時(shí),提出的一個(gè)構(gòu)想,用來(lái)評(píng)測(cè)多個(gè)機(jī)器人在相同對(duì)話場(chǎng)景下的群聊中的會(huì)話智能程度。后經(jīng)由劉老師和我的多次討論,并細(xì)化了評(píng)測(cè)的方案,在評(píng)價(jià)方案的制定過(guò)程中,中國(guó)中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)社交機(jī)器人工作組的張洪忠老師和黃民烈老師也給出了建設(shè)性意見(jiàn)。
2)群聊場(chǎng)景對(duì)于人機(jī)對(duì)話技術(shù)而言有何特殊之處?
由于以往國(guó)內(nèi)外在人機(jī)對(duì)話方面的研究都是「一對(duì)一」的形式,即對(duì)話的一方是機(jī)器人,另一方是人,并使用一套評(píng)價(jià)指標(biāo)針對(duì)一個(gè)機(jī)器人和人之間的對(duì)話進(jìn)行評(píng)測(cè),這可以看作機(jī)器人之間沒(méi)有「相互影響」的獨(dú)立評(píng)價(jià),然而由于對(duì)話天然具有多輪的屬性,對(duì)于相同的初始輸入,不同的機(jī)器人對(duì)話的過(guò)程不同,因此很難保證不同的機(jī)器人在完全相同的對(duì)話上下文中進(jìn)行評(píng)測(cè)。而機(jī)器人群聊的形式是一種完全新穎的機(jī)機(jī)對(duì)話模式,機(jī)器人面對(duì)的不再是人,而是多個(gè)機(jī)器人,它們之間會(huì)共享對(duì)話上下文,對(duì)話的過(guò)程也更加考驗(yàn)機(jī)器人對(duì)于對(duì)話上下文語(yǔ)義的理解能力和回復(fù)對(duì)象的選擇能力。
3)出題方面屆時(shí)會(huì)有哪些考量?
由于我們僅給定群聊主題,而不限制參賽隊(duì)伍的數(shù)據(jù)集來(lái)源,因此我們主要考量的是對(duì)話話題在數(shù)據(jù)收集方面的難易性,我們會(huì)優(yōu)先選擇沒(méi)有數(shù)據(jù)采集門檻的話題,盡量使數(shù)據(jù)的采集不成為參賽隊(duì)伍的障礙。
4)您認(rèn)為最終影響一支隊(duì)伍比賽結(jié)果的因素有哪些?
我認(rèn)為有幾方面主要的因素:
一是機(jī)器人的回復(fù)質(zhì)量,如連貫性、多樣性和相關(guān)性要足夠好;
二是對(duì)于對(duì)話歷史的理解能力要強(qiáng),包括對(duì)主題的理解和其他機(jī)器人回復(fù)的理解;
三是回復(fù)策略的選擇,四是保證系統(tǒng)的魯棒性和相應(yīng)速度。
5)為了達(dá)到最佳群聊效果,您認(rèn)為有哪些難點(diǎn)是需要被克服的?
我認(rèn)為自然語(yǔ)言理解和自然語(yǔ)言生成本身有很多的技術(shù)挑戰(zhàn),除此之外對(duì)于對(duì)話策略的制定(可以是基于規(guī)則、規(guī)劃或?qū)W習(xí)的方式)和對(duì)話歷史的建模是相對(duì)來(lái)說(shuō)新的挑戰(zhàn),同時(shí),在完全自由的群聊模式下,對(duì)話輪的控制(turn taking)也是比較重要的方面。
6)中國(guó)在機(jī)器人群聊方面的研究整體處于什么階段?
目前 multiparty dialogue 或 multiparty conversation 上的研究是人機(jī)對(duì)話的一個(gè)重要方向,也有很多學(xué)者做出了很多貢獻(xiàn),但其研究目標(biāo)是更好地理解和建?!溉恕怪g的群聊內(nèi)容和群聊行為,而機(jī)器人群聊的形式目前鮮有研究和應(yīng)用涉及。之前也有見(jiàn)過(guò)機(jī)器人對(duì)聊的新聞,但商業(yè)宣傳的意味更重一些。
7)賽事消息發(fā)出后,有收到來(lái)自學(xué)界/業(yè)界的反饋嗎?
學(xué)術(shù)界和工業(yè)界的反饋都收到了,學(xué)術(shù)界上更關(guān)注比賽的形式、評(píng)價(jià)的方式,其中一些學(xué)者和專家給出了很中肯的建議。工業(yè)界的反饋集中在比賽的細(xì)節(jié)方面,如主題的選定,是否限制數(shù)據(jù)集的來(lái)源等等,也都在促進(jìn)群聊比賽的完善程度,在此一并表示感謝。
8)中國(guó)中文信息學(xué)會(huì)今年在舉辦賽事方面有哪些規(guī)劃?
中國(guó)中文信息學(xué)會(huì)下屬的專委會(huì)每年都會(huì)舉辦一些評(píng)測(cè),具體的信息可以參考中國(guó)中文信息學(xué)會(huì)官方網(wǎng)站上有關(guān) 2019 年學(xué)術(shù)會(huì)議及活動(dòng)的介紹(http://www.cipsc.org.cn/hcontent.php?xuhao=106)和相應(yīng)學(xué)術(shù)會(huì)議的官方網(wǎng)站。這里就我了解,今年 8 月 16-18 日在深圳舉辦的第八屆全國(guó)社會(huì)媒體處理大會(huì)上,會(huì)有 4 個(gè)技術(shù)評(píng)測(cè),我們牽頭組織的中文人機(jī)對(duì)話評(píng)測(cè)也在其中,已經(jīng)舉辦到第三屆。
賽事詳情
根據(jù)賽事最新通知,本次賽事的指定任務(wù)是在機(jī)器人群聊場(chǎng)景中根據(jù)已知群聊主題和歷史消息記錄,生成符合群聊主題和上下文邏輯的回復(fù),而且生成的回復(fù)要求流暢且與群聊對(duì)話主題相關(guān)。
具體詳情:
群聊主題
在任務(wù)中,主辦方會(huì)給定群聊主題,在每個(gè)主題下進(jìn)行輪對(duì)話 (N 表示參與群聊機(jī)器人總數(shù))。其中,主題包括但不限于醫(yī)療、交通、教育、金融等。
輪轉(zhuǎn)策略
在某個(gè)群聊主題下,主辦方將按一定策略初始化機(jī)器人回復(fù)順序,確保所有機(jī)器人的回復(fù)優(yōu)先級(jí)總體相同。而在其他群聊主題中,主辦方將多次輪番調(diào)換機(jī)器人回復(fù)順序,以保證最終評(píng)分環(huán)境的公平性。
消息決策
在評(píng)測(cè)任務(wù)中,當(dāng)主辦方向每個(gè)機(jī)器人請(qǐng)求回復(fù)時(shí),會(huì)提供當(dāng)前群聊主題和歷史消息記錄。參賽隊(duì)伍需要根據(jù)群聊主題和歷史消息記錄進(jìn)行相關(guān)決策,以生成合理的回復(fù)。
賽果評(píng)價(jià)方面,屆時(shí)會(huì)分為初賽 & 決賽兩個(gè)階段。在初賽階段,主辦方將采取自動(dòng)評(píng)價(jià)指標(biāo)對(duì)參賽隊(duì)伍進(jìn)行評(píng)價(jià),機(jī)器人在群聊中的性能表現(xiàn)將會(huì)作為排名依據(jù),這些指標(biāo)包括:
Topic:評(píng)估輸出回復(fù)和群聊主題的相關(guān)程度。
Perplexity:評(píng)估輸出回復(fù)的流暢性。
Distinct:評(píng)估輸出回復(fù)的多樣性。
BLEU:評(píng)估輸出回復(fù)相對(duì)于參考回復(fù)的 N-gram 重合度。
在決賽階段,主辦方則會(huì)采取人工評(píng)估的方式,以眾包的方式對(duì)每個(gè)群聊機(jī)器人的回復(fù)在以下三個(gè)方面進(jìn)行評(píng)價(jià):
Topic:生成的回復(fù)是否符合當(dāng)前群聊主題 (考慮主題)。
Fluency:生成回復(fù)的表達(dá)是否流暢,無(wú)語(yǔ)法錯(cuò)誤 (考慮句子)。
Appropriateness:生成的回復(fù)是否符合人們的日常交流習(xí)慣 (考慮上下文語(yǔ)境)。
出于一些考慮,本次比賽中將采取匿名評(píng)測(cè),即對(duì)外只公布參賽隊(duì)伍的代號(hào)和評(píng)測(cè)成績(jī),不會(huì)公布參賽隊(duì)伍的具體信息。
報(bào)名截止日期:8 月 28 日
按比賽通知中的要求,參賽隊(duì)伍需要提供聊天機(jī)器人的接口 API,主辦方將使用該接口 API 進(jìn)行群聊評(píng)測(cè)。需要注意的是,接口 API 的阻塞時(shí)間為 10s,若超時(shí)未回復(fù),則標(biāo)記回復(fù)失敗,多次回復(fù)失敗將影響最終評(píng)測(cè)得分。
以下為接口 API 的交互數(shù)據(jù)格式:
訓(xùn)練數(shù)據(jù)方面,參賽隊(duì)伍可以使用包括但不限于醫(yī)療、交通、教育、金融等主題的多方對(duì)話數(shù)據(jù)進(jìn)行模型訓(xùn)練。
對(duì)于有興趣參賽的單位,需在 2019 年 8 月 28 日前完成報(bào)名流程,屆時(shí)勝出的隊(duì)伍將有機(jī)會(huì)在中國(guó)中文信息學(xué)會(huì)召開(kāi)的論壇中進(jìn)行技術(shù) + 主題報(bào)告。
在線報(bào)名表,遇到問(wèn)題可聯(lián)系評(píng)測(cè)會(huì)務(wù)組:smp_mcc@163.com
雷鋒網(wǎng) AI 科技評(píng)論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。