丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社
發(fā)送

0

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

本文作者: AI研習(xí)社 編輯:賈智龍 2017-04-14 11:55
導(dǎo)語:人機(jī)對話可以分為以下四個子問題:開放域聊天、任務(wù)驅(qū)動的多輪對話、問答和推薦。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

雷鋒網(wǎng)按:本篇 “任務(wù)驅(qū)動多輪對話評測標(biāo)準(zhǔn)【人機(jī)對話評測系列之一】” 由三角獸 CEO Zhuoran Wang 提供。

三角獸科技 CEO Zhuoran Wang 博士曾參與 DSTC 2013 的評測,期間他提出的一種領(lǐng)域無關(guān)的對話狀態(tài)跟蹤算法曾獲 SIGDial 2013 國際會議最佳論文提名,該系統(tǒng)在 DSTC 2014(即 DSTC 2&3)中被用做官方 baseline 系統(tǒng)。


人工智能語義領(lǐng)域目前在國內(nèi)高速發(fā)展,資本的支持引發(fā)了新一輪創(chuàng)業(yè)大潮,泡沫也隨之而來。很多公司 DEMO 演示的 “黑科技” 和對 AI 終極態(tài)的吹捧,給行業(yè)發(fā)展帶來很大傷害。如何評測語義領(lǐng)域相關(guān)技術(shù)是大家共同關(guān)注的。基于多年理論和相關(guān)技術(shù)實(shí)踐的經(jīng)驗(yàn),針對語義領(lǐng)域的技術(shù),我們將會發(fā)表一系列詳盡解讀和評測標(biāo)準(zhǔn)文章。

人機(jī)對話,是人工智能領(lǐng)域的一個子方向,通俗的講就是讓人可以通過人類的語言(即自然語言)與計(jì)算機(jī)進(jìn)行交互。作為人工智能的終極難題之一,一個完整的人機(jī)對話系統(tǒng)涉及到的技術(shù)極為廣泛,例如計(jì)算機(jī)科學(xué)中的語音技術(shù),自然語言處理,機(jī)器學(xué)習(xí),規(guī)劃與推理,知識工程,甚至語言學(xué)和認(rèn)知科學(xué)中的許多理論在人機(jī)對話中都有所應(yīng)用?;\統(tǒng)的講,人機(jī)對話可以分為以下四個子問題:開放域聊天、任務(wù)驅(qū)動的多輪對話、問答和推薦

人機(jī)對話概述

我們通過下面的例子來說明這四類問題的不同體現(xiàn)。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

圖 1: 人機(jī)對話示例

開放域聊天:顧名思義,就是不局限話題的聊天,即在用戶的 query 沒用明確的信息或服務(wù)獲取需求(如 social dialogue)時系統(tǒng)做出的回應(yīng)。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

圖 1 中 1-2 行

為開放域聊天的典型示例


開放域聊天在現(xiàn)有的人機(jī)對話系統(tǒng)中,主要起到拉近距離,建立信任關(guān)系,情感陪伴,順滑對話過程(例如在任務(wù)類對話無法滿足用戶需求時)和提高用戶粘性的作用。

任務(wù)驅(qū)動的多輪對話:用戶帶著明確的目的而來,希望得到滿足特定限制條件的信息或服務(wù),例如:訂餐,訂票,尋找音樂、電影或某種商品,等等。因?yàn)橛脩舻男枨罂梢员容^復(fù)雜,可能需要分多輪進(jìn)行陳述,用戶也可能在對話過程中不斷修改或完善自己的需求。此外,當(dāng)用戶的陳述的需求不夠具體或明確的時候,機(jī)器也可以通過詢問、澄清或確認(rèn)來幫助用戶找到滿意的結(jié)果。

因此,任務(wù)驅(qū)動的多輪對話不是一個簡單的自然語言理解加信息檢索的過程,而是一個決策過程,需要機(jī)器在對話過程中不斷根據(jù)當(dāng)前的狀態(tài)決策下一步應(yīng)該采取的最優(yōu)動作(如:提供結(jié)果,詢問特定限制條件,澄清或確認(rèn)需求,等等)從而最有效的輔助用戶完成信息或服務(wù)獲取的任務(wù)。在學(xué)術(shù)文獻(xiàn)中所說的 Spoken Dialogue Systems(SDS)一般特指任務(wù)驅(qū)動的多輪對話。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

圖 1 中的 3-6 行

是一個音樂領(lǐng)域的任務(wù)驅(qū)動的多輪對話的例子

問答:更側(cè)重于一問一答,即直接根據(jù)用戶的問題給出精準(zhǔn)的答案。問答更接近一個信息檢索的過程,雖然也可能涉及簡單的上下文處理,但通常是通過指代消解和 query 補(bǔ)全來完成的。問答系統(tǒng)和任務(wù)驅(qū)動的多輪對話最根本的區(qū)別在于系統(tǒng)是否需要維護(hù)一個用戶目標(biāo)狀態(tài)的表示和是否需要一個決策過程來完成任務(wù)。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

圖 1 中 8-9 行,是一個問答的例子

推薦:前面的開放域聊天,任務(wù)驅(qū)動的多輪對話和問答系統(tǒng)本質(zhì)上都是被動的響應(yīng)用戶的 query,而推薦系統(tǒng)則是根據(jù)當(dāng)前的用戶 query 和歷史的用戶畫像主動推薦用戶可能感興趣的信息或者服務(wù),如圖 1 中第 7 行的例子。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

因?yàn)樯鲜龅乃念愊到y(tǒng)各自要解決的問題不同,實(shí)現(xiàn)技術(shù)迥異,用一套系統(tǒng)實(shí)現(xiàn)所有功能是不現(xiàn)實(shí)的。通常要將上述功能整合在一個應(yīng)用中,我們還需要一個中控決策模塊。之所以叫中控決策,是因?yàn)檫@個模塊不僅負(fù)責(zé)需求和問題的分類,還內(nèi)包括任務(wù)之間的澄清、確認(rèn)和跨領(lǐng)域的引導(dǎo),所以最理想的技術(shù)實(shí)現(xiàn)也應(yīng)該通過一個決策過程來完成[1]

商業(yè)應(yīng)用的人機(jī)對話系統(tǒng)根據(jù)應(yīng)用的場景不同既可以是同時綜合上述四類問題的復(fù)雜系統(tǒng),也可以單純解決其中一類問題。例如大家熟知的蘋果 Siri、微軟 Cortana、百度度秘等語音助手類產(chǎn)品就是集合上述四類問題綜合系統(tǒng)(但是 Siri 和 Cortana 的聊天功能并不能算開放域,而是人工為高頻的 query 編輯了對應(yīng)的話術(shù),當(dāng)用戶的聊天 query 不在預(yù)先配置的范圍內(nèi)時,系統(tǒng)則回復(fù) “我聽不懂” 之類的固定答案。而度秘的開放域聊天則是應(yīng)用了更先進(jìn)的基于海量數(shù)據(jù)的檢索式聊天技術(shù)。相關(guān)技術(shù)的討論超出了本文范疇,我們會在后續(xù)的文章中詳解。)目前的智能客服類系統(tǒng)則多以解決問答和推薦類問題為主;微軟推出的 “小冰”,包括后繼推出的同類型產(chǎn)品日文版 Rinna、英文版 Zo 和 Ruuh,主打的就是開放域聊天;而許多訂票,訂酒店類的對話系統(tǒng)則是任務(wù)驅(qū)動的多輪對話的典型應(yīng)用。

問答和推薦是比較經(jīng)典的問題,各自的技術(shù)和評估體系業(yè)界也相對熟悉。所以這篇文章先從任務(wù)驅(qū)動的多輪對話講起。

任務(wù)驅(qū)動的多輪對話

首先我們來科普一下任務(wù)驅(qū)動的多輪對話系統(tǒng)。圖 2 為學(xué)術(shù)文獻(xiàn)中任務(wù)驅(qū)動的多輪對話系統(tǒng)的一個經(jīng)典框圖。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

圖 2: 任務(wù)驅(qū)動的多輪對話系統(tǒng)的一個經(jīng)典框圖

自然語言理解:將自然語言的 query 識別成結(jié)構(gòu)化的語義表示。在對話系統(tǒng)中,這個結(jié)構(gòu)化的語義表示通常被稱作 dialogue act 由 communicative function 和 slot-value pairs 組成,其中 communicative function 表示 query 的類型(如:陳述需求,詢問屬性,否定,選擇疑問,等等)而每個 slot-value pair 則表達(dá)一個限制條件(constraint),也可理解為用戶目標(biāo)的一個組成單元。

例如 “我要西二旗附近的川菜” 對應(yīng)的 dialogue act 可以表示為 inform(foodtype = 川菜,location = 西二旗)。這里 “inform” 就是 communicative function,表示陳述需求,“foodtype = 川菜” 和 “l(fā)ocation = 西二旗” 是限制條件(slot-value pairs) 。常用的 communicative function 定義可以參考劍橋大學(xué)的對話系統(tǒng)中使用的集合[2],而語言學(xué)家 Harry Bunt 等人則總結(jié)出了一套 ISO-24617-2 標(biāo)準(zhǔn)包含 56 個 communicative function 的定義,以及它的擴(kuò)展集 DIT++ 包含 88 種定義。但由于 ISO-24617-2 和 DIT++ 體系過于復(fù)雜,通常的任務(wù)驅(qū)動類對話系統(tǒng)只用到其中很小一個子集就足夠滿足需求了,不過感興趣的讀者可以參考 DIT++ 網(wǎng)站(1)。

由于對話系統(tǒng)更關(guān)注口語處理,而且通常是處理經(jīng)過了語音識別后的口語,所以在這個領(lǐng)域,我們通常說 Spoken Language Understanding(SLU),以突出與廣義的自然語言理解的不同,并蘊(yùn)含了對非嚴(yán)謹(jǐn)語法和語音識別錯誤魯棒的問題。

對話狀態(tài)跟蹤:坦率的講這個翻譯有點(diǎn)兒詭異,英文中這個概念叫 Dialogue State Tracking(DST),看起來就是順眼得多。概括的說,對話狀態(tài)跟蹤就是根據(jù)多輪的對話來確定用戶當(dāng)前的目標(biāo)(user goal)到底是什么的過程。為了更好的理解這個過程,我們先來看看什么是對話狀態(tài)。一個對話狀態(tài)中,最主要的信息是用戶的目的,即 user goal。用戶目的的表示形式是一組 slot-value pairs 的組合。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

圖 1 中 3-6 行

概率分布,稱作置信狀態(tài)(belief state 或者 belief)。所以,對話狀態(tài)跟蹤有時也稱作置信狀態(tài)跟蹤(belief state tracking)。

為了方便后面的講解,這里再介紹兩個概念,用戶的目的在一個置信狀態(tài)中的表示可以分為兩部分:首先每個 slot 上都可以有多個可能的 value,每個 value 對應(yīng)一個置信概率,這就形成了每個 slot 上的邊緣置信狀態(tài)(marginal belief);然后這些可能的 slot-value pairs 的組合的概率分布就形成的聯(lián)合置信狀態(tài)(joint be 仍以圖 1 中 3-6 行的對話為例,當(dāng)對話進(jìn)行到第 3 行時,用戶的目的是 “occasion = 跑步”,到第 5 行時,這個目的就變成了 “occasion = 跑步,language = 英文”。對話狀態(tài)中還可以記錄完成對話任務(wù)所需的其他額外信息,例如用戶當(dāng)前詢問的屬性(requested slots),用戶的交互方式(communication method),和用戶或系統(tǒng)的歷史對話動作(dialogue history)等等。

此外,大家應(yīng)該已經(jīng)注意到無論 ASR 或者 SLU 都是典型的分類問題,既然是分類就會有誤差,于是這給任務(wù)驅(qū)動的對話系統(tǒng)引入了一個在不確定性環(huán)境下決策的問題(planning under uncertainty)。雖然最終的決策是由下面要介紹的對話策略完成的,但是對話狀態(tài)需要為后面的決策提供依據(jù),也就是如何刻畫這個不確定性的問題。要解決這個問題,首先我們希望 ASR 或 SLU(或兩者)在輸出分類結(jié)果的同時輸出一個置信度打分,最好還能給出多個候選結(jié)果(n-best list)以更好的保證召回。然后對話狀態(tài)跟蹤模塊在上述置信度和 n-best list 的基礎(chǔ)上,不僅需要維護(hù)一個對話狀態(tài),而是估計(jì)所有可能的對話狀態(tài)的  belief),也就是用戶完整目的的概率分布。通常對話系統(tǒng)的決策過程需要參考這兩部分信息才能找到最優(yōu)的對話策略。

對話策略:即 policy,是根據(jù)上面介紹的置信狀態(tài)來決策的過程。對話策略的輸出是一個系統(tǒng)動作(system action)。和用戶的 dialogue act 類似,系統(tǒng)動作也是一個由 communicative function 和 slot-value pairs 組成的語義表示,表明系統(tǒng)要執(zhí)行的動作的類型和操作參數(shù)?!懊看螞Q策的目標(biāo)不是當(dāng)前動作的對與錯,而是當(dāng)前動作的選擇會使未來收益的預(yù)期(expected long-term reward)最大化”。

自然語言生成:natural language generation(NLG)的任務(wù)是將對話策略輸出的語義表示轉(zhuǎn)化成自然語言的句子,反饋給用戶。

有了上面的基礎(chǔ)知識,我們就可以進(jìn)入正題了:如何評估一個任務(wù)驅(qū)動的多輪對話系統(tǒng)?下面我們就分對話狀態(tài)跟蹤和對話策略兩部分詳細(xì)介紹。

等一下,為什么不講 SLU 和 NLG?先說 SLU,其本質(zhì)就是一個結(jié)構(gòu)化分類的問題,雖然所用到的模型可能千差萬別,繁簡不一,但是評估標(biāo)準(zhǔn)比較明確,無非是準(zhǔn)確率、召回率、F-score 等,所以這里就不詳細(xì)論述了。至于 NLG,據(jù)我所知目前的商業(yè)應(yīng)用的對話系統(tǒng)中的 NLG 部分主要是靠模板解決的,所以也沒什么可評估的。不是說 NLG 問題本身簡單,而是現(xiàn)有對話系統(tǒng)的能力還遠(yuǎn)沒達(dá)到要靠優(yōu)化 NLG 來提升用戶體驗(yàn)的程度,前面一系列的問題還都沒解決到極致,模板話術(shù)死板這事兒根本不是瓶頸所在。當(dāng)然,學(xué)術(shù)界對 NLG 問題早有很多年的研究積累,感興趣的讀者可以參考我前前前雇主赫瑞瓦特大學(xué)交互實(shí)驗(yàn)室 Oliver Lemon,Helen Hastie 和 Verena Rieser,霍爾大學(xué) Nina Dethlefs,還有劍橋大學(xué)對話組 Tsung-Hsien Wen 的工作。

對話狀態(tài)跟蹤的評估方法:從 Dialog State Tracking Challenge 談起

雖然對話狀態(tài)跟蹤本質(zhì)上也是一個分類問題,但作為輔助對話策略決策的一個關(guān)鍵步驟,DST 維護(hù)的是一個概率分布,那么這里就引入了兩個問題:(1)怎樣衡量一個概率分布的優(yōu)劣;(2)在哪一輪評估合適。下面我們就結(jié)合 2013 年 Dialog State Tracking Challenge(DSTC)(2) 的評估結(jié)果來分析一下這些問題。

DSTC 2013 是國際上第一屆對話狀態(tài)跟蹤任務(wù)的公開評測,由微軟研究院,本田研究院和卡內(nèi)基 · 梅隴大學(xué)聯(lián)合組織。評測數(shù)據(jù)來自匹斯堡公車路線電話自動查詢系統(tǒng) 3 年間的真實(shí)用戶 log。評測提供 5 組訓(xùn)練集和 4 組測試集,分別用于測試以下四種情況:

(1)有與測試集來自完全相同的 ASR、SLU 和對話策略的訓(xùn)練數(shù)據(jù);

(2)有與測試集來自完全相同的 ASR 和 SLU 的訓(xùn)練數(shù)據(jù),但對話策略不同;

(3)只有少量與測試集來自完全相同的 ASR、SLU 和對話策略的訓(xùn)練數(shù)據(jù);

(4)產(chǎn)生測試數(shù)據(jù)的 ASR、SLU 和對話策略均與產(chǎn)生訓(xùn)練樣本的系統(tǒng)不同。

除了兩組訓(xùn)練集只有 ASR 的標(biāo)注外,其它訓(xùn)練集均提供了人工標(biāo)注的 ASR、SLU 和 DST 結(jié)果。此次評測共有 11 個團(tuán)隊(duì)參與,提交了 27 個系統(tǒng)。因?yàn)槭堑谝淮卧u測,主辦方提出了 11 種評測指標(biāo)和 3 種評測時機(jī)(schedule)作為參考,詳細(xì)說明如下:

  • Hypothesis accuracy: 置信狀態(tài)中首位假設(shè)(top hypothesis)的準(zhǔn)確率。此標(biāo)準(zhǔn)用以衡量首位假設(shè)的質(zhì)量。

  • Mean reciprocal rank: 1/R 的平均值,其中 R 是第一條正確假設(shè)在置信狀態(tài)中的排序。此標(biāo)準(zhǔn)用以衡量置信狀態(tài)中排序的質(zhì)量。

  • L2-norm: 置信狀態(tài)的概率向量和真實(shí)狀態(tài)的 0/1 向量之間的 L2 距離。此標(biāo)準(zhǔn)用以衡量置信狀態(tài)中概率值的質(zhì)量。

  • Average probability: 真實(shí)狀態(tài)在置信狀態(tài)中的概率得分的平均值。此標(biāo)準(zhǔn)用以衡量置信狀態(tài)對真實(shí)狀態(tài)的概率估計(jì)的質(zhì)量。

  • ROC performance: 如下一系列指標(biāo)來刻畫置信狀態(tài)中首位假設(shè)的可區(qū)分性

  • Equal error rate: 錯誤接受率(false accepts,F(xiàn)As) 和錯誤拒絕率(false rejects,F(xiàn)Rs)的相交點(diǎn)(FA=FR)。

  • Correct accept 5/10/20: 當(dāng)至多有 5%/10%/20% 的 FAs 時的正確接受率(correct accepts,CAs)。

上述 ROC 曲線相關(guān)指標(biāo)采取了兩種 ROC 計(jì)算方式。第一種方式計(jì)算 CA 的比例時分母是所有狀態(tài)的總數(shù)。這種方式綜合考慮了準(zhǔn)確率和可區(qū)分度。第二種方式計(jì)算 CA 的比例時分母是所有正確分類的狀態(tài)數(shù)。這種計(jì)算方式單純考慮可區(qū)分度而排出準(zhǔn)確率的因素。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

圖 3:DSTC 2013 提交的系統(tǒng)根據(jù)上述 11 種評估指標(biāo)

排序結(jié)果的不同程度[3]  圓圈的半徑越小表示結(jié)果越相似


上述評估標(biāo)準(zhǔn)從不同角度衡量了置信狀態(tài)的質(zhì)量,但從 DSTC 2013 提交的系統(tǒng)結(jié)果分析可以看出一些標(biāo)準(zhǔn)之間有很強(qiáng)的相關(guān)性,如圖 3 所示。所以在后續(xù)的 DSTC 2014 評測中選取了上述 11 中指標(biāo)的一個子集作為主要評估指標(biāo)。

DSTC 2013 還提出了三種評測的時機(jī),分別為:

  • Schedule 1: 每輪對話都做評估;

  • Schedule 2: 對于一個概念(slot-value pair),只有在這個概念被提及時才評估; 

  • Schedule 3: 在每個對話結(jié)束時評估。

可以看出上述三種評估時機(jī)中,schedule 2 更能體現(xiàn)在真實(shí)應(yīng)用中的價值。而 schedule 1 是有偏執(zhí)的,因?yàn)楫?dāng)一個概念被提及后,如果用戶或系統(tǒng)沒有對其修改的操作,多數(shù)情況下其置信狀態(tài)的估計(jì)不會改變,這個結(jié)果會一直保持多個對話輪次,這樣無論這個估計(jì)的質(zhì)量優(yōu)劣,都會被計(jì)算多次,對評估指標(biāo)的均值產(chǎn)生影響。Schedule 3 的問題在于忽略了置信狀態(tài)質(zhì)量在對話過程中的影響,即一個概念如果在對話過程中被多次提及或澄清過,那么在對話過程中這個概念對應(yīng)的置信概率的變化被忽略了。其實(shí) schedule 2 也有一定的局限性,如果概念之間有沖突或相互影響,即當(dāng)用戶或系統(tǒng)提及一個概念時會潛在的影響其他在當(dāng)前輪未被提及的概念的置信概率時,schedule 2 就無法衡量這個影響造成的狀態(tài)變化。

次年,劍橋大學(xué)組織了兩次 DSTC 評測(DSTC 2 & 3 (3) ),分別提出了兩項(xiàng)新的挑戰(zhàn)。在 DSTC2 中,對話的場景選為在劍橋找餐廳的問題。與 DSTC 2013 不同,此次評測假定用戶的目標(biāo)在對話過程中是可以改變的;隨后在 DSTC 3 中,對話場景從找餐廳擴(kuò)展到找餐廳或酒店。但 DSTC 3 除了極少量供調(diào)試用的種子數(shù)據(jù)外并不提供額外的訓(xùn)練數(shù)據(jù),參評團(tuán)隊(duì)需要只用 DSTC 2 的訓(xùn)練數(shù)據(jù)訓(xùn)練模型,并遷移至 DSTC3 的測試集上。這兩次評測的主要評估指標(biāo)均為基于 schedule 2 的 accuracy,L2 norm 和 ROC CA 5。

之后的兩年中,新加坡的 I2R A*STAR 研究所組織了 DSTC 4 (4) 和 DSTC 5 (5) 的評測 。主要評測目標(biāo)是對在旅游場景下人和人對話中的對話狀態(tài)建模。其中,DSTC 5 在 DSTC 4 的基礎(chǔ)上提出通過機(jī)器翻譯實(shí)現(xiàn)跨語言對話建模的挑戰(zhàn)。由于這兩次評測的數(shù)據(jù)來自人工標(biāo)注,并沒有引入 ASR 和 SLU,所以選用的評估指標(biāo)是基于 schedule1 和 schedule 2 的 accuracy ,外加參評系統(tǒng)輸出的 slot-value pairs 的準(zhǔn)確率、召回率和 F-score。

現(xiàn)有的對話狀態(tài)跟蹤的評測標(biāo)準(zhǔn)有一定的局限性。主要問題在于,上述評估機(jī)制完全基于結(jié)構(gòu)化的語義和對話狀態(tài)表示。而在真實(shí)的商業(yè)應(yīng)用對話系統(tǒng)中,為了更大程度的滿足用戶的需求,往往會采用結(jié)構(gòu)化表示和非結(jié)構(gòu)表示相結(jié)合的方法。例如,在第四代小米電視的對話系統(tǒng)中,三角獸科技就提供了模糊語義理解技術(shù),在用戶搜索視頻的目的無法完全結(jié)構(gòu)化表示時能夠更精準(zhǔn)的滿足用戶的需求。但是這種非結(jié)構(gòu)化的表示則不適于用上述的評測標(biāo)準(zhǔn)進(jìn)行評估,而應(yīng)通過評估整體的對話效果來評測。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

2017 小米 4A 電視發(fā)布會中對三角獸科技表示感謝

對話策略的評估

首先,我們再次說明,因?yàn)閷υ挷呗允且粋€決策過程,無法評估單輪決策結(jié)果的優(yōu)劣。所以對話策略的評估通常是通過評估整體對話系統(tǒng)的效果來實(shí)現(xiàn)的。

一個任務(wù)驅(qū)動的多輪對話系統(tǒng)的核心目的是最有效的幫助用戶完成信息或服務(wù)獲取的任務(wù)。那么,評估一個任務(wù)驅(qū)動的對話系統(tǒng)的好壞最直接的兩個指標(biāo)就是任務(wù)完成率平均對話輪數(shù)。其中,任務(wù)完成率越高越好,而在同等對話完成率的基礎(chǔ)上,平均對話輪數(shù)越少越好。理想的情況下,統(tǒng)計(jì)上述指標(biāo)需要有真人參與對話。(雖然早期的對話系統(tǒng)研究中也有通過對話模擬器進(jìn)行自動評估的先例[4],但是對話模擬器自身的質(zhì)量引入了另一個維度的問題。)獲得上述的統(tǒng)計(jì)結(jié)果,我們既可以離線標(biāo)注真實(shí)用戶與對話系統(tǒng)交互的 log[5],也可以預(yù)先(隨機(jī))產(chǎn)生用戶目的,再讓真人實(shí)驗(yàn)員按照指定的目的進(jìn)行對話[6]。后者,可以通過 Amazon Mechanical Turk 類的眾測平臺完成[6]。此外,如果進(jìn)行眾測類實(shí)驗(yàn),還應(yīng)注意兩個問題:(1)通常我們除了需要自動統(tǒng)計(jì)客觀的任務(wù)完成率(通過匹配預(yù)先指定的用戶目的和機(jī)器輸出的結(jié)果),還應(yīng)要求測試用戶提供主觀感知到的任務(wù)完成情況。因?yàn)楦鶕?jù)以往的研究經(jīng)驗(yàn),這兩個結(jié)果的絕對值會有較大出入[6];(2)造成主客觀任務(wù)完成率差異的主要原因是測試用戶因?yàn)楦鞣N原因在陳述需求時并未能準(zhǔn)確完整的表達(dá)預(yù)定義的目的。因此,我們還需要一個檢測機(jī)制來檢驗(yàn)用戶陳述的需求和系統(tǒng)輸出結(jié)果的匹配程度[6]。

這里值得一提的是,據(jù)我所知唯一一次端到端對話系統(tǒng)的公開評測是 Spoken Dialog Challenge 2010,其選用的主要評估指標(biāo)就是任務(wù)完成率和平均對話輪數(shù)。

總結(jié)

評測一個任務(wù)驅(qū)動的多輪對話系統(tǒng),主要涉及評測自然語言理解、對話狀態(tài)跟蹤和對話策略三個部分。自然語言理解是一個典型的分類問題,可以通過準(zhǔn)確率、召回率和 F-score 等指標(biāo)進(jìn)行評測。對話狀態(tài)跟蹤,作為輔助對話策略的一個中間環(huán)節(jié),業(yè)界已總結(jié)出一系列的評測標(biāo)準(zhǔn),詳情請參考?xì)v屆 DSTC 公開評測。而對話策略的質(zhì)量通常需要通過對話系統(tǒng)的整體效果來體現(xiàn),其主要評測指標(biāo)是任務(wù)完成率和平均對話輪數(shù)。


參考文獻(xiàn)

[1]  Z Wang, H Chen, G Wang, H Tian, H Wu & H Wang (2014) Policy Learning for Domain Selection in an Extensible Multi-domain Spoken Dialogue System. In Proceedings of Conference on Empirical Methods on Natural Language Processing (EMNLP 2014) .

[2]  B Thomson & S Young (2010) Bayesian update of dialogue state: A POMDP framework for spoken dialogue systems. Computer Speech & Language 24 (4) , 562-588 .

[3]  J Williams, A Raux, D Ramachandran & A Black (2013) The dialog state tracking challenge. In Proceedings of the SIGDIAL 2013 Conference .

[4]  K Scheffler & S Young (2001) Corpus-based dialogue simulation for automatic strategy learning and evaluation. In Proceedings of NAACL Workshop on Adaptation in Dialogue Systems .

[5]  A Black, S Burger, A Conkie, H Hastie, S Keizer, O Lemon, N Merigaud, G Parent, G Schubiner, B Thomson, J Williams, K Yu, S Young, & M Eskenazi (2011) Spoken Dialog Challenge 2010 : Comparison of Live and Control Test Results. In Proceedings of the SIGDIAL 2011 Conference .

[6]  F Jurc?cek, S Keizer, M Ga?ic, F Mairesse, B Thomson, K Yu & S Young (2011) Real user evaluation of spoken dialogue systems using Amazon Mechanical Turk. In Proceedings of INTERSPEECH .


相關(guān)鏈接

(1)DIT++ 主頁:https://dit.uvt.nl

(2)Dialog State Tracking Challenge(DSTC): https://www.microsoft.com/en-us/research/event/dialog-state-tracking-challenge/

(3)DSTC 2 & 3:http://camdial.org/~mh521/dstc

(4)DSTC 4:http://www.colips.org/workshop/dstc4

(5)DSTC 5:http://workshop.colips.org/dstc5/tasks.html


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

任務(wù)驅(qū)動的多輪對話究竟該如何實(shí)現(xiàn)?

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請?jiān)L問:yanxishe.com
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說