丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
智能硬件 正文
發(fā)私信給張丹
發(fā)送

1

機(jī)器人聊天的秘密|雷鋒網(wǎng)公開課

本文作者: 張丹 2016-12-16 15:10 專題:雷峰網(wǎng)公開課
導(dǎo)語(yǔ):本期公開課請(qǐng)到了開放域聊天和 chatbot 頂尖專家——三角獸科技的 CTO 亓超,為大家揭開機(jī)器人聊天的秘密。

語(yǔ)義理解簡(jiǎn)單來(lái)說(shuō),就是讓計(jì)算機(jī)聽懂用戶說(shuō)了什么,然后可以進(jìn)一步回答用戶的問(wèn)題或與用戶對(duì)話。這類技術(shù)在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用有大家比較熟知的微軟小冰與百度度秘。錘子手機(jī)中 Bigbang 功能也是基于語(yǔ)義理解技術(shù)中的語(yǔ)義分析功能進(jìn)行的創(chuàng)新。本期公開課請(qǐng)到了開放域聊天和 chatbot 頂尖專家——三角獸科技的 CTO 亓超,為大家揭開機(jī)器人聊天的秘密。

| 嘉賓介紹:

亓超,自然語(yǔ)言處理方向碩士,AI領(lǐng)域開放域聊天和chatbot頂尖專家,10年科研與工程經(jīng)驗(yàn)。

曾在佳能、騰訊、阿里負(fù)責(zé)推薦算法和人機(jī)對(duì)話系統(tǒng)研發(fā);2014年微軟小冰開放域聊天技術(shù)創(chuàng)始人;百度T8Lead;度秘聊天技術(shù)負(fù)責(zé)人;從零寫了微軟小冰和百度度秘唯一兩款目前有實(shí)際應(yīng)用的交互系統(tǒng)。

機(jī)器人聊天的秘密|雷鋒網(wǎng)公開課

| 講課實(shí)錄整理:

雷鋒網(wǎng):可以簡(jiǎn)單介紹下三角獸嗎?

亓超:三角獸科技成立于今年年初,核心技術(shù)方向是人工智能交互系統(tǒng),目標(biāo)成為智能生活軟硬件背后的主流交互系統(tǒng),團(tuán)隊(duì)現(xiàn)接近三十人,以BAT微軟樂(lè)視等一線AI團(tuán)隊(duì)為主。 

CEO王卓然,University College London PhD,在英國(guó)10年,從事理論機(jī)器學(xué)、統(tǒng)計(jì)機(jī)器翻譯,自然語(yǔ)言處理、語(yǔ)音聊天系統(tǒng)、統(tǒng)計(jì)對(duì)話系統(tǒng)、 多模態(tài)人與機(jī)器人交互、水下無(wú)人艇人機(jī)交互等多方向研究和實(shí)踐。在頂級(jí)國(guó)際會(huì)議與期刊上發(fā)表多篇論文,曾是百度T8Lead,度 秘App/小度機(jī)器人中控策略技術(shù)負(fù)責(zé)人。

COO馬宇馳,中國(guó)傳媒大學(xué)新聞媒體管理方向?qū)W士,10年市場(chǎng)和品牌經(jīng)驗(yàn),連續(xù)創(chuàng)業(yè)者,曾做過(guò)微信微博營(yíng)銷公司,2014年O2O廚師上門公司由 徐小平投資。曾在Viacom集團(tuán)中國(guó)區(qū)CBSOut door服務(wù)可口可樂(lè)、統(tǒng)一、愛(ài)國(guó)者3年。曾在奧美公關(guān)任Intel筆記本處理器公關(guān)經(jīng) 理,主推“酷?!眱蓚€(gè)字。曾在Amway China負(fù)責(zé)企業(yè)品牌和廣告投放工作。

技術(shù)合伙人陳華榮,中國(guó)科學(xué)院計(jì)算機(jī)軟件與理論專業(yè)碩士,在微軟工作11年,2013-16年Bing和Office的Exchange部門高級(jí)Lead,2005-10年在微軟亞 洲研究院研制Exchange12和14,2010-13年,微軟西雅圖總部研發(fā)Exchange15。

技術(shù)合伙人王寶勛,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)博士,微軟小冰首席機(jī)器學(xué)習(xí)科學(xué)家,發(fā)表多篇國(guó)際學(xué)術(shù)論文,學(xué)術(shù)經(jīng)驗(yàn)積累深厚。第二到第四代核心高級(jí) 研發(fā)工程師,負(fù)責(zé)小冰智能對(duì)話引擎、圖像智能對(duì)話引擎、垂直領(lǐng)域?qū)υ捯娴群诵募夹g(shù)。

技術(shù)合伙人李彥,上海復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)專業(yè)碩士,前樂(lè)視推薦算法高級(jí)Lead,曾在阿里、人民搜索擔(dān)任推薦算法方向工程師,后在百度聯(lián)盟事業(yè)部、 360商業(yè)產(chǎn)品事業(yè)部任高級(jí)研發(fā)工程師。

戰(zhàn)略合伙人何晉,北京科技大學(xué)設(shè)備工程學(xué)士,廚臨門戰(zhàn)略合作合伙人,靈境VR渠道總監(jiān),前百度和美團(tuán)外賣全國(guó)連鎖餐飲大客戶部項(xiàng)目負(fù)責(zé)人 

技術(shù)上,在開放領(lǐng)域聊天系統(tǒng),任務(wù)驅(qū)動(dòng)的人機(jī)對(duì)話系統(tǒng),搜索及推薦引擎技術(shù)等方面有深厚的積累,商業(yè)客戶,IoT行業(yè)標(biāo)桿客戶,如Rokid,錘子,威馬汽車,騰訊等,另外為這些客戶提供的支持也是不一樣的,開放域聊天,錘子領(lǐng)域應(yīng)用,多輪對(duì)話,語(yǔ)義技術(shù)都有,證明了我們技術(shù)實(shí)力和技術(shù)到產(chǎn)品落地的能力

資本融資4月份洪泰和天善1000萬(wàn)天使,8月君聯(lián)和賽富2000萬(wàn)preA,目前正在A輪的路上,計(jì)劃春節(jié)前close。

錘子新一代手機(jī)Big Bang功能的核心算法模塊,Rokid機(jī)器人聊天系統(tǒng),威馬汽車車載前裝的音樂(lè)和導(dǎo)航模塊,此外,還有一些推進(jìn)中的項(xiàng)目,其中包括3家巨頭公司,4家手機(jī),2家車載后裝,和一些機(jī)器人公司,以及為消費(fèi)者提供信息和提供服務(wù)的企業(yè)客戶。

雷鋒網(wǎng):在您看來(lái),目前語(yǔ)義理解技術(shù)主要用在哪些場(chǎng)景和應(yīng)用里?

亓超:語(yǔ)義技術(shù)是自然語(yǔ)言處理(NLP)方向很重要的一個(gè)部分,三角獸科技優(yōu)勢(shì)和積累也主要在NLP方向。

自然語(yǔ)言處理(NLP) 的研發(fā)有很久的歷史,特別是在互聯(lián)網(wǎng)發(fā)展起來(lái)后, 在很多場(chǎng)景里都有應(yīng)用例如:

  •   搜索引擎中的排序算法及廣告推薦系統(tǒng)

  •   機(jī)器翻譯, 輸入法

  •   電商, 視頻, 及新聞的個(gè)性化及推薦系統(tǒng)

  •   等等

 這些系統(tǒng)的背后都會(huì)涉及到NLP問(wèn)題。

雷鋒網(wǎng):國(guó)內(nèi)語(yǔ)義理解技術(shù)的現(xiàn)狀是怎樣的呢?

亓超:國(guó)內(nèi)NLP及相關(guān)的技術(shù)目前BAT,360等互聯(lián)網(wǎng)大企業(yè)都有不錯(cuò)的積累。其他互聯(lián)企業(yè)也有非常好的算法團(tuán)隊(duì), 例如今日頭條等等。

很多產(chǎn)品線,例如百度度搜索,都會(huì)有各自的算法團(tuán)隊(duì)在支持, 其中NLP的算法支持占了比較大的比例,單從NLP基礎(chǔ)技術(shù)本身, 百度和MSRA的NLP團(tuán)隊(duì)無(wú)論從規(guī)模和深度上都有強(qiáng)大優(yōu)勢(shì),國(guó)內(nèi)的大學(xué)里哈工大在這個(gè)方向有強(qiáng)大的實(shí)力和積累,創(chuàng)業(yè)公司在這方面會(huì)面臨人才稀缺的壓力, 比較難形成一個(gè)很好的算法團(tuán)隊(duì)。

雷鋒網(wǎng):相比做語(yǔ)音識(shí)別的公司,提供語(yǔ)義理解的團(tuán)隊(duì)看似要少一些,其中的難點(diǎn)是什么? 

亓超:兩者在各自方向上都有各自的難點(diǎn)。

語(yǔ)音識(shí)別和合成相對(duì)語(yǔ)義理解來(lái)說(shuō), 技術(shù)上相對(duì)成熟。并且很早就作為相對(duì)獨(dú)立的服務(wù)進(jìn)行包裝, 較為容易進(jìn)行產(chǎn)品的落地。 例如,地圖服務(wù)的導(dǎo)航功能 包含了識(shí)別與合成兩部分。另一方面從事語(yǔ)音技術(shù)的公司起步都比較早, 例如科大訊飛, 云知聲, 思必馳等, NLP相關(guān)技術(shù)落地到具體產(chǎn)品也非常依賴于應(yīng)用場(chǎng)景,相關(guān)團(tuán)隊(duì)多在大公司里作為某個(gè)產(chǎn)品線的算法團(tuán)隊(duì)來(lái)進(jìn)行支持 

雖然越來(lái)越受到關(guān)注, 但NLP及相關(guān)算法人才特別是有經(jīng)驗(yàn)的從業(yè)者仍然非常稀缺, 促使從業(yè)者的收入水平較高, 人力成本占了比較大的比例。另外如果是ToC的商業(yè)模式, 那么運(yùn)營(yíng)成本也會(huì)占去較大比例

雷鋒網(wǎng):理解中的語(yǔ)義理解公司往往需要大量標(biāo)記好的語(yǔ)料數(shù)據(jù),這些數(shù)據(jù)如何形成?

亓超:

  • 1. 并不是所有NLP問(wèn)題的解決都要依靠大量標(biāo)注數(shù)據(jù), 問(wèn)題的解決方案也分統(tǒng)計(jì)方法的和規(guī)則方法的,這個(gè)好比要擰一個(gè)螺絲使用普通螺絲刀還是電動(dòng)螺絲刀,電動(dòng)螺絲刀需要電,普通的不需要;

  •  2. 數(shù)據(jù)標(biāo)注也并不一定是要純靠人來(lái)進(jìn)行操作, 很多結(jié)構(gòu)化和半結(jié)構(gòu)化的信息可以用來(lái)讓機(jī)器進(jìn)行學(xué)習(xí), 例如電商的打分及評(píng)論數(shù)據(jù)可以用來(lái)進(jìn)行觀點(diǎn)分類的學(xué)習(xí)任務(wù);

  •  3. 未標(biāo)注的語(yǔ)料很多時(shí)候的作用是很大的, 例如目前比較熱門的DNN技術(shù), 在很多場(chǎng)景下是使用未標(biāo)注的數(shù)據(jù)進(jìn)行數(shù)據(jù)及特征的表示學(xué)習(xí)。

雷鋒網(wǎng):就三角獸而言,我們目前有多少這樣的數(shù)據(jù)?

亓超:數(shù)據(jù)是我們的核心資源,數(shù)據(jù)抓取及建設(shè)會(huì)是我們長(zhǎng)期的重點(diǎn)。以我們開放領(lǐng)域聊天系統(tǒng)依賴的數(shù)據(jù)舉例:

  •   百億級(jí)的人人對(duì)話數(shù)據(jù)(未標(biāo)注生語(yǔ)料);

  •   億級(jí)的面向不同任務(wù)的有標(biāo)簽或輔助信息的數(shù)據(jù)(未標(biāo)注數(shù)據(jù), 但可以進(jìn)行數(shù)據(jù)處理后, 針對(duì)不同任;務(wù)可以用與進(jìn)行機(jī)器學(xué)習(xí)任務(wù));

  •   千萬(wàn)級(jí)的有豐富標(biāo)簽精品數(shù)據(jù)(采用人機(jī)結(jié)合的方法進(jìn)行標(biāo)注, 形成精品語(yǔ)料);

  •   已有并正在建設(shè)的百萬(wàn)級(jí)的標(biāo)注數(shù)據(jù)(采用人機(jī)結(jié)合的方法進(jìn)行標(biāo)注, 形成精品語(yǔ)料, 每天新增數(shù)萬(wàn)條)。

雷鋒網(wǎng):無(wú)論小冰還是度秘,都在最初注入了大量關(guān)聯(lián)業(yè)務(wù)或者公開的數(shù)據(jù)(據(jù)說(shuō)小冰是微博、度秘是貼吧),三角獸怎么解決冷啟動(dòng)的數(shù)據(jù)問(wèn)題的?

主持人:小冰及度秘使用的大部分?jǐn)?shù)據(jù)都是互聯(lián)網(wǎng)公開可見(jiàn)的數(shù)據(jù)(例如BBS或社區(qū)等人與人間的對(duì)話數(shù)據(jù)), 這些數(shù)據(jù)無(wú)論是大公司還是小公司都是可以公平獲取的。三角獸成立之初便已開始在各大bbs和社區(qū)進(jìn)行大量的數(shù)據(jù)的抓取及語(yǔ)料的清洗。

雷鋒網(wǎng):一個(gè)完整的聊天機(jī)器人或者多輪對(duì)話系統(tǒng),應(yīng)該包含哪些技術(shù)模塊?

亓超:聊天系統(tǒng)及對(duì)話系統(tǒng)是個(gè)龐雜的系統(tǒng)模塊 有張技術(shù)分解圖share給大家來(lái)參考。

機(jī)器人聊天的秘密|雷鋒網(wǎng)公開課

雷鋒網(wǎng):看到圖片中對(duì)不同的模塊進(jìn)行了顏色區(qū)分,可以詳細(xì)介紹下嗎?

亓超:最下面這一層是依賴的基礎(chǔ)技術(shù)系列 上面藍(lán)色這層是利用基礎(chǔ)技術(shù)構(gòu)造的基礎(chǔ)技術(shù)模塊,中間橙色是利用基礎(chǔ)技術(shù)模塊構(gòu)造的子系統(tǒng),上面兩層是將子系統(tǒng)進(jìn)行封裝 對(duì)外提供打包服務(wù)api應(yīng)用層。

雷鋒網(wǎng):多輪對(duì)話系統(tǒng)開發(fā)起來(lái),與單輪對(duì)話系統(tǒng)的差異主要是哪些?

亓超:其實(shí)嚴(yán)格來(lái)講, 沒(méi)有單純的單輪對(duì)話系統(tǒng) 涉及對(duì)話系統(tǒng)一定是要考慮上下文的處理, 例如訂票場(chǎng)景下,用戶與機(jī)器之間需要進(jìn)行多次的需求描述、澄清及確認(rèn)過(guò)程來(lái)完成訂票任務(wù)。單輪更偏向于信息獲取的系統(tǒng), 例如搜索引擎及問(wèn)答系統(tǒng)。

雷鋒網(wǎng):您當(dāng)時(shí)是小冰團(tuán)隊(duì)唯一負(fù)責(zé)核心算法的工程師,開創(chuàng)了開放域聊天系統(tǒng)??梢栽敿?xì)介紹下什么是開放域聊天技術(shù)嗎?開放域聊天技術(shù)與傳統(tǒng)用關(guān)鍵字、模板或者人工參與的聊天技術(shù)的不同之處是什么?

亓超:開放領(lǐng)域聊天中的開放是指對(duì)用戶不限定領(lǐng)域, 不會(huì)出現(xiàn)像Siri發(fā)布之初只能回復(fù)特定問(wèn)題, 超出范圍的返回搜索引擎結(jié)果, 另一方面聊天以一種模擬人類日常對(duì)話的方式進(jìn)行自然的人機(jī)對(duì)話, 不同于一個(gè)冷冰冰的工具。

 開放域聊天系統(tǒng)中也有關(guān)鍵詞及模板的方法作為輔助,我們主打的兩個(gè)技術(shù)方向是:

  •   1. 檢索式聊天系統(tǒng): 基于幾十億量級(jí)人人對(duì)話, 使機(jī)器人進(jìn)行人的聊天模式的模擬;

  •   2. Sequence To Sequnence 端對(duì)端的 生成時(shí)聊天系統(tǒng): 利用數(shù)據(jù)量的精品人人對(duì)話語(yǔ)料, 利用RNN等相關(guān)技術(shù)訓(xùn)練對(duì)話模型, 使機(jī)器具備對(duì)話的能力, 目前主要用于兒童聊天方向。

這兩種方法的基礎(chǔ)都是統(tǒng)計(jì)和機(jī)器學(xué)習(xí), 關(guān)鍵詞及模板的基礎(chǔ)是NLP方向中常用的另一種方法規(guī)則系統(tǒng)。

無(wú)論是檢索式還是生成式, 相對(duì)于純規(guī)則的聊天系統(tǒng)來(lái)講:

  •   1. 產(chǎn)品體驗(yàn)更好, 聊天回復(fù)生動(dòng)不死板(每個(gè)用戶的query 都有較多的回復(fù)候選);

  •   2. 系統(tǒng)能力增長(zhǎng)空間大, 更易利用到用戶反饋及消費(fèi)大數(shù)據(jù)的福利;

  •   3. 更易于引入個(gè)性化等因素。

雷鋒網(wǎng):在情緒、情感識(shí)別一塊,國(guó)內(nèi)相對(duì)薄弱,我們有哪些技術(shù)儲(chǔ)備?

亓超:在文本內(nèi)容中進(jìn)行情感或觀點(diǎn)分類,國(guó)內(nèi)這塊其實(shí)也不弱。在百度等大的互聯(lián)網(wǎng)企業(yè)這部分也有不少產(chǎn)品點(diǎn)已經(jīng)商用, 例如百度搜索結(jié)果中的觀點(diǎn)抽取及聚合。情緒的處理是我們聊天系統(tǒng)中非常重要的模塊,目前主流的方法會(huì)使用到DNN相關(guān)的技術(shù)對(duì)文本進(jìn)行表示并進(jìn)行分類任務(wù), 這塊我們也早已用到我們對(duì)外的聊天商用服務(wù)中, 并會(huì)在將來(lái)繼續(xù)擴(kuò)大這部分的使用場(chǎng)景。例如,情緒分類觸發(fā)回復(fù)中加入表情 及 針對(duì)用戶情緒分類的結(jié)果進(jìn)行回復(fù)的篩選。

雷鋒網(wǎng):Bigbang以及Rokid的產(chǎn)品投入應(yīng)用之后,有沒(méi)有發(fā)現(xiàn)一些不滿意的地方,可否展開講講?

亓超:Big Bang發(fā)布后, 我們受啟發(fā)和鼓勵(lì)很大, 后續(xù)我們會(huì)進(jìn)一步將對(duì)話系統(tǒng)中成熟的模塊及技術(shù), 拆解出來(lái), 與手機(jī)系統(tǒng)綁定, 實(shí)現(xiàn)更多更好的手機(jī)體驗(yàn), 同時(shí)也能將真實(shí)場(chǎng)景下技術(shù)迭代帶來(lái)的收益反饋到對(duì)話系統(tǒng)里。

Rokid與我們的合作在三角獸成立之初的4月份便開始合作,一直非常愉快, 后續(xù)我們會(huì)進(jìn)一步加大在兒童及家庭場(chǎng)景下聊天及對(duì)話系統(tǒng)的研發(fā)投入

雷鋒網(wǎng):感謝亓超老師的精彩分享,以上是雷鋒網(wǎng)準(zhǔn)備的所有問(wèn)題,本次課程主干部分結(jié)束,亓超老師還有什么要分享的嗎?

亓超:我補(bǔ)充兩張聊天系統(tǒng)架構(gòu)圖給大家參考。

機(jī)器人聊天的秘密|雷鋒網(wǎng)公開課機(jī)器人聊天的秘密|雷鋒網(wǎng)公開課

第一張圖是我們服務(wù)整體架構(gòu)的示意圖 解釋依賴的模塊以及服務(wù)間的關(guān)系,另一張圖分別介紹了檢索式聊天和生產(chǎn)式聊天的原理。

| 聽眾問(wèn)答整理

Q:“語(yǔ)義理解有很多公司再做,圖靈,訊飛等,三角獸跟他們有什么不同呢?”

A:訊飛的在語(yǔ)音技術(shù)方面,有絕對(duì)領(lǐng)先的優(yōu)勢(shì),我們目前主要焦點(diǎn)在文本內(nèi)容的處理,語(yǔ)義技術(shù)是其中核心技術(shù)之一,我們頗為互補(bǔ),目的是做整套自然語(yǔ)音交互系統(tǒng)。圖靈跟我們的業(yè)務(wù)有較大重疊,三角獸科技的團(tuán)隊(duì)成員在之前經(jīng)歷并打磨出市面上兩款較為成熟的產(chǎn)品,小冰和度秘在對(duì)人機(jī)交互系統(tǒng)的理解上相對(duì)較深 并由此也有很多應(yīng)用與基礎(chǔ)技術(shù)的積累。

Q:設(shè)計(jì)聊天機(jī)器人最重要的因素是什么?to b 端和to c 端的有什么區(qū)別? 

A:聊天機(jī)器人要體現(xiàn)智能的特點(diǎn):死板一問(wèn)一答,缺少變化,只能回答特定問(wèn)題等等都會(huì)體驗(yàn)很差。另一方面,要有“學(xué)習(xí)”能力,通過(guò)人機(jī)對(duì)話數(shù)據(jù)的積累和反饋得到能力的提升。額外,在不同場(chǎng)景下,聊天機(jī)器人的角色也要實(shí)時(shí)發(fā)生轉(zhuǎn)變 提供服務(wù)功能。這好比,餐廳服務(wù)員在上班的時(shí)候要提供點(diǎn)餐的功,下班后角色發(fā)生轉(zhuǎn)變,會(huì)跟朋友一起聊天分享。

Q:對(duì)語(yǔ)義理解是基于大量的語(yǔ)料,而互聯(lián)網(wǎng)詞匯翻新速度這么快,并且有大量矛盾的語(yǔ)義理解,這些要如何判斷處理?

A:互聯(lián)網(wǎng)數(shù)據(jù)的大量更新累計(jì)是我們能做好聊天機(jī)器人的基礎(chǔ)。好比是招待客人,沒(méi)有菜,就算廚藝再好,也沒(méi)辦法做一桌菜出來(lái)。我們?cè)跀?shù)據(jù)處理上已經(jīng)建立起了一套數(shù)據(jù)處理的系統(tǒng) 能很快消化新的語(yǔ)料和數(shù)據(jù) 。

Q:在industry中,比較熱門的NLP算法有哪些?有什么優(yōu)點(diǎn)和缺點(diǎn)? 

A:目前比較熱門的方法大多是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法 其中近幾年逐漸興盛的DNN相關(guān)技術(shù) (在文本上長(zhǎng)使用 CNN 和 RNN)占了主導(dǎo)。主流學(xué)術(shù)會(huì)議上 DNN 相關(guān)的論文,占了非常大比例。另一方面,在之前里,規(guī)則專家系統(tǒng)占主導(dǎo),一個(gè)完整的系統(tǒng)兩種方法都需要用到,一般情況是用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,砍大刀處理大部分問(wèn)題,規(guī)則的方法作為補(bǔ)充,來(lái)剃小刀,處理一些exception的問(wèn)題。

機(jī)器學(xué)習(xí)用到的數(shù)據(jù)來(lái)源,有分人工標(biāo)注的和非人工標(biāo)注的數(shù)據(jù),機(jī)器學(xué)習(xí)的方法也會(huì)分為有監(jiān)督的和無(wú)監(jiān)督的,數(shù)據(jù)準(zhǔn)備并沒(méi)有特定統(tǒng)一的原則和標(biāo)準(zhǔn)要根據(jù)任務(wù)情況來(lái)定。舉例說(shuō)明,我們?cè)谟?xùn)練用于判斷兩句話是否在語(yǔ)義一致的模型上(例如不客氣 是否能回答 謝謝),用大量的人與人之間的真實(shí)對(duì)話,去除掉含有對(duì)話背景(例如具體人名 具體時(shí)間),后拿了訓(xùn)練 RNN 和 CNN 模型 。

Q:請(qǐng)問(wèn)嘉賓,對(duì)模型進(jìn)行訓(xùn)練的數(shù)據(jù)準(zhǔn)備方面,能否介紹一下?

A:機(jī)器學(xué)習(xí)用到的數(shù)據(jù)來(lái)源,有分人工標(biāo)注的和非人工標(biāo)注的數(shù)據(jù),機(jī)器學(xué)習(xí)的方法也會(huì)分為有監(jiān)督的和無(wú)監(jiān)督的,數(shù)據(jù)準(zhǔn)備并沒(méi)有特定統(tǒng)一的原則和標(biāo)準(zhǔn),要根據(jù)任務(wù)情況來(lái)定 舉例說(shuō)明 我們?cè)谟?xùn)練用于判斷兩句話是否在語(yǔ)義一致的模型上(例如不客氣 是否能回答 謝謝)用大量的人與人之間的真實(shí)對(duì)話 去除掉含有對(duì)話背景 (例如具體人名 具體時(shí)間)后拿了訓(xùn)練 RNN 和 CNN模型

Q:我一直很好奇微軟小冰的開放式回答結(jié)果該如何調(diào)教,比如對(duì)某個(gè)答案不滿意,要怎樣讓她修改?

A:小冰目前應(yīng)該不支持來(lái)自用戶的調(diào)教。研發(fā)的調(diào)教會(huì)從兩個(gè)方面進(jìn)行:語(yǔ)料擴(kuò)充,模型迭代。

Q:在車載的語(yǔ)音交互的使用場(chǎng)景中,您認(rèn)為是開放式的交互比較好,還是封閉式的交互比較好。開放式指的是隨便用戶怎么說(shuō),封閉式指的是用戶只能說(shuō)固定的指令。

A:指令性式必須的。例如導(dǎo)航、音樂(lè)這些主功能。從我們跟車載設(shè)備商的溝通中反應(yīng),其實(shí)司機(jī)在開車過(guò)程中,還挺愛(ài)聊的。所以,只有指令性的功能,無(wú)法滿足這個(gè)場(chǎng)景下的所有需求。我們也在跟車載設(shè)備的合作伙伴合作打磨開放式的交互系統(tǒng)。

最后亓超老師說(shuō):“智能交互系統(tǒng)技術(shù)的廣度與深度方面都比較復(fù)雜。以上單純一個(gè)點(diǎn)展開來(lái)講,也都需要很長(zhǎng)時(shí)間,在這里 拋磚引玉,詳細(xì)細(xì)節(jié)也希望在今后能跟大家經(jīng)常一起討論?!?/p>

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

如果你讀了我的文章,也想和我聊聊,歡迎加微信451766945
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)