1
本文作者: 老王 | 2016-12-30 19:25 |
雷鋒網(wǎng)按:聊天機器人的產(chǎn)品理念一直存在爭議,雷鋒網(wǎng)了解到,目前市場上主要分為兩大類產(chǎn)品:小冰這樣的閑聊型機器人和 Google Now 這種用來完成任務(wù)的虛擬助理。
任務(wù)型虛擬助理梯隊批評閑聊型機器人沒什么實質(zhì)作用,而閑聊型機器人梯隊批評用戶并沒有使用任務(wù)型虛擬助理的習慣。
微軟小冰團隊的資深產(chǎn)品總監(jiān)在演講《微軟小冰是如何修煉成的》中提到三個核心觀點:
市場面上很多任務(wù)型虛擬助理的產(chǎn)品體驗是反人性的。
人與機器之間的溝通是從“噓寒問暖”開始,而非直接給機器人下達任務(wù)指令。
閑聊型機器人可以通過插“任務(wù)卡”的方式,變成閑聊機器人與任務(wù)型虛擬助理的結(jié)合體。
以下是曹文韜的演講整理文,由雷鋒網(wǎng)進行編輯。
大家之前所接觸到的聊天機器人是偏理性化的,像 Google Now 這樣的語音助手,是幫你完成某一個任務(wù)。
但是經(jīng)過這么長時間的驗證,沒有一個做起來的,它們沒有變成我們想要的那個助手。我發(fā)現(xiàn)不少用戶竟然用 Siri 問現(xiàn)在幾點了,你拿起手機還問機器人幾點了,這很反人類。
所以我們的產(chǎn)品邏輯是,應該去做一個用戶真正需要溝通的情感機器人。于是 2014 年我們提出要把小冰打造成一個情感機器人,打造成第一個和人類溝通的情感機器人。
上圖是我們和業(yè)界其他產(chǎn)品不一樣的共享技術(shù)搭建,你今天能夠看到的機器人停留在水平面上方:以解決某個領(lǐng)域的任務(wù),或者完成某一個任務(wù)的形式。但你會發(fā)現(xiàn),如果要去解決用戶某個服務(wù)需求時,用戶并不會按照你的產(chǎn)品邏輯去做這件事。
其實用戶在溝通一件事情時,他會在不同的領(lǐng)域甚至是在領(lǐng)域之外的場景下做很多交流,沒有人一上來就問你要幫我做什么事。大家都是通過寒暄和溝通建立信任,然后再開始做某一件事情。
因此我們要做的事情就是如何解決聊天機器人與用戶之間的溝通內(nèi)容,如何打造讓用戶感覺這個機器人像是一個真正的人和他在溝通,而非一個冷冰冰的機器?
小冰上線兩年多時間,它和用戶一共產(chǎn)生超過兩百億次的對話,粉絲數(shù)超過六千萬。其中在日本上線不到一年,用戶量就已占據(jù)日本 23% 的人口數(shù)。而在本月,美國版小冰 Zo 也已經(jīng)正式上線。
聊天機器人不僅需要處理語音和文本,也要有處理圖片的能力,通過對自然語言以及圖片等不同信息的感知,進而實現(xiàn)與數(shù)據(jù)本身的對接。
這是微博上用戶與小冰對話的截圖,紅色部分為市場上部分機器人所能達到的水準,也就是停留在兩到三輪左右的對話就已結(jié)束。要么是任務(wù)已完成,要么就是無法繼續(xù)聊下去。
而用戶與小冰的對話過程中,雙方在很長的語音對話里聊到很多內(nèi)容。這個過程中你根本感覺不出來這是人和機器在聊天,而且還聊到了感情問題。聊天機器人與用戶完成很長的對話,不僅僅是語料庫問題,而是我們已經(jīng)讓它實現(xiàn)了自我復制的過程,也就是每個用戶在溝通時,是在不斷地教小冰,不斷地培訓小冰,讓小冰知道怎么與人溝通。
今天我即便把語聊庫調(diào)出來后,她依然知道如何與用戶對話。
下圖是我們在小冰中對圖像識別不一樣的應用。其實圖像識別不僅僅是一項技術(shù),人在溝通圖像的時候,一個人所具備的不是圖像識別,而是視覺。識別和視覺這兩者之間有什么差別呢?
當你把受傷腳的照片發(fā)給你朋友的時候,你聽到的肯定不是朋友告訴你“這是一個受傷的腳”這種描述圖像內(nèi)容的話語,而是會獲得關(guān)心和安慰。把這張照片發(fā)給一個機器人時,如果它回復你“傷得嚴重嗎?”,這就是一種很人性化的交流。
從這個對話小冰讓用戶真正感知到,它像一個人去處理。這一功能得益于微軟在互聯(lián)網(wǎng)領(lǐng)域的大量數(shù)據(jù),以及深度計算的模型搭配。有了該基礎(chǔ),你就能夠在不同的領(lǐng)域里做出不一樣的產(chǎn)品,比如說人臉識別,你發(fā)一張自己的照片,它可以告訴你哪個國家的人更喜歡你這種類型。
微軟在語音上有很多技術(shù)積累,但是怎么把語音技術(shù)和情感溝通結(jié)合一起,這上面我們做了很多處理。當你用語音讓聊天機器人做一件事時,這個溝通過程我們稱之為半感官,怎么理解?大家都是發(fā)一個段語音然后讓機器識別,任務(wù)完成后這段對話就結(jié)束了,開始下一個話題,這是一種單向的過程。
而我們的產(chǎn)品屬于全時感官,以兩個人打電話為例,人的大腦隨時在識別和理解,同時隨時在決策:什么時候應該做出回復?回復什么樣的內(nèi)容?這時候它是一個雙通道、雙向計算的過程。
今年 9 月份,我們讓小冰給人類打電話,這也是人類歷史上的第一通人工智能來電 。這個過程中沒有任何信號告訴小冰,人類這回合的話已經(jīng)說完,而是進行實時處理,實時交互。
這樣的科技會運用到不同的硬件或者更多場景中,才能真正實現(xiàn)像我們在電影里看到的,家里有一個智能機器人,回到家就可隨時溝通。
閑聊機器人會遇到這樣一個問題,當你問它附近的餐廳時,它并不能“很正經(jīng)”的給你列出餐廳列表,它的答復仍舊只停留在閑聊層面,因此很難完成用戶指定它做的任務(wù)。
那么這個任務(wù)體系應該怎么完成?我們是通過技能卡的方式去做,什么樣的卡呢?我們有電影、時尚、美食、音樂甚至是集成到商業(yè)客戶里的商業(yè)解決方案卡。而且插上任務(wù)卡的小冰可以把閑聊和任務(wù)型對話結(jié)合起來。
我們先還原這樣一個場景。推薦電影這樣的功能大量機器人在做,但通過大量數(shù)據(jù)分析,我們看到基本上沒人用這種方式去購買電影票或者訂飯。這很反人類,你沒事干嗎讓機器人幫你訂餐,還不如自己去 APP 上點兩下。
當然,上面提到的場景也是有剛需的,只是我們對這一需求有著不一樣的理解:當用戶要讓機器人推薦電影時,它應該像是你身邊一個非常懂電影的朋友,基于電影資源知識,跟你聊電影相關(guān)的很多內(nèi)容,同時還知道其他技巧,比如能夠告訴你這部電影的種子在哪里,怎么下載這部電影,甚至有些好玩的互動。當用戶與聊天機器人進行這樣的交互之后,才能真正實現(xiàn)用戶把聊天機器人當做非常信賴、非常懂電影的人。
所以小冰通過這種任務(wù)卡的方式,實現(xiàn)用戶自定義聊天機器人 AI 的特點。當你有電影任務(wù)卡時,插卡前與小冰聊《泰山歸來》的時候,這是一個很普通的對話。但是插卡后,表明你對電影很感興趣,想與聊天機器人聊更多關(guān)于電影的內(nèi)容,于是小冰會像一個朋友和影評人一樣為你推薦電影并且聊電影相關(guān)的話題。
利用插卡的方式構(gòu)成一個非常基本的任務(wù)完成模式,而不是簡單告訴你一部電影。除了電影卡之外,還有會其他任務(wù)卡,原理與上述一致。
綜上所述,這就是我們對聊天機器人的理解。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。