4
本文作者: 潔穎 | 2016-04-18 21:49 |
接下來(lái),我要給你講兩個(gè)簡(jiǎn)單的故事,其中一個(gè)你可能已經(jīng)聽(tīng)過(guò),另外一個(gè)你應(yīng)該還沒(méi)有。 1979年,年輕的史蒂夫·喬布斯去參觀了Xerox PARC,傳說(shuō)中的在加利福尼亞州帕洛阿爾托R&D實(shí)驗(yàn)室,并目睹了現(xiàn)在所稱(chēng)的圖形用戶(hù)界面的一些示范。一位PARC的工程師,使用一個(gè)原型鼠標(biāo)來(lái)導(dǎo)航,計(jì)算機(jī)屏幕云集了圖標(biāo),下拉菜單以及在桌面上相互重疊像紙張的“窗口”。這和喬布斯以前見(jiàn)過(guò)的東西完全不同。 他說(shuō),“很明顯,以后每臺(tái)計(jì)算機(jī)都會(huì)以這種方式來(lái)工作?!?/p>
傳說(shuō)是,喬布斯跑回蘋(píng)果總部,指揮一個(gè)團(tuán)隊(duì)著手復(fù)制和提高,他剛剛在PARC所看到的東西。就是這樣,個(gè)人計(jì)算近40年發(fā)展迅速,經(jīng)歷了很多,從第一臺(tái)Macintosh一路攀升到iPhone。這種計(jì)算視覺(jué)方式結(jié)束了命令行的苛刻、文字為主的界面的暴政;并把我們帶進(jìn)一個(gè)電腦越來(lái)越簡(jiǎn)單易用的世界里——只需用鼠標(biāo)定位、單擊并拖動(dòng)。
在不太遙遠(yuǎn)的未來(lái),我們回頭想想和PARC有關(guān)創(chuàng)世神話(huà),可能會(huì)感到興奮。在喬布斯訪(fǎng)問(wèn)PARC的時(shí)候,一個(gè)獨(dú)立的團(tuán)隊(duì)正在研發(fā)一種完全不同的人機(jī)交互模式,今天我們稱(chēng)之為對(duì)話(huà)用戶(hù)界面。這些科學(xué)家設(shè)想了一個(gè)世界,可能在幾十年以后,這種電腦將變得超強(qiáng)大,以至于需要用戶(hù)記住針對(duì)每一個(gè)動(dòng)作的,一組特殊的命令或工作流,否則將用不了電腦。他們想象,我們會(huì)用你來(lái)我往的對(duì)話(huà)框來(lái)把事情做好,而不是讓計(jì)算機(jī)協(xié)同工作。而其頁(yè)面將是普通的人類(lèi)語(yǔ)言。
該組其中一名科學(xué)家叫羅恩·卡普蘭,一個(gè)粗壯、說(shuō)話(huà)輕聲細(xì)語(yǔ)、留著山羊胡子和頭發(fā)稀疏的人。卡普蘭是相等部分的語(yǔ)言學(xué)家、心理學(xué)家和計(jì)算機(jī)科學(xué)家。他說(shuō),早在上世紀(jì)70年代,他的團(tuán)隊(duì)在草擬對(duì)話(huà)用戶(hù)界面的一個(gè)關(guān)鍵組成部分的工作走得相當(dāng)遠(yuǎn);他們七拼八湊出了一個(gè)系統(tǒng),允許你通過(guò)正常的英語(yǔ)計(jì)算機(jī)交換信息類(lèi)型,來(lái)預(yù)訂機(jī)票。但是,該技術(shù)還不能大規(guī)模、系統(tǒng)地工作。 “這樣的成本太高了,可能,每個(gè)用戶(hù)將要花費(fèi)一百萬(wàn)美元?!彼f(shuō)。他們需要更快、更分布的處理方式和更智能、更高效的電腦。卡普蘭認(rèn)為這將需要大約15年。
“四十年后,”卡普蘭說(shuō),“我們準(zhǔn)備好了。”事實(shí)上,世界也準(zhǔn)備好了。
今天,卡普蘭是Nuance通訊的副總裁和杰出的科學(xué)家,也許還是語(yǔ)音界面業(yè)務(wù)的最大功臣:福特的汽車(chē)同步系統(tǒng)是基于其發(fā)展的,還對(duì)Siri的發(fā)展至關(guān)重要,和幾乎所有行業(yè)都具有合作關(guān)系。但Nuance如今發(fā)現(xiàn)自己身處一個(gè)擁擠的市場(chǎng)。幾乎每個(gè)大的高科技公司,亞馬遜、英特爾、微軟和谷歌,都在追求對(duì)話(huà)用戶(hù)界面:卡普蘭和他的同事們幾十年前在PARC設(shè)想。幾十家初創(chuàng)公司也參與其中。所有公司都希望在人類(lèi)與技術(shù)的關(guān)系強(qiáng)大的轉(zhuǎn)變之中拔得頭籌。這些公司相信,不久后的一天,你會(huì)跟你的小工具說(shuō)話(huà),就像你跟朋友說(shuō)話(huà)一樣。而你的小工具會(huì)回答你。他們將能夠聽(tīng)到你說(shuō)什么,弄清楚你的意思。
如果你已經(jīng)在今天的技術(shù)浸淫,這些新的工具將延長(zhǎng)你的數(shù)字生活,到圖形用戶(hù)界面不能安全、愉快、禮貌使用之外。而你和設(shè)備之間日益劇增的對(duì)話(huà)性質(zhì),將使你和技術(shù)的關(guān)系,變得更親近、更忠實(shí)、更私人。
但這種轉(zhuǎn)變影響最大的將是硅谷的核心受眾,其他人則會(huì)感覺(jué)很好。史蒂夫·喬布斯在在1979年看到的圖形用戶(hù)界面(以下簡(jiǎn)稱(chēng)GUI),是擴(kuò)大計(jì)算機(jī)市場(chǎng)的一種方式。但即使是GUI的作用下,仍留有大量的人沒(méi)有使用計(jì)算機(jī)。雖然GUI是優(yōu)雅和高效的,人們?nèi)匀恍枰獙W(xué)習(xí)計(jì)算機(jī)語(yǔ)言。如今電腦終于學(xué)會(huì)如何說(shuō)我們的語(yǔ)言,數(shù)以?xún)|計(jì)的人將高科技有新的認(rèn)識(shí)。
語(yǔ)音界面雖然已經(jīng)存在了多年,事實(shí)上,迄今為止,它們都非常愚蠢。我們不必糾纏于自動(dòng)電話(huà)分支系統(tǒng),例如:如果你是打電話(huà)來(lái)進(jìn)行付款的,請(qǐng)說(shuō)“支付”。甚至我們更先進(jìn)的語(yǔ)音界面都依賴(lài)講話(huà),但不知何故缺席語(yǔ)言的力量。如果你問(wèn)Google Now,紐約市的人口有多少,它會(huì)乖乖告訴你。如果問(wèn)帝國(guó)大廈的位置,它會(huì)乖乖回答。但加上邏輯的一步,問(wèn)它有帝國(guó)大廈的城市的人口是多少,它答不上來(lái)。同樣,把Siri逼的太緊,它也會(huì)讓你參考谷歌搜索。任何人看過(guò)柯克船長(zhǎng)和進(jìn)取號(hào)的計(jì)算機(jī)對(duì)話(huà),或托尼·斯塔克與虛擬助手賈維斯戲謔的電影場(chǎng)景,都忍不住會(huì)對(duì)現(xiàn)實(shí)失望。
可是現(xiàn)今,問(wèn)問(wèn)硅谷周?chē)娜?,你?tīng)到同樣的答案:現(xiàn)在不同了。
六月初炎熱的一天,SoundHound首席執(zhí)行官Keyvan Mohajer,向我展示了一個(gè)原型,近10年來(lái)他的公司一直在秘密研究的新應(yīng)用程序。你印象中的SoundHound,是一個(gè)流行音樂(lè)識(shí)別的應(yīng)用程序,如果你對(duì)著它哼唱一首歌,它可以識(shí)別出歌的名字。事實(shí)上,該應(yīng)用主要是助長(zhǎng)Mohajer真實(shí)的夢(mèng)想只是一種方法:創(chuàng)造世界上最好的基于語(yǔ)音的人工智能助手。
該原型叫Hound,其能力是相當(dāng)驚人的。Mohajer拿著一個(gè)黑色的Nexus,點(diǎn)擊了一個(gè)藍(lán)色和白色的麥克風(fēng)圖標(biāo),然后開(kāi)始問(wèn)問(wèn)題。他從簡(jiǎn)單入手,問(wèn)了柏林的時(shí)間和日本的人口。很基本的搜索問(wèn)題,接下來(lái),畫(huà)風(fēng)就變了:“它們之間的距離是多少?”該應(yīng)用程序理解了上下文并回答,“大約5536英里?!?/p>
然后Mohajer微笑著,緊張兮兮地開(kāi)始了復(fù)雜性不斷升級(jí)的問(wèn)題攻勢(shì)。他要求Hound計(jì)算一百萬(wàn)美元的房子,每月按揭付款多少錢(qián),然后應(yīng)用程序立即問(wèn)他利率和貸款額,然后說(shuō)出了答案:4,270.84美元。
“太空針?biāo)趪?guó)首都的人口是多少?”他問(wèn)。Hound比我還快得知,Mohajer在問(wèn)華盛頓特區(qū)的人口,用其機(jī)器人的聲音道出了正確的答案。 “日本和中國(guó)人口和首都是哪里,他們的領(lǐng)土是多少平方英里和多少平方公里?另外告訴我有多少人生活在印度,德國(guó)、法國(guó)和意大利的區(qū)號(hào)是多少?”Mohajer一直不斷在問(wèn)問(wèn)題,導(dǎo)致上氣不接下氣。而Hound正確回答了每一個(gè)問(wèn)題
Hound現(xiàn)在處于測(cè)試階段,可能是迄今推出的速度最快、功能最全的語(yǔ)音識(shí)別系統(tǒng)。雖然目前它有顯著優(yōu)勢(shì),因?yàn)樗梢酝瑫r(shí)執(zhí)行語(yǔ)音識(shí)別和自然語(yǔ)言處理。但是,被其他系統(tǒng)趕超,只是時(shí)間問(wèn)題。
畢竟,其基本成分——強(qiáng)大對(duì)話(huà)界面必需的卡普蘭所稱(chēng)的“門(mén)控技術(shù)”,現(xiàn)在基本上有錢(qián)就能購(gòu)買(mǎi)。這是一個(gè)技術(shù)融合的經(jīng)典故事:在處理能力、語(yǔ)音識(shí)別、移動(dòng)通信、云計(jì)算的發(fā)展和神經(jīng)網(wǎng)絡(luò)在大致相同的時(shí)間都飆升至臨界點(diǎn)。這些工具終于夠好、價(jià)格便宜、容易訪(fǎng)問(wèn),使對(duì)話(huà)界面實(shí)時(shí)、無(wú)處不在。
但不只是對(duì)話(huà)技術(shù)終于可以構(gòu)建,還有持續(xù)增長(zhǎng)的需求。隨著越來(lái)越多的設(shè)備上線(xiàn),尤其是那些沒(méi)有屏幕的,例如你的燈具、煙霧報(bào)警器,我們需要一種方法來(lái)與它們進(jìn)行交互,不需要按鈕,菜單和圖標(biāo)的方法。
同時(shí),喬布斯用GUI建立的世界正在達(dá)到瓶頸期。我們非常強(qiáng)大的屏幕界面,每一個(gè)可以想象的特點(diǎn)都需要通過(guò)手工編碼、圖標(biāo)或菜單選項(xiàng)。想想Photoshop或Excel:兩者都十分強(qiáng)大,使用起來(lái)需要通過(guò)正確的鍵盤(pán)快捷鍵、菜單樹(shù)和超難找的工具欄。如果你只是想坐下來(lái)悠閑地裁剪照片,那么祝你好運(yùn)。 “圖形用戶(hù)界面已經(jīng)到頂,”卡普蘭說(shuō), “現(xiàn)在已經(jīng)是超負(fù)荷了?!?/p>
這就是在虛擬助理市場(chǎng)蓬勃發(fā)展的原因:它是來(lái)拯救你的,當(dāng)你淹沒(méi)在屏幕上打開(kāi)的七個(gè)窗口,五工具欄和30個(gè)頁(yè)面里,并作為應(yīng)用程序和設(shè)備之間的聯(lián)絡(luò)人。
至少在開(kāi)始的時(shí)候,這些新的增強(qiáng)型虛擬助理背后的想法是,他們將簡(jiǎn)化復(fù)雜的,讓人疲倦的多步驟:通過(guò)下拉菜單,復(fù)雜的工作流程,并在應(yīng)用程序間切換。你的助手會(huì)知道手機(jī)上每一個(gè)應(yīng)用程序的每一個(gè)角落,并在你的口語(yǔ)命令下切換它們。而隨著時(shí)間的推移,他們也將了解新的信息:你。
讓我們快速解除一些誤會(huì):對(duì)話(huà)技術(shù)是不會(huì)滅了觸摸屏,甚至是鼠標(biāo)和鍵盤(pán)。如果你是桌面計(jì)算機(jī)的忠實(shí)用戶(hù),你可能不會(huì)變。 雖然你可能會(huì)經(jīng)常問(wèn)虛擬助理,裁剪工具在哪里來(lái)著?
但是,對(duì)于某些群體的人,對(duì)話(huà)界面的崛起可能會(huì)在很大程度上,會(huì)成為繞過(guò)熟練GUI技術(shù)的理由。例如,年輕人已經(jīng)跳過(guò)鍵盤(pán),通過(guò)麥克風(fēng)來(lái)輸入文本。 “他們就是不打字?!闭Z(yǔ)音消息應(yīng)用Cord的CEO和聯(lián)合創(chuàng)始人Thomas Gayno稱(chēng)。結(jié)合其他地方的年齡譜,對(duì)有些人來(lái)說(shuō),圖形用戶(hù)界面從來(lái)就不管用。對(duì)視障人士、老人而言,聽(tīng)見(jiàn)有人形容現(xiàn)代計(jì)算機(jī)界面為“直觀的”,一直是有點(diǎn)可笑的。
克里斯·莫里很艱辛才明白了這個(gè)道理。在2010年的夏天,當(dāng)時(shí)24歲的他在帕洛阿爾托的朋友家借住,并在一個(gè)叫ImageShack的創(chuàng)業(yè)公司實(shí)習(xí),剛剛輟學(xué)博士課程來(lái)這里追逐硅谷夢(mèng)。一天晚上,在他下班回家的漫長(zhǎng)路上,他意識(shí)到自己的處方眼鏡不管用了。醫(yī)生告訴他,他患了斯特格氏癥,一個(gè)視力下降,最終會(huì)失明的疾病。
曾經(jīng)想在高科技公司創(chuàng)一番事業(yè)的莫里,立刻不得不考慮,如果失明了他將如何使用電腦。但對(duì)于美國(guó)20 多萬(wàn)盲人來(lái)說(shuō),使用電腦只有一個(gè)選擇:一個(gè)30多年前的技術(shù):屏幕閱讀器。
屏幕閱讀器系統(tǒng)要花費(fèi)數(shù)千美元,并通過(guò)需要幾十個(gè)小時(shí)的培訓(xùn)。 “你需要上兩個(gè)課程,才能學(xué)會(huì)用谷歌搜索?!蹦锔嬖V我。隨著數(shù)字環(huán)境變得越來(lái)越復(fù)雜,屏幕閱讀器就變得越來(lái)越難用。“他們太可怕了?!蹦镎f(shuō)。
隨著他的視力開(kāi)始走下坡路,莫里把自己沉浸在盲推特(沒(méi)錯(cuò),有盲推特這玩意)和輔助運(yùn)動(dòng)里。而在同一時(shí)間,他隱隱意識(shí)到,更好的東西——首次專(zhuān)為語(yǔ)音設(shè)計(jì)的界面,將在硅谷出現(xiàn)。
于是,他開(kāi)始著手為盲人研究技術(shù)。莫里創(chuàng)辦了一家公司:Conversant Labs,希望打造以聲音為先的應(yīng)用和服務(wù)。該公司的第一個(gè)產(chǎn)品,是一個(gè)名為SayShopping的iPhone應(yīng)用程序,它提供了一種完全通過(guò)語(yǔ)音就可以從Target.com買(mǎi)東西的服務(wù)。
2014年秋天的某一天,毫無(wú)預(yù)兆,亞馬遜宣布了一項(xiàng)名為回聲的新產(chǎn)品。該產(chǎn)品的角色被命名為Alexa。回聲使用所謂的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別到呼喚它的聲音,甚至在有點(diǎn)嘈雜的房間沒(méi)問(wèn)題。這個(gè)想法是,回音屬于你的客廳、廚房、或者臥室里,你會(huì)和它說(shuō)各種事情。
這十分有趣,試圖讓沒(méi)有內(nèi)置可視界面的科技成功。科技媒體都對(duì)亞馬遜這個(gè)“神秘”的新產(chǎn)品感到不解。
當(dāng)我在2014年開(kāi)始使用Alexa時(shí),它可以告訴我天氣,回答基本的事實(shí)問(wèn)題,列一個(gè)后來(lái)將出現(xiàn)在我智能手機(jī)上購(gòu)物清單,聽(tīng)我的命令播放音樂(lè),沒(méi)有什么太超然。但是Alexa迅速增長(zhǎng),變得更聰明更好。它熟悉了我的聲音,學(xué)會(huì)了有趣的笑話(huà),并開(kāi)始能夠同時(shí)運(yùn)行多個(gè)計(jì)時(shí)器(當(dāng)你在煮滿(mǎn)漢全席的時(shí)候,就非常方便了)。從最初測(cè)試版的發(fā)布,到2015年公開(kāi)發(fā)布的短短7個(gè)月里,Alexa從可愛(ài)卻無(wú)奈,到真正、一直實(shí)用。我認(rèn)識(shí)了它,它也認(rèn)識(shí)了我。
這引出了對(duì)話(huà)高科技更深的道理:你只有在與它個(gè)人關(guān)系的過(guò)程中,才能發(fā)現(xiàn)它的功能。在同行業(yè)中的大玩家都意識(shí)到這一點(diǎn),并試圖給他們的助手個(gè)性、魅力、適當(dāng)?shù)木嚯x,簡(jiǎn)而言之使他們,討人喜歡。
在研究中,微軟、Nuance和其他公司都得到了同樣的結(jié)論:一個(gè)好的對(duì)話(huà)助理,只有當(dāng)它無(wú)處不在,當(dāng)它可以在多種環(huán)境里了解你:你的習(xí)慣、你的好惡、你的日常和時(shí)間表,它才是真正實(shí)用的。
via wired
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。