3
本文作者: 六爺 | 2016-11-30 23:10 |
11 月 25 日,訊飛還是沒能打破一個(gè)“魔咒”——逢發(fā)布會(huì)股價(jià)必跌。訊飛員工向雷鋒網(wǎng)打趣道,直播的時(shí)候有人發(fā)彈幕說,快別直播啦,去看看你們的股價(jià)吧。另一名訊飛的員工則問,“這到底是什么原理呢?”實(shí)際上沒人說得清楚,再加上每次股價(jià)都會(huì)反彈,所以也沒人細(xì)究。
今年的發(fā)布會(huì)地點(diǎn)還是在國家會(huì)議中心的一層大廳,理論上這里能坐 1500 人,但今年的報(bào)名人數(shù)超過了 3500,所以現(xiàn)場(chǎng)站著聽課的人不在少數(shù),會(huì)議開始后半小時(shí)還聽見門口的安保厲聲道:“只讓出不讓進(jìn),工作人員也不行。”
總之,現(xiàn)場(chǎng)熱鬧非凡,人們都很想知道:在訊飛眼中,跟進(jìn)人工智能的正確姿勢(shì)到底應(yīng)該是什么樣子。
為時(shí) 4 個(gè)小時(shí)的發(fā)布會(huì),訊飛連發(fā)了七款產(chǎn)品:多語種實(shí)時(shí)翻譯技術(shù)、萬物互聯(lián)輸入法、智能家居、智能車載、智慧教育、智能服務(wù)機(jī)器人,以及個(gè)性化語音合成技術(shù)。用科大訊飛董事長劉慶峰的話說:“都是絕對(duì)的黑科技?!?br/>
眾所周知,在偌大的會(huì)場(chǎng)演示語音技術(shù)算得上一種“自殺行為”,在此栽過跟頭的廠商不計(jì)其數(shù),但在發(fā)布會(huì)當(dāng)天,訊飛的每個(gè)演示都堪稱完美,現(xiàn)場(chǎng)驚嘆連連。甚至有那么一瞬間讓人產(chǎn)生一種錯(cuò)覺,電影《Her》中的場(chǎng)景已經(jīng)離現(xiàn)實(shí)不遠(yuǎn)。
多語種實(shí)時(shí)翻譯技術(shù)是演示重點(diǎn)之一,無論是哪位演講者登臺(tái),左右兩邊的大屏幕上總是實(shí)時(shí)顯示他所說的每一句話(中文),準(zhǔn)確率極高。另外,英語,日語,韓語,維吾爾族語的翻譯也在實(shí)時(shí)進(jìn)行。
“這不科學(xué),”我向訊飛的員工表示質(zhì)疑,“我用過你們的錄音寶,機(jī)器識(shí)別的準(zhǔn)確率基本上屬于不能用的水平?!彼f:“現(xiàn)在錄音寶的識(shí)別率已經(jīng)提高了不少,只不過的確還比不上現(xiàn)場(chǎng)的演示效果?!眴栴}的關(guān)鍵是拾音,他補(bǔ)充道:“現(xiàn)場(chǎng)的演示實(shí)際上一套完整的‘訊飛聽見’系統(tǒng),你看不到的是,我們?cè)谂_(tái)下放了 8 個(gè)麥克風(fēng)。”
聲學(xué)博士錢晨曾告訴雷鋒網(wǎng),如果想把硬件產(chǎn)品的拾音做好,至少需要兩個(gè)麥克風(fēng)以上。言外之意,麥克風(fēng)的數(shù)量與拾音效果呈正相關(guān)關(guān)系。既然現(xiàn)場(chǎng)有 8 個(gè)麥克風(fēng)作陪,那“驚嘆指數(shù)”顯然是要打折扣的。
另一款在現(xiàn)場(chǎng)掀起高潮的產(chǎn)品是被稱為中英互譯神器的“曉譯翻譯機(jī)”。演示的兩人一人說中文,一人說英語,曉譯翻譯機(jī)幾乎無延時(shí)地將對(duì)話內(nèi)容互譯,并用非常人性化的聲音讀了出來。
毫無疑問,這款產(chǎn)品的實(shí)用價(jià)值很高,如果復(fù)雜的對(duì)話也能達(dá)到演示的準(zhǔn)確率——100%,曉譯翻譯機(jī)儼然就是一個(gè)貼身翻譯。
看到這里,現(xiàn)場(chǎng)很多人心中基本上就剩下兩個(gè)問題:這東西賣多少錢?什么時(shí)候上市?可惜這兩個(gè)問題訊飛都沒有給出答案,雷鋒網(wǎng)能得到內(nèi)部消息也只是:“還沒量產(chǎn),不知道什么時(shí)候上市?!?/p>
訊飛員工毫不諱言公司并不太擅長做電子消費(fèi)品,并多次向雷鋒網(wǎng)強(qiáng)調(diào):“硬件是個(gè)坑。”但基于曉譯翻譯機(jī)的產(chǎn)品形態(tài),量產(chǎn)的難點(diǎn)顯然不在硬件。元器件——麥克風(fēng)、芯片等——都是現(xiàn)成的,又沒有使用特殊的造型和材料,所以最讓硬件廠商頭疼的定制件對(duì)曉譯翻譯機(jī)似乎也不成問題。合理的推測(cè)是,其軟件還需要進(jìn)一步優(yōu)化。
換句話說,訊飛想讓真正的翻譯官下崗,還為時(shí)尚早。同理適用于同聲傳譯。
真正讓人想起電影《Her》的倒不是以上“黑科技”,而是這次發(fā)布會(huì)上“最不正經(jīng)”的一款產(chǎn)品——個(gè)性化語音合成。
最開始演示時(shí),攝像頭對(duì)準(zhǔn)了臺(tái)下的錘子科技 CEO 羅永浩,老羅靦腆的笑著,和全場(chǎng)觀眾一起聽著由訊飛合成的“老羅的聲音”。從效果來看,合成的老羅已快逼近以假亂真的地步,所以在現(xiàn)場(chǎng)的哄笑聲中,雷鋒網(wǎng)記者的朋友圈也被“羅永浩為您朗讀”刷屏了。
訊飛工作人員告訴雷鋒網(wǎng),合成只需錄入一個(gè)人的數(shù)個(gè)音節(jié),完成之后便可隨意點(diǎn)播,歡樂程度與被錄入者的可識(shí)別度,錄入的音節(jié)數(shù)成正比。
在很多人(甚至包括訊飛自己的員工)看來,這只是個(gè)調(diào)節(jié)氣氛的功能,但實(shí)際上,訊飛絕不會(huì)為了鬧著玩研發(fā)一款新產(chǎn)品。
還記得在電影《Her》里,男主角西奧多第一次被人工智能震驚的場(chǎng)景么?斯嘉麗扮演的女主角薩曼莎一發(fā)聲,西奧多便感覺很怪異,他說:“你看上去就像真人,但其實(shí)只是電腦發(fā)出的聲音,太奇怪了。”薩曼莎安慰他:“我能理解你作為一個(gè)正常人,在洞察力方面的局限性,你會(huì)習(xí)慣的?!?/p>
編劇的這一設(shè)定非常講究,參考的是恐怖谷效應(yīng)。斯嘉麗的表演也很出彩,并憑此片成為了羅馬電影節(jié)史上首位沒有一個(gè)鏡頭的最佳女主角。英特爾數(shù)據(jù)中心事業(yè)部副總裁、計(jì)算機(jī)架構(gòu)專家、神經(jīng)系統(tǒng)科學(xué)家 Naveen Rao 曾告訴雷鋒網(wǎng)記者,《Her》是他個(gè)人最欣賞的人工智能電影。但如果沒有“看上去就像真人”這一點(diǎn),欣賞程度顯然要大打折扣。
后記
也許是發(fā)布會(huì)耗時(shí)太久,再加上演講者的水平參差不齊,到了發(fā)布會(huì)后半段,原本擁擠不堪的會(huì)場(chǎng)空曠了很多?,F(xiàn)場(chǎng)的工作人員顯然習(xí)慣了這種狀況,各司其職數(shù)小時(shí)之后,他們依然非常興奮。
這不是訊飛的尷尬,他們以技術(shù)立足,在業(yè)內(nèi)有口皆碑,作為合作伙伴,華為消費(fèi)者業(yè)務(wù) CEO 余承東甚至缺席華為集團(tuán)財(cái)年預(yù)算會(huì)議來捧場(chǎng)。
但我依然好奇那些目光炙熱的觀眾是否滿載而歸,就像在發(fā)布會(huì)前跟我說,“就想弄明白訊飛是怎么從一家語音輸入公司變成一家人工智能公司”的同事,發(fā)布會(huì)結(jié)束后他仍一臉茫然。這是個(gè)值得深究的問題,但顯然,這也并不適合在這種場(chǎng)合講。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。