2
本文來自出門問問葉順平、王政的投稿。
葉順平,出門問問工程師,主攻語音搜索、語音合成領(lǐng)域。
在谷歌2015年Q3財(cái)報(bào)電話會議上,CEO皮查伊(“劈柴”)大力強(qiáng)調(diào)谷歌在未來會持續(xù)加大對機(jī)器學(xué)習(xí)和人工智能方向上的投入。
今年10月份,在中國,谷歌自己,而非其風(fēng)險(xiǎn)投資部門(Google Capital和Google Ventures),剛剛在中國投資了人工智能創(chuàng)業(yè)公司“出門問問”,這在谷歌的投資史上很少見。
其實(shí),結(jié)合這家公司的核心技術(shù)-人工智能語音交互技術(shù)以及谷歌在人工智能上的某些動(dòng)作,這輪投資順理成章。
無獨(dú)有偶,這一年中,微軟加大了對小冰、小娜的投入,蘋果加強(qiáng)Siri的等人工智能產(chǎn)品的研發(fā),F(xiàn)acebook,亞馬遜…國內(nèi),百度邀人工智能領(lǐng)域頂級專家吳恩達(dá)加盟,加大研究院組建力度,推出度秘、小度機(jī)器人...
人工智能和基因相關(guān)技術(shù)、納米技術(shù)被稱為21世紀(jì)最有前景的技術(shù),可謂吹了很久。但為何偏偏這一輪,巨頭加倍投資?
一方面我們可以說是巨頭們怕在這一輪投資熱潮中落后,豪賭未來;但更重要的原因是,“從感知到認(rèn)知”,人工智能的“機(jī)器學(xué)習(xí)”理論出離“紙上談兵”的階段,可以被真地應(yīng)用到各方各面了。
“機(jī)器學(xué)習(xí)”等新潮詞早在一二十年前提出,但不同以往的是,學(xué)術(shù)理論終于有了被實(shí)現(xiàn)的資源基礎(chǔ)。近期由于硬件的發(fā)展與大規(guī)模分布式計(jì)算的成熟,使得之前曾經(jīng)遇冷的機(jī)器學(xué)習(xí),重新獲得學(xué)術(shù)界與工業(yè)界的注意。而“機(jī)器學(xué)習(xí)”相關(guān)算法也確實(shí)沒“丟人”,在解決一些領(lǐng)域中的問題時(shí)表現(xiàn)很優(yōu)異。比如這幾年炙手可熱的語音識別技術(shù),就因?yàn)椤吧疃葘W(xué)習(xí)”的廣泛使用,有了約30%的改進(jìn)幅度。而DNN(Deep Neural Network,深度神經(jīng)網(wǎng)絡(luò))、LSTM(Long - Short Term Memory,長短期記憶人工神經(jīng)網(wǎng)絡(luò))等算法,在語音識別、語音合成、甚至語義理解等方面也得到了越來越多的應(yīng)用,對各項(xiàng)技術(shù)都有或大或小的改進(jìn)。
人工智能(Artificial Intelligence),即AI。機(jī)器學(xué)習(xí)(Machine Learning)作為人工智能的一部分,是對能通過經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究。一般,機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。主流算法“監(jiān)督學(xué)習(xí)”類似于學(xué)生在老師指導(dǎo)下學(xué)習(xí)并成為正直有用的人,人工智能在工程師的指導(dǎo)下成為可控有用的程序。
要看人工智能的機(jī)器學(xué)習(xí)算法是不是鼓吹,還要看它是否可以提高生產(chǎn)效率,或者徹底解放勞動(dòng)力。如某個(gè)名人所說:“92年中國缺吃少穿,創(chuàng)業(yè)要解決的問題是把那些生產(chǎn)出來,2015年社會有極大的浪費(fèi),創(chuàng)業(yè)要解決的是效率的提高。”
以Google為例,這個(gè)有著超過BAT市值總和的互聯(lián)網(wǎng)巨頭的主要產(chǎn)品搜索、郵箱都使用了機(jī)器學(xué)習(xí)算法。
首先是搜索。在用戶搜索時(shí),谷歌會記錄用戶搜索、點(diǎn)擊行為,并將記錄納入大數(shù)據(jù)。此時(shí),使用了“機(jī)器學(xué)習(xí)”的搜索引擎系統(tǒng)能夠習(xí)得“特定搜索行為之下,哪些網(wǎng)頁更相關(guān)”,從而使搜索結(jié)果更優(yōu)。另外,在用戶搜索行為中,語音搜索的比例正逐漸增高,而語音搜索過程使用的語音識別服務(wù)有大量的“機(jī)器學(xué)習(xí)”算法。
語音識別的基本原理是將信號處理成片段,然后利用聲學(xué)模型和語言學(xué)模型,把聲音信號在線解碼,找出最匹配的、概率最高的文字序列。聲學(xué)模型和語言學(xué)模型訓(xùn)練是提升識別率的關(guān)鍵。各家的語音識別系統(tǒng)在訓(xùn)練聲學(xué)模型時(shí)多采用的名為RNN(Recurrent neural network,時(shí)間遞歸神經(jīng)網(wǎng)絡(luò))和DNN的神經(jīng)網(wǎng)絡(luò)算法,而在訓(xùn)練語言模型的時(shí)多采用統(tǒng)計(jì)學(xué)習(xí)算法和RNN。
除了搜索,谷歌的Gmail郵箱也沒少使用“機(jī)器學(xué)習(xí)”算法。垃圾郵件讓人討厭,而使用了機(jī)器學(xué)習(xí)算法的Gmail已能夠很好的分辨出垃圾郵件。除了自動(dòng)分辨,用戶的手動(dòng)標(biāo)示也可讓反垃圾郵件的機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)化,更好的過濾垃圾郵件,提高體驗(yàn)。
谷歌這個(gè)“國外巨頭”證明了“機(jī)器學(xué)習(xí)”算法在“搜索、郵箱”這種“較軟”的服務(wù)上的應(yīng)用價(jià)值,而出門問問這家國內(nèi)初創(chuàng)公司提出了較好的人工智能與可穿戴設(shè)備的軟硬結(jié)合方案。他們于今年7月推出了一款名為Ticwatch的智能手表,其主打的核心技術(shù)——語音搜索服務(wù)使用了與谷歌相似的機(jī)器學(xué)習(xí)算法。語音搜索要依次完成語音識別、語義理解、垂直搜索并返回結(jié)果等工作。在語義理解中,明確用戶搜索意圖是關(guān)鍵,而使用了DNN等機(jī)器學(xué)習(xí)算法的AI系統(tǒng)對自然語言的“理解力”有很大提高。
除了上面提到的幾個(gè)人工智能分支技術(shù),還有比較重要的TTS(語音合成)技術(shù)也大量使用了機(jī)器學(xué)習(xí)算法。TTS需要對聲音的停頓、語氣、韻律、口型等聲學(xué)參數(shù)的模擬,除了使用HMM(隱馬爾可夫統(tǒng)計(jì)模型)、決策樹等傳統(tǒng)算法,也常使用基于DNN、LSTM的機(jī)器學(xué)習(xí)算法。
我們可以想象得出,隨著機(jī)器學(xué)習(xí)理論的發(fā)展,人們在語音的輸入與輸出(語音識別與合成)、計(jì)算機(jī)視覺(圖像處理)、語義理解、垂直搜索等技術(shù)上會不斷有所突破。與此同時(shí),在智能可穿戴設(shè)備、虛擬現(xiàn)實(shí)設(shè)備、智能車載機(jī)器人等硬件方面,以及游戲、電影等內(nèi)容方面,都會因?yàn)楦邔哟蜛I而出現(xiàn)令人激動(dòng)的新產(chǎn)品。
明白了人工智能的潛在商業(yè)價(jià)值,我們也就不難明白為什么谷歌、蘋果等巨頭加大對人工智能的投入,甚至?xí)诠舅挟a(chǎn)品線中,重新定位("re-thinking" )人工智能的角色了。
從感知到認(rèn)知,我們已經(jīng)處在人工智能開始認(rèn)知的階段了。雖然這還只是淺顯的、算不上思考的、基于大數(shù)據(jù)的認(rèn)知,但“真AI”已然走在路上。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。