0
本文作者: kosir蘭徹 | 2016-08-11 11:17 |
雷鋒網(wǎng)按:本文作者蘭徹, 文章詳細(xì)介紹了1)人工智能發(fā)展的七個(gè)重要階段;2)深度學(xué)習(xí)在人工智能的發(fā)展;3)最后也提出作者對(duì)于深度學(xué)習(xí)挑戰(zhàn)和未來(lái)發(fā)展的看法。
Dave Bowman: Hello, HAL do you read me, HAL? 哈爾,你看到我了嗎?
HAL: Affirmative, Dave, I read you. 大衛(wèi),我看到你了
Dave Bowman: Open the pod bay doors, HAL. 哈爾,打開(kāi)艙門(mén)
HAL: I'm sorry Dave, I'm afraid I can't do that. 對(duì)不起,大衛(wèi),我不能這做
~《2001: A Space Odyssey》~
這兩年人工智能熱鬧非凡,不僅科技巨頭發(fā)力AI取得技術(shù)與產(chǎn)品的突破,還有眾多初創(chuàng)企業(yè)獲得風(fēng)險(xiǎn)資本的青睞,幾乎每周都可以看到相關(guān)領(lǐng)域初創(chuàng)公司獲得投資的報(bào)道,而最近的一次春雷毫無(wú)疑問(wèn)是Google旗下Deepmind開(kāi)發(fā)的人工智能AlphaGo與南韓李世石的圍棋之戰(zhàn),AiphaGo大比分的獲勝讓人們對(duì)AI刮目相看的同時(shí)也引發(fā)了對(duì)AI將如何改變我們生活的思考。其實(shí),人工智能從上世紀(jì)40年代誕生至今,經(jīng)歷了一次又一次的繁榮與低谷,首先我們來(lái)回顧下過(guò)去半個(gè)世紀(jì)里人工智能的各個(gè)發(fā)展歷程。
|人工智能發(fā)展的七大篇章
人工智能的起源:人工智能真正誕生于20世紀(jì)的40 - 50年代,這段時(shí)間里數(shù)學(xué)類(lèi)、工程類(lèi)、計(jì)算機(jī)等領(lǐng)域的科學(xué)家探討著人工大腦的可能性,試圖去定義什么是機(jī)器的智能。在這個(gè)背景下,1950年Alan Turing發(fā)表了題為“機(jī)器能思考嗎”的論文,成為劃時(shí)代之作,提出了著名的圖靈測(cè)試去定義何為機(jī)器具有智能,他說(shuō)只要有30%的人類(lèi)測(cè)試者在5分鐘內(nèi)無(wú)法分辨出被測(cè)試對(duì)象,就可以認(rèn)為機(jī)器通過(guò)了圖靈測(cè)試。
圖1:圖靈測(cè)試;Alan Turing本人
人工智能的第一次黃金時(shí)期:現(xiàn)在公認(rèn)的人工智能起源是1956年的達(dá)特矛斯會(huì)議,在會(huì)議上計(jì)算機(jī)科學(xué)家John McCarthy說(shuō)服了參會(huì)者接受“人工智能(Artificial Intelligence)”。達(dá)特矛斯會(huì)議之后的十幾年是人工智能的第一次黃金時(shí)代,大批研究者撲向這一新領(lǐng)域,計(jì)算機(jī)被應(yīng)用于代數(shù)應(yīng)用題、幾何定理證明,一些頂尖高校建立的人工智能項(xiàng)目獲得了ARPA等機(jī)構(gòu)的大筆經(jīng)費(fèi),甚至有研究者認(rèn)為機(jī)器很快就能替代人類(lèi)做到一切工作。
人工智能的第一次低谷:到了70年代,由于計(jì)算機(jī)性能的瓶頸、計(jì)算復(fù)雜性的增長(zhǎng)以及數(shù)據(jù)量的不足,很多項(xiàng)目的承諾無(wú)法兌現(xiàn),比如現(xiàn)在常見(jiàn)的計(jì)算機(jī)視覺(jué)根本找不到足夠的數(shù)據(jù)庫(kù)去支撐算法去訓(xùn)練,智能也就無(wú)從談起。后來(lái)學(xué)界將人工智能分為兩種:難以實(shí)現(xiàn)的強(qiáng)人工智能和可以嘗試的弱人工智能。強(qiáng)人工智能是可以認(rèn)為就是人,可執(zhí)行“通用任務(wù)”;弱人工智能則處理單一問(wèn)題,我們迄今仍處于弱人工智能時(shí)代,而很多項(xiàng)目的停滯也影響了資助資金的走向,AI參與了長(zhǎng)達(dá)數(shù)年之久的低谷。
專(zhuān)家系統(tǒng)的出現(xiàn):1970年代之后,學(xué)術(shù)界逐漸接受新的思路:人工智能不光要研究解法,還得引入知識(shí)。于是,專(zhuān)家系統(tǒng)誕生了,它利用數(shù)字化的知識(shí)去推理,模仿某一領(lǐng)域的專(zhuān)家去解決問(wèn)題,“知識(shí)處理”隨之成為了主流人工智能的研究重點(diǎn)。在1977年世界人工智能大會(huì)提出的“知識(shí)工程”的啟發(fā)下,日本的第五代計(jì)算機(jī)計(jì)劃、英國(guó)的阿爾維計(jì)劃、歐洲的尤里卡計(jì)劃和美國(guó)的星計(jì)劃相機(jī)出臺(tái),帶來(lái)專(zhuān)家系統(tǒng)的高速發(fā)展,涌現(xiàn)了卡內(nèi)基梅隆的XCON系統(tǒng)和Symbolics、IntelliCorp等新公司。
人工智能的第二次經(jīng)費(fèi)危機(jī):20世紀(jì)90年代之前的大部分人工智能項(xiàng)目都是靠政府機(jī)構(gòu)的資助資金在研究室里支撐,經(jīng)費(fèi)的走向直接影響著人工智能的發(fā)展。80年代中期,蘋(píng)果和IBM的臺(tái)式機(jī)性能已經(jīng)超過(guò)了運(yùn)用專(zhuān)家系統(tǒng)的通用型計(jì)算機(jī),專(zhuān)家系統(tǒng)的風(fēng)光隨之褪去,人工智能研究再次遭遇經(jīng)費(fèi)危機(jī)。
IBM的深藍(lán)和Watson:專(zhuān)家系統(tǒng)之后,機(jī)器學(xué)習(xí)成為了人工智能的焦點(diǎn),其目的是讓機(jī)器具備自動(dòng)學(xué)習(xí)的能力,通過(guò)算法使得機(jī)器從大量歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律并對(duì)新的樣本作出判斷識(shí)別或預(yù)測(cè)。在這一階段,IBM無(wú)疑是AI領(lǐng)域的領(lǐng)袖,1996年深藍(lán)(基于窮舉搜索樹(shù))戰(zhàn)勝了國(guó)際象棋世界冠軍卡斯帕羅夫,2011年Watson(基于規(guī)則)在電視問(wèn)答節(jié)目中戰(zhàn)勝人類(lèi)選手,特別是后者涉及到放到現(xiàn)在仍然是難題的自然語(yǔ)言理解,成為機(jī)器理解人類(lèi)語(yǔ)言的里程碑的一步。
深度學(xué)習(xí)的強(qiáng)勢(shì)崛起:深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的第二次浪潮,2013年4月,《麻省理工學(xué)院技術(shù)評(píng)論》雜志將深度學(xué)習(xí)列為2013年十大突破性技術(shù)之首。其實(shí),深度學(xué)習(xí)并不是新生物,它是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(Neural Network)的發(fā)展,兩者之間有相同的地方,采用了相似的分層結(jié)構(gòu),而不一樣的地方在于深度學(xué)習(xí)采用了不同的訓(xùn)練機(jī)制,具備強(qiáng)大的表達(dá)能力。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)曾經(jīng)是機(jī)器學(xué)習(xí)領(lǐng)域很火的方向,后來(lái)由于參數(shù)難于調(diào)整和訓(xùn)練速度慢等問(wèn)題淡出了人們的視野。
但是有一位叫Geoffrey Hinton的多倫多大學(xué)老教授非常執(zhí)著的堅(jiān)持神經(jīng)網(wǎng)絡(luò)的研究,并和Yoshua Bengio、Yann LeCun(發(fā)明了現(xiàn)在被運(yùn)用最廣泛的深度學(xué)習(xí)模型-卷積神經(jīng)網(wǎng)CNN)一起提出了可行的deep learning方案。標(biāo)志性的事情是,2012年Hinton的學(xué)生在圖片分類(lèi)競(jìng)賽ImageNet上大大降低了錯(cuò)誤率(ImageNet Classification with Deep Convolutional Neural Networks),打敗了工業(yè)界的巨頭Google,頓時(shí)讓學(xué)術(shù)界和工業(yè)界嘩然,這不僅學(xué)術(shù)意義重大,更是吸引了工業(yè)界大規(guī)模的對(duì)深度學(xué)習(xí)的投入:2012年Google Brain用16000個(gè)CPU核的計(jì)算平臺(tái)訓(xùn)練10億神經(jīng)元的深度網(wǎng)絡(luò),無(wú)外界干涉下自動(dòng)識(shí)別了“Cat”;Hinton的DNN初創(chuàng)公司被Google收購(gòu),Hinton個(gè)人也加入了Google;而另一位大牛LeCun加盟Facebook,出任AI實(shí)驗(yàn)室主任;百度成立深度學(xué)習(xí)研究所,由曾經(jīng)領(lǐng)銜Google Brain的吳恩達(dá)全面負(fù)責(zé)。不僅科技巨頭們加大對(duì)AI的投入,一大批初創(chuàng)公司乘著深度學(xué)習(xí)的風(fēng)潮涌現(xiàn),使得人工智能領(lǐng)域熱鬧非凡。
|人工智能之主要引擎:深度學(xué)習(xí)
機(jī)器學(xué)習(xí)發(fā)展分為兩個(gè)階段,起源于上世紀(jì)20年代的淺層學(xué)習(xí)(Shallow Learning)和最近幾年才火起來(lái)的深度學(xué)習(xí)(Deep Learning)。淺層學(xué)習(xí)的算法中,最先被發(fā)明的是神經(jīng)網(wǎng)絡(luò)的反向傳播算法(back propagation),為什么稱(chēng)之為淺層呢,主要是因?yàn)楫?dāng)時(shí)的訓(xùn)練模型是只含有一層隱含層(中間層)的淺層模型,淺層模型有個(gè)很大的弱點(diǎn)就是有限參數(shù)和計(jì)算單元,特征表達(dá)能力弱。
上世紀(jì)90年代,學(xué)術(shù)界提出一系列的淺層機(jī)器學(xué)習(xí)模型,包括風(fēng)行一時(shí)的支撐向量機(jī)Support Vector Machine,Boosting等,這些模型相比神經(jīng)網(wǎng)絡(luò)在效率和準(zhǔn)確率上都有一定的提升,直到2010年前很多高校研究室里都是用時(shí)髦的SVM等算法,包括筆者本人(當(dāng)時(shí)作為一名機(jī)器學(xué)習(xí)專(zhuān)業(yè)的小碩,研究的是Twitter文本的自動(dòng)分類(lèi),用的就是SVM),主要是因?yàn)檫@類(lèi)淺層模型算法理論分析簡(jiǎn)單,訓(xùn)練方法也相對(duì)容易掌握,這個(gè)時(shí)期神經(jīng)網(wǎng)絡(luò)反而相對(duì)較為沉寂,頂級(jí)學(xué)術(shù)會(huì)議里很難看到基于神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)的研究。
但其實(shí)后來(lái)人們發(fā)現(xiàn),即使訓(xùn)練再多的數(shù)據(jù)和調(diào)整參數(shù),識(shí)別的精度似乎到了瓶頸就是上不去,而且很多時(shí)候還需要人工的標(biāo)識(shí)訓(xùn)練數(shù)據(jù),耗費(fèi)大量人力,機(jī)器學(xué)習(xí)中的5大步驟有特征感知,圖像預(yù)處理,特征提取,特征篩選,預(yù)測(cè)與識(shí)別,其中前4項(xiàng)是不得不親自設(shè)計(jì)的(筆者經(jīng)過(guò)機(jī)器學(xué)習(xí)的地獄般的折磨終于決定轉(zhuǎn)行)。在此期間,我們執(zhí)著的Hinton老教授一直研究著多隱層神經(jīng)網(wǎng)絡(luò)的算法,多隱層其實(shí)就是淺層神經(jīng)網(wǎng)絡(luò)的深度版本,試圖去用更多的神經(jīng)元來(lái)表達(dá)特征,但為什么實(shí)現(xiàn)起來(lái)這么苦難的呢,原因有三點(diǎn):
1. BP算法中誤差的反向傳播隨著隱層的增加而衰減;優(yōu)化問(wèn)題,很多時(shí)候只能達(dá)到局部最優(yōu)解;
2. 模型參數(shù)增加的時(shí)候,對(duì)訓(xùn)練數(shù)據(jù)的量有很高要求,特別是不能提供龐大的標(biāo)識(shí)數(shù)據(jù),只會(huì)導(dǎo)致過(guò)度復(fù)雜;
3. 多隱層結(jié)構(gòu)的參數(shù)多,訓(xùn)練數(shù)據(jù)的規(guī)模大,需要消耗很多計(jì)算資源。
圖2:傳統(tǒng)神經(jīng)網(wǎng)絡(luò)與多隱層神經(jīng)網(wǎng)絡(luò)
2006年,Hinton和他的學(xué)生R.R. Salakhutdinov在《Science》上發(fā)表了一篇文章(Reducing the dimensionality of data with neural networks),成功訓(xùn)練出多層神經(jīng)網(wǎng)絡(luò),改變了整個(gè)機(jī)器學(xué)習(xí)的格局,雖然只有3頁(yè)紙但現(xiàn)在看來(lái)字字千金。這篇文章有兩個(gè)主要觀點(diǎn):1)多隱層神經(jīng)網(wǎng)絡(luò)有更厲害的學(xué)習(xí)能力,可以表達(dá)更多特征來(lái)描述對(duì)象;2)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí),可通過(guò)降維(pre-training)來(lái)實(shí)現(xiàn),老教授設(shè)計(jì)出來(lái)的Autoencoder網(wǎng)絡(luò)能夠快速找到好的全局最優(yōu)點(diǎn),采用無(wú)監(jiān)督的方法先分開(kāi)對(duì)每層網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后再來(lái)微調(diào)。
圖3:圖像的與訓(xùn)練,編碼→解碼→微調(diào)
從圖3我們可以看到,深度網(wǎng)絡(luò)是逐層逐層進(jìn)行預(yù)訓(xùn)練,得到每一層的輸出;同時(shí)引入編碼器和解碼器,通過(guò)原始輸入與編碼→再解碼之后的誤差來(lái)訓(xùn)練,這兩步都是無(wú)監(jiān)督訓(xùn)練過(guò)程;最后引入有標(biāo)識(shí)樣本,通過(guò)有監(jiān)督訓(xùn)練來(lái)進(jìn)行微調(diào)。逐層訓(xùn)練的好處是讓模型處于一個(gè)接近全局最優(yōu)的位置去獲得更好的訓(xùn)練效果。
以上就是Hinton在2006年提出的著名的深度學(xué)習(xí)框架,而我們實(shí)際運(yùn)用深度學(xué)習(xí)網(wǎng)絡(luò)的時(shí)候,不可避免的會(huì)碰到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)。CNN的原理是模仿人類(lèi)神經(jīng)元的興奮構(gòu)造:大腦中的一些個(gè)體神經(jīng)細(xì)胞只有在特定方向的邊緣存在時(shí)才能做出反應(yīng),現(xiàn)在流行的特征提取方法就是CNN。打個(gè)比方,當(dāng)我們把臉?lè)浅?拷粡埲四槇D片觀察的時(shí)候(假設(shè)可以非常非常的近),這時(shí)候只有一部分的神經(jīng)元是被激活的,我們也只能看到人臉上的像素級(jí)別點(diǎn),當(dāng)我們把距離一點(diǎn)點(diǎn)拉開(kāi),其他的部分的神經(jīng)元將會(huì)被激活,我們也就可以觀察到人臉的線條→圖案→局部→人臉,整個(gè)就是一步步獲得高層特征的過(guò)程。
圖4:基本完整的深度學(xué)習(xí)流程
深度學(xué)習(xí)的“深”(有很多隱層),好處是顯而易見(jiàn)的 – 特征表達(dá)能力強(qiáng),有能力表示大量的數(shù)據(jù);pretraining是無(wú)監(jiān)督訓(xùn)練,節(jié)省大量人力標(biāo)識(shí)工作;相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),通過(guò)逐層逐層訓(xùn)練的方法降低了訓(xùn)練的難度,比如信號(hào)衰減的問(wèn)題。深度學(xué)習(xí)在很多學(xué)術(shù)領(lǐng)域,比淺層學(xué)習(xí)算法往往有20-30%成績(jī)的提高,驅(qū)使研究者發(fā)現(xiàn)新大陸一般涌向深度學(xué)習(xí)這一領(lǐng)域,弄得現(xiàn)在不說(shuō)用了深度學(xué)習(xí)都不好意思發(fā)論文了。
|深度學(xué)習(xí)的重要發(fā)展領(lǐng)域
深度學(xué)習(xí)首先在圖像、聲音和語(yǔ)義識(shí)別取得了長(zhǎng)足的進(jìn)步,特別是在圖像和聲音領(lǐng)域相比傳統(tǒng)的算法大大提升了識(shí)別率,其實(shí)也很容易理解,深度學(xué)習(xí)是仿人來(lái)大腦神經(jīng)感知外部世界的算法,而最直接的外部自然信號(hào)莫過(guò)于圖像、聲音和文字(非語(yǔ)義)。
圖像識(shí)別:圖像是深度學(xué)習(xí)最早嘗試的領(lǐng)域,大牛Yann LeCun早在1989年就開(kāi)始了卷積神經(jīng)網(wǎng)絡(luò)的研究,取得了在一些小規(guī)模(手寫(xiě)字)的圖像識(shí)別的成果,但在像素豐富的圖片上遲遲沒(méi)有突破,直到2012年Hinton和他學(xué)生在ImageNet上的突破,使識(shí)別精度提高了一大步。2014年,香港中文大學(xué)教授湯曉鷗領(lǐng)導(dǎo)的計(jì)算機(jī)視覺(jué)研究組開(kāi)發(fā)了名為DeepID的深度學(xué)習(xí)模型, 在LFW (Labeled Faces in the Wild,人臉識(shí)別使用非常廣泛的測(cè)試基準(zhǔn))數(shù)據(jù)庫(kù)上獲得了99.15%的識(shí)別率,人用肉眼在LFW上的識(shí)別率為97.52%,深度學(xué)習(xí)在學(xué)術(shù)研究層面上已經(jīng)超過(guò)了人用肉眼的識(shí)別。
當(dāng)然在處理真實(shí)場(chǎng)景的人臉識(shí)別時(shí)還是差強(qiáng)人意,例如人臉不清晰,光照條件,局部遮擋等因素都會(huì)影響識(shí)別率,所以在實(shí)際操作中機(jī)器學(xué)習(xí)與人工確認(rèn)相結(jié)合,更加妥當(dāng)。國(guó)內(nèi)做人臉識(shí)別的公司眾多,其中Face++、中科奧森、Sensetime、Linkface、飛搜科技都是走在前面的,在真實(shí)環(huán)境運(yùn)用或者在垂直細(xì)分領(lǐng)域中有著深厚的數(shù)據(jù)積累。在基于面部特征識(shí)別技術(shù)的情緒識(shí)別領(lǐng)域,閱面科技與Facethink(Facethink為天使灣早期投資項(xiàng)目)是國(guó)內(nèi)少數(shù)進(jìn)入該領(lǐng)域的初創(chuàng)公司。
語(yǔ)音識(shí)別:語(yǔ)音識(shí)別長(zhǎng)期以來(lái)都是使用混合高斯模型來(lái)建模,在很長(zhǎng)時(shí)間內(nèi)都是占據(jù)壟斷地位的建模方式,但盡管其降低了語(yǔ)音識(shí)別的錯(cuò)誤率,但面向商業(yè)級(jí)別的應(yīng)用仍然困難,也就是在實(shí)際由噪音的環(huán)境下達(dá)不到可用的級(jí)別。直到深度學(xué)習(xí)的出現(xiàn),使得識(shí)別錯(cuò)誤率在以往最好的基礎(chǔ)上相對(duì)下降30%以上,達(dá)到商業(yè)可用的水平。微軟的俞棟博士和鄧力博士是這一突破的最早的實(shí)踐者,他們與Hinton一起最早將深度學(xué)習(xí)引入語(yǔ)音識(shí)別并取得成功。由于語(yǔ)音識(shí)別的算法成熟,科大訊飛、云知聲、思必馳在通用識(shí)別上識(shí)別率都相差不大,在推廣上科大訊飛是先行者,從軍用到民用,包括移動(dòng)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、智能家居都有廣泛涉及。
自然語(yǔ)言處理(NLP):即使現(xiàn)在深度學(xué)習(xí)在NLP領(lǐng)域并沒(méi)有取得像圖像識(shí)別或者語(yǔ)音識(shí)別領(lǐng)域的成績(jī),基于統(tǒng)計(jì)的模型仍然是NLP的主流,先通過(guò)語(yǔ)義分析提取關(guān)鍵詞、關(guān)鍵詞匹配、算法判定句子功能(計(jì)算距離這個(gè)句子最近的標(biāo)識(shí)好的句子),最后再?gòu)奶崆皽?zhǔn)備的數(shù)據(jù)庫(kù)里提供用戶(hù)輸出結(jié)果。顯然,這明顯談不上智能,只能算一種搜索功能的實(shí)現(xiàn),而缺乏真正的語(yǔ)言能力。蘋(píng)果的Siri、微軟的小冰、圖靈機(jī)器人、百度度秘等巨頭都在發(fā)力智能聊天機(jī)器人領(lǐng)域,而應(yīng)用場(chǎng)景在國(guó)內(nèi)主要還是客服(即使客戶(hù)很討厭機(jī)器客戶(hù),都希望能第一時(shí)間直接聯(lián)系到人工服務(wù)),我認(rèn)為市場(chǎng)上暫時(shí)還沒(méi)出現(xiàn)成熟度非常高的產(chǎn)品。小冰眾多競(jìng)爭(zhēng)對(duì)手中還是蠻有意思的,她的設(shè)想就是“你隨便和我聊天吧”,而其他競(jìng)爭(zhēng)對(duì)手則專(zhuān)注于某些細(xì)分領(lǐng)域卻面臨著在細(xì)分領(lǐng)域仍是需要通用的聊天系統(tǒng),個(gè)人認(rèn)為小冰經(jīng)過(guò)幾年的數(shù)據(jù)積累和算法改善是具備一定優(yōu)勢(shì)脫穎而出。
為什么深度學(xué)習(xí)在NLP領(lǐng)域進(jìn)展緩慢:對(duì)語(yǔ)音和圖像來(lái)說(shuō),其構(gòu)成元素(輪廓、線條、語(yǔ)音幀)不用經(jīng)過(guò)預(yù)處理都能清晰的反映出實(shí)體或者音素,可以簡(jiǎn)單的運(yùn)用到神經(jīng)網(wǎng)絡(luò)里進(jìn)行識(shí)別工作。而語(yǔ)義識(shí)別大不相同:首先一段文本一句話是經(jīng)過(guò)大腦預(yù)處理的,并非自然信號(hào);其次,詞語(yǔ)之間的相似并不代表其意思相近,而且簡(jiǎn)單的詞組組合起來(lái)之后意思也會(huì)有歧義(特別是中文,比如說(shuō)“萬(wàn)萬(wàn)沒(méi)想到”,指的是一個(gè)叫萬(wàn)萬(wàn)的人沒(méi)想到呢,還是表示出乎意料的沒(méi)想到呢,還是一部電影的名字呢);對(duì)話需要上下文的語(yǔ)境的理解,需要機(jī)器有推理能力;人類(lèi)的語(yǔ)言表達(dá)方式靈活,而很多交流是需要知識(shí)為依托的。很有趣,仿人類(lèi)大腦識(shí)別機(jī)制建立的深度學(xué)習(xí),對(duì)經(jīng)過(guò)我們?nèi)祟?lèi)大腦處理的文字信號(hào),反而效果差強(qiáng)人意。根本上來(lái)說(shuō),現(xiàn)在的算法還是弱人工智能,可以去幫人類(lèi)快速的自動(dòng)執(zhí)行(識(shí)別),但還是不能理解這件事情本身。
|深度學(xué)習(xí)的挑戰(zhàn)和發(fā)展方向的探討
受益于計(jì)算能力的提升和大數(shù)據(jù)的出現(xiàn),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別領(lǐng)域取得了顯著的成果,不過(guò)我們也看到了一些深度學(xué)習(xí)的局限性,亟待解決:
1. 深度學(xué)習(xí)在學(xué)術(shù)領(lǐng)域取得了不錯(cuò)的成果,但在商業(yè)上對(duì)企業(yè)活動(dòng)的幫助還是有限的,因?yàn)樯疃葘W(xué)習(xí)是一個(gè)映射的過(guò)程,從輸入A映射到輸出B,而在企業(yè)活動(dòng)中我如果已經(jīng)擁有了這樣的A→B的配對(duì),為什么還需要機(jī)器學(xué)習(xí)來(lái)預(yù)測(cè)呢?讓機(jī)器自己在數(shù)據(jù)中尋找這種配對(duì)關(guān)系或者進(jìn)行預(yù)測(cè),目前還是有很大難度。
2. 缺乏理論基礎(chǔ),這是困擾著研究者的問(wèn)題。比如說(shuō),AlphaGo這盤(pán)棋贏了,你是很難弄懂它怎么贏的,它的策略是怎樣的。在這層意思上深度學(xué)習(xí)是一個(gè)黑箱子,在實(shí)際訓(xùn)練網(wǎng)絡(luò)的過(guò)程中它也是個(gè)黑箱子:神經(jīng)網(wǎng)絡(luò)需要多少個(gè)隱層來(lái)訓(xùn)練,到底需要多少有效的參數(shù)等,都沒(méi)有很好的理論解釋。我相信很多研究者在建立多層神經(jīng)網(wǎng)絡(luò)的時(shí)候,還是花了很多時(shí)間在枯燥的參數(shù)調(diào)試上。
3. 深度學(xué)習(xí)需要大量的訓(xùn)練樣本。由于深度學(xué)習(xí)的多層網(wǎng)絡(luò)結(jié)構(gòu),其具備很強(qiáng)的特征表達(dá)能力,模型的參數(shù)也會(huì)增加,如果訓(xùn)練樣本過(guò)小是很難實(shí)現(xiàn)的,需要海量的標(biāo)記的數(shù)據(jù),避免產(chǎn)生過(guò)擬合現(xiàn)象(overfitting)不能很好的表示整個(gè)數(shù)據(jù)。
4. 在上述關(guān)于深度學(xué)習(xí)在NLP應(yīng)用的篇章也提到,目前的模型還是缺乏理解及推理能力。
因此,深度學(xué)習(xí)接下來(lái)的發(fā)展方向也將會(huì)涉及到以上問(wèn)題的解決,Hinton、LeCun和Bengio三位AI領(lǐng)袖曾在合著的一篇論文(Deep Learning)的最后提到:
(https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf)
1. 無(wú)監(jiān)督學(xué)習(xí)。雖然監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中表現(xiàn)不俗,壓倒了無(wú)監(jiān)督學(xué)習(xí)在預(yù)訓(xùn)練的效果,但人類(lèi)和動(dòng)物的學(xué)習(xí)都是無(wú)監(jiān)督學(xué)習(xí)的,我們感知世界都是通過(guò)我們自己的觀察,因此若要更加接近人類(lèi)大腦的學(xué)習(xí)模式,無(wú)監(jiān)督學(xué)習(xí)需要得到更好的發(fā)展。
2. 強(qiáng)化學(xué)習(xí)。增強(qiáng)學(xué)習(xí)指的是從外部環(huán)境到行為映射的學(xué)習(xí),通過(guò)基于回報(bào)函數(shù)的試錯(cuò)來(lái)發(fā)現(xiàn)最優(yōu)行為。由于在實(shí)際運(yùn)用中數(shù)據(jù)量是遞增的,在新數(shù)據(jù)中能否學(xué)習(xí)到有效的數(shù)據(jù)并做修正顯得非常重要,深度+強(qiáng)化學(xué)習(xí)可以提供獎(jiǎng)勵(lì)的反饋機(jī)制讓機(jī)器自主的學(xué)習(xí)(典型的案例是AlphaGo)。
3. 理解自然語(yǔ)言。老教授們說(shuō):趕緊讓機(jī)器讀懂語(yǔ)言吧!
4. 遷移學(xué)習(xí)。把大數(shù)據(jù)訓(xùn)練好的模型遷移運(yùn)用到有效數(shù)據(jù)量小的任務(wù)上,也就是把學(xué)到的知識(shí)有效的解決不同但相關(guān)領(lǐng)域的問(wèn)題,這事情顯得很性感,但問(wèn)題就在遷移過(guò)程已訓(xùn)練好的模型是存在自我偏差的,所以需要高效的算法去消除掉這些偏差。根本上來(lái)說(shuō),就是讓機(jī)器像人類(lèi)一樣具備快速學(xué)習(xí)新知識(shí)能力。
自深度學(xué)習(xí)被Hinton在《Science》發(fā)表以來(lái),短短的不到10年時(shí)間里,帶來(lái)了在視覺(jué)、語(yǔ)音等領(lǐng)域革命性的進(jìn)步,引爆了這次人工智能的熱潮。雖然目前仍然存在很多差強(qiáng)人意的地方,距離強(qiáng)人工智能還是有很大距離,它是目前最接近人類(lèi)大腦運(yùn)作原理的算法,我相信在將來(lái),隨著算法的完善以及數(shù)據(jù)的積累,甚至硬件層面仿人類(lèi)大腦神經(jīng)元材料的出現(xiàn),深度學(xué)習(xí)將會(huì)更進(jìn)一步的讓機(jī)器智能化。
最后,我們以Hinton老先生的一段話來(lái)結(jié)束這篇文章:“It has been obvious since the 1980s that backpropagation through deep autoencoders would be very effective for nonlinear dimensionality reduction, provided that computers were fast enough, data sets were big enough, and the initial weights were close enough to a good solution. All three conditions are now satisfied.”(自從上世紀(jì)80年代我們就知道,如果有計(jì)算機(jī)足夠快、數(shù)據(jù)足夠大、初始權(quán)重值足夠完美,基于深度自動(dòng)編碼器的反向傳播算法是非常有效的?,F(xiàn)在,這三者都具備了。)
雷鋒網(wǎng)注:文章由作者授權(quán)首發(fā),如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。蘭徹來(lái)自于天使灣創(chuàng)投,專(zhuān)注于人工智能與機(jī)器人領(lǐng)域投資,曾在日本學(xué)習(xí)工作十年,深研AI機(jī)器人業(yè)務(wù),愛(ài)好黑科技,歡迎各類(lèi)AI和機(jī)器人領(lǐng)域創(chuàng)業(yè)者勾搭,微信hongguangko-sir。
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。