1
本文作者: 岑大師 | 2017-09-17 19:38 |
一個(gè)星期前由Fran?ois Chollet在Twitter上引發(fā)的“深度學(xué)習(xí)是否進(jìn)入平臺(tái)期”的討論,因?yàn)榇笊馟effory Hinton的參與達(dá)到了高峰。
據(jù)科技媒體Axios報(bào)道,上周三在多倫多舉行的一個(gè)AI會(huì)議上Hinton表示,他現(xiàn)在對反向傳播算法“深感懷疑”。這一算法是用來訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的常見方法,該方法計(jì)算對網(wǎng)絡(luò)中所有權(quán)重計(jì)算損失函數(shù)的梯度。這個(gè)梯度會(huì)反饋給最優(yōu)化方法,用來更新權(quán)值以最小化損失函數(shù)。值得一提的是,Hinton本人是反向傳播算法的早期提出者,1986年,Hinton在一篇論文中首次將反向傳播算法引入多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
盡管在這次會(huì)議上,不少參會(huì)的科學(xué)家表示在人工智能的未來反向傳播仍處于核心地位,但Hinton的發(fā)言一錘定音:可能會(huì)有全新的方法推出。Hinton在現(xiàn)場引用普朗克的名言稱:“Max Planck 曾說:‘科學(xué)之道,不破不立?!磥砣Q于對我所說的一切持懷疑態(tài)度的那些研究生?!彼€表示,如果要讓深神經(jīng)網(wǎng)絡(luò)變得更聰明,即向無監(jiān)督學(xué)習(xí)過渡,“這可能意味著要徹底放棄反向傳播。”
這一觀點(diǎn)在Twitter上引起了廣泛討論,Pedro Domingos、李飛飛等多人紛紛轉(zhuǎn)發(fā)。在李飛飛轉(zhuǎn)發(fā)的Twitter上,雷鋒網(wǎng)注意到,前幾天的“few tools lives enternity”已經(jīng)悄然變成了“no tool is eternal”,Hinton這一觀點(diǎn)對AI研究者的震撼之大可見一斑。
眾所周知,從Hinton于2006年在Science雜志上發(fā)表《Deep Belief Networks》的論文開啟了深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代。十余年來,基于Hinton及眾多先驅(qū)提出的深度學(xué)習(xí)理念框架,深度學(xué)習(xí)在有監(jiān)督學(xué)習(xí)上取得了一定的突破,但同時(shí)也暴露出了一定的技術(shù)局限,如數(shù)據(jù)需求大、環(huán)境適應(yīng)弱、可解釋性差、性能差異大、數(shù)據(jù)分享難等。不少研究者認(rèn)為,人工智能的下一步發(fā)展有待于在無監(jiān)督學(xué)習(xí)領(lǐng)域的進(jìn)一步突破。
Hinton近日對其在2011年的一篇論文《Transforming Auto-encoders》提出的Capsule概念重新進(jìn)行了思考及完善,關(guān)于Capsule的最新論文《Dynamic Routing Between Capsules》目前已被NIPS 2017接收,目前這篇論文并未正式發(fā)表,但我們還是可以從Google Research Blog發(fā)表的論文摘要以及部分提到了Capsule的Slide上了解到關(guān)于Hinton對Capsule的想法,雷鋒網(wǎng)摘編如下:
Capsule 是一組神經(jīng)元,其活動(dòng)向量的矢量方向及方向分別代表實(shí)體化程度及實(shí)例參數(shù),相同水平下的活躍capsule可通過矩陣變換對更高級別的Capsule實(shí)體化參數(shù)進(jìn)行預(yù)測。當(dāng)多個(gè)預(yù)測一致時(shí),高級別的Capsule將會(huì)更加活躍。在論文中我們展示了用于判別訓(xùn)練的多層Capsule系統(tǒng)在MNIST數(shù)據(jù)集表現(xiàn)臻于完美,相比起高度重疊的數(shù)字的卷積網(wǎng)絡(luò)的性能更為優(yōu)越。為達(dá)到這一目標(biāo),我們試用使用迭代的路由協(xié)議機(jī)制,即低級別的Capsule傾向于將預(yù)測結(jié)果輸出發(fā)送至高級別的Capsule,從而使得高級別Capsule的活動(dòng)向量具備大標(biāo)量積。論文最終版本正在修訂中,并會(huì)包含評論者的意見。
換言之,Capsule試圖在神經(jīng)網(wǎng)絡(luò)內(nèi)形成和抽象創(chuàng)建子網(wǎng)絡(luò),也就是說,如果你看一個(gè)標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò),層與層之間是完全連接的(也就是說,層1中的每個(gè)神經(jīng)元都可以訪問層0中的每個(gè)神經(jīng)元,并且本身被第2層中的每個(gè)神經(jīng)元訪問,以此類推), 這種更復(fù)雜的圖形拓?fù)渌坪蹩梢愿行У氐靥岣呱删W(wǎng)絡(luò)的有效性和可解釋性。論文中提到的 Dynamic Routing,就是希望能夠形成一種機(jī)制,讓網(wǎng)絡(luò)能夠?qū)⑦m合某一層 Capsule 處理的內(nèi)容,路由到對應(yīng)的 Capsule讓其處理,從而形成了某種推斷鏈。
(關(guān)于Capsule理論的更多內(nèi)容,可參見雷鋒網(wǎng)之前文章:《Hinton親自講解迄今未發(fā)表工作:膠囊理論的核心概念到底是什么?》)
在知乎的這一問題下,得到贊同最高的SIY.Z是這樣回答的:
首先這個(gè)工作成功或者不成功都是很正常的,就算 Capsule 真的會(huì)成為以后的趨勢,Hinton 也未必這么快找到正確的訓(xùn)練算法;就算 Hinton 找到了正確的訓(xùn)練算法,也沒有人能夠保證,Capsules 的數(shù)量不到人腦中 mini-columns 數(shù)量的時(shí)候,能夠起達(dá)到人類的識別率(何況現(xiàn)在 CNN 雖然問題很多,但是識別率很多已經(jīng)超過人類了)。
從目前已經(jīng)披露的信息看,Capsule的概念會(huì)更仿生一些,能夠更好地模擬人類大腦神經(jīng)元之間的復(fù)雜連接結(jié)構(gòu),但對這個(gè)框架具體的數(shù)學(xué)描述仍有待于進(jìn)一步研究。
雷鋒網(wǎng)認(rèn)為,在最近幾年,深度學(xué)習(xí)得到了廣泛的應(yīng)用,深度學(xué)習(xí)工程化的門檻逐步降低,導(dǎo)致在諸多學(xué)術(shù)會(huì)議上已經(jīng)開始呈現(xiàn)出“不用深度學(xué)習(xí)都不好意思和人打招呼”的現(xiàn)象,在這種環(huán)境下,不少研究者也在探索深度學(xué)習(xí)之外的其他理論研究,Hinton的“深度學(xué)習(xí)需要推倒重來,可能需要拋棄反向傳播”的反思更多具備指導(dǎo)性的意義,也會(huì)激勵(lì)更多人在其他的理論研究上進(jìn)一步探索。
值得一提的是,有不少國內(nèi)學(xué)者已經(jīng)走在了這個(gè)領(lǐng)域的前列。如南京大學(xué)的周志華教授今年稍早發(fā)表的關(guān)于多層隨機(jī)森林的論文《Deep Forest: Towards An Alternative to Deep Neural Networks》是關(guān)于用做深度學(xué)習(xí)的,也不需要反向傳播;而在去年,周志華教授也針對當(dāng)前深度學(xué)習(xí)存在的技術(shù)局限提出了“學(xué)件”的解決方案,在這一波對深度學(xué)習(xí)的重新思考中,我們也期望有更多的國內(nèi)學(xué)者能夠有更多的突破。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。