微軟的這項新技術(shù)證明，深度學(xué)習(xí)還能更“深入”

本文作者：溫曉樺

2016-01-17 07:30

導(dǎo)語：目前普遍使用的神經(jīng)網(wǎng)絡(luò)層級能夠達(dá)到20到30層，在此次挑戰(zhàn)賽中該團(tuán)隊?wèi)?yīng)用的神經(jīng)網(wǎng)絡(luò)系統(tǒng)實現(xiàn)了152層。

計算機(jī)視覺已經(jīng)是日常生活的一部分。借助這種技術(shù)，F(xiàn)acebook可以識別你上傳到社交網(wǎng)絡(luò)的照片上的人物；Google Photo能夠自動在收藏行列中找出特定的圖片，以及識別出各種各樣的東西……這樣的應(yīng)用已經(jīng)在互聯(lián)網(wǎng)中流行已久。

所有這些“識別”都源自于一種被稱為深度學(xué)習(xí)的人工智能技術(shù)。但就在這種技術(shù)被大肆炒作的幾年時間中，來自微軟研究院的一項新實驗證明這只是人工智能的開始——深度學(xué)習(xí)還可以更深度。

深層神經(jīng)網(wǎng)絡(luò)的突破：152個層級

計算機(jī)視覺革命是一場持久的斗爭。2012年，這項技術(shù)迎來了關(guān)鍵的轉(zhuǎn)折點，那時加拿大多倫多大學(xué)人工智能研究者贏得了一場叫作ImageNet的比賽。ImageNet讓一群機(jī)器PK圖像內(nèi)容識別，對圖片中的小貓、小狗和白云，看看哪臺計算機(jī)的識別準(zhǔn)確率更高。當(dāng)時，由研究員Alex Krizhevsky和教授Geoff Hinton組成的多倫多大學(xué)團(tuán)隊在比賽中使用了深層神經(jīng)網(wǎng)絡(luò)技術(shù)，這種技術(shù)的算法可以讓機(jī)器基于目前最大的圖像數(shù)據(jù)庫進(jìn)行分類識別，而不是依靠人為制定的規(guī)則。

多倫多大學(xué)團(tuán)隊使用非監(jiān)督的逐層貪心訓(xùn)練算法取得的成果，為訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)帶來了希望。從那時候開始，包括Facebook、Google、Twitter和微軟在內(nèi)的互聯(lián)網(wǎng)巨頭紛紛開始使用相似的科技來建造自己的計算機(jī)視覺系統(tǒng)。微軟研究院主管Peter Lee表示：“還不能說我們的系統(tǒng)能夠像人類眼睛一樣進(jìn)行觀察，但我敢說，在某些特定的、狹義的任務(wù)上，計算機(jī)視覺可以媲美人類。”

粗略地說，神經(jīng)網(wǎng)絡(luò)兼用硬件和軟件來模擬近似人類的大腦神經(jīng)元網(wǎng)絡(luò)。這個想法誕生于上世紀(jì)80年代，但直到2012年，Krizhevsky和Hinton基于圖像處理單元、GPU運(yùn)行的神經(jīng)網(wǎng)絡(luò)技術(shù)才算真正地推動了這項技術(shù)的發(fā)展。這些專門的處理器和其他高度圖形化軟件最初都是為了游戲中的圖像渲染而設(shè)計，但事實證明，它們也適合于神經(jīng)網(wǎng)絡(luò)。Google、Facebook、Twitter、微軟等公司如今都使用GPU來驅(qū)動人工智能來處理圖像識別，以及包括互聯(lián)網(wǎng)搜索、安全防御等其他任務(wù)?，F(xiàn)在，Krizhevsky和Hinton都已經(jīng)加入了Google。

如今，最新一屆ImageNet的贏家正在探求計算機(jī)視覺的下一個突破點——以及人工智能更加廣泛的應(yīng)用。上個月，微軟研究院團(tuán)隊摘得了ImageNet的桂冠，他們使用了一個“深層殘差系統(tǒng)”來指導(dǎo)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計。目前普遍使用的神經(jīng)網(wǎng)絡(luò)層級能夠達(dá)到20到30層，在此次挑戰(zhàn)賽中該團(tuán)隊?wèi)?yīng)用的神經(jīng)網(wǎng)絡(luò)系統(tǒng)實現(xiàn)了152層。ImageNet挑戰(zhàn)賽去年獲勝的系統(tǒng)錯誤率為6.6%，而今年微軟系統(tǒng)的錯誤率已經(jīng)低至3.57%。

而這也表明，在未來幾年里，利用大型的GPU集群和其他專屬的處理器，我們不僅能夠改善圖像識別，而且還能解決對話識別、自然語言理解等人工智能服務(wù)。換句話說，目前深度學(xué)習(xí)所能達(dá)到的發(fā)展程度愈加接近其本應(yīng)具有的潛力了。Lee表示，微軟正致力于發(fā)掘更巨大的設(shè)計空間。

深度神經(jīng)網(wǎng)絡(luò)以“層”的形式分布。每一層都具有不同系列的運(yùn)算——也就是算法。某一層的輸出會成為下一層的輸入。籠統(tǒng)地說，如果一個神經(jīng)網(wǎng)絡(luò)是設(shè)計用來進(jìn)行圖像識別的，其中某一層神經(jīng)將負(fù)責(zé)尋找圖片的一系列特性——邊、角、形狀或者紋理——而下一層神經(jīng)則負(fù)責(zé)尋找另一個系列的特性。這些層級就構(gòu)成了神經(jīng)網(wǎng)絡(luò)的”深度“。負(fù)責(zé)監(jiān)督ImageNet大賽的北卡羅來納大學(xué)研究員Alex Berg介紹：“一般而言，神經(jīng)網(wǎng)絡(luò)越深度，機(jī)器學(xué)習(xí)就越容易?！?/p>

所以，微軟研究院團(tuán)隊?wèi)?yīng)用的152層神經(jīng)網(wǎng)絡(luò)系統(tǒng)能夠識別出更多的對象屬性，大大提高了圖像識別的準(zhǔn)確率?！八鼈兛梢詫W(xué)習(xí)到更多微妙的東西。”

事實上，過去這種很深的神經(jīng)網(wǎng)絡(luò)并不可行。部分原因是，在通過每一層級的反傳訓(xùn)練中，反傳監(jiān)督信號幅度會迅速衰減甚至消退，這讓整個神經(jīng)網(wǎng)絡(luò)系統(tǒng)的訓(xùn)練極為困難。根據(jù)Lee的介紹，微軟通過使用深度殘差網(wǎng)絡(luò)解決了這個困難——這個深度殘差網(wǎng)絡(luò)可以在不需要時跳過某些層級，而需要用到時又可以重新拾回?！疤^某些不需要的層級，有助于保持反傳監(jiān)督信號的幅度?！薄皻埐顚W(xué)習(xí)”最重要的突破在于重構(gòu)了學(xué)習(xí)的過程，并重新定向了深層神經(jīng)網(wǎng)絡(luò)中的信息流，很好地解決了此前深層神經(jīng)網(wǎng)絡(luò)層級與準(zhǔn)確度之間的矛盾。

Berg表示，這個新的設(shè)計不同于以往的神經(jīng)網(wǎng)絡(luò)系統(tǒng)，相信其他大公司和研究者都會效仿。

“深層”的困難

另一個問題是，構(gòu)建這樣一個宏大的神經(jīng)網(wǎng)絡(luò)是非常困難的。落地于一套特定的算法——決定每一個層級應(yīng)該如何運(yùn)作、如何與下一個層級進(jìn)行傳遞——可以說是一個史詩級的任務(wù)。不過，在這里微軟同樣有個訣竅——它設(shè)計了一個計算系統(tǒng)，可以幫助構(gòu)建這些神經(jīng)網(wǎng)絡(luò)。

微軟研究院團(tuán)隊成員之一孫劍解釋稱，研究人員可以為大規(guī)模的神經(jīng)網(wǎng)絡(luò)尋找出可行的排列，然后系統(tǒng)可以對一系列相似的可能性進(jìn)行循環(huán)運(yùn)算，直到計算出最有效的排列?！按蠖鄶?shù)情況下，在經(jīng)過一定次數(shù)的嘗試后，研究人員會從中總結(jié)、反饋，然后為下一輪的嘗試給出新的決策。我們可以將這種方式成為‘人工輔助搜索’?！?/p>

深度學(xué)習(xí)創(chuàng)業(yè)公司Skymind首席研究員Adam Gibson表示，這樣的做法越來越流行，“這叫做‘超參數(shù)優(yōu)化算法’?！薄叭藗兛梢约铀贆C(jī)器集群的運(yùn)算，一次同時運(yùn)行10個模型，然后找出效果最優(yōu)的一個?！?/p>

“歸根結(jié)底是一個關(guān)于硬件的問題”

按照孫劍和Peter Lee的描述，這種方法并不是在這個問題上“蠻干”?！霸谟兄罅康挠嬎阗Y源后，系統(tǒng)自然就可以計算出一個龐大的組織，然后在這個具有無限可能的空間內(nèi)進(jìn)行搜索。只是，目前世界上還具備這樣充足的計算資源，因此我們主要還是依靠像孫劍這樣聰明的研究員?！?/p>

但Lee強(qiáng)調(diào)說，多虧了新的技術(shù)以及計算機(jī)數(shù)據(jù)中心，才使得發(fā)展深度學(xué)習(xí)有了巨大的可能性。如今，微軟的重要任務(wù)之一是創(chuàng)造出開發(fā)這些可能性的時間和計算機(jī)系統(tǒng)。這就是微軟為何不僅努力改進(jìn)GPU集群的運(yùn)算能力，還開發(fā)其他諸如現(xiàn)場可編程門陣列（FPGA）等專用處理器的原因之一。而除此之外，微軟研究員還需要開發(fā)更多試驗性的硬件平臺。

如Gibson所言，深度學(xué)習(xí)愈加變成為一個“硬件問題”。確實，我們?nèi)孕枰呒壯芯繂T來指導(dǎo)神經(jīng)網(wǎng)絡(luò)的構(gòu)建，但所謂尋找新的途徑更多地是開發(fā)適用于更多硬件平臺的新算法，而更多更好的硬件支撐可以說是一個捷徑。

via Wired

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

相關(guān)文章