大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

本文作者：宗仁

2016-09-09 21:46

導語：今天深度學習成功的主要因素：超大規(guī)模訓練數據、復雜的深層模型、分布式并行訓練，也正是影響其進一步發(fā)展的障礙。

9月9日，2016湖南人工智能論壇在長沙舉辦，大會期間，來自國內外的許多頂級專家在會上給我們做了報告，下面是雷鋒網根據微軟亞洲研究院劉鐵巖教授的現場精華整理，全部內容已經經由劉教授確認。

在人工智能高歌猛進，人們期待深度學習無往不勝之時，作為人工智能學者，我們必須保持冷靜，分析深度學習技術的短板，開展針對性研究將其克服，從而助力人工智能的長期繁榮。事實上，今天深度學習成功的主要因素：超大規(guī)模訓練數據、復雜的深層模型、分布式并行訓練，也正是影響其進一步發(fā)展的障礙。首先，取得大量有標簽訓練數據需要付出巨大代價，不是每個領域都能滿足這個條件；其次，深層模型很難優(yōu)化，超大模型會突破計算機容量；再次，同步并行效率低下、異步并行受通信延時影響收斂緩慢。在本報告中，我將會介紹微軟研究院的最新成果，展示如何通過“對偶通信博弈技術”有效利用無標簽訓練數據、如何利用“殘差學習技術”解決深層神經網絡的優(yōu)化問題、如何借助“二維映射技術”縮小模型規(guī)模、以及如何使用“高階泰勒補償技術”解決通信延時問題。這些前沿技術將會陸續(xù)通過微軟的開源項目CNTK和DMTK分享給業(yè)界，以期和大家一起推動人工智能技術的進一步發(fā)展。

劉鐵巖博士，微軟亞洲研究院首席研究員，美國卡內基梅隆大學（CMU）客座教授。劉博士的研究興趣包括：人工智能、機器學習、信息檢索、數據挖掘等。他的先鋒性工作促進了機器學習與信息檢索之間的融合，被國際學術界公認為“排序學習”領域的代表人物，他在該領域的學術論文已被引用近萬次。近年來，劉博士在博弈機器學習、深度學習、分布式機器學習等方面也頗有建樹，他的研究工作多次獲得最佳論文獎、最高引用論文獎、研究突破獎，并被廣泛應用在微軟的產品和在線服務中。他是國際電子電氣工程師學會（IEEE）、美國計算機學會（ACM）和中國計算機學會（CCF）的高級會員，中國計算機學會的杰出演講者和學術工委。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

在我的報告開始之前，先介紹一下我所供職的單位：微軟研究院，它是微軟公司在全球設立的基礎研究機構，它在全球有六個分院。位于北京的微軟亞洲研究院成立于1998年，到現在已經有十八個年頭，這十八年里，微軟亞洲研究院在頂級國際會議和期刊上發(fā)表了近5000篇論文，其中包括50篇最佳論文，為微軟產品提供了400項技術。微軟亞洲研究院非常像一所大學，有近200余名世界頂尖的計算機科學家，以及來自各個高校的三四百名長期的實習生。

人工智能在最近取得了令人矚目的成果，微軟在這個過程中也做了很多的貢獻，比如在語音識別方面的突破，就起源于2006年微軟的研究員和Geoff Hinton一起從事的研究。這幾年人工智能領域在人臉識別、圖像識別、自然語言處理、人際對弈都取得了甚至超過人類水平的研究成果，非常喜人。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

深度學習成功的秘密

說到這幾年取得的成果，就不得不提到深度學習技術，深度學習技術概念很寬，但最主流的算法就是深度神經網絡，這張圖展示了深度神經網絡的基本結構。圖里的圓圈代表是一個神經元，每一個神經元會對它的輸入做一個線性加權求和，在進行一個非線性變換。經過多層的變換，深度神經網絡可以模擬非常復雜的非線性分類界面。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

除了最基本的全連接網絡，最近深度神經網絡有很多新的變種，比如說卷積神經網絡，這是為圖像識別發(fā)明新的網絡結構，循環(huán)神經網絡主要為自然語言流式數據發(fā)明的神經網絡結構。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

不管是標準多層神經網絡、卷積神經網絡，還是循環(huán)神經網絡，其學習過程都非常的簡單和一致。首先會有一個訓練集，我們用w表示深度神經網絡里面的參數，用f來表示神經網絡模型。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

L稱為損失函數，深度學習神經網絡的訓練其實通過在訓練集上最小化損失函數而求得的，就是我們通常所說的經驗風險最小化。為了實現這個目標，人們使用的優(yōu)化技術也非常的簡單，就是大家上大一的時候就會學到梯度下降法：對損失函數求一個梯度，然后把模型向梯度下降最快的方向做一個更新，這種方法在神經網絡領域也被稱為反向傳播。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

到此為止我就給大家用了一兩張PPT做了非?？焖俚闹v座，什么是深度神經網絡，它有哪些變種。

深度學習網絡為什么成功

接下來我們來看看神經網絡背后深層次的東西。當深度神經網絡帶來了人工智能很大的飛躍，外行們討論的都是人工智能對人類會不會產生威脅？而內行看到的則是深度神經網絡有什么技術優(yōu)勢、往前發(fā)展還有什么樣子的短版？

前面提到，無論深度神經網絡長什么樣子，其實就是一種經驗風險最小化。這里，X是樣本，Y是標簽，所以X和Y加起來就是神經網絡的訓練數據，F用來表示神經網絡模型，L是損失函數。神經網絡的訓練就是在整個神經網絡的函數空間里面去找一個最優(yōu)模型，從而最好地擬合訓練數據。其實不僅神經網絡在做這件事，歷史上那么多的分類模型，都在做的類似的事情。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

為什么到今天神經網絡可以取得傳統(tǒng)模型無法取得的成功呢？其實有三個理由：

一是要感謝我們這個大數據的時代，我們如今有著前所未有的大訓練數據，可以充分訓練復雜的模型。

二是深度神經網絡和前面提到的模型相比，具有更強的表達能力。大家知道在神經網絡領域有一個universal approximation theorem，講的是帶有隱層的神經網絡可以逼近任意的連續(xù)函數。從這個意義上講，即便我們選一個非常復雜的問題，用深度神經網絡也可以逼近它的分類界面。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

有了大數據，又有了復雜模型，那怎么訓練呢？就需要非常強大的計算資源，就是可能要用上百臺、上千臺的計算機來共同訓練一個深度神經網絡。總結一下啊，大數據、復雜模型、運算集群能力其實共同支撐了今天深度神經網絡的巨大成功。

深度學習進一步發(fā)展的瓶頸

但是世界上沒有免費的午餐，這三方面恰洽也是深度神經網絡向前進一步發(fā)展的瓶頸所在。

第一個方面，其實大規(guī)模的數據不是那么容易取得的，尤其在某些領域，比如說醫(yī)學領域，有些疑難雜癥這世界上一共就一百個樣本，如何去產生成千上萬的大數據？

第二個方面深度神經網絡非常難以優(yōu)化，目前人們?yōu)榇税l(fā)明了很多黑科技。我們經常遇到這種情況，即便有一個組織宣布他有非常好的深度模型并且把算法進行了開源，但是我們當下載到自己的環(huán)境里，用自己的數據做訓練的時候，往往得不到那么好的結果。另外，有的時候很大的模型容量會超過計算機的限制，目前我們經常用GPU來訓練深度神經網絡，但是GPU的內存很小，一般就是幾十個G，很多大的神經網絡的規(guī)模會超過這個容量。

第三個方面，即便神經網絡模型可以塞到GPU里，但是當數據夠大的時候，用單機進行訓練可能要花費非常多的時間，也許幾百年也訓練不出一個模型來。為此，我們需要用一個集群來做分布式的訓練，聽起來很簡單，好像是系統(tǒng)領域成熟的問題，但是我們關心的不是簡單地把模型訓練分發(fā)到多個機器上，而是要保證精度不發(fā)生損失，我們希望在加速的同時，還有很好的判別或者是分類能力，這件事情一點都不簡單。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

一）通過“對偶通信博弈技術”有效利用無標簽訓練數據

前面提到了很多情況下，不是那么容易獲得大數據，當沒有大的訓練數據時候該怎么辦？通常獲得有標簽數據很難，但是獲得無標簽數據會相對榮國。比如現在ImageNet比賽的數據通常是1000類，每類1000幅圖像；但是我們如果用搜索引擎來搜索圖像，可以獲得比這多得多的數據。關鍵的問題是如何給這些無標簽數據打上一個標簽。常用的方法是標簽傳播，就是利用樣本的相似性，給無標簽數據賦予一個偽標簽。另一種情況是，我們有類別信息，但是沒有樣本。最近有一個很有趣的工作叫GAN: generative adversarial nets，它利用一個生成器和一個判別器的博弈，最終能根據標簽自動產生屬于這個類別的數據。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

有了這個技術，我們就不用去采集數據，而是自動地淵源不斷輸出那些圖像。

這兩種工作是對稱的，一個工作處理的是有樣本但無標簽，另一個工作處理的是有標簽但無樣本。那么能不能使它們兩個對接在一起？這是我們今年在NIPS上發(fā)的一篇論文，稱為對偶通信博弈，可以把前面兩項技術完美結合在一起。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

首先從任何一個無標簽的樣本出發(fā)，可以預測標簽，然后基于這個標簽又可以用生成技術生成一個新樣本出來，這個過程我們可以獲得很多反饋信息，比如標簽的分布、生成樣本和原樣本的相似度等。這個過程也可以從標簽出發(fā)，也能形成一個閉環(huán)。有了這個技術，我們就可以自己產生訓練數據。我們把這個技術應用到了機器翻譯上，取得了非常好的結果。大家知道機器翻譯這幾年有突飛猛進的進展，得益于大量雙語語料的存在，如果只有很少的數據能做什么呢？

這張圖上面最上面條形圖對應的是用百分之百的雙語語料訓練的結果，最底下一行是使用傳統(tǒng)的深度學習技術只用5%的雙語語料的結果。綠色的這一條也只是使用了5%的有標數據，但是使用了對偶通信博弈來自動生成更多的訓練數據，它可以很快逼近使用全部雙語語料的精度。當然，這里機器翻譯只是一個例子，同樣的方法可以解決很多其他的應用問題。

二）利用“殘差學習技術”解決深層神經網絡的優(yōu)化

深度學習的網絡很復雜，訓練其實不容易，那么到底有哪些不容易？

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

一個典型的挑戰(zhàn)叫做梯度消減，深度神經網絡是從輸出層的損失函數不斷向下傳播，用預測誤差來更改神經網絡的參數，所謂梯度消減指的是當網絡很深的時候，輸出層的損失很難有效反饋到底層，所以底層神經參數不能得到有效的更新。我們舉個簡單的例子，這是一個簡化的深度神經網絡，每一層只有一個隱節(jié)點，但是有很多層次，C是損失函數，反向傳播無非就是對損失函數求一個偏導，求到每一個層的參數上面去，這個偏導長什么樣子，大家回去做一點演算的話就可以得到這個式子。這里sigma’對應于非線性激活函數的導數，它的最大值也不過是0.25，如果一個網絡很深，每一層對應的激活函數的導數會被連乘，一連串很小的量連乘會是什么結果呢，就是很快趨近于0，這就是梯度消減的起因。為了解決這個問題，人們提出在原有的神經網絡基礎上增加了一條由門電路控制的線性通路。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

我們做回傳的時候，線性通路可以把預測誤差有效傳遞到底的參數上，而不會有那么強的梯度消減問題。但是，這兩個工作使用的門電路，有的時候會通，有的時候會斷，還是會帶來一定的損失。我們研究院的同事提出在神經網絡不同層次之間加一個直接的線性通路，不受任何的限制，永遠是通的，經過這樣的一個改造之后，對于解決梯度消減問題效果更好，并且可以讓我們很輕易訓練出成千上萬層的網絡，其中152層的殘差網絡參加了去年的比賽，并且取得了五個項目的冠軍，獲得了全世界的矚目。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

大家看看這個152層的網絡有多深。

其實，不僅深會帶來麻煩，網絡大也是件麻煩事。這個數據集是在網絡搜索領域常用的數學極，它包含十幾億的網頁，詞表大小大概1000萬。如果基于這樣數據去設計一個神經網絡，因為輸出層是詞表那么大，輸入層也是詞表那么大，網絡大小是非?？捎^的，其參數個數會超過200億，存儲的量會超過200G，這樣是網絡是沒法塞到GPU的內存里的。即便可以塞進去，訓練這么大的網絡也需要花很長的時間，粗略的計算告訴我們，用主流GPU來訓練，大約需要180年。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

三）借助“二維映射技術”縮小模型規(guī)模

今年我們的研究組提出新的技術，就叫做參數維度壓縮技術，可以有效解決詞表過大的問題。因為詞表決定了輸出的結點數和輸入的結點數，我們工作的核心所在就是提出了詞表的二維向量表達。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

每一個詞不是用一個節(jié)點表示，而是用兩個節(jié)點去表示，不同的詞會共享節(jié)點。如果用二維的表格來表述所有的詞條，原來10000個詞，只需要200個元素就可以了。通過二維詞表的構造大大解決了內存的空間，但是到底該怎么生成這些二維的詞表？

哪些詞要共享節(jié)點，哪些詞不需要共享節(jié)點，其實這是一個最優(yōu)的二分圖匹配問題，我們可以循環(huán)地求解二分圖匹配，從而獲得合理的二維詞表。相應地，我們把傳統(tǒng)的神經網絡也做了改進，提出的二維循環(huán)神經網絡。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

這個網絡大大縮小了網絡儲存的內存需求，像我剛才提到有200億個參數的網絡，用了這個技術以后，儲存量降低了三個數量級，運算量降低了四個數量級，這還不是最神奇的，我們使用了二維共享表之后，精度也得到了提高，這主要是因為傳統(tǒng)的神經網絡輸入結點是互相獨立的，但是我們沒有做這樣的假設，我們是用了最優(yōu)二分圖的匹配來找到了詞與詞之間的語義相似性，因此提高了網絡的精度。

四）如何提高云計算和并行計算

大家想象一下，如果真的有一個非常大的網絡，有很多數據要跑，一臺機器要一兩百年才能完成訓練。那就不得不使用多臺機器進行并行訓練。在并行的訓練當中最簡單的范式就是同步的并行。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

比如說每一臺機器做一個局部運算，然后機器互相之間互相同步一下學到的東西。但是這一百臺機器可能運算的速度有很大差別，做同步的更新，這一百臺機器就需要互相等待，最后運算的效率是由最慢的機器決定的。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

結果是，使用了100臺機器，可能由于互相等待，最終只實現了三五倍的加速比，得不償失。為了解決這個問題，最近學者們開始研究異步并行。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

就是機器之間不互相等待，這樣雖然速度有所提高，但是會出現所謂延時通信的額問題。也就是，當一臺機器根據當前模型，得到模型更新，想要推送回全局模型的時候，全局模型很可能已經被其他機器更新了好幾次了，導致它推送上的更新過時了，把這個過時的更新加到全局模型上，可能會導致出乎意料的結果。有學者做過分析，這種延時，或導致學習的收斂速度變慢，最終也是影響加速比。

為了解決這個問題，我們需要弄清楚這個過時的更新到底會帶來什么影響。其實，這個舊的更新和新的更新之間的差別可以用泰勒展開來進行刻畫，傳統(tǒng)的異步并行相當于只利用了泰勒展開的零階項，那么，我們是不是可以用更多的高階項去補償這種延時呢？如果把所有高階項都用上，確實可以把通訊延遲完全解決掉，但是其運算復雜度也會增加，所以這中間有一個平衡的問題。我們做了一個簡單的嘗試，就是在零階項的基礎上，多保留了一階項。但是，即便這種簡單的操作，也需要我們計算原損失函數的二階導數（就是所謂海森陣），其復雜度是相當高的，可能得不償失。我們的貢獻在于證明了一個重要的定理，當損失函數具有對數似然的形式的時候，這個二階導數可以用一階導數的簡單變換，實現無偏估計。而神經網絡里常用的交叉熵損失函數，正是一種對數似然的形式，因此我們的技術可以很好地應用到深度神經網絡里面。

最后，關于微軟的開源平臺

前面我講到了很多微軟在深度學習方面的前沿技術，這些技術將會陸續(xù)通過我們的開源項目分享給業(yè)界。其中一個開源項目叫CNTK，微軟深度學習工具包，還有一個叫DMTK，微軟分布式機器學習工具包。希望對這方面感興趣的同事可以嘗試一下我們的工具包，希望對你們的研究有一個推動作用。

大會直擊｜微軟亞洲研究院劉鐵巖：深度學習成功的秘密

最后，讓我們討論一下我們的未來研究方向，我們希望創(chuàng)造一個能夠自動創(chuàng)造人工智能的人工智能。今天人工智能雖然有很多成功的例子，但是絕大部分依靠人為編寫的程序。最近這幾年，學者們在思考，有沒有可能不需要人為控制深度學習的過程，而是由機器自己來優(yōu)化自己呢？比如說DeepMind今年發(fā)了一個論文，叫l(wèi)earning to learn by gradient descent by gradient descent，就是用循環(huán)神經網絡取代人為定義的梯度下降方法。再比如，我們前面提到的對偶通信博弈，就是機器自己搜集和產生訓練數據。還有一些人在用機器學習的方法自動來調深度神經網絡的超參數，比如學習率。隨著這些研究的開展，我們可以想象有一天機器學習工具可以針對給出的任務去自動搜索數據、選擇數據、處理數據，自動根據你所給的目標去生成模型優(yōu)化的方法，自動調整超參數，自動把訓練部署到多個機器上進行分布式訓練，如果真的有這樣一天，將是對所有機器學習使用者的一種解放，我們不需要那些掌握黑科技的巨頭，每個人都可以享受機器學習技術給大家?guī)淼募t利！讓貌似高深復雜的機器學習技術，真正飛入尋常百姓家！

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。