0
本文作者: skura | 編輯:汪思穎 | 2018-12-19 13:01 | 專題:NeurIPS 2018 |
雷鋒網(wǎng) AI 科技評(píng)論按,12 月上旬,NeurIPS 2018 在加拿大蒙特利爾會(huì)展中心(Palais des Congrès de Montréal)成功舉辦,雷鋒網(wǎng)對(duì)此進(jìn)行了報(bào)道。今年的會(huì)議在主題活動(dòng)、投稿論文數(shù)量和參會(huì)人數(shù)上,相比往年都上了一個(gè)新臺(tái)階。NeurIPS 2018 吸引了近九千人參加,最終 1010 篇論文被接收,其中,有四篇論文被評(píng)為最佳論文,接收的覆蓋了十大研究領(lǐng)域。
看完新論文,別忘舊論文。日前,學(xué)術(shù)頭條對(duì)入選 NeurIPS 2017 的論文在 2017.12 至 2018.12 之間的引用量進(jìn)行了統(tǒng)計(jì),引用量超過(guò) 100 的論文有 19 篇,論文名單如下:
可以看到,引用量排名前三的論文分別是 Attention Is All You Need、Improved Training of Wasserstein GANs 和 Dynamic Routing Between Capsules。此前,雷鋒網(wǎng)對(duì)這幾篇論文也有過(guò)解讀,今天,就和大家一起再?gòu)?fù)習(xí)下吧。
Attention Is All You Need
這是谷歌與多倫多大學(xué)等高校合作發(fā)表的一篇論文,他們提出了一種新的網(wǎng)絡(luò)框架——Transformer。Transformer 是完全基于注意力機(jī)制(attention mechanism)的網(wǎng)絡(luò)框架,放棄了 RNN 和 CNN 模型。
眾所周知,在編碼-解碼框架中,主流的序列傳導(dǎo)模型都是基于 RNN 或者 CNN,其中能完美連接編碼器和解碼器的是注意力機(jī)制。而谷歌提出的這一新框架 Transformer,則是完全基于注意力機(jī)制。
Transformer 用于執(zhí)行翻譯任務(wù),實(shí)驗(yàn)表明,這一模型表現(xiàn)極好,可并行化,并且大大減少了訓(xùn)練時(shí)間。Transformer 在 WMT 2014 英德翻譯任務(wù)上實(shí)現(xiàn)了 28.4 BLEU,改善了現(xiàn)有的最佳成績(jī)(包括超過(guò) 2 個(gè) BLEU 的集合模型),在 WMT 2014 英法翻譯任務(wù)中,建立了一個(gè)新的單一模式,在八個(gè) GPU 上訓(xùn)練了 3.5 天后,最好的 BLEU 得分為41.0,這在訓(xùn)練成本最小的情況下達(dá)到了最佳性能。由 Transformer 泛化的模型成功應(yīng)用于其他任務(wù),例如在大量數(shù)據(jù)集和有限數(shù)據(jù)集中訓(xùn)練英語(yǔ)成分句法解析的任務(wù)。
注意力機(jī)制是序列模型和傳導(dǎo)模型的結(jié)合,在不考慮輸入輸出序列距離的前提下允許模型相互依賴,有時(shí)(但是很少的情況),注意力機(jī)制會(huì)和 RNN 結(jié)合。
模型結(jié)構(gòu)如下:
編碼器:編碼器由 6 個(gè)完全的層堆棧而成,每一層都有兩個(gè)子層。第一個(gè)子層是多頭的 self-attention 機(jī)制,第二層是一層簡(jiǎn)單的前饋網(wǎng)絡(luò)全連接層。在每一層子層都有 residual 和歸一化。
解碼器:解碼器也是由 6 個(gè)完全相同的層堆棧而成,每一層有三個(gè)子層,在編碼棧的輸出處作為多頭的 attention 機(jī)制。
注意(attention):功能是將 Query 和一組鍵-值對(duì)映射到輸出,那么包括 query、鍵、值及輸出就都成為了向量。輸出是值的權(quán)重加和,而權(quán)重則是由值對(duì)應(yīng)的 query 和鍵計(jì)算而得。
Improved Training of Wasserstein GANs
在該論文中,蒙特利爾大學(xué)的研究者對(duì) WGAN 進(jìn)行改進(jìn),提出了一種替代 WGAN 判別器中權(quán)重剪枝的方法。
論文摘要
生成對(duì)抗網(wǎng)絡(luò)(GAN)將生成問(wèn)題當(dāng)作兩個(gè)對(duì)抗網(wǎng)絡(luò)的博弈:生成網(wǎng)絡(luò)從給定噪聲中產(chǎn)生合成數(shù)據(jù),判別網(wǎng)絡(luò)分辨生成器的的輸出和真實(shí)數(shù)據(jù)。GAN 可以生成視覺(jué)上吸引人的圖片,但是網(wǎng)絡(luò)通常很難訓(xùn)練。前段時(shí)間,Arjovsky 等研究者對(duì) GAN 值函數(shù)的收斂性進(jìn)行了深入的分析,并提出了 Wasserstein GAN(WGAN),利用 Wasserstein 距離產(chǎn)生一個(gè)比 Jensen-Shannon 發(fā)散值函數(shù)有更好的理論上的性質(zhì)的值函數(shù)。但是仍然沒(méi)能完全解決 GAN 訓(xùn)練穩(wěn)定性的問(wèn)題。
所做工作:
通過(guò)小數(shù)據(jù)集上的實(shí)驗(yàn),概述了判別器中的權(quán)重剪枝是如何導(dǎo)致影響穩(wěn)定性和性能的病態(tài)行為的。
提出具有梯度懲罰的 WGAN(WGAN with gradient penalty),從而避免同樣的問(wèn)題。
展示該方法相比標(biāo)準(zhǔn) WGAN 擁有更快的收斂速度,并能生成更高質(zhì)量的樣本。
展示該方法如何提供穩(wěn)定的 GAN 訓(xùn)練:幾乎不需要超參數(shù)調(diào)參,成功訓(xùn)練多種針對(duì)圖片生成和語(yǔ)言模型的 GAN 架構(gòu)。
WGAN 的 critic 函數(shù)對(duì)輸入的梯度相比于 GAN 的更好,因此對(duì)生成器的優(yōu)化更簡(jiǎn)單。另外,WGAN 的值函數(shù)是與生成樣本的質(zhì)量相關(guān)的,這個(gè)性質(zhì)是 GAN 所沒(méi)有的。WGAN 的一個(gè)問(wèn)題是如何高效地在 critic 上應(yīng)用 Lipschitz 約束,Arjovsky 提出了權(quán)重剪枝的方法。但權(quán)重剪枝會(huì)導(dǎo)致最優(yōu)化困難。在權(quán)重剪枝約束下,大多數(shù)神經(jīng)網(wǎng)絡(luò)架構(gòu)只有在學(xué)習(xí)極其簡(jiǎn)單地函數(shù)時(shí)才能達(dá)到 k 地最大梯度范數(shù)。因此,通過(guò)權(quán)重剪枝來(lái)實(shí)現(xiàn) k-Lipschitz 約束將會(huì)導(dǎo)致 critic 偏向更簡(jiǎn)單的函數(shù)。如下圖所示,在小型數(shù)據(jù)集上,權(quán)重剪枝不能捕捉到數(shù)據(jù)分布的高階矩。
由于在 WGAN 中使用權(quán)重剪枝可能會(huì)導(dǎo)致不良結(jié)果,研究者考慮在訓(xùn)練目標(biāo)上使用 Lipschitz 約束的一種替代方法:一個(gè)可微的函數(shù)是 1-Lipschitz,當(dāng)且僅當(dāng)它的梯度具有小于或等于 1 的范數(shù)時(shí)。因此,可以直接約束 critic 函數(shù)對(duì)其輸入的梯度范數(shù)。新的 critic 函數(shù)為:
使用 GAN 構(gòu)建語(yǔ)言模型是一項(xiàng)富有挑戰(zhàn)的任務(wù),很大程度上是因?yàn)樯善髦须x散的輸入輸出序列很難進(jìn)行反向傳播。先前的 GAN 語(yǔ)言模型通常憑借預(yù)訓(xùn)練或者與監(jiān)督最大似然方法聯(lián)合訓(xùn)練。相比之下,使用該論文的方法,不需采用復(fù)雜的通過(guò)離散變量反向傳播的方法,也不需要最大似然訓(xùn)練或 fine-tune 結(jié)構(gòu)。該方法在 Google Billion Word 數(shù)據(jù)集上訓(xùn)練了一個(gè)字符級(jí)的 GAN 語(yǔ)言模型。生成器是一個(gè)簡(jiǎn)單的 CNN 架構(gòu),通過(guò) 1D 卷積將 latent vector 轉(zhuǎn)換為 32 個(gè) one-hot 字符向量的序列。
該文提供了一種訓(xùn)練 GAN 的穩(wěn)定的算法,能夠更好的探索哪種架構(gòu)能夠得到最好的生成模型性能。該方法也打開(kāi)了使用大規(guī)模圖像或語(yǔ)言數(shù)據(jù)集訓(xùn)練以得到更強(qiáng)的模型性能的大門。
本論文在github上開(kāi)源了代碼:github
本論文同時(shí)也提供了詳細(xì)的數(shù)學(xué)證明,以及更多的示例,進(jìn)一步了解請(qǐng)閱讀原論文:Improved Training of Wasserstein GANs
Dynamic Routing Between Capsules
為了避免網(wǎng)絡(luò)結(jié)構(gòu)的雜亂無(wú)章,Hinton 提出把關(guān)注同一個(gè)類別或者同一個(gè)屬性的神經(jīng)元打包集合在一起,好像膠囊一樣。在神經(jīng)網(wǎng)絡(luò)工作時(shí),這些膠囊間的通路形成稀疏激活的樹(shù)狀結(jié)構(gòu)(整個(gè)樹(shù)中只有部分路徑上的膠囊被激活),從而形成了他的 Capsule 理論。Capsule 也就具有更好的解釋性。
Capsule 這樣的網(wǎng)絡(luò)結(jié)構(gòu)在符合人們「一次認(rèn)知多個(gè)屬性」的直觀感受的同時(shí),也會(huì)帶來(lái)另一個(gè)直觀的問(wèn)題,那就是不同的膠囊應(yīng)該如何訓(xùn)練、又如何讓網(wǎng)絡(luò)自己決定膠囊間的激活關(guān)系。Hinton 這篇論文解決的重點(diǎn)問(wèn)題就是不同膠囊間連接權(quán)重(路由)的學(xué)習(xí)。
解決路由問(wèn)題
首先,每個(gè)層中的神經(jīng)元分組形成不同的膠囊,每個(gè)膠囊有一個(gè)「活動(dòng)向量」activity vector,它是這個(gè)膠囊對(duì)于它關(guān)注的類別或者屬性的表征。樹(shù)結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)就對(duì)應(yīng)著一個(gè)活動(dòng)的膠囊。通過(guò)一個(gè)迭代路由的過(guò)程,每個(gè)活動(dòng)的膠囊都會(huì)從高一層網(wǎng)絡(luò)中的膠囊中選擇一個(gè),讓它成為自己的母節(jié)點(diǎn)。對(duì)于高階的視覺(jué)系統(tǒng)來(lái)說(shuō),這樣的迭代過(guò)程就很有潛力解決一個(gè)物體的部分如何層層組合成整體的問(wèn)題。
對(duì)于實(shí)體在網(wǎng)絡(luò)中的表征,眾多屬性中有一個(gè)屬性比較特殊,那就是它出現(xiàn)的概率(網(wǎng)絡(luò)檢測(cè)到某一類物體出現(xiàn)的置信度)。一般典型的方式是用一個(gè)單獨(dú)的、輸出 0 到 1 之間的回歸單元來(lái)表示,0 就是沒(méi)出現(xiàn),1 就是出現(xiàn)了。在這篇論文中,Hinton 想用活動(dòng)向量同時(shí)表示一個(gè)實(shí)體是否出現(xiàn)以及這個(gè)實(shí)體的屬性。他的做法是用向量不同維度上的值分別表示不同的屬性,然后用整個(gè)向量的模表示這個(gè)實(shí)體出現(xiàn)的概率。為了保證向量的長(zhǎng)度,也就是實(shí)體出現(xiàn)的概率不超過(guò) 1,向量會(huì)通過(guò)一個(gè)非線性計(jì)算進(jìn)行標(biāo)準(zhǔn)化,這樣實(shí)體的不同屬性也就實(shí)際上體現(xiàn)為了這個(gè)向量在高維空間中的方向。
采用這樣的活動(dòng)向量有一個(gè)很大的好處,就是可以幫助低層級(jí)的膠囊選擇自己連接到哪個(gè)高層級(jí)的膠囊。具體做法是,一開(kāi)始低層級(jí)的膠囊會(huì)給所有高層級(jí)的膠囊提供輸入;然后這個(gè)低層級(jí)的膠囊會(huì)把自己的輸出和一個(gè)權(quán)重矩陣相乘,得到一個(gè)預(yù)測(cè)向量。如果預(yù)測(cè)向量和某個(gè)高層級(jí)膠囊的輸出向量的標(biāo)量積更大,就可以形成從上而下的反饋,提高這兩個(gè)膠囊間的耦合系數(shù),降低低層級(jí)膠囊和其它高層級(jí)膠囊間的耦合系數(shù)。進(jìn)行幾次迭代后,貢獻(xiàn)更大的低層級(jí)膠囊和接收它的貢獻(xiàn)的高層級(jí)膠囊之間的連接就會(huì)占越來(lái)越重要的位置。
在論文作者們看來(lái),這種「一致性路由」(routing-by-agreement)的方法要比之前最大池化之類只保留了唯一一個(gè)最活躍的特征的路由方法有效得多。
網(wǎng)絡(luò)構(gòu)建
作者們構(gòu)建了一個(gè)簡(jiǎn)單的 CapsNet。除最后一層外,網(wǎng)絡(luò)的各層都是卷積層,但它們現(xiàn)在都是「膠囊」的層,其中用向量輸出代替了 CNN 的標(biāo)量特征輸出、用一致性路由代替了最大池化。與 CNN 類似,更高層的網(wǎng)絡(luò)觀察了圖像中更大的范圍,不過(guò)由于不再是最大池化,所以位置信息一直都得到了保留。對(duì)于較低的層,空間位置的判斷也只需要看是哪些膠囊被激活了。
這個(gè)網(wǎng)絡(luò)中最底層的多維度膠囊結(jié)構(gòu)就展現(xiàn)出了不同的特性,它們起到的作用就像傳統(tǒng)計(jì)算機(jī)圖形渲染中的不同元素一樣,每一個(gè)膠囊關(guān)注自己的一部分特征。這和目前的計(jì)算機(jī)視覺(jué)任務(wù)中,把圖像中不同空間位置的元素組合起來(lái)形成整體理解(或者說(shuō)圖像中的每個(gè)區(qū)域都會(huì)首先激活整個(gè)網(wǎng)絡(luò)然后再進(jìn)行組合)具有截然不同的計(jì)算特性。在底層的膠囊之后連接了 PrimaryCaps 層和 DigitCaps 層。
膠囊效果的討論
在論文最后,作者們對(duì)膠囊的表現(xiàn)進(jìn)行了討論。他們認(rèn)為,由于膠囊具有分別處理不同屬性的能力,相比于 CNN 可以提高對(duì)圖像變換的健壯性,在圖像分割中也會(huì)有出色的表現(xiàn)。膠囊基于的「圖像中同一位置至多只有某個(gè)類別的一個(gè)實(shí)體」的假設(shè)也使得膠囊得以使用活動(dòng)向量這樣的分離式表征方式來(lái)記錄某個(gè)類別實(shí)例的各方面屬性,還可以通過(guò)矩陣乘法建模的方式更好地利用空間信息。不過(guò)膠囊的研究也才剛剛開(kāi)始,他們覺(jué)得現(xiàn)在的膠囊至于圖像識(shí)別,就像二十一世紀(jì)初的 RNN 之于語(yǔ)音識(shí)別——研究現(xiàn)在只是剛剛起步,日后定會(huì)大放異彩。
論文全文參見(jiàn):https://arxiv.org/pdf/1710.09829.pdf
對(duì)這三篇論文感興趣的朋友們,可以點(diǎn)擊如下地址,查看更多更詳細(xì)的解讀:
谷歌推出基于注意機(jī)制的全新翻譯框架,Attention is All You Need!
蒙特利爾大學(xué)研究者改進(jìn)Wasserstein GAN,極大提高GAN訓(xùn)練穩(wěn)定性
終于盼來(lái)了Hinton的Capsule新論文,它能開(kāi)啟深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代嗎?
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。