0
本文作者: 黃善清 | 2019-06-24 16:13 |
雷鋒網(wǎng) AI 科技評論按:CapsNet 作者 Sara Sabour 聯(lián)合 Geoffrey Hinton 及牛津大學(xué)研究者在最新的論文《Stacked Capsule Autoencoders》中提出膠囊網(wǎng)絡(luò)的改進版本,該膠囊網(wǎng)絡(luò)可以無監(jiān)督地學(xué)習(xí)圖像中的特征,并取得了最先進的結(jié)果。
一個物體可以看作是一組相互關(guān)聯(lián)的幾何組成部分,因此,一個明確利用這些幾何關(guān)系來識別物體的系統(tǒng),在應(yīng)對視點的變化上理應(yīng)具有魯棒性,因為內(nèi)在幾何關(guān)系的視點是不會有變化的。
在這篇論文中,他們提出一個無監(jiān)督版本的膠囊網(wǎng)絡(luò),通過可查看所有部件的神經(jīng)編碼器,進而推斷物體膠囊的位置與姿勢。該編碼器通過解碼器進行反向傳播訓(xùn)練,通過混合式姿勢預(yù)測方案來預(yù)測已發(fā)現(xiàn)部件的姿勢。同樣是使用神經(jīng)編碼器,通過推斷部件及其仿射變換,可以直接從圖像中發(fā)現(xiàn)具體的部件。換句話說,每個相應(yīng)的解碼器圖像像素建模,都是仿射變換部分做出的混合預(yù)測結(jié)果。他們通過未標(biāo)記的數(shù)據(jù)習(xí)得物體及其部分膠囊,然后再對物體膠囊的存在向量進行聚類。
最后,該成果在 SVHN 上獲得了最先進的無監(jiān)督分類結(jié)果 (55%),同時在 MNIST 上獲得了接近最先進的分類結(jié)果。(98.5%)。
該膠囊網(wǎng)絡(luò)全名 Stacked Capsule Autoencoder (SCAE),具體可分為兩個階段:Part Capsule Autoencoder(PCAE)及 Object Capsule Autoencoder (OCAE)。
PCAE 負(fù)責(zé)將圖像分割成組件,借此推斷其姿勢,并將圖像像素重構(gòu)為轉(zhuǎn)換后的部件模板像素的混合產(chǎn)物;OCAE 則試圖將發(fā)現(xiàn)的部件及其姿勢組成更小的一組對象,再結(jié)合針對每個部件的混合預(yù)測方案來解釋部件的姿勢。
每個物體膠囊通過將姿勢-對象-視圖-關(guān)系(OV)乘以相關(guān)的物體-部件-關(guān)系 (OP) 來為這些混合物提供組件。SCAE 在未經(jīng)標(biāo)記的數(shù)據(jù)上進行訓(xùn)練時借此捕獲整個物體及其部件之間的空間關(guān)系。
Stacked Capsule Autoencoder (SCAE)
總的來說,該工作的主要貢獻在于提出了一種全新的表示學(xué)習(xí)方法,其中高度結(jié)構(gòu)化的解碼器可以用來訓(xùn)練編碼器網(wǎng)絡(luò),進而將圖像分割成相應(yīng)的部件及其姿勢,而另一個編碼器網(wǎng)絡(luò)則可以將這些部件組成連貫的整體。盡管訓(xùn)練目標(biāo)不涉及分類/聚類,但 SCAE 依然是唯一一個在無監(jiān)督對象分類任務(wù)中不依賴于互信息(MI)中也能獲得有競爭力結(jié)果的方法。
via https://arxiv.org/pdf/1906.06818.pdf
雷鋒網(wǎng) AI 科技評論 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。