1
雷鋒網(wǎng) AI 科技評論按:近幾天,一篇改進卷積網(wǎng)絡(luò)的論文引發(fā)了不小的關(guān)注和討論。簡單來說,這篇論文對傳統(tǒng)的卷積操作做了簡單的通用改進,就同時獲得了更低的計算能力消耗和更高的準確率。知名機器學習研究員、「GANs 之父」Ian Goodfellow 就在推特上公開稱贊了這篇論文。
這篇論文的一作是陳云鵬,目前在新加坡國立大學(NUS)讀最后一年博士生,他的導(dǎo)師是馮佳時助理教授和顏水成副教授。此前,陳云鵬在華中科技大學獲得學士學位,并曾在香港大學做助理研究員、在 Facebook 機器學習應(yīng)用部門(Facebook AML) 做實習研究員。從新加坡國立大學畢業(yè)之后,陳云鵬將于今年正式加入 Facebook,成為一名研究科學家。
下面雷鋒網(wǎng) AI 科技評論簡單介紹一下論文的主要內(nèi)容。
(降低一個八度:通過 Octave Convoluation 減少卷積神經(jīng)網(wǎng)絡(luò)中的空間冗余度)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)在許多計算機視覺任務(wù)中都取得了前所未有的成功,并且隨著近期研究中對于密集的模型參數(shù)以及 feature map 通道維度的固有冗余性的改進,CNN 的效率也在不斷提高。不過,CNN 生成的 feature map 中仍然存在著顯著的空間冗余度,具體來說,feature map 中的每個位置都只獨立存儲自己的特征描述器,但相鄰的位置其實也會存儲一些相同信息;這些信息可以共同存儲并處理。
如上方圖 1 - (a) 所示,一張自然圖像可以被分解為低空間頻率部分和高空間頻率部分,前者描述了平滑變化的結(jié)構(gòu),后者描述了快速變化的圖像細節(jié)。與之類似,論文作者們提出卷積層的特征圖輸出也可以被分解為具有不同空間頻率的部分,并提出了一個新的多頻率特征表征,它在不同的組中分別存儲高頻和低頻的特征圖,如圖 1 - (b) 所示。這樣,低頻組的空間分辨率就可以安全地降低,通過在相鄰的位置之間共享信息的方式降低空間冗余度,如圖 1 - (c) 所示。為了與這種新的特征表示方法相容,作者們從原始的卷積操作進行了泛化,提出了 Octave Convolution (OctConv),它的輸入是含有高低不同頻率張量的特征圖,然后直接從低頻的特征圖中提取信息,不需要把它解碼回高頻,如圖 1 - (d) 所示。
作為原始的卷積操作的替代方案,OctConv 消耗的存儲和計算資源明顯更小。同時,OctConv 處理低頻信息時使用的是對應(yīng)的低頻卷積,這種做法顯著增大了原像素空間中的感知域大小,所以還能提升識別性能。
作者們把 OctConv 設(shè)計為了一種通用的方法,它可以作為現(xiàn)有卷積網(wǎng)絡(luò)中卷積操作的直接替換。由于 OctConv 的重點在于在不同空間頻率上處理特征圖并降低空間冗余度,它就形成了對現(xiàn)有的各種改進 CNN 網(wǎng)絡(luò)方案的另一個方向的補充;現(xiàn)有的方法包含更好的拓撲結(jié)構(gòu)、降低卷積特征圖中的通道冗余度、降低密集模型參數(shù)冗余度等等。
作者們還進一步討論了如何把 OctConv 集成在分組、深度優(yōu)先、以及三維卷積用例中。此外,與嘗試利用多尺度信息的方法不同,OctConv 可以輕松地替換原本的卷積操作,不需要更改網(wǎng)絡(luò)結(jié)構(gòu)或者超參數(shù)調(diào)節(jié)。
論文中的實驗表明,只需要簡單地把原本的卷積替換為 OctConv ,就可以穩(wěn)定提高各種熱門二維 CNN 主干網(wǎng)絡(luò)的表現(xiàn),包括 ResNet、ResNeXt、DenseNet、MobileNet、Se-Net 在 ImageNet 上的二維圖像識別,以及 C2D、I3D 在 Kinetics 數(shù)據(jù)集上的三維視頻動作識別。換裝了 OctConv 后的 ResNet-152 可以達到目前最先進的手工設(shè)計網(wǎng)絡(luò)的表現(xiàn),同時消耗的存儲和計算卻要小很多。
論文原文:https://arxiv.org/abs/1904.05049,相關(guān)代碼近期會在 GitHub 上開源。雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。