向頻域方向演進的卷積網(wǎng)絡(luò)：OctConv用更低計算力做到更高準(zhǔn)確率

本文作者：楊曉凡

2019-04-23 15:14

導(dǎo)語：便捷有效，喜聞樂見

雷鋒網(wǎng) AI 科技評論按：近幾天，一篇改進卷積網(wǎng)絡(luò)的論文引發(fā)了不小的關(guān)注和討論。簡單來說，這篇論文對傳統(tǒng)的卷積操作做了簡單的通用改進，就同時獲得了更低的計算能力消耗和更高的準(zhǔn)確率。知名機器學(xué)習(xí)研究員、「GANs 之父」Ian Goodfellow 就在推特上公開稱贊了這篇論文。

這篇論文的一作是陳云鵬，目前在新加坡國立大學(xué)（NUS）讀最后一年博士生，他的導(dǎo)師是馮佳時助理教授和顏水成副教授。此前，陳云鵬在華中科技大學(xué)獲得學(xué)士學(xué)位，并曾在香港大學(xué)做助理研究員、在 Facebook 機器學(xué)習(xí)應(yīng)用部門（Facebook AML）做實習(xí)研究員。從新加坡國立大學(xué)畢業(yè)之后，陳云鵬將于今年正式加入 Facebook，成為一名研究科學(xué)家。

下面雷鋒網(wǎng) AI 科技評論簡單介紹一下論文的主要內(nèi)容。

向頻域方向演進的卷積網(wǎng)絡(luò)：OctConv用更低計算力做到更高準(zhǔn)確率

（降低一個八度：通過 Octave Convoluation 減少卷積神經(jīng)網(wǎng)絡(luò)中的空間冗余度）

卷積神經(jīng)網(wǎng)絡(luò)（CNN）在許多計算機視覺任務(wù)中都取得了前所未有的成功，并且隨著近期研究中對于密集的模型參數(shù)以及 feature map 通道維度的固有冗余性的改進，CNN 的效率也在不斷提高。不過，CNN 生成的 feature map 中仍然存在著顯著的空間冗余度，具體來說，feature map 中的每個位置都只獨立存儲自己的特征描述器，但相鄰的位置其實也會存儲一些相同信息；這些信息可以共同存儲并處理。

向頻域方向演進的卷積網(wǎng)絡(luò)：OctConv用更低計算力做到更高準(zhǔn)確率

圖 1 - (a) 研究出發(fā)點：通過視覺的空間頻域模型可以把自然圖像分解為低頻部分和高頻部分

向頻域方向演進的卷積網(wǎng)絡(luò)：OctConv用更低計算力做到更高準(zhǔn)確率

圖 1 - (b) 卷積層輸出的特征圖也可以被分解并根據(jù)不同的空間頻率重新分組。(c) 論文中提出的多頻率特征表征會在低分辨率張量中存儲平滑變化的低頻特征圖，這樣就降低了空間冗余度。(d) 論文中提出的 Octave Convoluation 直接在這種表征上進行運算，它會更新每一組中的信息，并更進一步地允許不同組之間交換信息。

如上方圖 1 - (a) 所示，一張自然圖像可以被分解為低空間頻率部分和高空間頻率部分，前者描述了平滑變化的結(jié)構(gòu)，后者描述了快速變化的圖像細(xì)節(jié)。與之類似，論文作者們提出卷積層的特征圖輸出也可以被分解為具有不同空間頻率的部分，并提出了一個新的多頻率特征表征，它在不同的組中分別存儲高頻和低頻的特征圖，如圖 1 - (b) 所示。這樣，低頻組的空間分辨率就可以安全地降低，通過在相鄰的位置之間共享信息的方式降低空間冗余度，如圖 1 - (c) 所示。為了與這種新的特征表示方法相容，作者們從原始的卷積操作進行了泛化，提出了 Octave Convolution (OctConv)，它的輸入是含有高低不同頻率張量的特征圖，然后直接從低頻的特征圖中提取信息，不需要把它解碼回高頻，如圖 1 - (d) 所示。

作為原始的卷積操作的替代方案，OctConv 消耗的存儲和計算資源明顯更小。同時，OctConv 處理低頻信息時使用的是對應(yīng)的低頻卷積，這種做法顯著增大了原像素空間中的感知域大小，所以還能提升識別性能。

作者們把 OctConv 設(shè)計為了一種通用的方法，它可以作為現(xiàn)有卷積網(wǎng)絡(luò)中卷積操作的直接替換。由于 OctConv 的重點在于在不同空間頻率上處理特征圖并降低空間冗余度，它就形成了對現(xiàn)有的各種改進 CNN 網(wǎng)絡(luò)方案的另一個方向的補充；現(xiàn)有的方法包含更好的拓?fù)浣Y(jié)構(gòu)、降低卷積特征圖中的通道冗余度、降低密集模型參數(shù)冗余度等等。

作者們還進一步討論了如何把 OctConv 集成在分組、深度優(yōu)先、以及三維卷積用例中。此外，與嘗試?yán)枚喑叨刃畔⒌姆椒ú煌?，OctConv 可以輕松地替換原本的卷積操作，不需要更改網(wǎng)絡(luò)結(jié)構(gòu)或者超參數(shù)調(diào)節(jié)。

論文中的實驗表明，只需要簡單地把原本的卷積替換為 OctConv ，就可以穩(wěn)定提高各種熱門二維 CNN 主干網(wǎng)絡(luò)的表現(xiàn)，包括 ResNet、ResNeXt、DenseNet、MobileNet、Se-Net 在 ImageNet 上的二維圖像識別，以及 C2D、I3D 在 Kinetics 數(shù)據(jù)集上的三維視頻動作識別。換裝了 OctConv 后的 ResNet-152 可以達到目前最先進的手工設(shè)計網(wǎng)絡(luò)的表現(xiàn)，同時消耗的存儲和計算卻要小很多。

論文原文：https://arxiv.org/abs/1904.05049，相關(guān)代碼近期會在 GitHub 上開源。雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

相關(guān)文章

楊曉凡

讀論文為生

日常笑點滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章