如何優(yōu)化你的圖像分類(lèi)模型效果？

本文作者： AI研習(xí)社-譯站

2019-05-27 11:24

導(dǎo)語(yǔ)：圖像分類(lèi)是一個(gè)認(rèn)為幾乎解決了的問(wèn)題。

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題：
Boost your Image Classification Model
作者 | Aditya Mishra
翻譯 | MichaelChen 編輯 | 鄧普斯?杰弗、咩咩咩魚(yú)
原文鏈接：
https://towardsdatascience.com/boost-your-image-classifier-e1cc7a56b59c

圖像分類(lèi)是一個(gè)認(rèn)為幾乎解決了的問(wèn)題。有趣的是，你必須竭盡所能來(lái)提升額外的1%的準(zhǔn)確率。當(dāng)我參加“ Intel Scene Classification Challenge hosted by Analytics Vidhya(由Analytics Vidhya主辦的英特爾場(chǎng)景分類(lèi)挑戰(zhàn))”我非常喜歡這次比賽，因?yàn)槲覈L試從我的深度學(xué)習(xí)模型中榨干所有的潛力。下面的技術(shù)通常是可以應(yīng)用到手頭上的任何圖像分類(lèi)問(wèn)題中去。

問(wèn)題

下面的問(wèn)題是把給定的圖片分類(lèi)到下面的6個(gè)類(lèi)別中去。

如何優(yōu)化你的圖像分類(lèi)模型效果？

數(shù)據(jù)類(lèi)別

數(shù)據(jù)中包含25,000張自然風(fēng)景的圖片，這些圖片來(lái)自世界各地。

漸進(jìn)的（圖片）尺寸調(diào)整

當(dāng)訓(xùn)練CNN模型的時(shí)候，從小到大的線性調(diào)整圖片尺寸是一項(xiàng)技術(shù)。漸進(jìn)的尺寸調(diào)整在很贊的fastai課程中被描述為：程序員的深度學(xué)習(xí)實(shí)踐。一種不錯(cuò)的方式是先用小的尺寸，如64 x 64進(jìn)行訓(xùn)練，再用這個(gè)模型的參數(shù)，在128 x 128尺寸上進(jìn)行訓(xùn)練，如此以往。每個(gè)較大的模型都在其體系結(jié)構(gòu)中包含以前較小的模型層和權(quán)重。

如何優(yōu)化你的圖像分類(lèi)模型效果？

漸進(jìn)的尺寸調(diào)整

FastAI

如何優(yōu)化你的圖像分類(lèi)模型效果？

fastai庫(kù)是一個(gè)強(qiáng)大的深度學(xué)習(xí)庫(kù)。如果fastai團(tuán)隊(duì)找到了一篇很感興趣的論文，他們會(huì)在不同的數(shù)據(jù)集上進(jìn)行測(cè)試，并實(shí)現(xiàn)調(diào)參。一旦成功，就會(huì)被合并到他們的庫(kù)，并且對(duì)它的用戶開(kāi)放閱讀。這個(gè)庫(kù)包含了很多內(nèi)置的先進(jìn)的技巧?；趐ytorch，fastai對(duì)于大多數(shù)任務(wù)都有很好的默認(rèn)參數(shù)。部分技巧包括：

周期性學(xué)習(xí)率
一個(gè)周期的學(xué)習(xí)
結(jié)構(gòu)化數(shù)據(jù)的深度學(xué)習(xí)

完整的權(quán)重初始化

在查看可用的標(biāo)準(zhǔn)數(shù)據(jù)集時(shí)，我偶然發(fā)現(xiàn)了Place365數(shù)據(jù)集。Place365數(shù)據(jù)集包含365種風(fēng)景分類(lèi)的1,800,000張圖片。本次挑戰(zhàn)賽提供的數(shù)據(jù)集與這個(gè)數(shù)據(jù)集很相似，所以在這個(gè)數(shù)據(jù)集訓(xùn)練的模型，具有一些學(xué)習(xí)的特征，與我們分類(lèi)的問(wèn)題是相關(guān)的。由于我們的問(wèn)題中的類(lèi)別是Place365數(shù)據(jù)集的子集，所以我使用了一個(gè)用Place365權(quán)重初始化的ResNet50模型。

這個(gè)模型的權(quán)重在“pytorch weights”中提供。下面使用的實(shí)用函數(shù)幫助我們正確地將數(shù)據(jù)加載到fastai的CNN學(xué)習(xí)器中。

如何優(yōu)化你的圖像分類(lèi)模型效果？

混合增強(qiáng)

混合增強(qiáng)是一種通過(guò)對(duì)已有的兩幅圖像進(jìn)行加權(quán)線性插值，來(lái)形成新圖像的增強(qiáng)方法。我們?nèi)蓮垐D像，然后使用這些圖像的張量進(jìn)行線性組合。

如何優(yōu)化你的圖像分類(lèi)模型效果？

混合增強(qiáng)

λ是服從beta分布的隨機(jī)采樣。雖然論文的作者建議使用 λ=0.4，但是fastai的庫(kù)默認(rèn)值設(shè)為0.1。

如何優(yōu)化你的圖像分類(lèi)模型效果？

fastai中的混合增強(qiáng)

學(xué)習(xí)率調(diào)優(yōu)

學(xué)習(xí)率是訓(xùn)練神經(jīng)網(wǎng)絡(luò)中最重要的超參數(shù)之一。fastai有一種方法來(lái)找出合適的初始學(xué)習(xí)速率。這個(gè)技術(shù)被稱(chēng)作循環(huán)學(xué)習(xí)率，我們用較低的學(xué)習(xí)率進(jìn)行試驗(yàn)，并以指數(shù)形式增加，記錄整個(gè)過(guò)程的損失。然后我們根據(jù)學(xué)習(xí)率繪制損失曲線，并選擇損失值最陡峭處的學(xué)習(xí)率。

如何優(yōu)化你的圖像分類(lèi)模型效果？

fastai中的LR Ffinder

如何優(yōu)化你的圖像分類(lèi)模型效果？

在學(xué)習(xí)率為1e-06時(shí)，損失最陡峭

這個(gè)庫(kù)還為我們自動(dòng)的處理帶有重新啟動(dòng)的隨機(jī)梯度下降（SGDR）。在SGDR中，學(xué)習(xí)率在每次迭代開(kāi)始時(shí)會(huì)重新設(shè)置為原始選擇的數(shù)值，這些數(shù)值會(huì)隨著迭代減小，就像余弦退火一樣。這么做的主要收益是，由于學(xué)習(xí)率在每次迭代的開(kāi)始可以重置，因此學(xué)習(xí)器能夠跳出局部極小值或鞍點(diǎn)。

如何優(yōu)化你的圖像分類(lèi)模型效果？

fastai中帶有重啟的隨機(jī)梯度下降

通用對(duì)抗網(wǎng)絡(luò)

生成式對(duì)抗網(wǎng)絡(luò)（GAN是Generative Adversarial Networks的縮寫(xiě)）在2014年被Ian Goodfellow提出，GANs是由兩個(gè)網(wǎng)絡(luò)組成的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，它們相互競(jìng)爭(zhēng)。 GANs可以模擬任何數(shù)據(jù)分布。他們可以學(xué)習(xí)生成類(lèi)似原始數(shù)據(jù)的數(shù)據(jù)，而且可以是任何領(lǐng)域——圖像、語(yǔ)音、文本等等。我們使用fastai的Wasserstein GAN的實(shí)現(xiàn)來(lái)生成更多的訓(xùn)練數(shù)據(jù)。

GANs包括訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò)，一個(gè)被稱(chēng)為生成器，它生成新的數(shù)據(jù)實(shí)例，另一個(gè)被稱(chēng)為判別器，它對(duì)它們進(jìn)行真實(shí)性評(píng)估，它決定每個(gè)數(shù)據(jù)實(shí)例是否屬于實(shí)際的訓(xùn)練數(shù)據(jù)集。你可以從這個(gè)鏈接查閱更多。

https://github.com/fastai/course-v3/blob/master/nbs/dl1/lesson7-wgan.ipynb

如何優(yōu)化你的圖像分類(lèi)模型效果？

GAN生成樣本圖片

去除混淆的圖像

訓(xùn)練神經(jīng)網(wǎng)絡(luò)的第一步不是寫(xiě)任何的神經(jīng)網(wǎng)絡(luò)的代碼，而是徹底觀察你的數(shù)據(jù)。這一步至關(guān)重要。我喜歡花費(fèi)大量的時(shí)間（以小時(shí)為單位）瀏覽數(shù)千張樣例，理解他們的分布，尋找他們的模式。——Andrej Karpathy

正如Andrej Karpathy所說(shuō)，“數(shù)據(jù)調(diào)查”是一個(gè)重要的一步。關(guān)于數(shù)據(jù)調(diào)查，我發(fā)現(xiàn)很多數(shù)據(jù)包含不少于兩種的類(lèi)別。

方法－1

使用之前訓(xùn)練的模型，我對(duì)整個(gè)訓(xùn)練數(shù)據(jù)進(jìn)行了預(yù)測(cè)。然后丟棄概率得分超過(guò)0.9但是預(yù)測(cè)錯(cuò)誤的圖像。下面這些圖像，是模型明顯錯(cuò)誤分類(lèi)的。深入觀察以后，我發(fā)現(xiàn)這些圖像是被人工錯(cuò)誤分類(lèi)了。

如何優(yōu)化你的圖像分類(lèi)模型效果？

混淆的圖像

有些圖像的預(yù)測(cè)概率在0.5到0.6之間，理論上可能是這個(gè)圖像表現(xiàn)出不止一個(gè)類(lèi)別，所以模型給他們分配了相同的概率，我也把這些圖像剔除了。觀察這些圖像，這個(gè)理論最終被證明是正確的。

方法 2

fast.ai提供了一個(gè)方便的插件“圖像清理器插件”，它允許你為自己的模型清理和準(zhǔn)備數(shù)據(jù)。圖像清理器可以清洗不屬于你數(shù)據(jù)集的圖像。它在一行中呈現(xiàn)圖像，使你有機(jī)會(huì)在文件系統(tǒng)中刪除文件。

如何優(yōu)化你的圖像分類(lèi)模型效果？

測(cè)試時(shí)間增加

測(cè)試時(shí)間的增加包括提供原始圖像的一系列不同的版本，并把他們傳遞到模型中。從不同的版本中計(jì)算出平均值，并給出圖像的最終輸出。

如何優(yōu)化你的圖像分類(lèi)模型效果？

fast.ai中測(cè)試時(shí)間的增加

之前提出的10-crop技巧跟此技巧類(lèi)似。我首先在殘差網(wǎng)絡(luò)的論文中讀到了10-crop技巧。10-crop技巧包括沿著四角和中心點(diǎn)各裁剪一次，得到五張圖像。反向重復(fù)以上操作，得到另外五張圖像，一共十張。測(cè)試時(shí)間增加的方法無(wú)論如何比10-crop技巧要快。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

集成

機(jī)器學(xué)習(xí)中的集成是一種使用多種學(xué)習(xí)算法的技術(shù)，這種技術(shù)可以獲得比單一算法更好的預(yù)測(cè)性能。集成學(xué)習(xí)最好在下面的條件下工作：

組成模型具有不同的性質(zhì)。比如，集成ResNet50和InceptionNet要比組合ResNet50和InceptionNet有用的多，因?yàn)樗鼈儽举|(zhì)上是不同的。
組成模型的相關(guān)性較低。
改變模型的訓(xùn)練集，能得到更多的變化。

在本例中，我通過(guò)選擇最大發(fā)生類(lèi)來(lái)集成所有模型的預(yù)測(cè)。如果有多個(gè)類(lèi)有最大出現(xiàn)的可能，我隨機(jī)選擇其中的一個(gè)類(lèi)。

結(jié)果：

公開(kāi)排行榜——29名（0.962）

私人排行榜——22名（0.9499）

結(jié)論

漸進(jìn)的尺寸調(diào)整在開(kāi)始時(shí)是一個(gè)好主意。
花時(shí)間去理解你的數(shù)據(jù)并且可視化是必須的。
像fastai這種具有出色的初始化參數(shù)的出色的深度學(xué)習(xí)庫(kù)，確實(shí)有幫助。
只要有可能，就要盡量使用遷移學(xué)習(xí)，因?yàn)榇_實(shí)有用。最近，深度學(xué)習(xí)和遷移學(xué)習(xí)已經(jīng)應(yīng)用到了結(jié)構(gòu)化數(shù)據(jù)，所以遷移學(xué)習(xí)絕對(duì)應(yīng)該是首先要嘗試的事情。
最先進(jìn)的技術(shù)例如混合增強(qiáng)，測(cè)試時(shí)間增加，周期學(xué)習(xí)率將毫無(wú)疑問(wèn)的幫助你將準(zhǔn)確率提高1到2個(gè)百分點(diǎn)。
始終搜索與你的問(wèn)題相關(guān)的數(shù)據(jù)集，并且把他們盡可能的用在你的訓(xùn)練數(shù)據(jù)集中。如果可能，深度學(xué)習(xí)模型在這些模型上訓(xùn)練之后，使用他們的參數(shù)作為你模型的初始權(quán)重。

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)？

點(diǎn)擊【如何優(yōu)化你的圖像分類(lèi)模型效果？】即可訪問(wèn)：

https://ai.yanxishe.com/page/TextTranslation/1724

社長(zhǎng)今日推薦：2017春季CS231n斯坦福深度視覺(jué)

李飛飛主講王牌課程，計(jì)算機(jī)視覺(jué)的深化課程，神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用，涵蓋圖像分類(lèi)、定位、檢測(cè)等視覺(jué)識(shí)別任務(wù)，以及其在搜索、圖像理解、應(yīng)用、地圖繪制、醫(yī)學(xué)、無(wú)人駕駛飛機(jī)和自動(dòng)駕駛汽車(chē)領(lǐng)域的前沿應(yīng)用。

本課程完全免費(fèi)！加入小組即可立即觀看！

課程鏈接：https://ai.yanxishe.com/page/groupDetail/19

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。