Machine Can See 2018 圖像對抗攻擊大賽比賽心得

本文作者： MrBear

編輯：楊曉凡

2018-07-04 17:30

導(dǎo)語：他山之石，可以攻玉。且看Machine Can See 2018 優(yōu)勝者的獨門秘籍！

雷鋒網(wǎng) AI 科技評論按：這篇文章來自俄羅斯數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)愛好者、創(chuàng)業(yè)公司的計算機視覺研究員 Alexander Aveysov。他參加了 2018 年度的「Machine Can See」的對抗性樣本攻防大賽，并在比賽中獲得了第二名。這篇文章是他對這次比賽的個人感想以及經(jīng)驗總結(jié)。雷鋒網(wǎng) AI 科技評論編譯如下。

Machine Can See 2018 圖像對抗攻擊大賽比賽心得

所有的對抗性攻擊的簡單范式

全文梗概

前不久，我有幸參加了「Machine Can See 2018」的對抗性樣本攻防大賽。事實上，我參加比賽的時候已經(jīng)很晚了（幸運的是，我在比賽結(jié)束時獲得了第二名），最終我們的隊伍由4 個人組成，其中包括我在內(nèi)的 3 個人為奪取勝利作出了突出的貢獻（去掉其中的任何一個人，我們都不會取得這樣的成績）。

本次比賽旨在對人臉圖片進行修改（結(jié)構(gòu)相似度 SSIM的下限為 0.95），從而使黑盒的 CNN 無法將源人像（source person）和目標(biāo)人像（target person）區(qū)分開來。

Machine Can See 2018 圖像對抗攻擊大賽比賽心得

簡而言之，比賽的要求就是：修改一張人臉圖像，使得黑盒模型不能將兩張人臉圖像區(qū)分開來（至少從「L2 范數(shù)/歐氏距離」的層面上來說是這樣）。

在對抗性攻擊中起作用的是什么？我們采用了哪些方法？

1. 快速梯度符號法（FGSM）確實有效。加入啟發(fā)式方法可以略微提升其性能；

2. 快速梯度值法（FGVM）。加入啟發(fā)式方法可以大幅度提升其性能；

3. 梯度差分進化算法（這里為大家提供一篇關(guān)于該算法的精彩的文章：https://pablormier.github.io/2017/09/05/a-tutorial-on-differential-evolution-with-python/）+像素級攻擊；

4. 模型集成（將最優(yōu)秀的解決方案對疊起來，例如 6 個ResNet-34）；

5. 目標(biāo)圖像組合的智能化遍歷；

6. 在進行 FGVM 攻擊時充分使用早停止（early stopping）技術(shù)。

對我們不起作用的做法是：

1. 為 FGVM 算法添加動量（這種方法僅僅能夠提升排名較低的隊伍的模型性能。因此，也許僅僅使用模型集成+啟發(fā)式方法就能獲得比動量更好的性能？）；

2. C&W攻擊（本質(zhì)上是一種端到端的攻擊方法，他著眼于白盒模型中的「logits」（一個事件發(fā)生與該事件不發(fā)生的比值的對數(shù)），https://arxiv.org/abs/1705.07263）；

3. 端到端的基于「Siamese」連接網(wǎng)絡(luò)（一種類似于 UNet 的架構(gòu)，但是是基于 RenNet 開發(fā)而來）的方法。這種方法對于 WB 有效，但是不適用于 BB。

我們還沒有嘗試的做法（由于缺乏時間、努力或意志力）：

1. 為學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)適當(dāng)?shù)販y試數(shù)據(jù)增強（我們同時還需要修改描述符）；

2. 在攻擊時進行數(shù)據(jù)增強；

競賽概覽：

1. 競賽提供的數(shù)據(jù)是一個由 1000 組 5+5（分別為source person 和 target person）的圖片組合組成的小型數(shù)據(jù)集；

2. 用來訓(xùn)練學(xué)生網(wǎng)絡(luò)的數(shù)據(jù)集規(guī)模相對較大——超過 1M的圖片；

3. BB 是作為許多預(yù)編譯好的 Caffe 模型提供的（由于BB在這種環(huán)境下運行，這些模型當(dāng)然不能使用合適的最新的版本的軟件，這個問題最終將由主機解決）。這個問題確實有些令人痛苦，因為這個BB 并不接受圖像的批量處理；

4. 該比賽設(shè)置了一個極高的對比基線（老實說，我相信沒有這個基線就不會有人登上排行榜了）；

核心資源：

1. 一個最終的模型副本的代碼倉庫（https://github.com/snakers4/msc-2018-final ）；

2. 我們的模型演示（https://drive.google.com/file/d/1P-4AdCqw81nOK79vU_m7IsCVzogdeSNq/view ）；

3. 所有獲獎?wù)叩哪Ｐ脱菔荆?a target="_blank" rel=nofollow>https://drive.google.com/file/d/1aIUSVFBHYabBRdolBRR-1RKhTMg-v-3f/view ）；

詳細敘述 - 「Machine Can See 2018」大賽概覽，看我如何取得最終的成績

1. 比賽流程及解決方案

老實說，我被這項有趣的比賽所吸引了，比賽的獎品為英偉達 GTX 1080Ti 公版顯卡并且我認為比賽的競爭水平相對較低（它遠遠不能和那些有 4000 個參賽者的 Kaggle 比賽+整個 ODS 團隊相提并論）。

如上文所述，比賽的目標(biāo)是欺騙 BB 模型，使其無法區(qū)分連個不同的人的圖像（使用 L2范數(shù)或歐氏距離度量）。該比賽是一個「黑盒」競賽，因此我們不得不利用比賽提供給我們的數(shù)據(jù)“蒸餾”（知識提?。┏鰧W(xué)生網(wǎng)絡(luò)，并希望 BB 和 WB 模型的梯度能夠足夠相似，從而進行攻擊。

事實上，如果你充分閱讀了學(xué)術(shù)文獻（例如，這一篇（https://arxiv.org/abs/1712.07107 ）和這一篇（https://arxiv.org/abs/1801.00553 ），盡管這些論文并未討論真實生活中的情況如何）并且提煉出那些頂尖的團隊所獲得的知識，你可以很容易地發(fā)現(xiàn)下面的模式：

1. 最容易實現(xiàn)的攻擊手段（在現(xiàn)在流行的框架上）涉及白盒攻擊或者了解卷積神經(jīng)網(wǎng)絡(luò)（CNN）的內(nèi)部結(jié)構(gòu)（或僅僅是一個架構(gòu)）；

1.1 有人在和我聊天時竟然建議我記錄黑盒模型進行推斷的時間，從而反推它的架構(gòu)，真是太搞笑了！

2. 如果能夠獲得足夠的數(shù)據(jù)，你可以使用一個經(jīng)過恰當(dāng)訓(xùn)練的白盒模型對黑盒模型進行模擬；

3. 根據(jù)推測，目前最先進的方法是：

3.1 端到端的 C&W 攻擊（在這里效果并不好）；

3.2 巧妙的 FGSM 算法的擴展（https://arxiv.org/pdf/1710.06081.pdf），例如：動量+模型集成；

說實話，我們曾一度陷入困惑之中，因為我們團隊中有兩個人實現(xiàn)了截然不同的兩套端到端的解決方案（而他們之間互相并不知道這一點，也就是說分別完成了兩套系統(tǒng)），而他們都沒有采用黑盒模型。這本質(zhì)上意味著在我們的任務(wù)中，我們的模型設(shè)定中漏掉了一些隱藏的因素，而我們沒有注意到這一點。正如許多現(xiàn)在流行的完全端到端的計算機視覺應(yīng)用一樣，它們要么為你提供非常好的結(jié)果（例如：風(fēng)格遷移，深度分水嶺算法（用于圖像分割），圖像生成，圖像去噪），要么就基本上不起作用。

Machine Can See 2018 圖像對抗攻擊大賽比賽心得

梯度方法是如何工作的

Machine Can See 2018 圖像對抗攻擊大賽比賽心得

事實上，你可以利用知識蒸餾技術(shù)通過一個白盒模型模擬一個黑盒模型，接著你值用計算輸入圖像關(guān)于模型輸出的梯度。而這一切的奧秘都在啟發(fā)式算法中。

2. 目標(biāo)度量

目標(biāo)的度量標(biāo)準(zhǔn)是一個所有 25 種（5*5=25）源圖像和目標(biāo)圖像組合的平均 L2 范數(shù)（歐氏距離）。

由于 CodaLab（賽事組織者）的限制，我認為個人得分（以及團隊分數(shù)合并的過程）是由管理員手動完成的，這就有些尷尬了。

Machine Can See 2018 圖像對抗攻擊大賽比賽心得

3. 團隊

當(dāng)我比排行榜（AFAIK）上的其他人都取得了更好的學(xué)生網(wǎng)絡(luò)的訓(xùn)練結(jié)果，并且和 Atmyre（https://github.com/atmyre）進行了一番討論之后（她幫助我使用了正確編譯的黑盒模型，因為她自己也面臨這樣的問題），我加入了現(xiàn)在的團隊。在比賽結(jié)束前的 2-3 天，我們在不用分享我們的算法和代碼的情況下共享了本地分數(shù)：

1. 我的端到端的模型失敗了（她的也是）；

2. 我的學(xué)生模型性能更好；

3. 他們擁有更好的 FGVM 啟發(fā)式算法的變體（他們的代碼是基于基線修改而來）；

4. 起初，我開始著手處理基于梯度的模型，并且獲得了大約 1.1 的本地分數(shù)。一開始，由于某些我個人的原因（認為太沒有挑戰(zhàn)）我不愿意使用基線的代碼；

5. 他們當(dāng)時不具備足夠的計算能力；

6. 在最后，我們賭了一把，將各自的策略結(jié)合了起來——我貢獻了我的 devbox 工作站/卷積神經(jīng)網(wǎng)絡(luò)/模型簡化實驗及觀測結(jié)果，他們貢獻了他們修改了好幾個星期的代碼。

這一次，她為她自己卓越的組織能力和無價的組隊建議而歡呼！我們?nèi)〉昧瞬诲e的成績。

團隊的成員包括：

1. https://github.com/atmyre ——她是我們團隊的隊長（我從她的所作所為中推斷出來的）。她為我們最中提交的版本貢獻了基因差分進化攻擊算法；

2. https://github.com/mortido ——他用精妙的啟發(fā)式算法以及他利用基線代碼訓(xùn)練好的兩個模型實現(xiàn)了最佳的 FGVM 攻擊算法；

3. https://github.com/snakers4 ；除了一些模型簡化測試，我還貢獻了 3 個具有領(lǐng)先的分數(shù)的學(xué)生模型、計算能力，并且我還需要在模型演示和最終提交的階段不斷提升模型性能；

4. https://github.com/stalkermustang ；

在最后，我們從彼此身上學(xué)到了很多東西，我很慶幸我們賭了這一把。如果缺少上述 3 個貢獻中的任意一項，我們都不會勝出。

4. 學(xué)生卷積神經(jīng)網(wǎng)絡(luò)知識蒸餾

我在訓(xùn)練學(xué)生模型時獲得了最高的分數(shù)，因為我使用了自己的代碼而不是基線代碼。

關(guān)鍵點和起作用的因素：

1. 為每個架構(gòu)都分別開發(fā)一個邏輯回歸（LR）模型體系；

2. 一開始只需要使用 Adam 算法和 LR 衰減技術(shù)進行訓(xùn)練；

3. 接下來使用折疊或/和其他甚至更巧妙的像循環(huán)學(xué)習(xí)率或權(quán)重集成等做法（我在這里并沒有這樣做）；

4. 仔細監(jiān)控欠擬合、過擬合以及模型的容量；

5. 手動調(diào)整你的訓(xùn)練進度，不要依賴全自動的方案。它們也可以正常工作，但是如果你合適地調(diào)整了所有的訓(xùn)練細節(jié)，你的訓(xùn)練時間可以縮短 2-3 倍。特別是對于 DenseNet 這樣求解梯度過程很深的模型來說，這一點非常重要；

6. 最好的模型往往都很深；

7. 使用 L2 損失代替均方誤差損失（MSE）也是同樣有效的，但是這樣做卻不夠精確。在運行使用均方誤差損失訓(xùn)練的測試模型時，顯示出它與 BB 模型的輸出之間的 L2 距離小于使用 L2 損失訓(xùn)練的模型。這可能是因為均方誤差，如果我們使用創(chuàng)造性的方法單獨處理每個 batch 中的 B*512 的樣本（它允許更多的參數(shù)調(diào)優(yōu)，并且共享圖像之間的信息），而 L2 范數(shù)則單獨處理每個 2*512 的向量組合。

不起作用的是：

1. 基于 inception 的架構(gòu)（由于高的下采樣率和更高需求的分辨率而不適用）。而不知為何，第三名的隊伍設(shè)法使用了 inception-v1 架構(gòu)和全分辨率圖像（大約 250*250）；

2. 基于 VGG 模型的架構(gòu)（發(fā)生過擬合）；

3.「輕量化」架構(gòu)（SqueezeNet / MobileNet——欠擬合）；

4. 圖像增強（沒有修改描述符——盡管第三名隊伍的人努力實現(xiàn)了這一點）；

5. 使用全尺寸圖像；

6. 此外，我們在競賽的主辦者提供的網(wǎng)絡(luò)的最后也加入了一個批量歸一化層。這并沒有對我的隊友起到幫助，我最后使用了自己的代碼，因為我不太明白為什么會出現(xiàn)這種情況。；

7. 同時使用顯著性映射（saliency maps）和單像素攻擊。假設(shè)這對于全尺寸圖像更有用（只需比較 112*112 的搜索空間和 299*299 的搜索空間）；

Machine Can See 2018 圖像對抗攻擊大賽比賽心得