0
對抗樣本的反思
雷鋒網(wǎng)AI科技評論編者按:對抗樣本是各種機器學(xué)習(xí)系統(tǒng)需要克服的一大障礙。它們的存在表明模型傾向于依賴不可靠的特征來最大限度的提高性能,如果受到干擾,可能會導(dǎo)致錯誤分類,帶來潛在的災(zāi)難性后果。對抗性樣本的非正式定義可以認(rèn)為是,輸入被以一種人類難以察覺的方式修改后,機器學(xué)習(xí)系統(tǒng)會將它們錯誤分類,而沒有修改的原始輸入?yún)s能被正確分類。下圖就說明了這種情況:
圖 1:原始圖像(左),對抗噪聲(中間),被干擾的圖像被錯誤地分類為 2(右)
左側(cè)的「7」是原始輸入,模型能夠正確地將它識別為「7」,但將它與中間的對抗噪聲疊加后,模型卻將它錯誤地識別為「2」。
對抗樣本的正式定義如下:
圖 2:對抗性樣本的定義
其中 ? 是我們嘗試最大化的損失函數(shù),?_orig 是原始圖像,δ 是干擾因子,y 是基準(zhǔn)標(biāo)簽,選擇 ε 以確保被擾動圖像看起來不太嘈雜,并且看起來仍然像是人類的原始圖像。一些攻擊(例如 FGS,IGS 和 PGD)會使用 L-∞ 范數(shù)來約束被擾動的圖像和原始圖像之間的距離。在這篇文章中,我們將探討為 MNIST 數(shù)據(jù)集挑選合適 ε 的難點。我們還將研究「生成對抗樣本」的最新技術(shù),這種技術(shù)不依賴于擾動原始圖像,但我認(rèn)為這種技術(shù)事實上并不嚴(yán)格符合對抗樣本的定義。
讓我們先來簡單分析一下同類和不同類圖像之間的平均距離。也許這些距離可以幫助我們以一種更客觀的、量化的方式來選擇 ε 。(雷鋒網(wǎng))
我們從每一個類中抽取 100 個隨機圖像,并計算在不同范數(shù)下圖像之間的平均成對距離。下圖只顯示了 L-2 范數(shù)(以避免混亂),主要是因為 L-∞范數(shù)熱圖在每個單元格中只有一個 1,并沒有其它信息。
圖 3:L-2 規(guī)范訓(xùn)練集距離,相應(yīng)代碼可查看 ipynb 文件:http://bit.ly/2Q82Feo
一個合理的假設(shè)是,這個熱圖的對角線元素(類內(nèi)距離)應(yīng)該低于同一行或同一列中的非對角線元素(類間距離)。然而,與上面說到的情況會有一些不同,類「2」更接近類「1」,而類「8」也更接近類「1」。這猛一看會讓人很吃驚,但它其實表明給定數(shù)字的樣式變化可能導(dǎo)致比在數(shù)字之間的切換造成更多的像素差異。我們可以這樣來理解,對于每一個數(shù)字,都會有一組像素不因該數(shù)字的不同樣式而改變,但當(dāng)兩個不同數(shù)字的不變組具有很高的重疊時,就會出現(xiàn)上述的意外結(jié)果。
那么這對 ε 的選擇有什么影響呢?
根據(jù) Madry 等人[1]的研究,當(dāng)使用 L-∞范數(shù)時,ε一般設(shè)置為 0.3;而當(dāng)使用 L-2 范數(shù)時,一般設(shè)置為 4.5 這樣大的數(shù)值。
如果我們在 L-∞范數(shù)下取極端值ε= 1.0,我們將無法控制被擾動圖像的基本真值類,并可能最終生成一個無論對于人類還是我們的分類模型來說都是不同類的圖像。
于是這就允許我們在訓(xùn)練集和測試集圖像之間進行插值:x'= rx_train *(1-r)x_test。如果我們的模型碰巧對 x_test 進行錯誤分類,那么它將被標(biāo)記為對抗性的。因此,下面這兩個條件應(yīng)當(dāng)?shù)玫奖WC:
在將原始圖像 x 與其擾動版本 x'并列比較時,人類無法察覺到這種擾動;
擾動不會導(dǎo)致相同數(shù)字的圖像之間進行插值,否則會使對抗魯棒性與泛化性能相混淆。對于給定的數(shù)字 d 和測試集圖像 x_correct 和 x_false,我們的模型分別對它們進行了正確和錯誤的分類,一個簡單的對抗攻擊就是將 x_correct 轉(zhuǎn)換為 x_false。
對于觀察者來講,條件(1)通常意味著條件(2)。那么,條件(2)是否意味著條件(1)呢?ε= 0.3 當(dāng)然滿足條件(2),因為所有圖像的 L-inf 距離都接近 1.0。讓我們來看看如果生成如下 2 個類的組合的圖像會發(fā)生什么。
圖 4:在 L-∞距離約束下的平均圖像
將原始圖像和精制圖像之間的 L-∞距離限定為 ε ,但任何人類都可以輕松區(qū)分兩個圖像之間的差異,如下圖所示:
圖 5:在原始ε= 0.3 L-inf 距離內(nèi)制作的圖像
很明顯,最右邊的圖像有一些不足之處。事實上,如果沒有被告知這是一個由 0 和 1 組合而成的圖像,有些人可能會說它只是一個抽象的符號。
因此,通過這個簡單的例子,我們可以看出 ε= 0.3 違反條件(1)。其它較小的值如 ε= 0.2 也會得到類似的結(jié)果。MNIST 數(shù)據(jù)集允許輕松識別被擾動的像素。在很多情況下,僅通過簡單地檢查是否對背景像素進行了修改,就可以為對抗樣本創(chuàng)建檢測機制。但如果攻擊者知道有這種檢測機制,那么他們可以繞過這種(Carlini and Wagner[ 2 ])。
那我們又該怎么選擇 ε 呢?
一種方案就是對不同的圖像使用不同的ε。對于某些類,很容易判斷在數(shù)字本身的邊界框內(nèi)是否已經(jīng)更改了像素,如上面的例子所示。對于這些類,ε 應(yīng)該設(shè)置為較小的值。
此外,當(dāng)用于計算圖像空間中的距離時,諸如 L-2 或 L-∞的典型范數(shù)沒有語義相似性的概念。如果他們能夠在輸入空間中給出圖像之間的語義相似性,那么就有可能構(gòu)建一個簡單的 KNN 圖像分類器,并能輕松超越過去 7 年中卷積神經(jīng)網(wǎng)絡(luò)的成就。
一個可能的方案是使用度量學(xué)習(xí)中的技術(shù)。通過學(xué)習(xí)嵌入,這些嵌入之間的 L-2 或 L-∞距離包含語義相似性的概念,那么我們可以在這個嵌入空間(而不是輸入空間)中調(diào)整ε。
圖 6:三重網(wǎng)絡(luò)的作用
有一種被稱為三重網(wǎng)絡(luò)(triplet networks)的技術(shù)使用的正式這種方案。三重網(wǎng)絡(luò)將 3 幅圖像同時傳遞給同一個嵌入網(wǎng)絡(luò)來并行運行,并通過類 y 的錨,以及同一類的正例(+)和不同類 y'的負例(-)。損失函數(shù)確保了錨和正例之間的距離至少小于錨和負例之間的距離。
使用像三重網(wǎng)絡(luò)這樣的度量學(xué)習(xí)技術(shù)仍然需要手動驗證,以確保選擇的ε不會太大,以至于允許在類上發(fā)生變化。此外,我們必須考慮條件(2),它表示我們不應(yīng)該使用擾動從數(shù)據(jù)集中的一個圖像跳轉(zhuǎn)到同一個類的另一個圖像。
PGD 的攻擊是在損失函數(shù)梯度方向上迭代增加損失,然后將得到的圖像投影到滿足原始圖像距離約束的輸入子空間上。在這里,我們可以不在輸入子空間上進行投影,而是在剛才提到的使用度量學(xué)習(xí)算法的嵌入空間進行投影。
傳統(tǒng)上,對抗樣本都是通過使用反向制造噪音的方法干擾一些已經(jīng)存在的圖像。而 Song 等人[3]則提出了一種非??岬纳蓪箻颖镜姆椒?,他們使用 GAN 直接從頭開始生成能夠欺騙被攻擊模型的圖像。
具體來說就是,他們使用了一個輔助分類器 GAN(AC-GAN),能夠?qū)D像類進行條件設(shè)置,以便控制正在生成的圖像類型。這導(dǎo)致會生成「不受限制的對抗樣本」,因為沒有約束距離(圖像是從頭開始生成的)。
不過這里需要強調(diào),他們的方法既不滿足前面提到的條件(1)也不滿足條件(2)。
雖然他們的技術(shù)非常有用,并且用生成能夠欺騙模型的新圖像可以進行模型調(diào)試以及數(shù)據(jù)增強,但他們的分析卻將泛化性能和對抗性魯棒性看做一回事。
事實上,若想正確分析模型的魯棒性,我們需要能夠?qū)⒎夯阅芎蛯刽敯粜赃@兩個指標(biāo)分開,因為它們并不一樣,具體可以參看 Tsipras 等人[4]最新的研究工作。
因此,盡管人們可能會放棄「基于干擾的對抗樣本」的定義,但就目前而言,它們是唯一允許以獨立的、非混淆的方式研究對抗魯棒性的方法。
對于諸如 MNIST 這類的數(shù)據(jù)集,對抗樣本的當(dāng)前定義還存在著些許不足,但是對于類似 ImageNet 的內(nèi)容還是很有意義的,因為在 ImageNet 中干擾因子很難被注意到,也不會使圖像看起來像是奇怪的組合。對每個圖像或每類圖像使用相同的閾值 ε 可能是一種懲罰性要求,因為這會更容易檢測特定類別圖像的噪聲。
圖像是一種可視化的數(shù)據(jù)類型,人類自然容易分析和判斷是否有可疑的東西存在。然而,在很多領(lǐng)域中,數(shù)據(jù)都是以數(shù)字的抽象向量的形式出現(xiàn),這些向量很難理解和可視化。在這些領(lǐng)域中定義什么是對抗可能已經(jīng)超出了我們想象的范圍,因為我們一開始就無法理解原始數(shù)據(jù)。在這種情況下,提出 ε 的定量方法是必須的。
雷鋒網(wǎng)編輯。via:http://1t.click/akDc
參考文獻:
[1] Madry et al. https://arxiv.org/pdf/1706.06083.pdf
[2] Carlini and Wagner, https://arxiv.org/pdf/1705.07263.pdf
[3] Song et al. https://arxiv.org/pdf/1805.07894.pdf
[4] Tsipras et al. https://arxiv.org/pdf/1805.12152.pdf
雷鋒網(wǎng)報道
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。