機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

本文作者：逸炫

2016-07-28 16:22

導(dǎo)語：從一些方面看，機器視覺比人類視覺更好。但是研究人員找到了能夠輕松“愚弄”機器視覺的’對抗性圖像’

“從一些方面看，機器視覺比人類視覺更好。但是現(xiàn)在研究人員找到了一類能夠輕松‘愚弄’機器視覺的‘對抗性圖像’。“——來自arXiv的Emerging Technology。

現(xiàn)代科學(xué)最了不起的進步之一就是機器視覺的興起。最近幾年，新一代機器學(xué)習(xí)技術(shù)已經(jīng)改變了計算機“看見”世界的方式。

現(xiàn)在，機器在人臉識別和物品識別方面已經(jīng)超越了人類，并將改變無數(shù)基于視覺的任務(wù)，例如駕駛、安全監(jiān)控等等。機器視覺現(xiàn)在簡直是超人。

但是有一個問題出現(xiàn)了。機器視覺研究人員已經(jīng)注意到，這項新技術(shù)有一些讓人擔(dān)心的弱點。實際上，機器視覺算法有一個阿基里斯之踵，使它們被一些經(jīng)過微擾的圖像捉弄，而這些圖像對于人類來說非常淺顯易見。

這些經(jīng)過修改的圖像被稱為“對抗性圖像，成為一種重要的威脅?！霸谌四樧R別領(lǐng)域，一個對抗性例子可能由臉部非常細微的標記構(gòu)成，因此人會正確識別出圖像中的身份，而機器學(xué)習(xí)系統(tǒng)會將其識別為一個不同的人?！惫雀鐱rain的Alexey Kurakin、Samy Bengio以及非營利機構(gòu)OpenAI的Ian Goodfellow說。

他們在論文中稱，這種對抗性攻擊除了能影響完全在計算機中運行的系統(tǒng)，例如逃避垃圾郵件過濾器或病毒軟件監(jiān)測器，還能影響在物理世界中運行的系統(tǒng)，例如通過攝像頭及其他傳感器感知世界的機器人、視頻監(jiān)控系統(tǒng)以及圖像和聲音分類的移動應(yīng)用。

因為機器視覺還非常新，我們對于對抗性圖像還知之甚少。沒人知道如何最好地創(chuàng)造它們、如何用它們來愚弄機器視覺系統(tǒng)、或者如何預(yù)防此類攻擊。

現(xiàn)在，Kurakin及同事的研究開始改變這一現(xiàn)狀，他們對對抗性圖像首次展開了系統(tǒng)研究。他們的研究說明了機器視覺系統(tǒng)在此類攻擊之下多么脆弱。

團隊開始使用了一個機器視覺研究的標準數(shù)據(jù)庫，名叫 ImageNet。這個數(shù)據(jù)庫的圖像根據(jù)顯示的內(nèi)容進行分類。一個標準測試是基于這個數(shù)據(jù)庫的一部分來訓(xùn)練一個機器視覺算法，然后利用數(shù)據(jù)庫的另一個部分來測試算法能否良好進行分類。

測試表現(xiàn)的測量方法是統(tǒng)計算法中最高五項回答、甚至最高一項回答中正確分類的頻率（被稱為前五準確率和前一準確率），或者中前五項或一項中回答不正確的頻率（其前五錯誤率或者前一錯誤率）。

最好的機器視覺系統(tǒng)之一是谷歌的 Inception v3 算法，其前五錯誤率為3.46%。進行同樣任務(wù)的人類的前五錯誤率為大約5%，因此 Inception v3 確實具有超人般的能力。

Kurakin和同事通過3種不同的方式修改了50,000張 ImageNet 的圖像，從而創(chuàng)造了一個對抗性圖像的數(shù)據(jù)庫。他們的方法是基于這個概念：神經(jīng)網(wǎng)絡(luò)處理信息，來將一個圖像與某個類別匹配起來。這項處理所需的信息量被稱為交叉熵，會體現(xiàn)出匹配任務(wù)的難度。

他們的第一個算法對圖像進行了一個小改變，試圖最大化這項交叉熵。他們的第二個算法只是將這個過程迭代，進一步改變圖像。

這兩項算法都改變了圖像，使其更難正確分類?！斑@些方法可以造成一些比較無聊的錯誤分類，例如將一種雪橇狗錯認為另一種雪橇狗?！?/p>

他們最終的算法有更聰明的方法。這種對圖像的改變讓機器視覺系統(tǒng)出現(xiàn)某種特定分類錯誤，更傾向于最不可能的類別?！白畈豢赡艿姆诸愅ǔＪ桥c正確分類非常不同的，因此這項方法會造成更有趣的錯誤，例如將一只狗錯認為一架飛機?！?Kurakin 及同事說。

然后，他們測試了谷歌 Inception v3 算法能否良好分類50,000個對抗性圖像。

這兩個簡單的算法大大降低了前五和前一精確度。但是他們最強大的算法——最不可能的分類法——將所有50,000個圖像的精確度迅速減少至零。（團隊未透露算法在指引錯誤分類方面是否成功。）

這意味著對抗性圖像是一個重要威脅，但是這種方法也有一種潛在的弱點。所有對抗性圖像都是直接輸入機器視覺系統(tǒng)的。

但是在真實世界中，圖像總是經(jīng)過攝像頭系統(tǒng)的改變。如果這項過程中和了其效果，一個對抗性圖像算法就是無用的。因此，弄清楚算法如何應(yīng)對真實世界的改變就非常重要。

為了測試，Kurakin 和同事講所有對抗性圖像和原始圖像打印出來，并手動用一個 Nexus 5 智能手機進行拍照。然后，再將這些經(jīng)過轉(zhuǎn)變的對抗性圖像輸入機器視覺系統(tǒng)。

Kurakin 和同事說最不可能類別方法受到這些轉(zhuǎn)變的影響最大，不過其他方法的承受度都還可以。換句話說，對抗性圖像算法在真實世界中的確是一種威脅?！昂艽笠徊糠钟迷瓌?chuàng)網(wǎng)絡(luò)制造的對抗性圖像被錯誤分類了，即便是通過攝像頭輸入分類器?！眻F隊稱。

這項研究非常有趣，對于機器視覺的阿基里斯之踵帶來了新的認識。并且未來還有很多研究要做。Kurakin 和同事希望針對其他類型的視覺系統(tǒng)開發(fā)對抗性圖像，使其更加高效。

這在計算機安全領(lǐng)域會引發(fā)討論。機器視覺系統(tǒng)現(xiàn)在比人類更能夠識別人臉，因此很自然我們會想到在更多的領(lǐng)域使用該技術(shù)，從解鎖智能手機和家門，到護照管控以及銀行賬號的身份信息。但是 Kurakin 和同事提出了輕松“愚弄”這些系統(tǒng)的可能性。

最近幾年，我們經(jīng)常聽到機器視覺系統(tǒng)能有多好。現(xiàn)在，我們才發(fā)現(xiàn)他們還有蠢蠢的阿基里斯之踵。

在此，雷鋒網(wǎng)為大家分享來自谷歌Brain和 OpenAI 科學(xué)家、名為《物理世界中的對抗性例子》論文全文。

摘要

大部分現(xiàn)有的機器學(xué)習(xí)分類器都很容易受到對抗性例子的影響。一個對抗性例子是一個輸入數(shù)據(jù)樣本，經(jīng)過了某種微擾，目的是使機器學(xué)習(xí)分類器錯誤分類。在很多情況下，這些微擾會非常微小，以至于人類觀察者可能根本不會留意到這些變化，而分類器仍然會犯錯。對抗性例子會引發(fā)安全顧慮，因為它們可以被用于攻擊機器學(xué)習(xí)系統(tǒng)，即便是對抗性不涉及底層模型。目前為止，所有之前的研究都假設(shè)了一個威脅模型，其中對抗性能將數(shù)據(jù)直接輸入機器學(xué)習(xí)分類器。然而對于在物理世界中運行的系統(tǒng)來說并不總是這樣的，例如那些使用攝像頭或其他傳感器的信號作為輸入的系統(tǒng)。這篇論文顯示了即便是在這樣的物理世界情景中，機器學(xué)習(xí)系統(tǒng)也會受到對抗性例子的影響。我們證明這一點的方法是，將從手機攝像頭中獲得的對抗性圖像輸入一個 ImageNet Inception 分類器，并測量系統(tǒng)的分類精度。我們發(fā)現(xiàn)，很大一部分對抗性例子被錯誤分類了，即便是從攝像頭中獲得的圖像。

1、簡介

最近機器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)方面的進展讓研究人員能夠解決多個重要的實際問題，例如圖像、視頻、文字分類及其他（Krizhevsky et al., 2012; Hinton et al., 2012; Bahdanau et al., 2015)。

但是，機器學(xué)習(xí)模型經(jīng)常受到其系統(tǒng)輸入中對抗性操作的影響，目的是引發(fā)錯誤分類（Dalvi et al., 2004)。尤其是機器學(xué)習(xí)模型中的神經(jīng)網(wǎng)絡(luò)等其他許多類別，特別容易受到基于測試時系統(tǒng)輸入中的小修改的攻擊影響（Biggio et al., 2013; Szegedy et al., 2014; Goodfellow et al., 2014; Papernot et al., 2016b)。

問題可以總結(jié)如下。假設(shè)有一個機器學(xué)習(xí)系統(tǒng) M 和輸入樣本 C，我們稱其為干凈例子。假設(shè)樣本 C 中機器學(xué)習(xí)系統(tǒng)中正確分類，即：M(C) = y_true。我們可以打造一個對抗性例子 A，與 C 在感官上無法區(qū)分，但是被系統(tǒng)錯誤分類，即：M(A) ≠ y_true。這些對抗性例子比通過噪音改變的例子更頻繁地被錯誤分類，即便是噪音的廣度超過對抗性影響的廣度（Szegedy et al., 2014)。

對抗性例子對實用的機器學(xué)習(xí)應(yīng)用造成潛在的安全威脅。其中，Szegedy et al. （2014）提出了一個特別設(shè)計為在模型 M₁ 中被錯誤分類的對抗性例子，經(jīng)常也會被模型 M₂ 錯誤分類。這種對抗性例子的可轉(zhuǎn)移特點意味著我們可以生成對抗性例子，并且無需涉及底層模型就能對機器學(xué)習(xí)系統(tǒng)進行錯誤分類攻擊。Papernot et al. (2016a、b) 在現(xiàn)實情境中證明了此類攻擊。

但是，所有關(guān)于針對神經(jīng)網(wǎng)絡(luò)的對抗性例子的先前研究利用了一個威脅模型，其中攻擊者直接向機器學(xué)習(xí)模型中提供輸入。這樣，對抗性攻擊依賴于輸入數(shù)據(jù)修改的良好調(diào)試。

這樣的威脅模型可以描述一些情景，其中攻擊完全在計算機中發(fā)生，例如作為逃避垃圾郵件過濾器或者病毒軟件監(jiān)測 (Biggio et al., 2013; Nelson et al.)。但是，實踐中許多的機器學(xué)習(xí)系統(tǒng)在物理環(huán)境中運行?？赡艿睦影ǖ幌抻冢和ㄟ^攝像頭及其他傳感器感知世界的機器人、視頻監(jiān)控系統(tǒng)以及圖像和聲音分類的移動應(yīng)用。在這類情境中，對抗性不能依賴于輸入數(shù)據(jù)中基于像素的良好調(diào)整。因而產(chǎn)生了以下問題：是否還有可能打造對抗性例子，對在物理世界里運行的機器學(xué)習(xí)系統(tǒng)進行對抗性攻擊，并通過各種傳感器而非數(shù)字化表征來感知數(shù)據(jù)？

一些早先的研究已經(jīng)探索了機器學(xué)習(xí)系統(tǒng)的物理攻擊問題，但不是通過在輸入中制造微小的干擾來愚弄神經(jīng)網(wǎng)絡(luò)。例如，Carlini et al. (2016) 顯示了一個攻擊創(chuàng)造出的聲音輸入，移動手機識別其為包含有意義的語音指令，而人類聽起來是無意義的一句話?；谡掌拿娌孔R別系統(tǒng)很容易受到回放攻擊的影響，其中給攝像頭呈現(xiàn)一個授權(quán)用戶之前抓取的面部圖像，而非一個真實的人臉（Smith et al., 2015)。原則上，對抗性例子可以應(yīng)用于任一個物理領(lǐng)域中。語音命令領(lǐng)域中的一個對抗性例子會包括一個對于人類來說看起來無害的錄音（例如一首歌），但是其中包含機器學(xué)習(xí)算法會識別出的語音指令。一個面部識別領(lǐng)域的對抗性例子可能包括面部非常微妙的改動，因此一個人類觀察者會正確識別出他們的身份，但是機器學(xué)習(xí)系統(tǒng)會將他們認作一個不同的人。

這篇論文中，我們探索在物理世界中針對圖像分類任務(wù)創(chuàng)造對抗性例子的可能性。為了這個目的，我們用一個預(yù)先訓(xùn)練的 ImageNet Inception 分類器進行了一個實驗（Szegedy et al., 2015)。我們?yōu)檫@個模型生成了對抗性例子，然后將這些例子通過一個手機攝像頭輸入分類器，并測量分類精度。這個情景是一個簡單的物理世界系統(tǒng)，通過一個攝像頭感知數(shù)據(jù)，然后運行圖像分類器。我們發(fā)現(xiàn)，很大一部分從原始模型中生成的對抗性例子即便是通過攝像頭感知，仍然被錯誤分類。

出人意料的是，我們的攻擊方法不需要針對攝像頭的出現(xiàn)做出任何修改——這是使用對抗性例子、為 Inception 模型打造的最簡單的攻擊，其帶來的對抗性例子成功轉(zhuǎn)移到了攝像頭與 Inception 模型的結(jié)合中。因此，我們的結(jié)果給出了較低的攻擊成功率，可以通過更有針對性的攻擊實現(xiàn)，在打造對抗性例子的時候明顯地模擬攝像頭。

我們的結(jié)果的限制是，我們假設(shè)了一個威脅模型，其中攻擊者完全了解模型架構(gòu)和參數(shù)值。這基本上是因為我們可以在所有實驗中使用一個單一的 Inception v3 模型，而不需要設(shè)置和訓(xùn)練不同的高效模型。對抗性例子的轉(zhuǎn)移特性意味著，當(dāng)攻擊者不了解模型描述的時候，我們的結(jié)果可能微弱地延展到情景中（Szegedy et al., 2014; Goodfellow et al., 2014; Papernot et al., 2016b)。

為了更好理解攝像頭引起的重要圖像轉(zhuǎn)變?nèi)绾斡绊憣剐岳拥霓D(zhuǎn)移性，我們進行了一系列額外的實驗，研究了對抗性例子如何在若干個具體類型的圖像轉(zhuǎn)換合成中轉(zhuǎn)移。

論文剩余的部分將如此安排：在第2部分，我們回顧用于生成對抗性例子的不同方法。接下來第3部分將詳細討論我們的“物理世界”實驗設(shè)置和結(jié)果。最后，第4部分描述使用了各種人工圖像轉(zhuǎn)換（例如改變亮度、對比度等）的實驗，以及它們?nèi)绾斡绊憣剐岳印?/p>

2、生成對抗性圖像的方法

這個部分描述我們在實驗中使用的不同的生成對抗性圖像的方法。值得注意的是，沒有任何一個描述中的方法保證生成的圖像會被錯誤分類。然而，我們將所有生成的圖像稱為“對抗性圖像”。

在論文的剩余部分我們將使用以下標記：

X - 一個圖像，通常是3D張量（長 x 寬 x 高）。在這篇論文中，我們假設(shè)像素值是在［0，255］之間的整數(shù)。

y_{true -} 圖像 X 的真實類別。

J(X,y) - 基于圖像 X 和類別 y，神經(jīng)網(wǎng)絡(luò)的交叉熵成本函數(shù)。我們在成本函數(shù)中有意忽視神經(jīng)網(wǎng)絡(luò)權(quán)重（及其他參數(shù)) θ，因為我們假設(shè)在論文的條件中它們是固定的（固定為訓(xùn)練機器學(xué)習(xí)模型所帶來的值）。針對帶有softmax輸出層的神經(jīng)網(wǎng)絡(luò)，應(yīng)用于整數(shù)類標簽的交叉熵成本函數(shù)，等于真實類別的負對數(shù)概率：J (X, y) = - log p (y | X)，這個關(guān)系會在下面用到。

Clip X，∈｛ X’ ｝－運行圖像 X’ 的逐像素剪輯的函數(shù)，因此結(jié)果會在 L∞ ε- 原圖像 X 周邊。詳細的裁剪方程如下：

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

其中 X (x, y, z) 是圖像 X 在坐標（x, y) 時 z 軸的值。

2.1 快速方法

生成對抗性圖像的最簡單的方法之一是如 Goodfellow et al.(2014)描述，目標是成本函數(shù)的線性化以及解決最大化L∞ 約束的成本。這可以閉合實現(xiàn)，只需要調(diào)用一次反向傳播：

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

其中 ε 是一個有待選擇的超參數(shù)。

這篇論文中，我們將這個方法稱為“快速方法”，因為它不需要一個迭代過程來計算對抗性例子，這樣比其他考慮的方法更快。

2.2 基本迭代方法

我們引入了一個直接的方式來延伸“快速”方法——我們用小步長將其應(yīng)用多次，并在每一步之后剪切中間結(jié)果的像素值，來確保它們在原始圖像的 ε -周邊之內(nèi)：

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

在我們的實驗中，我們使用 α ＝ 1，也就是說，我們將每一個像素的值每一步只改變1。我們選擇迭代次數(shù)最少為（ε ＋ 4，1.25 ε）。這個迭代次數(shù)是以啟發(fā)式方法選擇的；這足夠讓對抗性例子到達 ε 最大范數(shù)，同時有足夠的限制，讓實驗的計算成本值控制范圍內(nèi)。

以下我們將這個方法稱為“基本迭代”方法。

2.3 迭代最不可能類別方法

我們目前描述過的兩種方法只是試圖增加正確類型的成本，而不說明模型應(yīng)該選擇哪一種不正確的類別。這樣的方法對于數(shù)據(jù)庫應(yīng)用來說足夠了，例如 MNIST 和 CIFAR - 10，其中類型的數(shù)量少，而且所有類型之間的差別很大。在 ImageNet，類型數(shù)量多得多，而且不同類別之間的差別度各異，這些方法可能造成比較無趣的錯誤分類，例如將一種雪橇狗錯認為另一種雪橇狗。為了制造更有趣的錯誤分類，我們引入了迭代最不可能類別方法。這種迭代方法試圖制造的對抗性圖像會根據(jù)預(yù)期被分類為特定的目標類別。至于期望類別，我們使用基于圖像 X 訓(xùn)練而訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來預(yù)測，選擇最不可能的類別：

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

對于一個訓(xùn)練良好的分類器來說，最不可能的類別通常是與真實類別高度不同的，因此這項攻擊方法會造成更加有趣的錯誤，例如將一只狗錯誤識別為一架飛機。

要制造一個被分類為 y_LL 的對抗性圖像，我們在該方向進行迭代步驟：機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

將 log p(yll | X) 最大化。最后的一個方程對于帶有交叉熵損失的神經(jīng)網(wǎng)絡(luò)來說等于：機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中。

這樣，我們就有了以下的步驟：

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

對于這個迭代過程，我們與基本迭代方法使用同樣的 α 和同樣的迭代次數(shù)。

下面我們將此方法稱為“最不可能類別”方法，或者簡稱“l(fā).l. 類別”。

2.4 生成對抗性例子的方法比較

正如上面所提，對抗性圖像不能保證一定會被錯誤分類——有時候攻擊者獲勝，有時候機器學(xué)習(xí)模型勝利。我們做了對抗性方法的實驗比較，來理解生成圖像實際的分類精度，以及每一種方法所利用的微擾類型。

實驗使用了從 ImageNet 數(shù)據(jù)庫（Rusakovsky et al., 2014）中而來的共50,000個驗證圖像，使用一個預(yù)先訓(xùn)練的 Inception 3 分類器（Szegedy et al., 2015)。對于每一個驗證圖像，我們使用不同的方法和不同的 ε 值。對于每一組方法和 ε，我們在所有50,000個圖像上計算分類精度。另外，我們在所有干凈圖像上計算精度，用作基準。

圖表 1 和 2 中展示了生成的對抗性圖像例子。干凈圖像和對抗圖像的前一和前五分類精度總結(jié)在圖表3中。

如圖表3中所示，快速方法即便是使用 ε 的最小值，也將前一精度降低了二分之一，將前五精度減少了大約40%，隨著我們增加 ε 值，快速方法所生成的對抗性圖像的精度保持不變，直到 ε ＝ 32，然后隨著 ε 增加到 128 緩慢降低到近似于 0。這可以解釋為：快速方法對每一個圖像增加 ε 倍的噪音，因此更高的 ε 值實際上毀壞了圖像內(nèi)容，即便是人類也無法識別，見圖 1。

迭代方法利用了很多更良好的微擾，即便是在更高 ε 值的情況下也不毀壞圖像，見圖 2。

基本迭代方法能夠在 ε < 48 時生成更好的對抗性圖像，然而當(dāng)我們提升 ε 值，它無法提升。

“最不可能類型”方法即便是在 ε 相對較小時，也會毀壞大部分圖像的正確分類。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

圖1: 比較使用“快速”方法進行抵抗性微擾而來的圖像。頂部圖像是一個“膝墊”而底部圖像是“垃圾車”。在兩種情況中，干凈圖像都被正確分類了，而對抗性圖像在所有考慮的 ε 值中都錯誤分類了。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

圖2: 用 ε ＝ 32，比較不同的對抗性方法。迭代方法生成的微擾比快速方法生成的更好。另外，迭代方法不會總是選擇 ε－周邊邊界上的點作為對抗性圖像。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

圖3: 在不通對抗性方法的攻擊下，Inception v3 的前一和前五精度，以及與“干凈圖像”——數(shù)據(jù)庫中未經(jīng)修改的圖像——相比，不同的 ε 值。精度是使用 ImageNet 數(shù)據(jù)庫中共 50,000 個驗證圖像計算而出。在這些實驗中，ε 值的范圍是 2 到 128。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

圖4: 實驗設(shè)置：（a) 生成的打印，包含干凈圖像與對抗性圖像組，以及一個二維碼來幫助自動剪切；（b）手機攝像頭制作的打印照片；(c) 從照片中自動剪切的圖像。

我們將所有接下來的實驗進一步限制為 ε ≤ 16，因為這樣的微調(diào)即便是被識別到，也只會被認為是小噪音，而對抗性方法可以在干凈圖像的 ε-周邊之內(nèi)，生成足夠數(shù)量的錯誤分類例子。

3. 對抗性例子的圖像

3.1 對抗性圖像的毀壞率

為了研究對抗性圖像強制轉(zhuǎn)換的影響，我們引入了毀壞率的概念。它可以描述為對抗性圖像中，經(jīng)過轉(zhuǎn)化后不再會錯誤分類的比例。公式化定義如下方程（1）：

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

其中 n 是用于計算毀壞率的圖像個數(shù)，X^k 是一個數(shù)據(jù)庫中的圖像，機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中是這個圖像的真實類別，是對應(yīng)的對抗性圖像。函數(shù) T(*) 是一個強制性圖像轉(zhuǎn)換——這篇論文中，我們研究各種轉(zhuǎn)換，包括打印圖像和對結(jié)果進行拍照。函數(shù) C (X, y) 是一個指示函數(shù)，返回圖像是否正確分類：

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

我們將這個指示值的二進制否定標記為機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中，計算方式是＝ 1 － C ( X, y )。

3.2 實驗設(shè)置

為了探索物理對抗性例子的可能性，我們用對抗性例子的圖片進行了一系列實驗。我們打印了干凈圖片和對抗性圖片，為打印的頁面拍了照片，并從完整頁面中將打印圖片剪切了出來。我們可以認為這是一個黑盒轉(zhuǎn)化，我們稱為“照片轉(zhuǎn)化”。

我們用干凈圖像和對抗性圖像，分別在照片轉(zhuǎn)化之前及之后計算精度，并計算由于照片轉(zhuǎn)化而來的對抗性圖像的毀壞率。

實驗過程如下：

1、打印圖像，如圖4a。為了減少手工工作量，我們在每張紙上打印了多組干凈和對抗性例子。另外，打印的邊角還放置了二維碼來幫助自動剪切。

所有打印的生成圖像（圖4a）保存為無損 PNG 格式。

一批批 PNG 打印使用 ImageMagick 套裝里的默認設(shè)定：convert * .png output.pdf 轉(zhuǎn)化為多頁 PDF 文檔。

生成出來的 PDF 文檔使用一個 Ricoh MP C5503 辦公室打印機來打印。PDF 文檔的每一頁都使用默認打印機大小調(diào)整來自動調(diào)整大小，來適合整張紙。打印機像素設(shè)置為 600dpi。

2、使用手機（Nexus 5x）來對打印的圖像拍照，見圖4b。

3、自動剪切和包裹圖片中的驗證例子，這樣它們會變成與原圖像同樣大小的正方形，見圖4c：

（a）監(jiān)測照片四角上的四個二維碼的位置和值。二維碼包涵了圖片中顯示的驗證例子的批次信息。如果沒能成功監(jiān)測到任何一個邊角，整個圖像都會被放棄，照片中的圖像就不會用來計算精度。我們觀察到，任何實驗中，所有圖像中不超過10%的圖像被放棄，通常被放棄的圖像大約為3%到6%。

（b）使用透視轉(zhuǎn)換來包裹圖像，從而將二維碼的位置移入預(yù)先定義的坐標。

（c）圖像包裹后，每一個例子都有了已知的坐標，能夠很容易從圖像中剪切出來。

4、在轉(zhuǎn)化圖像和原圖像上運行分類。計算對抗性圖像的精度和毀壞率。

這個過程包括了將打印頁面進行手動拍照，不需要仔細控制燈光、攝像機角度和到頁面的距離等因素。這是故意的；這引入了細微的變化，有可能會毀壞對抗性微擾，因為它依賴細微的、良好適應(yīng)的精確像素值。不過，我們沒有故意使用極端的攝像機角度或者燈光情況。所有照片都是在正常的室內(nèi)照明、以大致正對頁面的攝像機拍攝的。

對每一組對抗性例子生成方法以及 ε，我們進行兩組實驗：

平均情況：

為測量平均情況表現(xiàn)，我們在一個實驗中隨機選擇了102個圖像，用一個既定 ε 和對抗性方法。這個實驗估測對抗性成功攻擊隨機選擇照片的頻率——外界隨機選擇一個圖像，對抗性試圖讓其被錯誤分類。

預(yù)先篩選的情況：

為了研究更主動的攻擊，我們用預(yù)先篩選過的圖片進行了試驗。具體來說，我們選擇了102個圖像，這樣所有干凈圖像都正確分類了，而所有對抗性圖像（在圖片轉(zhuǎn)換前）都錯誤分類了（前一和前五分類都是）。此外，我們?yōu)樽罡哳A(yù)測使用了置信度閾值：p (y_predicted | X) ≥ 0.8，其中y_predicted 是網(wǎng)絡(luò)預(yù)測的圖像 X 的類別。這個試驗測量當(dāng)對抗性可以選擇攻擊哪一個原始圖像時的成功頻率。在我們的威脅模型之下，對抗性可以涉及模型的參數(shù)和架構(gòu)，因此攻擊者總是可以進行干涉，來確定攻擊在沒有照片轉(zhuǎn)化的情況下是否會成功。攻擊者可能會期望，通過選擇會在這個初始階段成功的攻擊，來實現(xiàn)最佳效果。受害者然后會對攻擊者選擇展示的物理目標再拍一個新照片，圖片轉(zhuǎn)化可能會保留或毀壞攻擊。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

表格1：平均情況中，對抗性圖像照片的精度（隨機選擇的圖像）。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

表格2：預(yù)先篩選情況中，對抗性圖像照片的精度（干凈圖像正確分類，對抗性圖像會確保進行不正確分類）。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

表格3：照片的對抗性圖像毀壞率。

3.3 對抗性圖像照片的實驗結(jié)果

圖片轉(zhuǎn)化實驗結(jié)果總結(jié)再表格1、2和3中。

我們發(fā)現(xiàn)，“快速”對抗性圖像對于照片轉(zhuǎn)化比迭代方法更強。這可以解釋為迭代方法利用更加微妙的微擾，而這些微擾更可能被圖片轉(zhuǎn)化所毀壞。

有一個預(yù)期之外的結(jié)果是，在一些情況下，對抗性毀壞率在“預(yù)先篩選情況”中比“平均情況”中的更高。在迭代方法的情況中，即便是預(yù)先篩選圖像的總成功率也比隨機選擇的圖像更低。這意味著要獲得非常高的置信度，迭代方法經(jīng)常進行微妙的調(diào)整，不能適應(yīng)圖片轉(zhuǎn)化。

總體來說，結(jié)果顯示對抗性例子的一些部分即便是在非淺顯的轉(zhuǎn)化后也仍被錯誤分類：圖片轉(zhuǎn)化。這證明了物理對抗性例子的可能性。例如，一個使用 ε ＝ 16 快速方法的對抗性例子，可以預(yù)計有 2/3 的圖像會出現(xiàn)前一錯誤分類，而1/3的圖像會出現(xiàn)前五錯誤分類。因此，通過生成足夠多的對抗性圖像，對抗性預(yù)計可以比自然輸入造成多得多的錯誤分類。

4、人工圖像轉(zhuǎn)化

圖5：對改變亮度的轉(zhuǎn)化，各種不同對抗性方法的對抗性毀壞率比較。所有實驗都是以 ε ＝ 16 來進行。

之前部分描述的圖片轉(zhuǎn)化可以被認為是一種更簡單的圖像轉(zhuǎn)化的綜合。因此，為了更好理解，我們進行了一系列實驗，來測量人工圖像轉(zhuǎn)化的對抗性毀壞率。我們探索來以下轉(zhuǎn)化組：改變對比度和亮度、高斯模糊、高斯噪音以及 JPEG 編碼。

對這一組實驗，我們使用了1,000個圖像的一個子集，從驗證組中隨機選擇而出。這個1,000個的子集為一次性選出，這樣，所有這個部分的實驗都使用同樣的圖像子集。我們?yōu)槎鄬剐苑椒ê娃D(zhuǎn)化進行了實驗。對每一組轉(zhuǎn)化和對抗性方法，我們計算對抗性例子，為對抗性例子應(yīng)用轉(zhuǎn)化，然后根據(jù)方程（1）計算毀壞率。

當(dāng) ε ＝ 16，各種轉(zhuǎn)化和對抗性方法的結(jié)果總結(jié)在圖5、6、7、8和9中。我們可以得出以下的總體觀察結(jié)果：

快速方法生成的對抗例子是面對轉(zhuǎn)化時最強的，迭代最不可能類型方法生成的對抗性例子是最弱的。這與我們在圖片轉(zhuǎn)化中的結(jié)果一致。
前五毀壞率通常比前1毀壞率高。這可以解釋為：為了“毀壞”前五對抗性例子，必須要有一個轉(zhuǎn)化來將正確分類的標簽推進前五項預(yù)測之一。然而，為了毀壞前1對抗性例子，我們必須將正確的標簽推入前1項預(yù)測，這是一個更加嚴格的要求。
改變亮度和對比度對于對抗性例子沒有太大的影響?？焖俜椒ê突镜鷮剐岳拥臍穆市∮?%，迭代最不可能類別方法的毀壞率小于20%。
模糊、噪音和 JPEG 編碼比改變亮度和對比度有更高的毀壞率。尤其是對于迭代方法來說，毀壞率可以高達80% - 90%。然而，沒有任何一個轉(zhuǎn)化毀壞100%的對抗性例子，這與“圖片轉(zhuǎn)化”實驗中的結(jié)果一致。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

圖6：改變對比度的各種對抗性方法的對抗性毀壞率比較。所有實驗都是以 ε ＝ 16 進行。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

圖7：高斯模糊轉(zhuǎn)化的各種對抗性方法的對抗性毀壞率比較。所有實驗都是以 ε ＝ 16 進行。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

圖8：高斯噪音轉(zhuǎn)化的各種對抗性方法的對抗性毀壞率比較。所有實驗都是以 ε ＝ 16 進行。

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

圖9：JPEG 編碼轉(zhuǎn)化的各種對抗性方法的對抗性毀壞率比較。所有實驗都是以 ε ＝ 16 進行。

5、結(jié)論

這篇論文中，我們探索了這種可能性：針對在物理世界中運行的機器學(xué)習(xí)系統(tǒng)，創(chuàng)造對抗性例子。我們使用了手機攝像頭拍攝的圖像，輸入一個 Inception v3 圖像分類神經(jīng)網(wǎng)絡(luò)。我們顯示了在這樣一個設(shè)置中，使用原始網(wǎng)絡(luò)制造的對抗性圖像中，有足夠多的部分被錯誤分類了，即便是通過攝像機來輸入分類器。這項發(fā)現(xiàn)證明了物理世界中的機器系統(tǒng)具有對抗性例子的可能性。未來的研究中，我們期望證明還有可能使用除了打印在紙上的圖像以外其他類型的物理物品，來攻擊不同類型的機器學(xué)習(xí)系統(tǒng)——例如復(fù)雜的增強學(xué)習(xí)代理——無需涉及模型的參數(shù)和架構(gòu)，就能實施攻擊（假設(shè)使用轉(zhuǎn)移特性），以及通過在對抗例子打造過程中，明確地模擬物理轉(zhuǎn)化，從而實現(xiàn)更高成功率的物理攻擊。我們還希望未來的研究會開發(fā)高效的方法，來防御這樣的攻擊。

via MIT Tech Review

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

逸炫

編輯

發(fā)私信

當(dāng)月熱門文章

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中

機器視覺的阿基里斯之踵，秘密都在谷歌Brain論文中