OpenAI最新研究：“對抗樣本”能輕易黑掉AI系統(tǒng)，如何抵御？

本文作者：亞萌

2017-02-17 19:43

導(dǎo)語：OpenAI發(fā)表最新研究，論述了AI安全領(lǐng)域的一大隱憂：“對抗樣本”，它可以輕易地讓機器學(xué)習(xí)系統(tǒng)產(chǎn)生誤判，這會對AI的應(yīng)用實踐產(chǎn)生影響。

雷鋒網(wǎng)按：近日，OpenAI發(fā)表最新研究，論述了AI安全領(lǐng)域的一大隱憂：“對抗樣本”，它可以輕易地讓機器學(xué)習(xí)系統(tǒng)產(chǎn)生誤判，這會對AI的應(yīng)用實踐產(chǎn)生影響。在這篇由“GANs”之父Ian Goodfellow領(lǐng)銜撰寫的文章里，OpenAI針對“對抗樣本”進(jìn)行了防御策略的實驗，其中有兩種方法效果顯著，但也并不能解決根本問題。OpenAI表示設(shè)計出抵抗強大、具有適應(yīng)性攻擊者的防御策略，是非常重要的研究領(lǐng)域。本文原載于OpenAI Blog，由雷鋒網(wǎng)編譯整理。

“對抗樣本”是攻擊者故意設(shè)計的，被用來輸入到機器學(xué)習(xí)模型里，引發(fā)模型出錯的值，它就像是讓機器在視覺上產(chǎn)生幻覺一樣。在這篇文章里，我們將會展現(xiàn)“對抗樣本”是如何通過不同的媒介工作的，并且將會討論為什么針對“對抗樣本”的安全防御很困難。

在OpenAI，我們認(rèn)為“對抗樣本”是安全方面非常好的一個議題，因為它代表了AI安全領(lǐng)域里的一種具體的問題，我們可以在較短期里去關(guān)注和解決，而且這個問題的難度也是足夠的，需要進(jìn)行一些重要的研究工作（盡管我們需要探索機器學(xué)習(xí)安全的很多方面，以達(dá)到我們建造安全、廣泛應(yīng)用AI的目標(biāo)）。

什么是“對抗樣本”？

這篇論文里“Explaining and Harnessing Adversarial Examples”有一個例子：這是一只熊貓的圖片，攻擊者加入了一個小干擾到計算里，導(dǎo)致系統(tǒng)將其誤認(rèn)為是長臂猿的照片。

OpenAI最新研究：“對抗樣本”能輕易黑掉AI系統(tǒng)，如何抵御？

一個對抗輸入值，覆蓋了一個典型的圖片，分類器將一只“熊貓”誤分類為一只“長臂猿”

這個方法是十分有效的，最近的一項研究（論文“Adversarial examples in the physical world”）顯示，把“對抗樣本”用標(biāo)準(zhǔn)的紙張打印出來，然后用普通的手機對其拍照制成的圖片，仍然能夠影響到系統(tǒng)。

OpenAI最新研究：“對抗樣本”能輕易黑掉AI系統(tǒng)，如何抵御？

“對抗樣本”可以在普通紙張上打印出來，再讓帶有標(biāo)準(zhǔn)分辨率的智能手機拍攝，仍然可以引發(fā)分類器產(chǎn)生錯誤。在上圖例子里，系統(tǒng)錯把“洗衣機”標(biāo)簽為“保險箱”。

“對抗樣本”很有可能變得危險。比如，攻擊者可以用貼紙或一幅畫制成一個“停止”指示牌的“對抗樣本”，以此來攻擊汽車，讓汽車將原本的“停止”指示牌誤理解“讓行”或其它指示牌，就像論文“Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples”討論的那樣。

增強學(xué)習(xí)智能體也可以被“對抗樣本”所操縱，根據(jù) UC伯克利大學(xué)、OpenAI和賓夕法尼亞大學(xué)的一項最新研究（論文“Adversarial Attacks on Neural Network Policies"），以及內(nèi)華達(dá)大學(xué)（論文“Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks”）的一項研究顯示，廣泛使用的增強學(xué)習(xí)算法，比如DQN、TRPO和A3C，在“對抗樣本”面前都十分脆弱。即便是人類難以觀察出來的微妙的干擾因素，也能導(dǎo)致系統(tǒng)性能減弱。比如引發(fā)一個智能體讓乒乓球拍在本該下降時反而上升，或者干擾鎖定敵人的能力。

OpenAI最新研究：“對抗樣本”能輕易黑掉AI系統(tǒng)，如何抵御？

如果你想要做一個擊潰自己模型的實驗，可以使用cleverhans，這是一個由Ian Goodfellow和Nicolas Papernot聯(lián)合開發(fā)的開源庫，可以用它來測試你的模型在面對“對抗樣本”時的脆弱性。

“對抗樣本”是AI安全的隱憂

當(dāng)我們思考AI安全問題時，往往總是去思考最困難的問題：如何確保成熟的增強學(xué)習(xí)智能體能夠按照設(shè)計者的意圖行事，比人類還要更加智能？

“對抗樣本”展示出，就算是簡單的現(xiàn)代算法，不論是監(jiān)督學(xué)習(xí)還是增強學(xué)習(xí)，就已經(jīng)可以不以設(shè)計者的意愿行事了，且是以令人驚訝的方式。

抵御“對抗樣本”的一些嘗試

讓機器學(xué)習(xí)模型更穩(wěn)定的傳統(tǒng)技術(shù)，比如與權(quán)重衰減（weight decay）和dropout，通常不會對“對抗樣本”造成實際的防御。到目前，只有兩種方法有明顯防御效果。

對抗訓(xùn)練（Adversarial training）

這是一個暴力解決方法，我們自己生成許多“對抗樣本”，讓后用這些樣本來訓(xùn)練我們的模型，讓它不被其中任何一個蒙騙。cleverhans庫已經(jīng)有開源的對抗訓(xùn)練機制，這里面（https://github.com/openai/cleverhans/blob/master/tutorials/mnist_tutorial_tf.md）有使用方法詳解。

防御凈化（Defensive distillation）

這個策略，是讓訓(xùn)練模型輸出分類概率，而不是直接輸出最終的某個類別。概率由早期的一個模型提供，在同樣的任務(wù)上進(jìn)行訓(xùn)練，使用hard類別標(biāo)簽。這種方法會創(chuàng)建方向平滑的模型，攻擊者由此難以找到“對抗樣本”產(chǎn)生的關(guān)鍵點。（“凈化”最初源于Distilling the Knowledge in a Neural Network這篇論文，為了節(jié)省計算量，“凈化”作為一種模型壓縮的方法，把小模型進(jìn)行訓(xùn)練來模仿大模型）。

然而，如果攻擊者獲得更多的計算力，那么即使是這些特定算法，也會很容易就被攻克。

失敗的抵御：“梯度隱藏”（gradient masking）

“梯度隱藏”這種失敗的抵御方法，可以讓我們好好思考一下，簡單的抵御方法是如何失敗的。

“梯度隱藏”這個術(shù)語最初出現(xiàn)在“Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples”這篇論文里，用來描述一大類失敗的防御方法，這類方法會拒絕攻擊者進(jìn)入一個有用梯度。

大部分的“對抗樣本”構(gòu)建技術(shù)都是利用模型梯度來進(jìn)行攻擊的。比如說，他們觀察一張飛機的圖片，反復(fù)測試圖片空間的哪一個方向上，“貓”的概率會增加，然后它們就在這個方向上“推波助瀾”一下（換句話說，他們擾亂輸入值）。那么這張經(jīng)過修改的新圖片就會被錯誤識別為“貓”了。

但是，如果沒有梯度呢--如果照片上一個極小的修改對模型輸出不會造成任何影響呢？這看起來是可以進(jìn)行一些防御，因為這種情況下，攻擊者無法得知應(yīng)該在圖片哪個方向上“推波助瀾”。

我們可以很容易想到一些微小的方法來擺脫梯度。比如，大部分圖片分類模型是以兩種模式運行的：一種是直接輸出“最可能類別”；另一種模式，就是輸出“概率”。如果模型輸出的是“99.9%飛機、0.1% 貓”，那么輸入值的微小變化，也會對輸出值的產(chǎn)生微小影響。但如果我們的模型直接采用第一種運行模式，直接輸出“飛機”，那么輸入值的微小變化，將對最終輸出結(jié)果沒有影響，而梯度也不會告訴透露任何信息。

如果我們使用“最可能類別”模式，而不是“概率”模式，那么讓我們來思考一下，這種方法抵抗對“抗樣本”的表現(xiàn)如何。在“最可能類別”模式下，攻擊者不知道到哪里去找能被歸類為“貓”的輸入值，以此我們能夠有一些防御力。很不幸，之前每張被分類為“貓”的圖片，現(xiàn)在依然會被分類為“貓”。但是，如果攻擊者能夠猜測到防御弱點，由此制作“對抗樣本”，那么圖片仍然會被錯誤歸類。我們目前還沒讓模型更加穩(wěn)定，我們只是讓攻擊者弄清楚模型防御的弱點的線索變更少。

更不幸的是，攻擊者可以有非常好的策略，來猜測防御弱點在哪。攻擊者可以自己訓(xùn)練一個模型，一個擁有梯度的光滑模型，制作“對抗樣本”，然后將這些“對抗樣本”放進(jìn)我們防御的非平滑模型里。而我們的防御模型，往往也會把這些“對抗樣本”錯誤分類。最終，這個思考結(jié)果暴露出，把梯度藏起來解決不了問題。

執(zhí)行梯度隱藏的防御策略，會造成一個在特定方向和訓(xùn)練點周圍非常平滑的模型，這使得攻擊者很難找到暗示模型弱點的梯度。然而，攻擊者可以訓(xùn)練一個替代模型：攻擊者會構(gòu)建一個防御模型的復(fù)制品，方法是觀察防御模型輸入值的標(biāo)簽，然后小心選擇輸入值。

進(jìn)行這樣的一個模型抽取攻擊（model extraction attack）的流程，最早是在黑箱攻擊論文里介紹的。攻擊者可以使用替代模型的梯度，來找到“對抗樣本”，以此來讓防御模型發(fā)生誤判。上圖來自于“Towards the Science of Security and Privacy in Machine Learning”這篇論文對梯度隱藏的發(fā)現(xiàn)，這個例子里我們將這種攻擊策略看做是一維的機器學(xué)習(xí)問題。梯度隱藏現(xiàn)象在面臨更高維度的問題時，會變得更加嚴(yán)重，但是更難以描述出來。

我們發(fā)現(xiàn)，對抗訓(xùn)練和防御凈化都會偶然產(chǎn)生梯度隱藏。這兩種算法都顯然不是為執(zhí)行梯度隱藏而特意設(shè)計的，但是當(dāng)機器學(xué)習(xí)算法訓(xùn)練保護自己而沒有被給予特定方法指導(dǎo)時，梯度隱藏很顯然是算法自身相對比較容易產(chǎn)生的一種防御方法。如果將“對抗樣本”從一個模型轉(zhuǎn)移至第二個模型，就算第二個模型用對抗訓(xùn)練或防御凈化訓(xùn)練過，攻擊往往會勝利，雖然“對抗樣本”直接攻擊第二個模型會失敗。這說明，對抗訓(xùn)練和防御凈化這兩種技術(shù)能使模型更加平坦，移走梯度，而不能保證讓分類更加正確。

為什么抵御“對抗樣本”如此之難？

“對抗樣本”很難抵御，因為很難為“對抗樣本”的制作過程構(gòu)建一個理論模型?！皩箻颖尽笔呛芏鄼C器學(xué)習(xí)模型非線性和非凸最優(yōu)化問題的解決方法，包括神經(jīng)網(wǎng)絡(luò)。因為我們沒有好的理論工具，來描述這些復(fù)雜優(yōu)化問題的方法，很難有理論論據(jù)表明某一種防御方法能阻止一系列“對抗樣本”。

“對抗樣本”很難抵御，也是因為它們要求機器學(xué)習(xí)模型為每一個可能的輸入值產(chǎn)生好的輸出結(jié)果。大多數(shù)情況下，對于遇到的所有可能的輸入值，機器學(xué)習(xí)模型只能夠?qū)ζ渲猩倭窟\行地比較好。

到目前為止，我們測試的每一種防御策略都失敗了，因為策略不具有適應(yīng)性：一種策略或許能抵御一種攻擊，但是會對熟知它的攻擊者暴露出弱點。設(shè)計出抵抗強大、具有適應(yīng)性攻擊者的防御策略，是非常重要的研究領(lǐng)域。

總結(jié)

“對抗樣本”顯示出，很多現(xiàn)代機器學(xué)習(xí)算法都能被擊潰，且是以令人驚訝的方式。這些機器學(xué)習(xí)的失敗證明，即使是簡單的算法，也會違背其設(shè)計者的意圖。我們鼓勵機器學(xué)習(xí)研究者投身其中，找出阻止“對抗樣本”的方法，以此減小設(shè)計者意圖和算法運行之間的鴻溝。如果你對于“對抗樣本”方面的工作感興趣，可以考慮加入我們OpenAI。

更多雷鋒網(wǎng)相關(guān)文章：

深度卷積網(wǎng)絡(luò)的BUG一例：騰訊AI“絕藝”最近被人類棋手找到了一個有趣的缺陷

Google AI 邀你合奏一曲鋼琴曲

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。