0
雷鋒網(wǎng) AI 科技評(píng)論按:計(jì)算機(jī)編程發(fā)展至今,bug 和軟件就一直如影隨形。多年來(lái),軟件開(kāi)發(fā)人員已經(jīng)創(chuàng)建了一套在部署之前進(jìn)行測(cè)試和調(diào)試的最佳方法,但這些方法并不適用于如今的深度學(xué)習(xí)系統(tǒng)?,F(xiàn)在,機(jī)器學(xué)習(xí)的主流方法是基于訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練系統(tǒng),然后在另一組數(shù)據(jù)集上對(duì)其進(jìn)行測(cè)試。雖然這樣能夠顯示模型的平均性能,但即使在最壞的情況下,保證穩(wěn)健或可被接受的高性能也是至關(guān)重要的。對(duì)此,DeepMind 發(fā)布文章介紹了能夠嚴(yán)格識(shí)別和消除學(xué)習(xí)預(yù)測(cè)模型中的 bug 的三種方法:對(duì)抗測(cè)試(adversarial testing)、魯棒學(xué)習(xí)(robust learning)和形式化驗(yàn)證(formal verification)。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。
機(jī)器學(xué)習(xí)系統(tǒng)默認(rèn)設(shè)置的魯棒性較差。一旦引入細(xì)微誤差,那么即使在特定領(lǐng)域中表現(xiàn)優(yōu)于人類(lèi)的系統(tǒng),可能連簡(jiǎn)單問(wèn)題都解決不了。例如,考慮圖像擾動(dòng)的問(wèn)題:如果在輸入圖像中加入少量經(jīng)仔細(xì)計(jì)算的噪聲,那么一個(gè)比人類(lèi)更擅長(zhǎng)做圖像分類(lèi)任務(wù)的神經(jīng)網(wǎng)絡(luò)就很容易將樹(shù)懶誤分類(lèi)為賽車(chē)。
覆蓋在典型圖像上的對(duì)抗輸入可能導(dǎo)致分類(lèi)器將樹(shù)懶錯(cuò)誤地分類(lèi)為賽車(chē)。兩個(gè)圖像在每個(gè)像素中最多相差 0.0078。第一張圖像被歸類(lèi)為三趾樹(shù)懶,置信度> 99%。第二張概率>99% 的圖像被歸類(lèi)為賽車(chē)。
這不是一個(gè)全新的問(wèn)題。計(jì)算機(jī)程序一直都存在 bug。幾十年來(lái),軟件工程師從單元測(cè)試到形式化驗(yàn)證上裝了很多技術(shù)工具包。這些方法在傳統(tǒng)軟件上運(yùn)行良好,但是由于這些模型的規(guī)模問(wèn)題和結(jié)構(gòu)不完整(可能包含數(shù)億個(gè)參數(shù)),因此采用這些方法來(lái)嚴(yán)格測(cè)試神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型是非常具有挑戰(zhàn)性的。這就需要開(kāi)發(fā)用于確保機(jī)器學(xué)習(xí)系統(tǒng)部署更可靠的新方法。
從程序員的角度來(lái)看,bug 就是所有不符合系統(tǒng)規(guī)范(即預(yù)期功能)的行為。作為「智能化」任務(wù)的一部分,我們需要對(duì)評(píng)估一致性的技術(shù)進(jìn)行研究,即機(jī)器學(xué)習(xí)系統(tǒng)不僅要與訓(xùn)練集和測(cè)試集一致,還要與描述系統(tǒng)期望屬性的規(guī)范列表一致。這些屬性可能包括對(duì)輸入中微小擾動(dòng)的魯棒性,避免災(zāi)難性故障的安全限制,或產(chǎn)生符合物理定律的預(yù)測(cè)。
我們共同致力于嚴(yán)格開(kāi)發(fā)和部署與所需規(guī)格可靠一致的機(jī)器學(xué)習(xí)系統(tǒng),在本文中,我們將討論機(jī)器學(xué)習(xí)領(lǐng)域面臨的三個(gè)重要技術(shù)挑戰(zhàn)。
1、有效地測(cè)試與規(guī)范的一致性。我們探索有效的方法來(lái)測(cè)試機(jī)器學(xué)習(xí)系統(tǒng)是否與設(shè)計(jì)者和系統(tǒng)用戶(hù)所期望的屬性(例如不變性或魯棒性)一致。這是用于顯示模型可能與期望行為不一致的情況的一種方法,即在評(píng)估期間系統(tǒng)地搜索最壞情況的結(jié)果。
2、訓(xùn)練與規(guī)范一致的機(jī)器學(xué)習(xí)模型。即使有大量的訓(xùn)練數(shù)據(jù),標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)算法訓(xùn)練出的預(yù)測(cè)模型也可以得出與具有魯棒性和公平性的期望規(guī)范不一致的預(yù)測(cè)結(jié)果,這就要求我們重新考慮訓(xùn)練算法,要求這些算法不僅能夠很好地?cái)M合訓(xùn)練數(shù)據(jù),還要能夠符合預(yù)期規(guī)范。
3、形式化驗(yàn)證機(jī)器學(xué)習(xí)模型與規(guī)范的一致性。這需要這樣一種算法,即對(duì)于所有有可能的輸入,該算法都能證明模型的預(yù)測(cè)結(jié)果與規(guī)范之間是一致且可被證明的。雖然形式化驗(yàn)證領(lǐng)域幾十年來(lái)一直在研究這種算法,盡管進(jìn)展不錯(cuò),但該方法并不能輕易地?cái)U(kuò)展到當(dāng)今的深度學(xué)習(xí)系統(tǒng)。
對(duì)抗樣本的魯棒性是深度學(xué)習(xí)中研究相對(duì)較好的一項(xiàng)工作。從這項(xiàng)工作中引申出的一個(gè)主要任務(wù)是評(píng)估強(qiáng)對(duì)抗樣本的重要性,以及設(shè)計(jì)可以做有效分析的透明模型。在和業(yè)界其他研究者合作時(shí),我們發(fā)現(xiàn)許多模型在面對(duì)弱對(duì)抗樣本時(shí)看起來(lái)很穩(wěn)健,然而,在面臨更強(qiáng)的對(duì)抗因子時(shí),模型顯示出的對(duì)抗精確度基本為 0%(Athalye et al,2018,Uesato et al,2018,Carlini and Wagner,2017)。
雖然在監(jiān)督學(xué)習(xí)下,大多數(shù)工作都關(guān)注一些罕見(jiàn)錯(cuò)誤(其中以圖片分類(lèi)任務(wù)居多),但是將這些方法擴(kuò)展到其他場(chǎng)景中也是一件需要關(guān)注的事情。在最近關(guān)于發(fā)現(xiàn)重大錯(cuò)誤的對(duì)抗方法的研究中,我們將這些方法應(yīng)用于測(cè)試強(qiáng)化學(xué)習(xí)的智能體,這些智能體主要被應(yīng)用在對(duì)安全性要求很高的場(chǎng)景中。開(kāi)發(fā)自主系統(tǒng)的一個(gè)挑戰(zhàn)是,由于小錯(cuò)誤可能會(huì)導(dǎo)致很?chē)?yán)重的后果,因此我們?nèi)莶坏贸霈F(xiàn)一點(diǎn)失誤。
我們的目標(biāo)是設(shè)計(jì)一個(gè)「攻擊者」,以便我們提前檢測(cè)到一些錯(cuò)誤(例如,在受控環(huán)境中)。如果「攻擊者」可以有效地識(shí)別給定模型的最壞情況輸入,則能夠讓我們?cè)诓渴鹉P椭安蹲降揭恍┖币?jiàn)失誤。與圖像分類(lèi)器一樣,面對(duì)一個(gè)弱的「攻擊者」進(jìn)行評(píng)估會(huì)在部署期間造成一種錯(cuò)覺(jué),即這是安全的。這類(lèi)似于「紅隊(duì)研判法(red teaming)的軟件實(shí)踐」,不過(guò)對(duì)惡意攻擊者造成的失誤進(jìn)行了延展,同時(shí)還包括了自然出現(xiàn)的失誤,例如泛化不足造成的失誤。
針對(duì)于強(qiáng)化學(xué)習(xí)智能體的對(duì)抗測(cè)試,我們開(kāi)發(fā)了兩種互補(bǔ)的方法。首先,我們使用無(wú)導(dǎo)數(shù)優(yōu)化來(lái)直接最小化智能體的預(yù)期回報(bào)。在第二部分中,我們學(xué)習(xí)了一種對(duì)抗價(jià)值函數(shù),該函數(shù)根據(jù)經(jīng)驗(yàn)預(yù)測(cè)哪些情況最有可能導(dǎo)致智能體失誤。然后,我們使用學(xué)習(xí)好的函數(shù)進(jìn)行優(yōu)化,將評(píng)估重點(diǎn)放在最有問(wèn)題的輸入上。這些方法只構(gòu)成了某個(gè)豐富且正在增長(zhǎng)的潛在算法空間的一小部分,同時(shí),對(duì)于嚴(yán)格評(píng)估智能體方面未來(lái)的發(fā)展,我們也感到非常激動(dòng)。
相比于隨機(jī)測(cè)試,這兩種方法已經(jīng)實(shí)現(xiàn)了很大的改善。使用我們的方法,可以在幾分鐘內(nèi)檢測(cè)到原需要花費(fèi)數(shù)天才能發(fā)現(xiàn)甚至根本無(wú)法發(fā)現(xiàn)的失誤(Uesato et al,2018b)。我們還發(fā)現(xiàn),對(duì)抗測(cè)試會(huì)定性地發(fā)現(xiàn)我們智能體的行為和在隨機(jī)測(cè)試集評(píng)估的預(yù)測(cè)結(jié)果之間存在的差異。特別是,使用對(duì)抗性環(huán)境構(gòu)造,我們發(fā)現(xiàn)智能體在執(zhí)行 3D 導(dǎo)航任務(wù)上的平均水平可與人類(lèi)在同一任務(wù)上的表現(xiàn)相媲美,不過(guò),它在十分簡(jiǎn)單的迷宮上卻任務(wù)上,還不能夠完整地找到目標(biāo)(Ruderman et al,2018)。此外,這項(xiàng)工作還強(qiáng)調(diào),我們需要設(shè)計(jì)的系統(tǒng)除了要能對(duì)抗「攻擊者」,還要能夠抵御自然失誤。
使用隨機(jī)抽樣,我們幾乎從不觀(guān)察具有高失敗概率的地圖,但是對(duì)抗測(cè)試表明這樣的地圖確實(shí)存在。即使在移除了許多墻壁,變成比原始地圖更簡(jiǎn)單的地圖后,這些地圖上的失敗概率依然很高。
對(duì)抗測(cè)試旨在找到違反規(guī)范的反例。因此,它往往會(huì)高估模型與這些規(guī)范的一致性。在數(shù)學(xué)上,規(guī)范是必須在神經(jīng)網(wǎng)絡(luò)的輸入和輸出之間保持的某種關(guān)系。這可以采用某些鍵輸入和輸出參數(shù)的上限和下限的形式。
受此觀(guān)察的啟發(fā),一些研究人員(Raghunathan et al,2018; Wong et al,2018; Mirman et al,2018; Wang et al,2018),包括我們?cè)?DeepMind 的團(tuán)隊(duì)(Dvijotham et al,2018; Gowal et al.,2018),研究了與對(duì)抗測(cè)試程序無(wú)關(guān)的算法(用于評(píng)估與規(guī)范的一致性)。這可以從幾何學(xué)上理解,我們可以通過(guò)約束一組給定輸入情況下的輸出空間來(lái)約束與規(guī)范相差最大的情況(例如,使用間隔邊界傳播; Ehlers 2017,Katz et al,2017,Mirman et al,2018)。如果此區(qū)間相對(duì)于網(wǎng)絡(luò)參數(shù)是可微分的并且可以快速計(jì)算,則可以在訓(xùn)練期間使用它。然后可以通過(guò)網(wǎng)絡(luò)的每個(gè)層傳播原始邊界框。
我們證明了「間隔邊界傳播」(interval bound propagation )是快速且有效的方法,并且與先前的信念相反,這種方法可以獲得更加強(qiáng)大的結(jié)果(Gowal et al,2018)。特別地,我們證明它可以降低在 MNIST 和 CIFAR-10 數(shù)據(jù)集上的用于圖像分類(lèi)的現(xiàn)有技術(shù)的可證明的錯(cuò)誤率(即,任何「攻擊者」可實(shí)現(xiàn)的最大錯(cuò)誤率)。
該領(lǐng)域未來(lái)的下一步,將會(huì)是學(xué)習(xí)正確的幾何抽象以計(jì)算更嚴(yán)格的輸出空間過(guò)度概率。我們還希望訓(xùn)練出能夠與更復(fù)雜的規(guī)范一致的網(wǎng)絡(luò),從而捕捉到理想的行為,例如上面提到的不變性和與物理定律的一致性。
嚴(yán)格的測(cè)試和訓(xùn)練非常有助于構(gòu)建強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng)。但是,沒(méi)有多少測(cè)試可以形式化地確保系統(tǒng)的行為符合我們的要求。在大規(guī)模的模型中,由于輸入擾動(dòng)有無(wú)窮多種,因此我們很難列舉出給定輸入集(例如,對(duì)圖像的無(wú)窮小擾動(dòng))所有可能的輸出。但是,與在訓(xùn)練中的情況一樣,我們可以通過(guò)在輸出集上設(shè)置幾何區(qū)域來(lái)找到更有效的方法。形式化驗(yàn)證是 DeepMind 正在進(jìn)行的研究主題。
關(guān)于如何計(jì)算網(wǎng)絡(luò)輸出空間上的精確幾何區(qū)域,機(jī)器學(xué)習(xí)研究界已經(jīng)提出了幾個(gè)的有趣的 idea(Katz et al,2017,Weng et al,2018; Singh et al,2018)。我們的方法(Dvijotham et al,2018),則基于優(yōu)化和二元性,包括將驗(yàn)證問(wèn)題表述為一個(gè)試圖找到被驗(yàn)證的屬性中最大的違規(guī)行為的優(yōu)化問(wèn)題。同時(shí),該問(wèn)題通過(guò)在優(yōu)化中使用二元性的思想而變得更易于計(jì)算。這就會(huì)帶來(lái)了額外的約束,其使用所謂的「切割平面」來(lái)細(xì)化經(jīng)「間隔邊界傳播」計(jì)算得來(lái)的邊界框。這種方法雖然合理但不完整:可能存在興趣屬性為真,但此算法計(jì)算的區(qū)域范圍不足以證明該屬性的情況。但是,一旦我們得到了區(qū)域范圍,這就形式化的保證了不會(huì)有違反屬性的行為。下圖以圖形方式說(shuō)明了該方法。
這種方法使我們能夠?qū)Ⅱ?yàn)證算法的適用性擴(kuò)展到更廣泛的網(wǎng)絡(luò)(激活函數(shù),體系結(jié)構(gòu))、一般規(guī)范和更復(fù)雜的深度學(xué)習(xí)模型(例如生成模型、神經(jīng)過(guò)程等)以及對(duì)抗魯棒性以外的規(guī)范(Qin,2018)。
在高風(fēng)險(xiǎn)情況下部署機(jī)器學(xué)習(xí)帶來(lái)了獨(dú)特的挑戰(zhàn),并且需要開(kāi)發(fā)相應(yīng)的能夠可靠地檢測(cè)故障模式的評(píng)估手技術(shù)。更具體而言就是,我們認(rèn)為,相比于僅僅從訓(xùn)練數(shù)據(jù)中隱含地生成規(guī)范的方法而言,學(xué)習(xí)與規(guī)范的一致性的方法能夠帶來(lái)更有效的改進(jìn)。我們對(duì)于正在進(jìn)行的對(duì)抗評(píng)估、魯棒性模型學(xué)習(xí)和形式化規(guī)范驗(yàn)證的研究,都感到非常興奮。
為了確?,F(xiàn)實(shí)世界中的 AI 系統(tǒng)能夠做出「正確的事情」,我們還需要做更多的工作來(lái)創(chuàng)建自動(dòng)化工具。我們對(duì)以下方向的進(jìn)展特別感興趣:
1、學(xué)習(xí)對(duì)抗性評(píng)估和驗(yàn)證:隨著 AI 系統(tǒng)的擴(kuò)展和復(fù)雜程度不斷增加,設(shè)計(jì)能很好擬合 AI 模型的對(duì)抗性評(píng)估和驗(yàn)證算法將變得越來(lái)越困難。如果我們可以利用 AI 的強(qiáng)大功能來(lái)促進(jìn)評(píng)估和驗(yàn)證,那么將大大加速這項(xiàng)研究的進(jìn)展。
2、開(kāi)發(fā)用于對(duì)抗性評(píng)估和驗(yàn)證的工具并對(duì)外開(kāi)放:為 AI 工程師和從業(yè)者提供易于使用的工具非常重要,這些工具可以在 AI 系統(tǒng)導(dǎo)致廣泛的負(fù)面影響之前,就讓研究者知道其可能的故障模式。這需要對(duì)對(duì)抗性評(píng)估和驗(yàn)證算法實(shí)現(xiàn)某種程度上的標(biāo)準(zhǔn)化。
3、擴(kuò)大對(duì)抗樣本的范圍:到目前為止,大多數(shù)關(guān)于對(duì)抗樣本的工作都集中在對(duì)小擾動(dòng)(通常是圖像)的模型不變性上。這為開(kāi)發(fā)對(duì)抗性評(píng)估、魯棒學(xué)習(xí)和驗(yàn)證方法提供了極好的測(cè)試平臺(tái)。我們已經(jīng)開(kāi)始探索與現(xiàn)實(shí)世界直接相關(guān)屬性的替代規(guī)范,并對(duì)未來(lái)在這方面的研究感到興奮。
4、學(xué)習(xí)規(guī)范:在 AI 系統(tǒng)中捕獲「正確」行為的規(guī)范通常難以進(jìn)行精準(zhǔn)陳述。當(dāng)我們可以構(gòu)建能夠展示復(fù)雜行為并在非結(jié)構(gòu)化環(huán)境中行動(dòng)的更加智能的智能體時(shí),我們將能夠創(chuàng)建能夠使用部分人類(lèi)規(guī)劃的系統(tǒng),但這些系統(tǒng)還需要從可評(píng)估的反饋中更加深入地學(xué)習(xí)規(guī)范。
DeepMind 通過(guò)負(fù)責(zé)任地進(jìn)行機(jī)器學(xué)習(xí)系統(tǒng)開(kāi)發(fā)和部署,致力于對(duì)社會(huì)產(chǎn)生積極的影響。為了確保開(kāi)發(fā)人員的貢獻(xiàn)是有積極意義的,我們還需要應(yīng)對(duì)許多技術(shù)挑戰(zhàn)。我們致力于參與這項(xiàng)工作,并很高興能夠與更多人合作解決這些挑戰(zhàn)。
via:https://deepmind.com/blog/robust-and-verified-ai/ 雷鋒網(wǎng) AI 科技評(píng)論報(bào)道
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。