如何管教AI的行為舉止？OpenAI早已開始研究，而這只是整個AI安全領域的前哨

本文作者：楊曉凡

2017-08-14 16:57

導語：防止 Skynet 出現(xiàn)，現(xiàn)在就要播下種子

雷鋒網(wǎng) AI 科技評論按：在比賽中刷成績和在游戲中擊敗人類職業(yè)選手僅僅是 AI 研究的一部分，OpenAI 的研究人員們同樣重視對 AI 安全性的研究。這篇文章是紐約時報來到 OpenAI 實驗室的報道，介紹了 OpenAI 近期在 AI 安全領域的想法和一些成果，也讓我們看到了 OpenAI 研究人員的風采。雷鋒網(wǎng) AI 科技評論編譯。

自學的人工智能可能學到奇怪的行為

在舊金山的 OpenAI 人工智能實驗室中，計算機們可以自我學習、學會人類的舉止。不過有時候也會出問題。

如何管教AI的行為舉止？OpenAI早已開始研究，而這只是整個AI安全領域的前哨 Geoffrey Irving（左）和 Dario Amodei 展示可以在簡單的游戲中訓練人工智能

前不久的一個下午，OpenAI 的研究員 Dario Amodei 在辦公室里展示了一個自己學會玩 Coast Runners 小游戲的 AI 系統(tǒng)。這個游戲是一個頗有年份的電腦游戲，通過終點的時候得到的分數(shù)最高的船就是游戲的勝者。

不過 AI 系統(tǒng)的表現(xiàn)讓人意外：游戲規(guī)則是吃掉屏幕上不停出現(xiàn)的綠色點點就會得分，而這只船對它們太感興趣了，它根本不急著沖向終點，而是不停繞圈、跟其它的船撞在一起、蹭著墻壁滑行，還有反復著火，就是不惜一切代價去得分。

Dario Amodei 著火的小船游戲就展示出了正在迅速改變科技界的 AI 技術背后的風險。研究員們研究的是如何讓機器自主學習，Google 的 DeepMind 也做的是類似的事情，他們開發(fā)出了能夠擊敗世界頂級選手的 AlphaGo。但是隨著這些機器在數(shù)小時的數(shù)據(jù)分析中自我訓練，它們也可能會學會一些人類沒有估計到的、不希望看到的、甚至是會造成實質性傷害的行為。

當網(wǎng)絡服務、安全設備和機器人都開始用上 AI 技術以后，這樣的擔憂就無法忽視了?，F(xiàn)在，Dario Amodei 在內(nèi)的一部分 AI 研究人員已經(jīng)開始聯(lián)手探索新的技術理論來避免最糟糕的情況發(fā)生。

在 OpenAI，Dario Amodei 和他的同事 Paul Christiano 正在一起開發(fā)新的算法，他們希望這些算法不僅能在數(shù)小時的試錯中學習，還能夠在途中接受來自人類老師的普遍性指導。

現(xiàn)在他們已經(jīng)找到了一種方法讓 AI 系統(tǒng)知道 Coast Runners 的小船要邊得分、邊往終點走才行，而且人類只要在屏幕上點一點就可以。他們相信這樣能夠綜合利用人類和機器指導的算法可以幫助確保無人系統(tǒng)的安全性。（這項研究的具體內(nèi)容可見雷鋒網(wǎng) AI 科技評論之前的報道你做我評——OpenAI和DeepMind全新的強化學習方法，根據(jù)人類反饋高效學習）

如何管教AI的行為舉止？OpenAI早已開始研究，而這只是整個AI安全領域的前哨

Dario Amodei 和他的同事正在開發(fā)新算法，不僅能夠自己試錯學習，人類也可以給與指導

不可忽視的風險

近幾年來，埃隆馬斯克以及其它一些權威、哲學家、科技愛好者都在反復警告機器有可能擺脫人類的控制，學到一些設計者并不希望看到的有害行為。隨著時間慢慢過去，人們似乎忘掉了這些警告，畢竟如今的自動駕駛汽車在識別行車線或者識別紅燈這樣最基本的任務中都會表現(xiàn)得磕磕絆絆。

但是 Dario Amodei 這樣的研究者是希望趕在危險出現(xiàn)之前就把它們消滅掉。從某種意義上說，這些科學家做的事情就像是父母給小孩教什么是對、什么是錯。

許多 AI 界的專家都相信強化學習會是通往人工智能的主要途徑之一，這種方法里機器要反復試錯才能最終學會做某件特定的事情。研究人員們?yōu)闄C器指定好一個它要追求的回饋，它就會隨機地做出行動“嘗試”達成任務，同時也密切關注著哪些事情會帶來更高的回饋。當 OpenAI 的研究人員訓練那個 AI 玩 Coast Runners 的時候，他們給它設定的回饋目標就是獲得更高的分數(shù)。

雖然這只是一個游戲，但是能從里面影射出現(xiàn)實世界的狀況。

研究人員們相信，如果一臺機器學會了玩 GTA 這樣的競速游戲，它就能開一輛真車；如果它能學會用網(wǎng)頁瀏覽器和其它一些常用的軟件，它就學會了理解自然語言，可能還能夠跟人對話。在谷歌和UC伯克利大學，機器人們已經(jīng)用上了這樣的技術來學會撿起東西或者開門等簡單任務。這些事情不僅是 AI 開發(fā)測試的理想環(huán)境，能夠完成它們也說明了 AI 具有相當?shù)闹悄?，接下來可以在更真實的環(huán)境中完成任務。

正因為這樣，Dario Amodei 和 Paul Christiano 更加努力地想要開發(fā)出新的、能夠讓人類從中給予指導的強化學習算法，才能夠保證 AI 系統(tǒng)不會偏離它們要完成的任務——誰都不想讓 AI 系統(tǒng)在現(xiàn)實中造成不好的后果。

更多研究者已經(jīng)加入了這個領域

這兩位 OpenAI 的研究員已經(jīng)和倫敦的 DeepMind 實驗室的人一起發(fā)布了一些這方面的研究成果。雖然他們以往并沒有什么合作經(jīng)歷，但畢竟兩個都是世界頂級實驗室，這些算法也確實算得上是 AI 安全研究方面顯著的一步。

UC伯克利的研究員 Dylan Hadfield-Menell 說：“這種做法可以驗證很多前向思考的成果，類似這樣的算法在未來5到10年內(nèi)有很大的潛力。”

AI 安全這個領域不大，但是一直在成長。隨著 OpenAI 和 DeepMind 都建立了專門致力于 AI 安全的研究小組，谷歌的本土實驗室 Google Brain 也加入了進來。同時，來自UC伯克利、斯坦福等大學的研究者也在研究著類似的問題，也經(jīng)常與這些大公司實驗室展開合作。

如何管教AI的行為舉止？OpenAI早已開始研究，而這只是整個AI安全領域的前哨

站著的是 Dario Amodei，Paul Christiano 穿著淺藍襯衣，Geoffrey Irving 正在白板上寫寫畫畫

有時候，研究者們研究的是確保 AI 系統(tǒng)不會自己犯錯，像 Coast Runners 里的小船那樣。他們也需要避免攻擊者和其它懷有惡意的人發(fā)現(xiàn)系統(tǒng)中的漏洞。比如谷歌的研究員 Ian Goodfellow 就已經(jīng)在研究中發(fā)現(xiàn)攻擊者可以欺騙 AI 系統(tǒng)，讓它們以為自己看到了別的東西。

現(xiàn)代計算機視覺的基礎是深度神經(jīng)網(wǎng)絡，它們是一類模式識別系統(tǒng)，在經(jīng)過大規(guī)模數(shù)據(jù)訓練以后就可以學會特定的任務。用成千上萬張狗的照片訓練過以后，神經(jīng)網(wǎng)絡就可以學會識別一條狗。Facebook 就是用這樣的方式識別自拍中的人臉的，谷歌也是這樣在照片應用中對圖像做即時搜索的。

不過 Ian Goodfellow 等人已經(jīng)表明了攻擊者可以修改一張圖像，讓神經(jīng)網(wǎng)絡以為圖像里面是別的東西。比如對一張大象照片里面的某些像素做改動以后，就可以讓神經(jīng)網(wǎng)絡把它識別成一輛汽車。

當神經(jīng)網(wǎng)絡用在安防攝像頭中的時候，這就會成為實實在在的麻煩。根據(jù)研究員們所說，在臉上畫幾個記號就可以讓攝像頭以為你是別的人。

Ian Goodfellow 也說：“即便用一百萬張人類標注的圖像訓練出一個物體識別系統(tǒng)，我們?nèi)匀豢梢詣?chuàng)造出人類和計算機的識別結果100%不同的新圖像。這種現(xiàn)象還需要我們繼續(xù)深入了解?！?/p>

另一個難以忽視的擔心是 AI 系統(tǒng)可能會學到一些方法，防止人類把它們關掉。在給機器設定了目標回饋以后，隨著它的嘗試和思考，它可能會覺得只有保證自己一直在運行才能夠一直獲得這些回饋。這個常常被提及的威脅可能距離目前的狀況更遠一點，但是研究者們也已經(jīng)開始著手做預防。

Hadfield-Menell 和其它的 UC伯克利學者最近發(fā)表了一篇論文，介紹了一種解決這個問題的數(shù)學式方法。他們表明，如果設計機器的時候專門給它設定了一個不確定的回饋函數(shù)的話，它就會想辦法保持它的開關是打開的。這就給它選擇接受人類監(jiān)管還是逃出去帶來了刺激。

安全方面多數(shù)的研究還是理論性的。不過從 AI 技術的飛速發(fā)展和在許多工業(yè)應用中越來越重要的地位看來，研究者們認為相關研究開始得越早越好。

DeepMind 的 AI 安全研究負責人 Shane Legg 給出了他的看法：“AI 發(fā)展得這么快，未來到底怎么樣還很難說。這些技術可能被濫用、被攻破的方式有很多，負責任的做法就是要嘗試理解這些方法，并且設計各種解決方法?！?/p>

via New York Times，雷鋒網(wǎng) AI 科技評論編譯

你做我評——OpenAI和DeepMind全新的強化學習方法，根據(jù)人類反饋高效學習

Ian Goodfellow和Papernot半年三篇博文，對機器學習的安全隱私來了個大起底

一文詳解深度神經(jīng)網(wǎng)絡中的對抗樣本與學習

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。