DeepMind新研究：使用強(qiáng)化對抗學(xué)習(xí)合成圖像程序

本文作者：楊文

2018-04-01 11:41

導(dǎo)語：DeepMind最新研究，值得一看

雷鋒網(wǎng)AI科技評論按：近日，DeepMind 發(fā)表的一篇博客中提到了一種新的人工智能體，它可以推斷數(shù)字，角色和肖像的構(gòu)造方式。更為關(guān)鍵的是，它們是自己學(xué)會做這件事，而不是靠人工標(biāo)記的數(shù)據(jù)集。

真實的世界并不僅僅是我們眼睛里所反映的圖像。例如，當(dāng)我們看建筑物并欣賞其設(shè)計的復(fù)雜性時，我們也欣賞它所需的工藝。這種思維方式可以使我們對世界有更加豐富的理解，也是人類智慧的重要體現(xiàn)之一。

DeepMind 的研究員希望它們的系統(tǒng)也能創(chuàng)造出同樣豐富的世界表現(xiàn)形式。例如，觀察繪畫的圖像時，希望系統(tǒng)能了解用于創(chuàng)建繪畫的筆觸，而不僅僅是表現(xiàn)在屏幕上的像素。

DeepMind新研究：使用強(qiáng)化對抗學(xué)習(xí)合成圖像程序

在這項工作中，研究員為人造智能體（agents）配備了與人類用來生成圖像相同的工具，并證明它們可以推斷數(shù)字，人物和肖像的構(gòu)造方式。更關(guān)鍵的是，它們是自學(xué)如何做到這一點(diǎn)，而不是通過人為標(biāo)簽的數(shù)據(jù)集。這與最近的一項研究「A Neural Representation of Sketch Drawings」提到的依賴從人類經(jīng)驗中學(xué)習(xí)的方式恰恰相反。依賴于人類經(jīng)驗的學(xué)習(xí)通常是很耗時的。

DeepMind新研究：使用強(qiáng)化對抗學(xué)習(xí)合成圖像程序

研究員設(shè)計了一個可以與計算機(jī)繪畫程序交互的深度強(qiáng)化學(xué)習(xí)智能體，將筆觸放在數(shù)字畫布上并更改畫筆大小，壓力和顏色，未經(jīng)訓(xùn)練的智能體畫筆很隨意，并沒有明顯的意圖或結(jié)構(gòu)。為了克服這一點(diǎn)，研究員需要創(chuàng)建一種獎勵方式，鼓勵 agents 生成有意義的圖片。

為此，研究員訓(xùn)練了第二個神經(jīng)網(wǎng)絡(luò)，稱之為鑒別器。它唯一目的是預(yù)測特定圖形是由 agents 制作的，還是從真實照片的數(shù)據(jù)集中采樣的。agents 的獎勵是通過「欺騙」鑒別者認(rèn)為它的繪畫是真實的。換句話說，agents 的獎勵信號本身就是學(xué)習(xí)的。雖然這與生成對抗網(wǎng)絡(luò)（GAN）中使用的方法類似，但并不相同。因為 GAN 網(wǎng)絡(luò)設(shè)置中的生成器通常是直接輸出像素的神經(jīng)網(wǎng)絡(luò)。而這里的 agents 是通過編寫圖形程序來與繪圖環(huán)境交互來生成圖像。

DeepMind新研究：使用強(qiáng)化對抗學(xué)習(xí)合成圖像程序

在第一組實驗中，agents 通過訓(xùn)練生成類似于 MNIST 數(shù)字的圖像：它顯示了數(shù)字的樣子，但沒有顯示它們是如何繪制的。通過嘗試生成欺騙鑒別器的圖像，agents 學(xué)會控制畫筆并操縱它以適應(yīng)不同數(shù)字的風(fēng)格，這是一種稱為可視化程序合成的技術(shù)。

研究員也訓(xùn)練它重現(xiàn)特定圖像的能力。在這里，鑒別器的目的是確定再現(xiàn)圖像是否是目標(biāo)圖像的副本，或者是否由 agents 產(chǎn)生。鑒別器越難區(qū)分，agents 得到的獎勵就越多。

最重要的是，這個框架也是可以解釋的，因為它產(chǎn)生了一系列控制模擬畫筆的動作。這意味著該模型可以將其在模擬繪圖程序中學(xué)到的知識應(yīng)用到其他類似環(huán)境中的字符重建中，例如用在仿造的或真實的機(jī)械臂上。

還有可能將這個框架擴(kuò)展到真實的數(shù)據(jù)集。agents 經(jīng)過訓(xùn)練可以繪制名人臉部表情，能夠捕捉到臉部的主要特征，例如形狀，色調(diào)和發(fā)型，就像街頭藝術(shù)家在使用有限數(shù)量的畫筆描繪肖像時一樣：

DeepMind新研究：使用強(qiáng)化對抗學(xué)習(xí)合成圖像程序

從原始感受中提取信息結(jié)構(gòu)化表示是人類很容易擁有并經(jīng)常使用的能力。在這項工作中，研究員表明可以通過讓智能體獲得和人類重現(xiàn)世界的相同工具來指導(dǎo)智能體產(chǎn)生類似的表示。在這樣做時，它們學(xué)會制作可視化程序，簡潔地表達(dá)因果關(guān)系，提升了它們的觀察力。盡管該工作目前僅代表了向靈活的程序合成邁出一小步，但預(yù)計需要類似的技術(shù)才能使智能體具有類似人的認(rèn)知，包括歸納概括和溝通交流等能力。

相關(guān)論文：Synthesizing Programs for Images using Reinforced Adversarial Learning

雷鋒網(wǎng)編譯

via DeepMind

雷鋒網(wǎng)原創(chuàng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。