人工智能的想象力在哪里？微軟的這個(gè)機(jī)器人畫家告訴你答案

本文作者：石松

編輯：李帥飛

2018-01-19 18:40

導(dǎo)語：厲害了，微軟研究員開發(fā)的類人工智能繪圖機(jī)器人應(yīng)用能夠從文字生成圖片。

雷鋒網(wǎng)按：人工智能能夠?qū)崿F(xiàn)什么？毫無疑問它可以幫助我們實(shí)現(xiàn)很多事情，但微軟最近開發(fā)的一項(xiàng)人工智能技術(shù)刷新了我們對(duì)于人工智能的認(rèn)知?；谟?jì)算機(jī)識(shí)別和自然語言處理，微軟開發(fā)出一種可以根據(jù)用戶描述來繪圖的機(jī)器人，它甚至可以幫助用戶補(bǔ)全未必描述的細(xì)節(jié)。目前微軟已經(jīng)通過官方博客公布了這一成果，雷鋒網(wǎng)對(duì)這篇博客進(jìn)行了不改變?cè)獾木幾g。

人工智能的想象力在哪里？微軟的這個(gè)機(jī)器人畫家告訴你答案

試想一下，你手中拿著稿紙和畫筆，被要求畫一幅關(guān)于鳥的照片，這只鳥要有黃色的身體，黑色的翅膀和短短的鳥喙。你大概會(huì)先畫出鳥的大概輪廓，之后檢查修改一下，繼續(xù)想想黃色的身體部分，然后用黃色的畫筆填充鳥的身體。接著再用黑色的畫筆完成鳥的翅膀，最終檢查一下，畫上短短的有些發(fā)亮的鳥喙。為了使之更生動(dòng)形象，你或許會(huì)畫上鳥所棲息的樹干。

如今，機(jī)器人也可以如你一樣做到這一點(diǎn)了！

微軟研究實(shí)驗(yàn)室正在開發(fā)的新型人工智能技術(shù)能夠從字幕式的文本描述中截取單個(gè)的詞語生成圖像。網(wǎng)站 arXiv.org 上發(fā)表的一篇研究報(bào)告稱，根據(jù)行業(yè)標(biāo)準(zhǔn)測(cè)試的結(jié)果，這項(xiàng)技術(shù)產(chǎn)生的圖像質(zhì)量與之前的文本到圖像生成技術(shù)相比，提高了將近三倍。

研究人員簡單地稱之為繪圖機(jī)器人，該技術(shù)可以生成從普通的田園風(fēng)光（如放牧家畜）到荒謬無意義的（如浮動(dòng)的雙層巴士）所有圖像。每幅圖像都包含了文字描述中沒有提及的細(xì)節(jié)，表明該人工智能技術(shù)擁有一種人造的想象力。

“如果你用 Bing 搜索一只鳥，你會(huì)得到一張鳥的圖片。但是在這里，圖片是由計(jì)算機(jī)逐個(gè)像素地從頭開始創(chuàng)建的，”位于微軟在華盛頓州雷蒙德市的研究實(shí)驗(yàn)室，深度學(xué)習(xí)技術(shù)中心的首席研究員和研究主管 Xiaodong He表示?！斑@些鳥在現(xiàn)實(shí)世界中可能不會(huì)存在——它們只是表明了計(jì)算機(jī)對(duì)鳥類想像力的一個(gè)方面”。

這項(xiàng)繪圖機(jī)器人技術(shù)完成了他和他的同事在過去五年中，探索過的計(jì)算機(jī)視覺和自然語言處理的交叉學(xué)科研究。他們從自動(dòng)編寫照片字幕 —— CaptionBot ——的技術(shù)開始，然后轉(zhuǎn)向另外一種技術(shù)，回答人類對(duì)圖像提出的問題，例如對(duì)象的位置或?qū)傩?，這點(diǎn)對(duì)盲人特別有用。

這些研究工作需要訓(xùn)練機(jī)器學(xué)習(xí)模型來識(shí)別對(duì)象，完成行為和自然語言間的交互。

“現(xiàn)在我們要用文字來生成圖像，”該組織的博士后研究員，論文合著者 Qiuyuan Huang 表示， “所以，這就是一個(gè)循環(huán)?！?/span>

圖像生成是一個(gè)比圖像字幕更具挑戰(zhàn)性的任務(wù)，團(tuán)隊(duì)中的副研究員 Pengchuan Zhang 補(bǔ)充說，因?yàn)檫@個(gè)過程需要繪圖機(jī)器人想像沒有包含在標(biāo)題中的細(xì)節(jié)。他說：“這意味著你需要運(yùn)行人工智能的機(jī)器學(xué)習(xí)算法來想象一些圖像中的缺失部分?！?/span>

細(xì)致的圖像生成

微軟繪圖機(jī)器人的核心是一種被稱為“生成對(duì)抗網(wǎng)絡(luò)”（Generative Adversarial Network，GAN）的技術(shù)。網(wǎng)絡(luò)由兩個(gè)機(jī)器學(xué)習(xí)模型組成，一個(gè)從文本描述生成圖像，另一個(gè)稱為鑒別器，使用文本描述來判斷生成圖像的真實(shí)性。發(fā)生器試圖通過假照片騙過鑒別器，同時(shí)鑒別器進(jìn)行判斷。二者一同作用，將發(fā)生器不斷完美。

微軟的繪圖機(jī)器人在包含對(duì)應(yīng)圖像和標(biāo)題的數(shù)據(jù)集上進(jìn)行了訓(xùn)練，這些允許模型學(xué)習(xí)如何將單詞與這些單詞的可視化圖片表示相匹配。例如， GAN 學(xué)會(huì)在標(biāo)題說鳥的時(shí)候生成鳥的圖像，并且同樣學(xué)習(xí)鳥的圖像應(yīng)該是什么樣的。他說：

這是我們相信機(jī)器可以學(xué)習(xí)的根本原因。

當(dāng)從簡單的文字描述（例如藍(lán)鳥或常青樹）產(chǎn)生圖像時(shí)， GAN 可以很好地工作，但在更復(fù)雜的文本描述中效果不佳，例如具有綠色的冠，黃色的翅膀和紅色腹部的鳥。這是因?yàn)檎麄€(gè)句子作為發(fā)生器的單一輸入。其中詳細(xì)的信息發(fā)生了丟失。因此，生成的圖像是一種模糊的帶綠色和微黃色的鳥，而不是與描述中緊密匹配。

在人類的繪畫過程中，我們反復(fù)提到文本，并密切關(guān)注描述我們正在繪制的圖像區(qū)域和單詞描述。為了捕捉這種人的特質(zhì)，研究人員創(chuàng)建了他們所謂的 attentional GAN或 AttnGAN，它們?cè)跀?shù)學(xué)上模擬了人類關(guān)注的概念。它是通過將輸入文本分解為單個(gè)單詞并將這些單詞與圖像的特定區(qū)域相匹配來實(shí)現(xiàn)的。

“注意是一個(gè)人的概念，我們用數(shù)學(xué)來進(jìn)行計(jì)算。”他解釋說。

該模型還從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到人類稱為常識(shí)的東西，并且利用這個(gè)學(xué)習(xí)的概念來填充留在想象中圖像的細(xì)節(jié)。例如，由于訓(xùn)練數(shù)據(jù)中的許多鳥類圖像顯示了坐在樹枝上的鳥， AttnGAN 通常使鳥棲息在樹枝上，除非文本另有規(guī)定。

“從數(shù)據(jù)來看，機(jī)器學(xué)習(xí)算法學(xué)習(xí)鳥站在樹枝上應(yīng)該屬于這類常識(shí)，”Zhang 說。作為一項(xiàng)測(cè)試，該團(tuán)隊(duì)為漫畫圖像提供了繪圖機(jī)器人所需的字幕，例如“一輛紅色的雙層巴士漂浮在湖面上”。它生成了一個(gè)模糊的，飄逸的雙層巴士圖像，類似于兩層甲板船或雙層甲板船，漂浮在群山環(huán)繞的湖上。該圖像表明，關(guān)于船只能漂浮在湖泊上和公共汽車的文本描述之間，機(jī)器人內(nèi)部有一個(gè)爭斗。

“我們可以控制我們描述的東西，看看機(jī)器如何作出反應(yīng)?！?他解釋說，“我們可以干涉和測(cè)試機(jī)器到底學(xué)到了什么東西。這臺(tái)機(jī)器已經(jīng)具有一些背景常識(shí)，但它仍然可以按照你所要求的運(yùn)行，有時(shí)候，這似乎有點(diǎn)荒謬可笑?！?/span>

實(shí)際應(yīng)用方面

這項(xiàng)文本到圖像的生成技術(shù)可以運(yùn)用到實(shí)際應(yīng)用中，可以作為畫家和室內(nèi)設(shè)計(jì)師的草圖助手，或作為語音控制的照片美化工具。伴隨更強(qiáng)大的計(jì)算能力，他想象這項(xiàng)技術(shù)可以生成基于電影劇本的動(dòng)畫電影，為電影制作人減少一些需要人工的成本。

但就目前來看，這項(xiàng)技術(shù)還不完善。對(duì)圖像進(jìn)行仔細(xì)檢查后，幾乎總能發(fā)現(xiàn)瑕疵，例如藍(lán)鳥喙，而不是黑色的，水果和基因突變的香蕉長在一起。這些缺陷清楚地表明，是電腦而不是人類創(chuàng)造了這些圖像。盡管如此， AttnGAN 圖像的質(zhì)量比以前最好的 GAN 圖像質(zhì)量提高了近 3 倍，并且這是通往增強(qiáng)人類自身能力的類人工智能道路上的一個(gè)里程碑。

“因?yàn)槿斯ぶ悄芎腿祟惿钤谕粋€(gè)世界，他們之間必須找到一種互相交流的方式?！彼忉尩?，“語言和視覺是人類與機(jī)器交流的兩個(gè)最重要的途徑?！?/span>

除了微軟的 Xiaodong He, Pengchuan Zhang and Qiuyuan Huang，合作者還包括前微軟實(shí)習(xí)生利理海大學(xué)的Tao Xu和杜克大學(xué)的 Zhe Gan，羅格斯大學(xué)的 Han Zhang，理海大學(xué)的 Xiaolei Huang。

有關(guān)參考資料

1.閱讀關(guān)于 AttnGAN 的研究論文

2.了解更多關(guān)于微軟在視覺和語言智能方面的 AI 研究成果

3.查看 CaptionBot 和 Seeing AI 這兩個(gè)應(yīng)用

4.數(shù)十年的計(jì)算機(jī)視覺研究，“Swiss Army Knife”

Via blogs.microsoft.com，由雷鋒網(wǎng)編譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

相關(guān)文章