0
今年4月,Google推出 AutoDraw 繪圖功能,讓AI幫助人類畫畫,只需幾筆就能創(chuàng)作出藝術(shù)家等級(jí)的線條畫。這個(gè)有趣的AI應(yīng)用一下讓業(yè)界隨之興奮。雖然從目前流出的成果來(lái)看,AI的筆畫還有些稚嫩,但這壓根不妨礙Google對(duì)其背后的AI系統(tǒng)向大眾進(jìn)行高調(diào)科普,比如發(fā)布了一些科普傾向的Paper等。背后的AI系統(tǒng)名為 SketchRNN,是Google新設(shè)的 Magenta 項(xiàng)目的一部分,以測(cè)試 AI 能否用來(lái)做藝術(shù)。
為更好地了解這一項(xiàng)目及其背后的故事,theatlantic大西洋雜志采訪了 Magenta 項(xiàng)目的負(fù)責(zé)人Doug Eck。雷鋒網(wǎng)對(duì)采訪內(nèi)容做了編譯。
Eck 是蒙特利爾大學(xué)(被視為人工智能的溫床)的一名教授,同時(shí)也供職于Google。他此前曾負(fù)責(zé)Google Music,現(xiàn)轉(zhuǎn)自Google Brian里工作。2000年在印第安納大學(xué)取得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位后,Eck在音樂和機(jī)器學(xué)習(xí)方面都有著非常豐富的從業(yè)經(jīng)驗(yàn)。
關(guān)于SketchRNN這一AI系統(tǒng),如果大家想更加形象地理解它,可從以下三幅畫來(lái)看:
當(dāng)人類被要求畫一只小豬和一輛卡車時(shí),可能會(huì)是這樣的畫風(fēng):
但是,當(dāng)被要求畫一只“豬車”時(shí),你可能會(huì)直觀混合二者的顯著特征而畫成這樣↓
雖然畫筆看起來(lái)仍然很稚嫩,但是這一混合后的產(chǎn)物其實(shí)就跟利用人工智能系統(tǒng)SketchRNN輸出后的成果有點(diǎn)相似。正如Eck和他在Google的合作者David Ha的介紹,SketchRNN的工作原理可以理解為“以類似于人類的方式概括抽象概念”。
以前文的例子來(lái)說(shuō)明,即Google并不想創(chuàng)建畫“豬”的機(jī)器,而是由此創(chuàng)建的機(jī)器能識(shí)別和勾勒出“豬”的概念或特征。一言以蔽之,即人類在畫一個(gè)物體時(shí),會(huì)在腦中存儲(chǔ)關(guān)于這一物體的概念和顯著特征,并讓“如何畫”和“存儲(chǔ)特征”之間產(chǎn)生聯(lián)系。而SketchRNN的意義就在于讓機(jī)器學(xué)習(xí)到人類的這種“綜合能力”。
為此,Google建立了一個(gè)名為“Quick, Draw!”的游戲,像人類玩的方式一樣,Google為該游戲制作了大量人造圖形數(shù)據(jù)庫(kù)。訓(xùn)練資料則包括 75 種物品,像是貓頭鷹、蚊子、花園或是斧頭,每種資料含有至少 7 萬(wàn)筆個(gè)別范例。依靠“Quick, Draw!”獲得的繪畫數(shù)據(jù),Google研發(fā)了 SketchRNN 的AI系統(tǒng)。
當(dāng)人類在草繪時(shí),豐富多彩的嘈雜世界只能壓縮在鉛筆的幾個(gè)線條里。這些簡(jiǎn)單的筆畫就是SketchRNN的數(shù)據(jù)集。每一類物體的繪畫,如貓、瑜伽姿勢(shì)、雨等,都可以使用Google的TensorFlow開源平臺(tái)軟件庫(kù)來(lái)訓(xùn)練某個(gè)特定類型的神經(jīng)網(wǎng)絡(luò)。當(dāng)機(jī)器以梵高或原始DeepDream的風(fēng)格呈現(xiàn)一張照片時(shí),人類總感覺有點(diǎn)兒怪異,因?yàn)闄C(jī)器對(duì)物體的概念或顯著特征并不能融合的那么靈活或了無(wú)痕跡。
這些項(xiàng)目能以神秘而又主觀的方式來(lái)感受人類,但是有趣的在于,它們對(duì)真實(shí)世界的感知與人類相似但又不完全相同。
不過(guò),SketchRNN 的輸出結(jié)果卻毫無(wú)怪異感。Eck說(shuō):
“我不想說(shuō)它的方式“非常人類”,但是它的感知比那些像素生成的圖片看起來(lái)像那么回事多了?!?/span>
這也是Eck領(lǐng)導(dǎo)的 Magenta 團(tuán)隊(duì)的核心洞察力。“人類了解世界的方式并不同于像素,而是以開發(fā)抽象概念來(lái)代替我們所看到的事物”,Eck和Ha在他們的論文中作如是表述,“從小時(shí)候起,我們就開發(fā)了通過(guò)繪畫來(lái)向他人溝通我們所看到的東西的能力?!?/p>
所以,如果人類能做到這一點(diǎn),Google相信機(jī)器同樣可以做到。去年,Google的CEO Sundar Pichai就宣布了"AI First”的未來(lái)發(fā)展戰(zhàn)略。對(duì)于該公司而言,AI是其原始使命的自然延伸,“組織世界的信息,讓其變得通用和有用”。所以,Google正嘗試使用AI的方式組織信息,讓人們可以訪問并和使用這些信息。而 Magenta 項(xiàng)目正是Google在該愿景下的一次嘗試。
機(jī)器學(xué)習(xí)是Google近年來(lái)常用的方式,其中,一種特定的機(jī)器學(xué)習(xí)方式就是使用大致基于人類大腦連接系統(tǒng)建模的神經(jīng)網(wǎng)絡(luò)。而多層次的神經(jīng)網(wǎng)絡(luò)在解決棘手問題時(shí)特別有效,尤其是在翻譯和圖像識(shí)別方面。Google已經(jīng)在這些新架構(gòu)上重建了很多核心服務(wù)。
拿Google翻譯舉例,它雖然已經(jīng)是一個(gè)建造了10年以上的復(fù)雜系統(tǒng),但是Google最終通過(guò)深度學(xué)習(xí)花了9個(gè)月的時(shí)間對(duì)該系統(tǒng)完成了重建。所以在這種情況下,神經(jīng)網(wǎng)絡(luò)的使用和類型在近幾年實(shí)現(xiàn)了爆炸式增長(zhǎng)。
基于神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),SketchRNN使用了一種生成遞歸神經(jīng)網(wǎng)絡(luò)。根據(jù)Google在論文中介紹,該種類型的神經(jīng)網(wǎng)絡(luò)可生成簡(jiǎn)單物體的草圖,目的是訓(xùn)練一個(gè)能繪畫和概括抽象概念的機(jī)器,并且它的思維方式與人類類似。
描述訓(xùn)練的最簡(jiǎn)單的方式,就是將其作為一種編碼方式。在輸入數(shù)據(jù)(草圖)后,該神經(jīng)網(wǎng)絡(luò)嘗試在所處理的數(shù)據(jù)中總結(jié)出一些概括性的規(guī)則。這些概括性的規(guī)則就是數(shù)據(jù)的模型,會(huì)被存儲(chǔ)在描述網(wǎng)絡(luò)中神經(jīng)元特性的數(shù)學(xué)中。
這種過(guò)程被稱為潛在空間或“Z”(zed)。它能吸取在整個(gè)訓(xùn)練過(guò)程中學(xué)到的東西,如一只豬、一輛卡車或一個(gè)瑜伽姿勢(shì)的特性等都會(huì)存儲(chǔ)其中,“Z”再對(duì)它們進(jìn)行抽樣。
那么,SketchRNN 能學(xué)到什么?以下就是一個(gè)接受消防車訓(xùn)練的網(wǎng)絡(luò)神經(jīng)生成新的消防車的例子。在該模型中,有一個(gè)“溫度”的變量,研究人員可以上調(diào)或下調(diào)輸出的隨機(jī)性。在下列圖像中,偏藍(lán)色的表示“溫度”較低,偏紅色的則表示“溫度”較高。
或者你會(huì)更想看到貓頭鷹:
或者最好的例子——瑜伽姿勢(shì):
從以上這些案例來(lái)看,SketchRNN輸出的成果已經(jīng)和人類的風(fēng)格非常相似,但是它們本身并非人類所畫。或者說(shuō),它們正對(duì)人類可能會(huì)繪畫某種事物的方式進(jìn)行重建。當(dāng)然,其中有些重建的非常好,有些則不盡然。
同時(shí),SketchRNN也能以人造圖像的形式接受輸入。當(dāng)人類輸送一些內(nèi)容進(jìn)去,SketchRNN會(huì)嘗試弄明白它。以下就是一個(gè)正在接受貓的數(shù)據(jù)訓(xùn)練的模型,在這只三眼貓的圖像中你會(huì)發(fā)現(xiàn)哪些變化?
從上圖可以看出,從左往右的各種輸出中,第三只眼睛被去除了。因?yàn)槟P椭?,貓有三角形的耳朵,胡須,圓形的臉,且只有兩只眼睛。
當(dāng)然,模型并不知道耳朵到底是什么,或者臉是什么樣的。它對(duì)這些草圖所示的世界一無(wú)所知。但它確實(shí)知道人類是如何描繪貓、豬或帆船的。
Eck說(shuō)到,“當(dāng)開始生成帆船圖時(shí),模型會(huì)輸入進(jìn)數(shù)百個(gè)其他型號(hào)的帆船,這些帆船可能來(lái)自該圖。這對(duì)我們來(lái)說(shuō)是有意義的,因?yàn)槟P鸵呀?jīng)從所有這些訓(xùn)練數(shù)據(jù)中生成了理想的帆船?!?/p>
訓(xùn)練一個(gè)可以畫雨點(diǎn)的網(wǎng)絡(luò),然后輸入一個(gè)云的草圖,它會(huì)這樣做:
雨滴會(huì)從輸入模型中的云那落下來(lái)。那是因?yàn)楹芏嗳水嬘甑螘r(shí),會(huì)先畫云,然后畫落下來(lái)的雨。所以如果神經(jīng)網(wǎng)絡(luò)看到一個(gè)云,它會(huì)讓雨落在該形狀的底部。 (有趣的是,如果先畫雨,模型不會(huì)產(chǎn)生云。)
這是一項(xiàng)有意思的工作,但是在對(duì)人類思維進(jìn)行反向工程中,這種項(xiàng)目有什么意義呢?
Eck對(duì)述描感興趣,是因?yàn)樗鼈儍?nèi)涵豐富但包含的信息很少。畫一個(gè)笑臉只有幾個(gè)筆畫,甚至就是一些像素集合,但任何3歲以上的人都可以辨認(rèn)出是一張臉,甚至區(qū)分是幸福或悲傷的臉。Eck認(rèn)為這是一種壓縮,是SketchRNN可以解碼的編碼,甚至可以重新編碼。
OpenAI的研究員Andrej Karpathy也對(duì)SketchRNN的工作很感興趣。OpenAI也是人工智能研究的一個(gè)中心。但他也指出,這個(gè)項(xiàng)目要滿足很多前提條件,這意味著它對(duì)企業(yè)開發(fā)人工智能不會(huì)有太大的幫助。
“我們開發(fā)的生成模式通常會(huì)盡可能地與數(shù)據(jù)集的細(xì)節(jié)無(wú)關(guān),無(wú)論你輸入什么數(shù)據(jù),都應(yīng)該能用,包括圖像、音頻、文本或其他任何東西。除了圖像,其它都不是由筆畫組成的?!?/p>
Eck和Ha正在開發(fā)的,更接近于能玩國(guó)際象棋的AI,而不是一個(gè)可以玩任何游戲的AI。所以對(duì)Karpathy來(lái)說(shuō),他們目前工作的范圍似乎有限。
但有一些理由認(rèn)為,線條圖是人類思考方式的基礎(chǔ)。Google員工并不是唯一被草圖的力量所吸引的研究者。早在2012年,喬治亞理工學(xué)院的James Hays與慕尼黑理工大學(xué)Mathias Eitz以及Marc Alexa,就合作創(chuàng)建了一個(gè)草圖數(shù)據(jù)集,以及一個(gè)用于識(shí)別它們的機(jī)器學(xué)習(xí)系統(tǒng)。
對(duì)于他們來(lái)說(shuō),草圖是一種“通用交流”形式,所有具有標(biāo)準(zhǔn)認(rèn)知功能的人都可以做到這一點(diǎn)。他們認(rèn)為,自史前時(shí)代以來(lái),人類已經(jīng)以素描巖畫或洞穴繪畫的方式來(lái)描述世界了,這種象形文字比語(yǔ)言的出現(xiàn)早了幾十萬(wàn)年,如今繪制和識(shí)別草圖的能力已經(jīng)是基本了。
多倫多大學(xué)神經(jīng)科學(xué)家Dirk Walther在一篇論文中指出,簡(jiǎn)單抽象的草圖會(huì)以與真實(shí)刺激類似的方式,激活我們的大腦。Walther的假設(shè)是,線條圖代表了我們自然世界的本質(zhì),因?yàn)樵谙袼氐幕A(chǔ)上,一些貓的線條怎么看都不會(huì)像是一只貓。
草圖可能是一種幫助我們掌握存儲(chǔ)對(duì)象概念層次的方式,即我們說(shuō)的“本質(zhì)”。也就是說(shuō),他們可能會(huì)告訴我們,在過(guò)去10萬(wàn)年的時(shí)間里,當(dāng)我們的祖先逐漸現(xiàn)代化時(shí),人類如何開始思考的。草圖、洞穴壁畫,可能描繪出我們?cè)趺磸娜粘=?jīng)驗(yàn)走向抽象的。
大多數(shù)現(xiàn)代生活都有這種轉(zhuǎn)變:語(yǔ)言,金錢,數(shù)學(xué),以及計(jì)算本身。因此,如果草圖確定能在創(chuàng)造重要的人工智能方面發(fā)揮重要作用,也是合情合理的。
當(dāng)然,對(duì)于人類來(lái)說(shuō),草圖是對(duì)真實(shí)事物的描繪。我們可以很容易地理解抽象線條與實(shí)際事物之間的關(guān)系。這個(gè)概念對(duì)我們來(lái)說(shuō)意義重大。
對(duì)于SketchRNN,草圖就是筆畫序列,形狀是通過(guò)時(shí)間形成的。機(jī)器的任務(wù)是提取出圖紙中描繪的東西的本質(zhì),并嘗試用它們來(lái)了解世界。
SketchRNN團(tuán)隊(duì)正在許多方面進(jìn)行探索。他們可能會(huì)建立一個(gè)系統(tǒng),試圖通過(guò)人類反饋來(lái)得到更好的結(jié)果。他們可以用多種草圖來(lái)訓(xùn)練模型。也許,他們會(huì)找到一種方式,來(lái)看看他們的模型是否可以推廣到逼真的圖像。但他們自己承認(rèn)SketchRNN是第一步,有很多要學(xué)習(xí)的東西。
人類藝術(shù)的歷史不是技術(shù)時(shí)代能相比的。
而對(duì)Eck來(lái)說(shuō),他們更多的是想了解人類如何思考的基礎(chǔ),在他看來(lái),藝術(shù)的一個(gè)核心部分是,它代表了基本人性。要理解深度學(xué)習(xí),也需要理解人類生活的基本機(jī)制,即我們?nèi)绾慰匆娛澜?,如何交談,如何認(rèn)識(shí)面孔,如何將單詞構(gòu)成故事,如何編曲。它看起來(lái)沒有與任何一個(gè)特定人類有關(guān),但卻代表了抽象的人類。
最后,如果你想更好地了解SketchRNN這一AI系統(tǒng),雷鋒網(wǎng)特獻(xiàn)上小福利→_→可戳此鏈接獲Google官方Paper。
Via theatlantic,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。