0
雷鋒網(wǎng) AI 科技評論按:能夠迭代進化、模仿指定數(shù)據(jù)特征的GAN(生成式對抗性網(wǎng)絡)已經(jīng)是公認的處理圖像生成問題的好方法,自從提出以來相關的研究成果不少,在圖像增強、超分辨率、風格轉(zhuǎn)換任務中的效果可謂是驚人的。 (具體可以參見 Valse 2017 | 生成對抗網(wǎng)絡(GAN)研究年度進展評述 - 雷鋒網(wǎng) )
今年也有利用GAN做的簡筆畫到圖像轉(zhuǎn)換模型pix2pix(代碼地址 https://github.com/phillipi/pix2pix ,demo地址 https://affinelayer.com/pixsrv/ )。除了下圖轉(zhuǎn)換貓的,還有建筑物的、鞋子的、包包的,模型非常有想象力,隨便畫也沒關系,感興趣的讀者可以自己到demo地址里畫畫看。
GAN既然已經(jīng)有如此的圖像生成能力了,我們能不能用GAN生成藝術作品呢,畢竟許多現(xiàn)代藝術作品看照片好像也并不怎么復雜,比如下面這幅;超寫實主義的就更不用說了。
然而,要創(chuàng)造出一副人類覺得有藝術價值的作品并沒有那么簡單。人類喜歡創(chuàng)新性的作品,人類不喜歡完全模仿的作品;《蒙娜麗莎》和《蘭亭集序》只有原作者的原版才被認可是世界藝術瑰寶,后世的人就算基于它們創(chuàng)作,也要有自己的創(chuàng)新,才能帶來新的藝術價值,才能被觀賞者認可。
根據(jù)GAN的基本結(jié)構(gòu),鑒別器D要判斷生成器G生成的圖像是否和其它已經(jīng)提供給鑒別器D的圖像是同一個類別(特征相符),這就決定了最好的情況下輸出的圖像也只能是對現(xiàn)有作品的模仿,如果有創(chuàng)新,就會被鑒別器D識別出來,就達不成目標了。上面幾個GAN的例子就能體現(xiàn)出鑒別器D帶來的這個特點,用GAN生成的藝術作品也就注定缺乏實質(zhì)性的創(chuàng)新,藝術價值有限。
那么,能不能讓GAN具有一些創(chuàng)新的能力,讓這些創(chuàng)新有藝術價值、帶有這些創(chuàng)新的作品還能夠被人類認可呢?羅格斯大學藝術與人工智能實驗室、Facebook人工智能研究院(FAIR)、查爾斯頓學院藝術史系三方合作的這篇論文就通過CAN(Creative Adversarial Network,創(chuàng)造性對抗網(wǎng)絡)給出了一種答案。神經(jīng)網(wǎng)絡庫Keras的作者Fran?ois Chollet也在Twitter上推薦了這篇文章。
可以看到,生成的藝術作品風格非常多樣,從簡單的抽象畫到復雜的線條組合都有,內(nèi)容層次也有區(qū)分。論文中也有對比測試結(jié)果,CAN生成的作品不僅比GAN生成的更討人喜歡,甚至來自巴塞爾藝術展的人類藝術作品都比不上CAN。(具體數(shù)據(jù)看后文)
剛才說到,藝術作品需要有創(chuàng)新性,CAN中的C就是Creative,創(chuàng)新性的意思。那么創(chuàng)新性要如何衡量呢、如何達到呢?
以往基于GAN的圖像生成方法研究中,人類可以把訓練好的網(wǎng)絡生成的圖像和客觀事實相對比(超分辨率、圖像補全問題中)或者根據(jù)經(jīng)驗判斷(風格轉(zhuǎn)換問題中),用來衡量網(wǎng)絡的效果;也有過一些更早期的算法,讓人類作為訓練反饋的一環(huán),引導網(wǎng)絡的訓練過程。但是對于這次的課題需要設計一個能自動訓練和生成、還要衡量作品的創(chuàng)新性的系統(tǒng)而言,以往的方法就起不到什么幫助。
同時,在作者們看來,為了能模仿人類藝術創(chuàng)作的過程,算法中很重要的一部分就是要把算法的創(chuàng)意過程和人類藝術家以往的藝術作品聯(lián)系起來,像人類一樣把對以往藝術的理解和創(chuàng)造新藝術形態(tài)的能力整合在一起。 為了能夠想辦法找到一個能夠衡量創(chuàng)新性、參與迭代訓練的創(chuàng)新性指標,作者們找來了一組藝術理論。
D.E.Berlyne認為,從生理心理學的角度講,人類的狀態(tài)中有一種叫做“喚醒水平”的指標,它可以衡量一個人有多警醒、多興奮;喚醒水平可以從最低的睡覺、休息,一直到暴怒、激動。而一副作品具有“喚醒潛力”的總體特質(zhì),它可以提升或者降低觀者的喚醒水平;它是作品新穎性、意外性、復雜性、多義性和疑惑性高低的綜合體現(xiàn),這幾個屬性越高,作品的喚醒潛力就越高。
Colin Martindale(1943-2008)提出過一個假說,他認為在任一時刻,創(chuàng)意藝術家們都會嘗試增加他們作品的“喚醒潛力”,這就是一種拓寬創(chuàng)作習慣邊界的方法。但是,這種增加動作必須使得觀察者的負面反應盡可能小(盡量使觀察者不付出額外的努力),否則過于激進的產(chǎn)品就會受到負面的評價。
Colin Martindale還提出過一個假說,他認為當藝術家探索藝術風格的更多作用的時候,轉(zhuǎn)換藝術風格就會有提高“喚醒潛力”的作用。
這組理論只是解釋藝術創(chuàng)新的理論中的寥寥幾個,但是它們綜合起來給出了兩個具有計算性的、可以用于迭代訓練的指標:
創(chuàng)新作品的創(chuàng)新程度不能過高,觀者不認為作品是藝術作品的可能性應當盡可能??;
新的藝術風格就是創(chuàng)新的體現(xiàn)。
根據(jù)提煉出的這兩個指標,論文中基于GAN的原型構(gòu)建了這樣一種新型的對抗性網(wǎng)絡CAN。
首先,對于“指標1:創(chuàng)新作品的創(chuàng)新程度不能過高,觀者不認為作品是藝術作品的可能性應當盡可能小”,就可以轉(zhuǎn)換為經(jīng)典的對抗性網(wǎng)絡,G生成圖像,經(jīng)過藝術作品訓練過的D判斷G生成圖像的是不是藝術作品。這樣的對抗性網(wǎng)絡生成的圖像就已經(jīng)可以被人類看作是藝術作品。
然后,論文中的模型還根據(jù)“指標2:新的藝術風格就是創(chuàng)新的體現(xiàn)”增加了一部分新結(jié)構(gòu)用來處理藝術風格。
論文中使用了25類不同的帶標簽藝術作品用于D的訓練,包含了抽象印象派、立體派、現(xiàn)代派、巴洛克、文藝復興早期等等風格的共7萬5千多幅。然后經(jīng)過訓練的D除了要反饋一幅圖像“是否是藝術作品”外,還要反饋“能否分辨圖像是哪種藝術風格”。G然后就會利用D的反饋生成盡量難以分辨藝術風格的圖像——難以歸類到現(xiàn)有分類中的,就是創(chuàng)新了。
“是否是藝術作品”、“是否難以分辨藝術風格”是兩種對立的信號,前一種信號會迫使生成器G生成能夠被看作的藝術的圖像,但是假如它在現(xiàn)有的藝術風格范疇中就達到了這個目標,鑒別器D就能夠分辨出圖像的藝術風格了,然后生成器就會受到懲罰。這樣后一種信號就會讓生成器生成難以分辨風格的作品。所以兩種信號就可以共同作用,讓生成器能夠盡可能探索整個創(chuàng)意空間中藝術作品的范圍邊界,同時最大化生成的作品盡可能游離于現(xiàn)有的標準藝術風格之外。
這也就是論文標題「CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms」的含義,創(chuàng)造性對抗網(wǎng)絡可以學習藝術風格,然后背離這些現(xiàn)有的風格進行藝術創(chuàng)作。
相比GAN,CAN增加的反饋是“是否難以分辨藝術風格”,追求的是生成的圖像藝術風格難以分辨。雖然根據(jù)藝術理論的推導,新的藝術風格是一種創(chuàng)新,但既然是多加了一個反饋,追求“生成的圖像藝術風格容易分辨”可以嗎?會不會也能生成不錯的作品呢?
從另一個角度看,假如追求“難以分辨”的CAN確實比追求“容易分辨”的CAN生成的圖像更好,那這就是模型選取了合理的反饋的最佳體現(xiàn)。
說做就做。除了CAN之外,論文中還建立了三種模型用來對比。
DCGAN 64x64:經(jīng)過藝術作品訓練的DCGAN(深度卷積生成式對抗網(wǎng)絡),輸出分辨率為64x64
DCGAN 256x256:相比DCGAN 64x64,生成器多加了兩層網(wǎng)絡,輸出分辨率為256x256
scCAN:style-classification-CAN,追求“生成的圖像藝術風格容易分辨”的CAN
這三種模型生成的畫面像下面這樣
scCAN生成的畫面中確實有了可辨認的風格,比如人物特寫、風景或者群像。但是直觀看上去并不怎么討人喜歡。
讓我們再來看一組CAN生成的圖像,上方是人類評價最高的、下方是人類評價最低的。應該說都比scCAN生成的圖像精彩得多。
根據(jù)剛才的圖像可以看到,CAN的效果當然不錯,DCGAN 256x256的圖像其實也挺好。那么CAN的圖像對觀畫的人來說是不是真的已經(jīng)難以分辨創(chuàng)作者了呢?跟真的藝術家創(chuàng)作的作品相比高下又如何呢?
為了具體比較,論文中做了幾個實驗,讓人類給不同組的作品打分。
實驗1、2: 來自抽象印象派藝術家的作品、選自巴塞爾藝術展的作品、CAN生成的圖像、DCGAN生成的圖像,一共4組作品,由普通人判斷這些作品來自人還是電腦,并給作品打分。
結(jié)果:實驗1里有53%的人認為CAN的圖像是來自人類的,認為DCGAN 64x64的圖像來自人的有35%; 實驗2里認為CAN的圖像來自人類的比例是75%,DCGAN 256x256則是65%。來自抽象印象派藝術家的作品無疑是比例最高的,但有意思的是,兩個實驗里認為巴塞爾藝術展的作品來自人的比例都還不如CAN高(實驗1中41%,實驗2中48%)。
實驗3:讓人類評價者從用心程度、視覺結(jié)構(gòu)、互動性、啟發(fā)性幾個角度給作品評分,結(jié)果CAN全部得分最高。這個結(jié)果可謂出人意料。
實驗4:為了確認CAN和scCAN之間新穎性和美學表現(xiàn)的高低,請了一群藝術史學生對隨機選出的CAN和scCAN圖像進行評價。認為CAN的圖像更新穎的比例為59.47%,認為CAN的圖像更加有美學吸引力的比例為60%,確實有顯著區(qū)別。
論文中表示,雖然這樣的模型還是不能對藝術風格概念有任何語義方面的理解,不過它確實展現(xiàn)出了從以往的藝術作品中學習的能力。至于為什么人類會在多個方面給CAN打出高分,作者們也希望和大家進行開放性的探討。
論文原文地址: https://arxiv.org/abs/1706.07068 ,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。