1
雷鋒網(wǎng) AI 科技評論按:隨著深度學習爆發(fā)式的成功,算法漸漸的被引入了一個人類認為相對安全的領(lǐng)域 —— 創(chuàng)造引人注目的藝術(shù)。
在過去的幾年中,AI 產(chǎn)生的藝術(shù)得到了蓬勃的發(fā)展,這些示例也同時出現(xiàn)在了 RobotArt 和 NVIDIA's DeepArt 論壇上:
盡管這些算法模型是令人拍案叫絕的技術(shù)成就,但是人們就 AI 或機器學習是否能真正地像人類一樣進行藝術(shù)創(chuàng)作還存有疑惑。一些人認為通過數(shù)學建模進行像素的堆積或識別樂章中相互連接的片段并不是真正的創(chuàng)造力。他們眼中,AI 缺少了點人味。但是,誰又能說的清楚,人類的大腦到底是如何實現(xiàn)這些創(chuàng)造的,真的比機器更出色嗎?我們怎么能確信一個畫家或者一個音樂家不是使用數(shù)學的方式或模型——類似于算法中的神經(jīng)網(wǎng)絡(luò)那樣,通過多次的練習、訓練實現(xiàn)作品的呢?
雖然這個問題在短期內(nèi)看起來無法解決,但是通過對這個問題的研究和模型實現(xiàn)過程的學習,我們可以探究到更多有趣的東西。在這篇來自 The Gradient 博客的文章中,作者討論了幾個近期的深度學習模型成果,包括一些視覺作品和音樂作品。著重討論風格遷移和音樂模型,最后還會介紹下發(fā)展前景。雷鋒網(wǎng) AI 科技評論對文章編譯如下。
這個詞看起來也許已經(jīng)非常眼熟了,公認的最著名的 AI 藝術(shù)應(yīng)用成果。下面是一個很常見的例子:
這張圖片是什么意思?我們可以認為圖片由兩個部分組成:內(nèi)容和風格。內(nèi)容可以理解為左邊小圖所描述的:斯坦福大學的主樓;風格則可以參照中間小圖中的:梵高的代表作,漩渦狀、彩色夜晚的星空。風格遷移就是將一幅圖片中的風格轉(zhuǎn)移并生成到另外一張圖片中。
假設(shè),有圖片 c 和 s,從 c 中我們提取新圖片的內(nèi)容,從 s 中提取風格。假設(shè) y 是生成的圖片。那么 y 具有 c 的內(nèi)容,同時具有 s 的風格。從機器學習的視角來考慮這個問題的話,抽象兩個函數(shù),我們希望最小化 y 和 c 的內(nèi)容誤差,同時最小化 y 和 s 的風格誤差。
那么,如何推導(dǎo)和生成內(nèi)容誤差和風格誤差(Content loss&Style loss)這兩個函數(shù)呢?要解決這個問題,首先需要使用數(shù)學的方式對內(nèi)容和風格(Content&Style)進行定義。Gatys、Ecker、Bethge在他們的標志性的風格遷移論文對這個問題進行了解答,并使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)定義了這些函數(shù)。
以 VGG19 模型為例,將圖像輸入一個已經(jīng)訓練好的分類CNN網(wǎng)絡(luò)。由于網(wǎng)絡(luò)已經(jīng)經(jīng)過了初始化訓練,網(wǎng)絡(luò)中越高的層就可以提取出越復(fù)雜的圖像特征。作者在文中指出,可以通過網(wǎng)絡(luò)中的特征拓撲來表示一張圖片的內(nèi)容。同時,風格可以通過特征拓撲的關(guān)聯(lián)來描述。這些關(guān)聯(lián)性被存儲在一個稱為格拉姆矩陣(Gram Matrix)的矩陣中。
基于這種表示方法,作者將生成圖像的特征映射與內(nèi)容圖像之間的 Euclidean 距離求和,以表現(xiàn)內(nèi)容誤差。然后,計算每層特征映射的格拉姆矩陣的 Euclidean 距離的總和,以計算風格誤差。通過確定配置內(nèi)容誤差和風格誤差不同的權(quán)重,以獲得更好的圖片視覺效果。
設(shè)定為生成的圖片,
是輸入
的第j層的特征映射,那么內(nèi)容誤差可以表現(xiàn)為:
假設(shè)是
的格拉姆矩陣,那么風格誤差可以表現(xiàn)為(其中
為 Frobenius 常數(shù)):
最后,將所有 L 層總誤差和使用不同的權(quán)重計算求和,得到函數(shù):
由此可見,全局的網(wǎng)絡(luò)誤差函數(shù)是帶有權(quán)重的風格誤差和內(nèi)容誤差的總和。在這里,是超參數(shù),用于表達每個網(wǎng)絡(luò)層的情況,并通過修改超參數(shù)的值重新生成具有目標內(nèi)容或目標風格的圖片。在訓練的每一步,根據(jù)誤差函數(shù)調(diào)整輸入像素,如此往復(fù),直到機器生成了與目標風格圖片相近的圖片。
每一幅圖像的風格遷移任務(wù)都是一個不同的優(yōu)化過程,而且會需要不少的時間,因為要從隨機噪聲出發(fā),逐步逼近最終想要的完美的圖像。事實上,該論文的原始算法生成一幅圖像就花費了大約兩個小時,人們開始對算法的運行速度提出要求。幸運的是,Johnson, Alahi, 和 Li 在2016發(fā)表了一篇后續(xù)論文,描述了一種實時執(zhí)行風格轉(zhuǎn)換的方法。
不同于從 0 生成一副圖像并最小化誤差函數(shù),Johnson 等人使用了一種前饋式的方法,通過訓練一個神經(jīng)網(wǎng)絡(luò)來直接的將特定的風格轉(zhuǎn)移到一張圖像上。他們的模型具有兩個組成部分——一個圖像變換網(wǎng)絡(luò)和一個誤差網(wǎng)絡(luò)。圖像變換網(wǎng)絡(luò)使用一張正常的圖片,并輸出相同的圖片風格。不同的是,這種新的模型使用了一個預(yù)訓練的誤差網(wǎng)絡(luò)。這種網(wǎng)絡(luò)計算了特征重鑄誤差,即在內(nèi)容上計算特征誤差,同時在風格上計算分割重鑄誤差(使用格拉姆矩陣)。
Johnson等人使用微軟的 COCO 數(shù)據(jù)集對圖像變換網(wǎng)絡(luò)進行訓練,輸出不同的圖片風格(比如梵高的《星空》)。由這個網(wǎng)絡(luò)產(chǎn)生的圖片與之前的論文的結(jié)果幾乎一致,但是在生成 500 張 256*256 像素的圖片的任務(wù)中竟有 1060 倍的速度的提升。每張照片的生成只需要50ms:
在未來,風格轉(zhuǎn)換可以推廣到其他媒介,如音樂或詩歌。例如,音樂家可以重新想象一首流行歌曲,如艾德·希蘭的《你的形狀》,聽起來像爵士樂?;蛘呖梢詫F(xiàn)代的斯拉姆詩歌轉(zhuǎn)換成莎士比亞抑揚五音格風格。目前,我們在這些領(lǐng)域沒有足夠的數(shù)據(jù)來訓練好的模型,但這只是時間問題。
生成音樂建模是一個困難的問題,但我們已經(jīng)探索了很久。
當谷歌的開源 AI 音樂項目 Magenta 剛剛啟動時,它只能產(chǎn)生簡單的旋律。然而,到了2017年的夏天,Performance RNN,這個基于LSTM的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)出世了,它可以模仿復(fù)調(diào)音樂,同時完成定時和動態(tài)。
因為歌曲可以被看作是音符序列,所以音樂是被設(shè)計成學習序列模式的 RNN 的理想用例。我們可以通過一系列的音樂來訓練一個 RNN 網(wǎng)絡(luò)(即,一系列向量表示音符),然后從訓練過 RNN 的進行旋律采樣。你可以在 Magenta 的 GITHUB 頁面上查看一些演示和預(yù)先訓練的模型。
早期通過 Magenta 和其他音樂產(chǎn)生的作品可以產(chǎn)生單聲道旋律,或者表達不同時間長度的單音,至少在一個維度上是可調(diào)的。這些模型與用于生成文本的語言模型相似:在文本生成中,模型產(chǎn)生代表單詞的矢量,而在音樂 成中,模型產(chǎn)生相應(yīng)的代表音符的矢量。
一個矢量可以對應(yīng)很多的音符信息,那么如何通過一個個的矢量構(gòu)建出一段旋律呢?假設(shè)我們想要構(gòu)建一段由個音符組成的音樂——意味著
個音符和
個可能的時間段,這樣就有
組可能的音樂序列。
這樣的搭配和可能性是非常多的,因此在這邊還是考慮單音的音樂,即在同一時間只有一種音階。大多數(shù)我們現(xiàn)在聽的音樂都是復(fù)調(diào)的。復(fù)調(diào)的音樂是指在同一時間段內(nèi)由多個音階組成,對應(yīng)著我們所熟知的和弦,或者多個樂器在同一時間同時演奏。這樣的話,可行的音樂序列的數(shù)量可使用進行計算。這就意味著在計算時需使用比文本合成更為復(fù)雜的RNN網(wǎng)絡(luò):與文本不同的是,多個音階可能在同一時間奏響。
除此之外,還有一個問題。如果你曾經(jīng)注意過電腦播放的音樂——甚至是人類編排的——聽起來還是很機械(robotic)。而當人類真實的演奏時,根據(jù)不同的感情,演奏者會適當?shù)募娱L或剪短每個音符的演奏時長(即速度或聲音強度)。為了實現(xiàn)這一點,研發(fā)人員還需要教會機器如何進行速率和音量的調(diào)整。Performance RNN 網(wǎng)絡(luò)于是可以仿照人類的方式調(diào)整它們的速度、播放的音量。
那么,如何通過訓練讓機器學會帶有「情緒」地播放音樂呢?事實上,目前有個專門的數(shù)據(jù)集用作這方面的訓練。雅馬哈 Yamaha 電子鋼琴競賽的數(shù)據(jù)庫就包含了現(xiàn)場表演的 MIDI 數(shù)據(jù):每首曲子都以音階的方式進行錄制,同時包含了速率信息和時長信息。因此,除了學習在什么時間點上播放什么音階,Performance RNN 還可以學習人類的演奏方式進行合理的播放。在鏈接中可以找到一些真實的案例。
現(xiàn)有的研究成果相較于真實人類的水平可以類比作一個六歲的孩子用一個手指進行彈奏和一個鋼琴家?guī)в星楦械难葑鄰?fù)雜樂章之間的區(qū)別。還需要進行更多的研究:目前,很多由 Performance RNN 生成的音樂還是很機械的,因為它們還沒有像人類那樣使用重復(fù)的樂章或和弦進行表達。未來的研究可能可以探索鼓樣本或其他樂器。
但是,僅僅是現(xiàn)有的成就,這些已經(jīng)訓練成功的模型已經(jīng)足以幫助人們進行音樂創(chuàng)作了。
機器學習和藝術(shù)的跨界研究在過去的幾年中迅速發(fā)展,這甚至是紐約大學(NYU)的一門課程的主題。深度學習的興起對很多領(lǐng)域產(chǎn)生了極大的影響,包括:圖像、音樂和文本。雷鋒網(wǎng) AI 科技評論去年的一篇文章中也介紹了用 AI 創(chuàng)作抽象藝術(shù)作品(并在讀者中引發(fā)了一定爭議)的研究。
這里我們只討 AI 藝術(shù)創(chuàng)作的藍圖。在未來,我們可以期待機器學習成為藝術(shù)家的創(chuàng)作工具,如在草圖中進行填色、「自動完成」圖像、生成詩歌或小說的提綱或框架等。
隨著日益強大的機器計算能力,我們可以訓練來自不同媒體越來越多的數(shù)據(jù),包括音頻、視頻或很多其他的形式等。我們現(xiàn)在已經(jīng)有一些模型生成的案例,文本與音頻和視頻同步。Mor 等人的「音樂翻譯網(wǎng)」可以在樂器和風格流派之間進行一種聲學風格的轉(zhuǎn)換(鏈接)。并且 Luan 等人還實現(xiàn)了適用于高分辨率照片的真實感風格轉(zhuǎn)換。可以通過這種方式實現(xiàn)的機器媒體的潛在應(yīng)用是巨大的。
盡管,就 AI 創(chuàng)作的藝術(shù)是否是真實的藝術(shù)這個話題是永無止境的。但是,也許我們可以從另外一個角度看待這個問題。通過將人類創(chuàng)作過程進行的數(shù)學化,我們也許更近一步的了解到人類的創(chuàng)作如此深遠悠長的真正原因了。
via thegradient.pub,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。