0
在今年早些時候,一段關(guān)于法國音樂家Fran?oise Hardy的YouTube視頻在網(wǎng)上流傳。視頻中,臺下的人問她,為何唐納德·特朗普會讓其新聞秘書Sean Spicer在就職典禮人數(shù)一事上撒謊。Hardy回答說,此事是極有爭議的,Spicer先生給出了“多種事實”。
這一視頻的內(nèi)容很奇怪,尤其是Fran?oise Hardy女士本人。雖然她現(xiàn)在已經(jīng)73歲了,視頻中看起來卻只有20歲,而且她說話的聲音像極了特朗普的顧問Kellyanne Conway女士的聲音。
實際上,這段視頻是德國藝術(shù)家Mario Klingemann的杰作“Alternative Face v1.1”,通過用一個人的臉建模生成式對抗網(wǎng)絡(luò),生成新的面孔。這是基于Conway女士的一段NBC采訪生成的假視頻,原本是關(guān)于Conway女士一段聲名狼藉的對話,卻通過Hardy女士之口說了出來。Mario Klingemann使用不同的聲音片段作為輸入數(shù)據(jù),基于Fran?oise Hardy女士的臉進行訓(xùn)練。視頻看起來有些搖晃,且像素也被調(diào)整過。其實通過視頻軟件來制作可能畫面效果會更好,但是Klingemann沒有使用編輯軟件來完成視頻,相反,他只花了幾天時間在臺式電腦上用一種機器學(xué)習算法——生成式對抗網(wǎng)絡(luò)(GAN)來創(chuàng)建了一個剪輯視頻,電腦被強制輸入Hardy女士的音樂視頻后,自動生成了Klingemann想要的聲音片段,在這段假視頻中放出的聲音片段其實是不存在的,Hardy女士從未說過這些話。
Klingemann先生的實驗讓虛假視頻走入大眾視線,預(yù)示著未來可能會有一場關(guān)于真?zhèn)我曨l的戰(zhàn)爭。原本書面的信息可以輕易的偽造,圖像和聲音卻難以偽造,因此圖像和聲音證據(jù)原是非??尚诺模壳癎AN的存在可能會改變這一局面,它可能會讓圖像和聲音變得也不那么可信了。
事實上音頻更容易偽造。通常情況下,計算機通過連接大量語音短記錄片段來創(chuàng)建一個句子,這也是Siri聲音的生成原理。但這樣的數(shù)字聲音受限于它們記住的片段范圍,因此數(shù)字聲音只有在說到某些特定短語的時候才聽起來真實。
而GAN 生成音頻的工作方式則不同,它使用神經(jīng)網(wǎng)絡(luò)算法來學(xué)習音頻源的統(tǒng)計屬性,然后在任何其他的上下文中再現(xiàn)這些屬性,以毫秒級而非秒級的片段建模。如果我們想要讓特朗普或者其他任何一個公眾人物說出指定的話,其實就是將對應(yīng)人物的演講材料作為輸入,告訴算法你想要輸出的語音是什么。在過去幾年里,谷歌在英國的DeepMind團隊,百度在硅谷的深度學(xué)習研究院和蒙特利爾研究院,都發(fā)表了從文字到語音的高性能算法。目前這些算法只有大型公司的計算能力才能實現(xiàn),但這種情況終將改變。
相比音頻,機器生成圖像更難實現(xiàn)。 2014年,Ian Goodfellow推出了GANs,彼時他還是 Yoshua Bengio在MILA的學(xué)生。盡管深度學(xué)習允許機器能夠輕易完成圖像識別的任務(wù),辨別不同種類的數(shù)據(jù),比如機器能輕易分辨一張貓和一只狗的圖片,但是想要機器能自動生成貓和狗的圖片就沒那么容易了,計算機很難通過數(shù)據(jù)庫中的大量訓(xùn)練圖像,自動生成有意義的圖片。
Goodfellow轉(zhuǎn)而想到了另一種方法實現(xiàn)圖像生成:競爭。不再請求軟件憑空生成有用的東西,而是提供了另一個軟件作為原軟件的對手來推動圖像生成。對手會辨別原軟件生成的圖像,判斷它們是否“真實”。通過試圖愚弄對手,生成軟件學(xué)會創(chuàng)造看起來真實的生成圖像。對抗軟件“了解”現(xiàn)實世界是什么樣子,因此賦予了生成圖片意義和界限。
目前,GANs可以根據(jù)一句語言的描述,生成小型的郵票大小的圖像。當你告訴GANs,“這只鳥是白色的,有一些黑色頭和翅膀,并有一個長長的橙色喙“,它會為你畫出來??赡墚嫵鰜淼膱D像并不完美,但一眼看過去卻很真實。
當時這樣的算法效果并不出奇,但GAN的發(fā)展非常迅速。在過去五年中,由相似算法推動的照片分類軟件錯誤率已從25%降低到百分之幾。人們期望圖像生成領(lǐng)域也能取得同樣的進展。谷歌的機器學(xué)習藝術(shù)家麥克·泰卡已經(jīng)通過訓(xùn)練GANs算法生成了人臉的圖像,分辨率像素大小為768,這像素超過了以前同等研究實驗像素的兩倍。
Goodfellow現(xiàn)在在搜索巨頭谷歌的內(nèi)部AI研究院Google Brain工作,如果一定要估計這一算法實現(xiàn)時間的話,他認為,生成YouTube假視頻有可能在三年內(nèi)實現(xiàn)。其他人則認為可能需要更長時間。但是所有人都同意這只是時間問題,而不是能不能實現(xiàn)的問題。Goodfellow說道,“我們認為AI會改變我們所信賴的證據(jù)——圖像和音頻”。
本文為雷鋒網(wǎng)根據(jù)《經(jīng)濟學(xué)人》編譯,未經(jīng)雷鋒網(wǎng)許可不得轉(zhuǎn)載。
原文鏈接:http://www.economist.com/news/science-and-technology/21724370-fake-news-you-aint-seen-nothing-yet-generating-convincing-audio-and-video-fake,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。