0
“小冰學習繪畫是我所領導的團隊目前為止進行的時間最長、最艱苦的一個項目?!蔽④浶”邪l(fā)團隊在今年5月微軟小冰人工智能創(chuàng)造媒體說明會上表示。
被微軟小冰研發(fā)團隊視為耗時最長、最艱苦的項目的繪畫模型,是微軟小冰針對視覺能力攻克的模型,也是繼文本、語音之后的第三類AI模型。據(jù)官方資料顯示,這一模型通過對過往四百年藝術史上236位人類畫家畫作的學習,可以獨立完成100%原創(chuàng)繪畫作品,接近專業(yè)人類畫家水準。
與此同時,這一模型無論是從模型設計的技術性、復雜性,還是從推廣應用、產(chǎn)品化上而言,都與此前兩類內(nèi)容創(chuàng)造模型(基于文本、語音的模型)有所不同。當然,也并非完全不同。
就三者(基于文本、語音、視覺的模型)的相同與不同,微軟(亞洲)互聯(lián)網(wǎng)工程院副院長,微軟小冰全球產(chǎn)品線負責人李笛在接受雷鋒網(wǎng)采訪時總結稱,“理念上極其相似,細節(jié)上完全不同?!?/p>
然而,微軟為何要為小冰構建一個繪畫模型?畫家小冰項目技術難點在哪里?小冰繪畫模型與此前兩個模型技術實現(xiàn)上有何不同?少女畫家小冰有怎樣的邏輯思維?……
雷鋒網(wǎng)帶著這些問題,來到微軟中國研發(fā)集團總部,向微軟(亞洲)互聯(lián)網(wǎng)工程院副院長、微軟小冰全球產(chǎn)品線負責人李笛尋求答案。
微軟(亞洲)互聯(lián)網(wǎng)工程院副院長、微軟小冰全球產(chǎn)品線負責人李笛
微軟小冰是微軟打造的人工智能系統(tǒng),有所不同的是,在針對微軟小冰構建模型時,是先找到產(chǎn)業(yè)中的落地需求,然后反推出一個概念模型,進行技術攻克,最后一步是量產(chǎn)模型推廣。整體邏輯可以視為:產(chǎn)業(yè)需求——概念模型——量產(chǎn)模型。
李笛告訴雷鋒網(wǎng),微軟先看到金融領域對文本生成的需求,隨后有了小冰的概念模型(詩人小冰),之后有了推廣到相關應用領域的文本生成模型;此次也是看到在紋樣設計等方面的需求,因而有了繪畫模型(畫家小冰)。
雷鋒網(wǎng):微軟為什么會選擇為小冰構建這樣一個繪畫模型,最初構想是怎樣的?
李笛:在微軟小冰人工智能創(chuàng)造這一分支上,外界看到的是我們先有一個概念模型,例如寫詩,但往往實際情況并非如此。
實際上,我們是先在實際產(chǎn)業(yè)中找到一個量產(chǎn)計劃,例如微軟在實際產(chǎn)業(yè)中看到金融文本生成的需求,制定了相應的計劃,與此同時,我們會找一個這個領域的概念模型(詩人小冰),在攻克這一模型的過程中,我們會得到很多技術積累,讓我們可以把這個量產(chǎn)模型(金融文本生成模型)做好。
此前我們針對語音、文本進行了模型設計及產(chǎn)業(yè)化落地,此次針對視覺方面的繪畫模型,也是以這樣的理念完成的產(chǎn)品需求反推,從而進行概念模型打造、量產(chǎn)模型構建。
雷鋒網(wǎng):據(jù)微軟官方之前在發(fā)布會上公布的數(shù)據(jù)顯示,小冰通過對236位人類畫家的畫作學習,構建了這一繪畫模型,具體這些訓練的數(shù)據(jù)(236位人類畫家的畫作)是怎樣的一個年代分布?
李笛:過去400年到過去200年之間,我們比較有意識地規(guī)避了當代的藝術家。
少女畫家小冰以「一個人的北京」為題創(chuàng)作的畫作
雷鋒網(wǎng):小冰的畫作都比較抽象,為什么會選擇這樣的繪畫風格,而不是更受大眾歡迎的現(xiàn)代風格畫作?
李笛:一方面,我們的模型選擇是與工業(yè)化應用和內(nèi)容產(chǎn)業(yè)是分不開的;另一方面,藝術不是人工智能需要的,但是人工智能擁有高并發(fā)、質量穩(wěn)定的特點,可以對應到內(nèi)容產(chǎn)業(yè),也是內(nèi)容產(chǎn)業(yè)很必要的。
小冰繪畫風格基本涵蓋從古典到抽象風格,這其實與我們當時構建小冰詩人模型時選擇現(xiàn)代詩,沒有選擇古詩詞的原因類似。古詩詞的規(guī)則性更強,這對于我們當時要做的量產(chǎn)模型(諸如歌詞生成、金融文本生成)的價值有限。
繪畫模型對應到產(chǎn)業(yè)應用中的是諸如紡織品設計的產(chǎn)品設計領域,如果用當代的藝術形式做紡織品設計,量太小,無法形成規(guī)?;б妗_@類設計更適合人類藝術家來完成。而抽象、古典的繪畫藝術形式在紡織品紋樣設計上更具有傳承價值。
說到小冰繪畫模型的硬核,自然少不了其情感計算框架。其中,人工智能創(chuàng)造是小冰情感計算框架的一個分支。針對人工智能創(chuàng)造這一分支,李笛又將其分為兩個分支,“一個分支是攀登藝術概念巔峰,諸如唱歌、寫詩、繪畫等;另一個分支是工程化量產(chǎn)(偏重內(nèi)容產(chǎn)業(yè)),例如金融文本生成、電臺節(jié)目、有聲讀物,以金融行業(yè)文本生成為例,目前國內(nèi)90%的金融交易員用的都是我們的金融文本生成模型?!?/p>
小冰繪畫模型正屬于前者,是在藝術領域的一個AI模型,前文有提到,微軟的思路是以這樣的訓練出來的AI模型去規(guī)模化適應多產(chǎn)業(yè)需求,類似一個更為復雜的通用模型的概念。
而在同為AI繪畫模型領域中,小冰繪畫模型也并非首創(chuàng),早在2018年10月佳士得的拍賣會上,由AI創(chuàng)作的畫作Edmond Belamy(《埃德蒙·貝拉米肖像》)曾在佳士得拍賣,預計售價會在7000到10000美元之間,實際成交額為43.25萬美元。其創(chuàng)作團隊Obvious運用GAN(Generative Adversarial Networks,生成式對抗網(wǎng)絡)已經(jīng)創(chuàng)作了11副畫作。
Obvious團隊成員之一Caselles-Dupré此前曾表示:“該系統(tǒng)由兩部分組成,一邊是生成器,另一邊是鑒別器。我們?yōu)樵撓到y(tǒng)提供了14世紀到20世紀之間的15000張肖像畫數(shù)據(jù)集。生成器根據(jù)這個數(shù)據(jù)集生成新圖像,然后鑒別器嘗試識別人類畫的肖像與生成器創(chuàng)建的圖像之間的差異。我們的目的是騙過鑒別器,讓它認為生成的新圖像是真實的肖像,并得到這樣一幅畫作?!?/p>
2018年10月25日在佳士得拍得43.25萬美元的AI畫作
雷鋒網(wǎng):小冰繪畫模型在研發(fā)過程中主要解決了哪些技術問題?
李笛:2018年佳士得拍出一張AI畫作,該畫作是用GAN生成的。通俗地理解,小冰繪畫模型用的是多種GAN的混合模型:用一個模型解決具體元素的生成,一個模型完成構圖,一個模型完成對色彩的應用和命題的解讀,所以,在小冰繪畫模型創(chuàng)作的畫作中,畫面中的一只鳥、一匹馬,是完全由繪畫模型生成的。
一個GAN生成的繪畫模型,是將畫作內(nèi)容遷移到新作品中,通過一個GAN生成的繪畫模型進行創(chuàng)作面對的是一個數(shù)量問題。如果畫作的內(nèi)容看起來不夠好,或許是因為模型沒有收斂好。
小冰的繪畫模型通過將三個模型融合,解決了收斂問題,這三個要能夠很好的融合,這個難點其實挺大的。
雷鋒網(wǎng):宋睿華博士此前曾介紹小冰寫詩模型的時候表示,訓練小冰寫詩的時候,訓練小冰寫詩,需要對 519 位詩人的現(xiàn)代詩作,正讀一萬遍,倒讀一萬遍,用層次遞歸神經(jīng)元模型來打磨詩作的語言,小冰繪畫模型生成之后有進行了哪些調(diào)整?
李笛:小冰繪畫模型與寫詩模型的數(shù)據(jù)訓練在形式上有很多相似之處,包括訓練次數(shù)都是很接近的。不同之處在于,我們另外還加入了一個判斷功能——判斷小冰的畫作有沒有溯源。
小冰寫詩模型在訓練完之后,小冰寫的每一首詩都是一個文本,這個文本你不需要去看是誰的風格,她的文本的風格是比較統(tǒng)一的風格。繪畫與此不同,小冰繪畫模型現(xiàn)在大概有30%的畫作是可以比較明確地看出繪畫風格(例如莫奈、倫勃朗的繪畫風格),是能夠溯源的。
換言之,小冰對每一位詩人的學習,是學習了一個共性,但是對每一位畫家的學習,由于繪畫藝術的不同,相當于是學會這些畫家的技能。所以就會涉及到,如何判定我學會了那個畫家的技法。
雷鋒網(wǎng):我們現(xiàn)在針對文本、語音、視覺三個方面都已經(jīng)形成模型并做了對外技術輸出,這三者在技術上有怎樣的相同和不同之處?
李笛:簡單可以理解為,理念上極其相似,細節(jié)上完全不同。
包括用這三項技術去完成人工智能的創(chuàng)造,細節(jié)上很不一樣,畫畫的細節(jié)跟唱歌的細節(jié)可以說是千差萬別,要解決的具體問題,包括模型問題、工程問題也都千差萬別,但理念是一樣的。
相同之處包括三者都需要一個激發(fā)源。
寫詩模型需要一個激發(fā)源,模型訓練過程就是要解決模型如何對激發(fā)源產(chǎn)生合適的結果。人類寫詩是先有一個命題,然后進行創(chuàng)作,有感而發(fā);小冰寫詩可以是以圖片為激發(fā)源,從圖中獲得足夠的信息量來激發(fā)小冰去創(chuàng)作。繪畫模型與之類似,通過輸入一段文本或提供其他信息源來進行創(chuàng)作,畫畫、寫詩、音樂創(chuàng)作都是這樣,需要有一個激發(fā)源。
不同之處包括三者的數(shù)據(jù)類型不同,解決問題的方法在細節(jié)上也有所不同。
例如,你在音樂上要解決的是你的基頻、和諧程度,以及對某個音節(jié)上的預測,需要解決的是一個序列問題。繪畫在數(shù)據(jù)類型上與之差別很大,需要解決色彩、空間構圖上的數(shù)據(jù)問題。
在微軟小冰繪畫模型正式發(fā)布一周后,少女畫家小冰也作為一項技能以小程序和H5頁面形式上線。在通過少女畫家小冰進行繪畫時,在3分鐘等待時間里,畫面會顯示“抽取意象、激發(fā)創(chuàng)作靈感、選擇內(nèi)容主題、嘗試畫面構圖、起草線稿造型、底層顏色涂抹、畫面層次深入、細節(jié)反復打磨”八個步驟。
深度學習的基本理論告訴我們,大數(shù)據(jù)帶來的是相關關系,而非因果關系,AI在創(chuàng)作過程中更多是一個「黑盒子」模型,如若想要詳細理解工作原理,也是模型完成構建后,研究人員反推的結果。
少女畫家小冰會有怎樣的邏輯思維呢?
少女畫家小冰在APP端顯示的作畫步驟
雷鋒網(wǎng):小冰繪畫模型發(fā)布后,微軟官方又上線了少女畫家小冰小程序,三分鐘可以生成一幅畫,有注意到的,在等待的三分鐘過程中,畫面會顯示“抽取意象、激發(fā)創(chuàng)作靈感、選擇內(nèi)容主題、嘗試畫面構圖”等八個步驟,這是小冰繪畫模型真實的運行邏輯嗎?
李笛:必須承認,一部分是真實的,還有一部分其實是為了增加產(chǎn)品的趣味性而設置的。例如我剛才提到,她有三個模型完成構圖、色彩、確定意向,這些是小冰繪畫模型真實的運行邏輯中有的。
雷鋒網(wǎng):小冰繪畫模型實際上生成一幅作品的邏輯是怎樣的?
李笛:在少女畫家小冰小程序中看到的好像是串行運行的,實際上真正的邏輯是很簡單粗暴的。就是「進去、出來」(雷鋒網(wǎng)注:模型接受到激發(fā)源開始創(chuàng)造、生成作品),剛剛提到的三個模型也是同時工作的。但這個就沒意義了,所以我們增加了趣味性。
算法執(zhí)行就需要那么多的運行時間,運算過程中確實會形成一些中間步驟或成果,但這些成果,甚至于都不足以拿出來。人類畫一幅畫,他的下一個版本和上一個版本是有承接關系的,例如上一個版本打了個底子,下一個版本是在底子之上做一些細節(jié)的創(chuàng)作;小冰不是,小冰上一個版本的畫作和下一版本的畫作是完全不一樣的。背后的邏輯關系是深度學習的「黑匣子」原理,實際上也沒有辦法用其他方式來描述。
無論是數(shù)據(jù)模型,還是智能搜索引擎,都是大數(shù)據(jù)時代的杰作。大數(shù)據(jù)成就了當下的人工智能,小冰作為當下主流人工智能系統(tǒng)之一,其背后除了有強大的研發(fā)團隊,還需要有海量數(shù)據(jù)的支撐。雷鋒網(wǎng)也了解到,第一代小冰的大數(shù)據(jù)源于微軟的搜索引擎,隨后小冰得到推廣后,才有更多的與用戶的交互數(shù)據(jù)。
與此同時,小冰并沒有打造自己的硬件設備,也沒有太多作為主語音助手的硬件設備,更多是以Dual AI戰(zhàn)略入駐其他品牌的智能硬件,將小冰的情感計算框架植入合作伙伴的生態(tài),如今小米等智能語音助手已經(jīng)可以召喚小冰。然而,這樣的非主語音助手的接入方式是否會影響小冰的訓練數(shù)據(jù)集?
雷鋒網(wǎng):小冰的訓練數(shù)據(jù)來自哪里?是搜索引擎?還是有其他來源?
李笛:第一年、第二年的時候,搜索引擎是我們訓練小冰的主要數(shù)據(jù)來源。從第二年開始,當時微軟官方在第三代小冰發(fā)布會上就曾表示,我們當時訓練小冰所用的數(shù)據(jù)就已經(jīng)一半一半了,已經(jīng)有一半的數(shù)據(jù)來自于小冰與用戶交互產(chǎn)生的數(shù)據(jù)了?,F(xiàn)在,我們在所有的QQ群以及很多其他平臺上都有小冰的身影,另外,小冰還有很多化名,還有很多第三方(諸如電臺主持人、歌手)是由小冰賦能的。
所以小冰的數(shù)據(jù)來源已經(jīng)不是特別依賴我們搜索引擎,我們可以通過多種形式獲得交互數(shù)據(jù),得到的訓練結果用來服務于某個單一領域。
雷鋒網(wǎng):小冰在語音能力這塊對外部署有怎樣的一個思路。
李笛:我們?nèi)ツ臧l(fā)布會的時候提出來小冰的Dual AI戰(zhàn)略,即雙AI生態(tài),我們也在踐行這樣的承諾。未來你可能看到朋友圈最廣的是小冰,小冰也將是唯一一個目前為止你在各個平臺上都可以看到的人工智能助手。
某種程度上這是我們的選擇,微軟在中國有自己的技術優(yōu)勢,但在市場上也有一定局限性。所以我們選擇用一種發(fā)揮我們優(yōu)勢,一種更適合微軟的生態(tài)模式繼續(xù)發(fā)展。
雷鋒網(wǎng):這種模式是否會使微軟小冰在之后獲取數(shù)據(jù)能力上或場景化嵌入能力上處于劣勢?
李笛:這些工作還是要一步一步來的。就數(shù)據(jù)量而言,小冰現(xiàn)在每個月有一億多活躍用戶,在交互式人工智能領域中,可能全球范圍內(nèi)90%的交互數(shù)據(jù)都在我們這兒。所以,目前為止,我們還真不是特別依賴某一個終端。
雷鋒網(wǎng):小冰繪畫模型是如何獲取訓練數(shù)據(jù)版權的,我們對外輸出的作品有沒有版權?
李笛:數(shù)據(jù)這方面是沒有問題的,這些藝術家都是400年前的藝術家的公開數(shù)據(jù)。小冰自己生產(chǎn)的原創(chuàng)作品,在視覺這方面,我們進行了版權保護的,小冰的畫作每一副都有一個編碼。因為視覺作品比較容易判定,所以我們每一個作品都可以溯源。小冰寫詩,我們當時是明確放棄了詩作的版權,繪畫方面我們不會放棄。
雷鋒網(wǎng):是因為繪畫這塊我們對外會做更多商業(yè)落地嗎?
李笛:不是更多商業(yè)落地,而是繪畫本身的版權情況不同。
與眾多AI語音助手、AI引擎注重IQ(智商)有所不同,微軟小冰更注重EQ(情商),微軟的小冰的硬核部分也正是基于其情感計算框架。之所以微軟會這樣注重小冰的EQ,一方面是微軟在人工智能上的戰(zhàn)略傾斜,另一方面其實也是對當下市場AI發(fā)展的現(xiàn)實難題的一種“迂回”或是“妥協(xié)”。
微軟小冰的情感計算框架
雷鋒網(wǎng):當下智能音箱在智能語音應用上并沒能出現(xiàn)類似手機上的那種社交軟件、電話、拍照這些強需求的應用,您覺得原因是什么?
李笛:原因有很多,我個人認為最主要的原因是“前代抑制”。
移動互聯(lián)網(wǎng)時代智能手機的發(fā)展,包括你說社交網(wǎng)絡、各種去中心化的App等發(fā)展得太成功了,所以緊接著而來的這個時代就沒有那么容易成功。
這就有點像中國DVD已經(jīng)很普及的時候,我們看似很老套的錄像帶,清晰度不夠,尺寸也大,但在美國和日本卻經(jīng)久不衰,這直接遏止了DVD在這兩個國家的普及。為什么?因為他們在錄像帶時代的整個產(chǎn)業(yè)鏈,包括錄像帶設備的普及太成熟了,直接遏止隨后的DVD的發(fā)展。
例如今天很多人會嘗試用更復雜的人工智能系統(tǒng)實現(xiàn)訂餐比另一個人工智能系統(tǒng)方便,但是用戶關注的是你們兩個都沒有那么方便,沒有手機App上訂餐來得方便,因為那個按鈕不會出錯,但是對話一定有一個比例會出錯,所以就是你這個移動互聯(lián)網(wǎng)時代太成功了,尤其是在中國,發(fā)展的太成熟了,反而會遏止下一個時代的發(fā)展。這也意味著AI需要多花一些時間,或者說它門檻會變高,成熟時間會變得更長。
雷鋒網(wǎng):您覺得現(xiàn)在的智能語音助手或AI引擎,就技術和產(chǎn)品方面,關鍵的技術突破點在哪里?
李笛:在產(chǎn)品方面還有很多不足之處,以智能音箱為例,智能音箱至少存在兩種維度不同的概念,我們經(jīng)?;煜核降资侵悄芤粝洌€是一種高性價比或者說一種新形式的音箱;它賣的是硬件,還是AI能力。我有時候也去看一些智能音箱發(fā)布會,發(fā)布會上,三分之一的時間在講音質,三分之一的時間在講內(nèi)容,剩下三分之一的時間在講價格。
智能音箱里的AI語音助手,就目前為止,絕大部分的設計還停留在一個好用、沒那么好用,或是比較好用的語音控制。你如果用一個智能音箱控制開燈、關燈,雖然方便,但如果你只叫開燈、關燈,再方便也只是不停地重復,它沒有情感就很難實現(xiàn)真正的交流,因而也只是一種帶語音控制的音箱。
智能音箱什么時候在發(fā)布會上可以更多介紹其AI特點,而不是介紹音質、內(nèi)容和售價,我覺得這個就算是解決問題了。
雷鋒網(wǎng):其實也是因為這個原因(當下的智能不夠智能),所以微軟小冰會更注重情感框架和EQ?
李笛:這個行業(yè)其實在慢慢地發(fā)展,我們的看法是,如果能做成絕對強AI引擎,如果今天你這個AI,無論是個人助理或其他應用真能像愛因斯坦那么睿智,或者真正什么任務都能完成,那他不需要EQ,人們也可以接受。人們可以接受愛因斯坦EQ低一點,但問題是你做不到,所以你再沒EQ的話,那就沒有太大價值了。所以現(xiàn)在的方案看起來很美,但實際上沒達到那么好。好的產(chǎn)品需要有一個好的“體驗底層”,到人工智能這來講的話就是EQ。
雷鋒網(wǎng):微軟小冰AI引擎在技術研發(fā)方向上,做了文本、語音,然后又做了視覺,接下來會有怎樣的一個整體規(guī)劃?
李笛:接下來我們在量產(chǎn)和概念模型上會更豐富,我們現(xiàn)在已經(jīng)將基于文本、語音、和視覺的(模型)三個領域一一攻破,接下來就是在這三個領域擴大覆蓋能力,所以我們肯定文本的概念模型不只是會寫詩,還會有別的,視覺也不會僅僅是停留在靜態(tài)的繪畫,還會有動態(tài)的。未來應用領域會繼續(xù)擴大,但是領域不會有更多了。
注:本文中的「模型」(諸如基于文本、語音、視覺的模型)均指「內(nèi)容創(chuàng)作模型」。
相關文章:
少女歌手小冰養(yǎng)成記:會作詞作曲演唱的人工智能的誕生
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。