0
作者 | 王玥、施方圓
編輯 | 陳彩嫻
就在最近,生成式 AI 又火了,這次是國內(nèi)的平臺!
9月,一個叫做「盜夢師」的微信小程序悄悄上線,卻一鳴驚人,達成日增5萬新用戶的紀錄,足以見得國內(nèi)玩家對親手玩到 AI 繪畫渴待已久。
不怪玩家們太熱情,從Midjourney 到 Stable Diffusion,AI「以文生圖」一直是好幾個月來最炙手可熱的話題?!敢晕纳鷪D」AI 打通了文字和圖像的隔閡,只要輸入一段文字描述,AI 就可以把用戶腦海中想象的畫面呈現(xiàn)出來。用戶輸入的文字越大膽,AI 生成的圖片就越突破人類想像,宛如盜來了夢中的絢爛畫卷。
盜夢師正是一個能根據(jù)輸入文本生成圖片的 AI 平臺,屬于AIGC(AI-Generated Content,即人工智能生成內(nèi)容)的分支,由藍振忠博士帶領的西湖大學深度學習實驗室和西湖心辰科技有限公司共同推出。
在用戶發(fā)揮想象,輸入文字描述后,盜夢師便可生成1:1、9:16和16:9三種比例的圖片,還有24種繪畫風格可以選擇——除了基礎的油畫、水彩、素描等繪畫種類,還包括賽博朋克、蒸汽波、像素藝術、吉卜力和 CG 渲染等特別風格。
如果用戶有明確想要生成的藝術家風格,還能在畢加索、梵高、莫奈等11位藝術家中進行選擇。
在9月24日,盜夢師上線了圖生圖的功能,這是在文生圖基礎上的進一步嘗試。只要上傳一張參考圖,便可以生成與該圖風格相近的圖片,也可以在原畫的基礎上添加自己的創(chuàng)意。
而盜夢師最為接地氣的設定,還要屬「圖片版權由生成用戶所有」。
有許多用戶接觸 AIGC 的目的并不是純「玩」,他們更希望自己可以擁有生成圖片的版權,從而利用這些 AI 產(chǎn)物玩轉(zhuǎn)社交平臺、成為自己藝術創(chuàng)作的素材、抑或是創(chuàng)造更大的價值——而盜夢師正滿足了國內(nèi) AIGC 用戶的這份野心。
看小說時,誰沒有腦補過幾個驚呼叫絕的場景?可跨不過的繪畫門檻,卻成了普通人表達想象力的大難題。盜夢師之所以受到極大關注,正是因為盜夢師能讓不會畫畫的人繪出自己腦海中的畫作,這才以一己之力激起驚人浪花。
而懂先生、斧頭哥和薄荷三位玩家,就是掌握了 AI 繪畫語言密碼的幾位佼佼者。
我們先來看看玩家懂先生生成的夢幻人物肖像——
盜夢師生成的圖像:
盜夢師生成的圖像:
lili 則是一位 AIGC 新玩家,她幾乎沒有相關經(jīng)驗,只靠在社區(qū)中學習到的文字描述方式,加上自己投入時間調(diào)試,制作出的人物肖像也頗為美麗,極具東方美感。
盜夢師生成的圖像:
人像是 AIGC 界中公認容易失調(diào)的生成對象,雖說盜夢師偶爾也會跳出五官不和諧的人像,但總的來說,只要文字「調(diào)教」得好,一幅充滿質(zhì)感的人物肖像便會躍然紙上。如再經(jīng)過專業(yè)人士加工,幾乎達到了直接能在游戲中派上用場的級別。
除人像以外,盜夢師生成的風景圖無論虛擬還是寫實,都稱得上絕美,比如玩家斧頭哥生成的這些風景每張都有可圈可點之處——
盜夢師生成的圖像:
盜夢師生成的圖像:
盜夢師生成的圖像:
盜夢師生成的圖像:
盜夢師生成的圖像:
這五幅風景畫風格各異,共同點則是都牢牢把握住了用戶輸入的風格需求,如將這一工具善加使用,小團隊也不愁做不起燒錢的炫酷場景了。
為了更深入了解盜夢師這個「盜取藝術火種」的趣味平臺,AI科技評論對盜夢師團隊進行了一次專訪,并提出一系列問題,與大佬們探索生成式 AI 的無限可能。
以下是AI科技評論與盜夢師團隊的對話:
AI科技評論:請問在什么樣的場景下,貴團隊產(chǎn)生了想要做文本生成圖像 AI 的想法?
盜夢師團隊:我們之前一直在做文生文和可控文本生成的產(chǎn)品,近來我們發(fā)現(xiàn),文生圖走到了一個商業(yè)可用的階段。而圖片給人的沖擊力會更強,信息的傳播能力也很好,所以我們希望能夠在這個領域也做出一些能夠幫助到大家的產(chǎn)品。
AI科技評論:盜夢師所用的模型是什么?
盜夢師團隊:是在 Stable Diffusion 的基礎上做改進。
我們在幾個月前已經(jīng)開始研究文生圖,那時已經(jīng)有很多的圖片生成技術,比如生成對抗網(wǎng)絡 GAN、DALL·E 的自回歸模型,當時我們用自己的數(shù)據(jù)和 follow instruction 方式去做過一些訓練,但是我們認為生成效果都沒有達到可商用的水平。
就在一個月前, Stable Diffusion 一經(jīng)發(fā)布,我們用自己的 follow instruction 方式對它重新做了訓練,發(fā)現(xiàn)生成的圖片效果非常驚艷,我們也被震撼了,于是花了兩周的時間,和前后端、產(chǎn)品同學一起把盜夢師推上線。
AI科技評論:Follow instruction 方式是什么?
盜夢師團隊:Follow instruction 方式是盜夢師最大的一個創(chuàng)新。一張生成的圖片被用戶保存下來,這表示用戶認可這張圖的效果,這就是一個訓練的信號,我們可以根據(jù)這個信號去訓練更好的圖像。我們之前在文生文這一塊也有做類似工作,就是讓模型更好地 follow instruction,即更好地聽懂用戶的指令,生成用戶想要的東西。
AI科技評論:盜夢師還有哪些創(chuàng)新思想?
盜夢師團隊:盜夢師還在引導用戶更好地輸入方面不斷進行改進?,F(xiàn)在大家可以看到,在模型生成的10張圖里,有一張用戶想要的就很不錯了,尤其是初階玩家還不太熟悉如何輸入,生成效果也會打折扣,所以模型 follow human instruction 方面做得還不夠好。
舉個例子,在研究用戶保存圖片行為的時候,我們發(fā)現(xiàn)那些用戶沒有保存的圖,其平均輸入文字大概是14個字,而用戶保存下來的圖片,其平均輸入文字是18個字。這說明用戶的輸入與圖片質(zhì)量有很大關系,我們需要在引導用戶更好地輸入這方面不斷改進。
AI科技評論:我在玩盜夢師的時候,看到文字輸入框下有輸入提示,也在用戶手冊中讀到指導用戶輸入的內(nèi)容。除此之外,盜夢師還有哪些從產(chǎn)品角度出發(fā)的設計?
盜夢師團隊:從整個產(chǎn)品用戶體驗的角度來看,我們希望盡量讓所有的用戶都能輕松上手玩 AIGC(AI-Generated Content)。雖然現(xiàn)在有很多UP主和各種推文在介紹怎么玩,甚至嘗試在自己電腦上搭起來,但仍然只有少量的技術型用戶和極客能夠玩 AIGC。
而我們希望凡是對此有興趣的創(chuàng)作者,甚至沒有一點技術基礎的用戶,都能夠很快上手玩起來。所以盜夢師會對用戶輸入有許多提示,并且給出了畢加索、梵高、莫奈等藝術家畫風供用戶直接選擇。
同時,盜夢師還用圖片的形式表現(xiàn)可生成的藝術風格。
如果沒有圖片,很多用戶可能不知道蒸汽波和未來主義是什么樣的藝術風格,但是用圖片做示例后,用戶就可以輕松選擇,能獲得更多嘗試的動力。
同時我們還做了藝術展,這是一個展示區(qū),可以看到其他用戶的作品。有的高階用戶本身是美術從業(yè)者,可以設計出非常驚艷的圖。在展示區(qū)里,較為初階的用戶就可以學習別人怎么去寫出好的 prompt(即輸入文字描述)。
圖注:盜夢師藝術展
盜夢師算法團隊近期準備上線一個小功能,可以在輸入側幫助用戶填充文本。很多新用戶剛開始玩,不知道要輸入什么文本,可能只會輸一個“太陽”或“月亮”等特別簡短的內(nèi)容。
但深度玩家會就發(fā)現(xiàn),盜夢師要玩得好,需要關鍵詞、效果詞,再加上藝術家和風格的各種搭配。針對用戶保存的、在藝術展展出的好圖,我們會把這些好圖的 prompt 收集起來,在用戶輸入的時候做一個近似度的匹配,便于用戶更快學習到文本輸入的訣竅。
AI科技評論:在盜夢師輸入“畫一個自行車并標明在地面滾動的部分”,其生成的圖片缺乏邏輯,效果不佳,這是否說明盜夢師不理解自己所畫物體的運作方式,而是和其他 AI 一樣“學習大規(guī)模數(shù)據(jù)集并以新方式融合” ?
盜夢師團隊:是的,生成式 AI 的現(xiàn)狀基本都是模仿。
AI科技評論:請問盜夢師如何突破這個普遍現(xiàn)狀,達到“理解自己畫出的世界,運用知識進行推理并決策”的水平?投入什么樣的技術有可能實現(xiàn)呢?
盜夢師團隊:雖然目前的圖片生成 AI 能力確實到達了歷史上的峰值,但是我覺得還是需要更大的規(guī)模的數(shù)據(jù)以及更長時間的訓練。
而這個數(shù)據(jù),不僅僅是數(shù)量更大,還需要包含更全面的信息,比如說,圖片不僅僅只是圖畫,也可以是醫(yī)院的x光片,也可以是建筑設計師畫出的設計圖,囊括了生活的方方面面。
同時,我們使用 follow instruction 的方式,也就是使用用戶的反饋、點贊等信號,加上專業(yè)美術生幫助我們做標注和評測。將人類的反饋信息結合到我們的模型訓練中,然后以期待生成更加遵循用戶輸入指令的圖片。
第三,根據(jù)過往做語言對話、文本生成方面工作的經(jīng)驗,我們認為在文生圖這方面我們還需要用更大的語言模型來幫助盜夢師畫出它理解的世界。
由于語言中蘊含了極為豐富的知識,所以運用我們之前在語言方面預訓練過的模型,會對盜夢師圖片生成中的一些數(shù)字問題、常識問題會有很大的幫助,我們可以通過這方面的訓練,讓盜夢師逐步去達成運用知識進行推理和決策。
AI科技評論:圖像生成AI的出現(xiàn)讓我們離通用人工智能(AGI)又近了一大步嗎?您認為圖像生成AI與AGI之間有什么聯(lián)系?
盜夢師團隊:我認為不是這樣。沒有太大聯(lián)系,生成式 AI 更多是概率模型。
AI科技評論:有學者老師做過一個環(huán)境相機,通過融合溫度、濕度等傳感器的多模態(tài)信息,可以提升相機的成像質(zhì)量。那么圖像生成AI是不是也可以通過融合更多其他模態(tài)信息的方式,提高圖像的生成質(zhì)量?
盜夢師團隊:有可能。我們已經(jīng)有類似的 idea,文生圖服務不一定只能通過文字生成。例如盜夢師有參考圖的設置,用戶可以上傳一張圖片,加上文字描述,從而生成更好玩的圖片。
我們還有更多的想法,比如,也許可以加上用戶的交互操作,或者用戶可以選中圖片的某些地方,甚至是用戶之間通過協(xié)作畫圖……像這些交互式的信息,將來都有可能作為訓練數(shù)據(jù),從而實現(xiàn)提高生成圖片的質(zhì)量、提高對圖片的可控性。
AI科技評論:“利用盜夢師平臺生成的圖片版權屬于用戶”,這個版權的設定和其他AI平臺不同,請問貴團隊為何決定如此設定?
盜夢師團隊:我們做出這個設定是基于兩點:一是盜夢師建立在CCO協(xié)議的基礎上,二是因為用戶會花很多精力和時間去調(diào)試 prompt,而且 AIGC 的創(chuàng)作靈感是來源于用戶,沒有用戶的靈感就沒有新圖的誕生,所以我們覺得應該將創(chuàng)作版權歸還給用戶。
AI科技評論:有人認為生成式AI的出現(xiàn)會使某些行業(yè)從業(yè)者的大面積失業(yè),您對生成式AI給社會帶來的便利和沖擊有什么看法?
盜夢師團隊:原來不能作畫的人,現(xiàn)在能夠享受創(chuàng)作帶來的愉悅;也有一些插畫師開始思考怎么利用盜夢師才能更好、更快地完成作品。但盜夢師帶來便利、提高生產(chǎn)力的同時,肯定也會對一部分人有所沖擊,就像汽車的出現(xiàn)造成了馬車夫的大面積失業(yè)一樣。但失業(yè)的馬車夫也可以轉(zhuǎn)行去做司機。
總的來說,我們認為生成式 AI 的到來鼓勵了廣大從業(yè)者與新技術進行結合,更好更快地做出作品。
B站上有一個熱評,說目前 AI 生成圖片有兩大使用功效,一是出概念、找靈感,二是當成p圖素材與手工結合,我們非常認可這兩點。
AI科技評論:但仍有一些美術從業(yè)者不愿意自己的作品被 AI 學習,您怎么看?
盜夢師團隊:我覺得在新浪潮當中大家可以保持自己的觀點。例如在相機出現(xiàn)之后,有的畫家轉(zhuǎn)向了非寫實流派,也有一些藝術家走向了攝影藝術。
對于現(xiàn)在的手繪工作者來說,可以選擇調(diào)整自己的風格,也可以選擇與 AI 結合,成為一個數(shù)字藝術家。我們覺得生成式 AI 更多帶來的還是一種新的藝術業(yè)態(tài)。
AI生成圖片的版權爭議應該還會繼續(xù)一陣子,包括圖片被用來訓練模型的藝術家們該如何從AI生成的圖片中獲益一定也是大家探討和研究的熱門話題。相信隨著創(chuàng)作形態(tài)的改變,版權本身的定義和保護方式也會有更多發(fā)展。我們相信類似區(qū)塊鏈等新技術最終會帶來新形態(tài)的版權保護和收益分享機制,更好的促進創(chuàng)新和創(chuàng)作。我們大膽猜測不久的將來,有一部分藝術家會很樂意自己的圖片成為AI的訓練素材。
AI科技評論:在充滿競爭的環(huán)境當中,盜夢師如何脫穎而出?
盜夢師團隊:除了本身算法能力強,我們還積累了豐富的產(chǎn)品經(jīng)驗,我認為這算是一個天生的優(yōu)勢。在競爭較為激烈的環(huán)境里,我們會去嘗試更多將藝術和 AI 結合的產(chǎn)品設計,去引領 AIGC 的潮流,這個是我們非常想做的事情。
AI科技評論:請問盜夢師的未來商業(yè)計劃是什么樣的?
盜夢師團隊:我們從10月份起會開始低強度的收費,即是說,會以親民的方式去讓大家使用。大部分的普通用戶不需要付費,而高強度使用的專業(yè)玩家可以選擇優(yōu)惠套餐,這個是 To C(面向消費者)的商業(yè)計劃。
同時我們認為,To B(面向企業(yè))也有非常多的商業(yè)場景。像游戲場景制作、文本圖片編輯器、美術教育等方面均已有公司開始接洽。
長期來看,在To B 方向,我們會在行業(yè)里繼續(xù)深耕,我們之前做文生文或者可控文本生成就有經(jīng)驗,要做到更精深,更有護城河的話,要做到去收集和獲取行業(yè)的知識和數(shù)據(jù),才能在這個行業(yè)里面取得好的效果。
我們也明白,To C 還是有較大難度的,但我們依然會去探索。從產(chǎn)品角度來說,可能有人會說社交平臺的仗已經(jīng)打完了,而現(xiàn)在出現(xiàn)了內(nèi)容生成的利器,成為創(chuàng)作者的門檻大幅度的降低了——AIGC 能讓每個人都參與到創(chuàng)作中,這是一個全新的浪潮。所以即便知道難度較大,我們也會去探索。
AI科技評論:除了向客戶提供付費生成服務的“基礎模式”外,圖像生成 AI 還有什么更遠大的用途嗎?
盜夢師團隊:我們其實有挺多的 idea。我們團隊一直在做心理咨詢機器人,圖像生成 AI 就可以應用到心理咨詢服務中。舉個例子,有一個心理咨詢療法叫繪畫藝術療法,有的用戶很難用語言表達自己的心理狀態(tài),咨詢師就會請他們繪畫,從畫中看出他們的心理狀態(tài)。然而不是每個用戶都有繪畫的能力,如果在心理咨詢中加入盜夢師,用戶就可以通過表述來產(chǎn)生簡單的畫面,經(jīng)過用戶認可后,可以用作心理分析的素材。
AIGC 和元宇宙應該會有非常棒的結合,因為元宇宙相當于重新創(chuàng)造一個載體和環(huán)境。元宇宙的部分定義是含有多重場景,而創(chuàng)建場景本來會有非常高的成本,如果 AIGC 的技術越來越成熟,在創(chuàng)造各種新場景時,成本就會變得很低。
同時,AIGC 降低了內(nèi)容創(chuàng)作的門檻,每個人在元宇宙里的自我角色都可以通過文字生成,所有人都能參與元宇宙環(huán)境的搭建,所以我覺得與元宇宙將會是非常有前景的結合。
我們還想過,AIGC 對于未來的內(nèi)容平臺形態(tài)會有很大的改變。我們在內(nèi)部頭腦風暴時談過,現(xiàn)在網(wǎng)絡小說是非常受歡迎的,網(wǎng)絡小說可以每天更新,但受到繪畫技能門檻的影響,幾乎沒有人能夠做到每天更新幾十頁漫畫。如果說 AI 生成圖片的能力能夠幫到創(chuàng)作者,將1000字的文章自動轉(zhuǎn)化成幾十幅圖片,或者輔助漫畫家根據(jù)自己已有底稿的風格快速生成更多的漫畫,到了那個時候,可能人們每天看的就不是網(wǎng)絡小說了,而是網(wǎng)絡漫畫——種種情況都有可能,整個生態(tài)需要大家一起來建設。
雷峰網(wǎng)(公眾號:雷峰網(wǎng)) 雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。