丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給王悅
發(fā)送

0

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

本文作者: 王悅 2023-08-31 19:51
導(dǎo)語:拖拽式編輯擁有巨大的可能性。

編者按:2023年8月14日-15日,第七屆GAIR全球人工智能與機器人大會在新加坡烏節(jié)大酒店成功舉辦。論壇由GAIR研究院、雷峰網(wǎng)(公眾號:雷峰網(wǎng))、世界科技出版社、科特勒咨詢集團聯(lián)合主辦。

大會共開設(shè)10個主題論壇,聚焦大模型時代下的AIGC、Infra、生命科學(xué)、教育,SaaS、web3、跨境電商等領(lǐng)域的變革創(chuàng)新。這是國內(nèi)首個出海的AI頂級論壇,也是中國人工智能影響力的一次跨境溢出。

在「AIGC 和生成式內(nèi)容」分論壇上,南洋理工大學(xué)科學(xué)與工程學(xué)院助理教授潘新鋼以《Interacitve Point-Dragging Manipulation of Visual Contents》為主題分享了點拖拽的交互式編輯方向研究成果——DragGAN。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

潘新鋼指出,當下用戶對圖像的創(chuàng)作不只停留于粗粒度編輯,而是期待對圖像空間屬性進行精細化控制。針對這一需求,DragGAN 應(yīng)運而生。通過DragGAN,用戶可以選擇性地指定一塊可編輯區(qū)域,確定A、B兩點,然后自如地將點 A 移動到點 B 的位置。

更重要的是,DragGAN能夠呈現(xiàn)的不僅僅是最終編輯完成后的圖片,而是整個中間過渡的過程,即一個視頻或動畫的效果,豐富了其可應(yīng)用場景。

DragGAN 這樣一個關(guān)鍵點拖拽式的編輯工具對目前大熱的文生圖的生成方式提供了一個非常好的補充,一經(jīng)公布就得到了很多的關(guān)注和應(yīng)用。

潘新鋼表示,目前可以看到拖拽式編輯的巨大的可能性,這在學(xué)術(shù)界也會成為一個新的競賽,在 DragGAN 公開大概一個月后,就有字節(jié)和高校的研究人員嘗試將它拓展到擴大模型上,結(jié)合算法和Fine Tune,實現(xiàn)了在真實圖像上進行拖拽編輯的效果。

潘新鋼指出,接下來學(xué)術(shù)界感興趣的研究方向是有沒有可能把 GAN 和擴散模型的優(yōu)勢進行互補,既有擴散模型強大的生成能力,又有 GAN 所展示的圖像連續(xù)性以及可編輯性,這樣一來,視覺內(nèi)容將不局限于圖片。

如何更好的創(chuàng)建3D 內(nèi)容?這也是一個非常有意義的問題。潘新鋼認為,DragGAN 同樣可以拓展到 3D 問題上,甚至可以想象未來在等 4G 視頻上都可能利用拖拽式編輯。

以下為潘新鋼的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)在不改變原意的前提下進行了編輯和整理:

大家上午好,很高興能參與本次論壇,今天要和大家分享的主題是《Interacitve Point-Dragging Manipulation of Visual Contents》,也就是對視覺內(nèi)容的關(guān)鍵點的拖拽式編輯。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

現(xiàn)在的生成式 AI 已經(jīng)能夠非常好地根據(jù)文字生成圖片,比如,我們可以把一段話術(shù)輸入到 Midjourney 或者 Stable Diffusion中,讓它生成一個逼真的獅子。但是很多時候,創(chuàng)作的過程并不會在這里結(jié)束。文字對圖像的描述只是粗粒度的,用戶更多的希望繼續(xù)細粒度的去微調(diào)圖像的內(nèi)容,例如去改變所生成內(nèi)容的姿態(tài)、轉(zhuǎn)動獅子的頭、增大或縮小物體的大小、移動物體的位置、甚至改變獅子的表情。這一系列操作都是關(guān)于物體空間屬性的精細控制,如何對這些屬性進行精細控制仍然面臨比較大的挑戰(zhàn)。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

其實,符合直覺的編輯方式是用戶只需要點擊兩個點,指定一個紅色的抓取點和藍色的目標點,我們目的就是把紅點所對應(yīng)的圖像的語義的部分移到藍點的位置,來達到如右圖所示的對圖像空間屬性的編輯的效果。這種編輯方式的好處一是它非常簡單,只需要兩個點;二是用戶精確定義了抓取點和目標點的位置,所以編輯、移動的距離非常精確;三是它非常靈活,前面所提到的空間屬性,像姿態(tài)、大小、位置等都可以通過這種方式來編輯。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

這就是這次我將主要分享的,關(guān)于交點拖拽的交互式編輯方向的成果 —— DragGAN ??梢钥吹?,用戶可以選擇性地指定一塊可編輯區(qū)域,然后通過指定紅點和藍點,我們的算法會將紅點移到藍點的位置。并且值得一提的是,所得到的并不僅僅是最終編輯完成后的圖片,而是整個中間過渡的過程。所以,最終呈現(xiàn)出來的是視頻或動畫的效果,這對于視頻或者動畫方向來說也具有一定的應(yīng)用場景。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

其實,關(guān)鍵點拖拽并不是一個新的故事。在之前傳統(tǒng)圖形學(xué)中,Shape Deformation 也實現(xiàn)過類似的效果,同樣是用戶可以通過關(guān)鍵點對圖像進行拖拽,并且當時 As Rich As Possible 這個經(jīng)典算法的開發(fā)者也開發(fā)了一套基于平板電腦的一個APP。但這種方式通常會要求對所編輯的圖像進行網(wǎng)格化,并且對物體的高度有一定的假設(shè)。比如,假設(shè)物體是一個均勻的高度,這在很多時候是不準確的,因為很多物體它有自己的內(nèi)在結(jié)構(gòu)、骨架,并且另一個更加重要的曲線形式,它只是對 2D 圖像進行一個扭曲變形,它并沒有辦法生成新的內(nèi)容。比如,讓這個熊 3D 視角變化一下,或者呈現(xiàn)出被遮擋的部分。那么,為了克服這些曲線形式,我們需要模型對物體的結(jié)構(gòu)有一個了解,并且在需要的時候能夠生成新的內(nèi)容。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

為了實現(xiàn)這兩點,一個自然的選擇就是生成式模型。在對它的研究中,我們并沒有采用當下火熱的擴散模型,而是用了擴散模型之前的對抗生產(chǎn)網(wǎng)絡(luò),也就是 GAN。之所以這樣選擇,是因為它兩方面的優(yōu)勢,一是它所描述的圖像空間非常連續(xù),比擴散模型連續(xù)很多,二是它的 Contact 的隱空間非常適合編輯這樣的屬性。所以我們認為 GAN 是研究這個問題的第一步,是一個自然的選擇。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

簡單來說, GAN 的訓(xùn)練完成后,它的生成器所做的事情就是將一個低維隱編碼映射到一個高維的頭像上。可以看到,隨機擾動隱編碼就可以實現(xiàn)對圖像內(nèi)容的自然且連續(xù)的變化,可以改變圖像的各種不同的屬性。當在一個獅子的數(shù)據(jù)集上訓(xùn)練完它之后,它會學(xué)習(xí)到獅子的不同屬性的變化,比如它的姿態(tài)、大小、位置、表情等一系列的變化。對于一個用戶的拖拽式編輯的目標來說,我們希望做的事情就是把當前圖像在 GAN 所描述的圖像空間中游走,游走的方向是按照符合用戶編輯的目的地方向去移動,也就是圖中所示的紅色曲線的方向,那最終在這個例子里達到獅子張開嘴的效果。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

那么如何通過編輯 GAN 的隱編碼來實現(xiàn)這樣的效果,就是我們要研究的主要問題。下面介紹這個方法的主要方向。這里是一個生成器,將隱編碼  W 映射成為一個獅子的圖像,用戶會輸入紅色抓取點和藍色目標點。為了將紅點移到藍點的位置,我們提出一個運動監(jiān)督損失函數(shù),它的目的是給紅點施加一個力朝藍點推去。通過這樣的一個組織函數(shù),我們?nèi)?yōu)化 GAN,通過反向傳播優(yōu)化干的隱編碼,得到一個新的隱編碼,那么它會生成一個新的圖像,在新的圖像里,它已經(jīng)按照紅點朝藍點推的方式變化了。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

但是到目前我們并不知道橫點移動到了什么位置。所以,接下來我們要做點跟蹤,就是要去更新紅點的位置,讓它始終跟蹤物體對應(yīng)的部位。比如這里紅點最初是在鼻子的位置,那么希望它永遠跟隨鼻子的位置。得到更新過的抓取點后,我們再重復(fù)前面提到的運動監(jiān)督的過程,所以我們的方法在運動監(jiān)督與點追蹤之間迭代,直到紅點準確到達了藍點位置。這里所采用方法的主要是運動監(jiān)督和點跟蹤,下面將對這兩部分進行介紹。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

在實現(xiàn)最終的方案之前,我們初步進行了一些不一樣的嘗試。為了實現(xiàn)對運動的監(jiān)督,我們的想法是采用一個提取運動的模型,那么一個自然的選擇就是光流,因為光流是對物體的運動最直觀的刻畫。我們的做法是,對于 GAN 所生成的圖像,我們先將它復(fù)制一份作為一個參考圖,將這兩張圖送給一個光流模型,這里采用的是經(jīng)典的 Raft 光流模型。由于這兩張圖是一樣的,所以剛開始計算出來的光流當然是0。為了去移動用戶所指定的抓取點,我們?nèi)ビ^察抓取點所對應(yīng)位置的光流,一開始是個光流視頻,我們希望這個抓取點移動,那么這其實等于我們希望這里產(chǎn)生的光流不是(0,0),而是( -1,0),整個框架我們就反向傳播去優(yōu)化 GAN的一邊了。

當所預(yù)測光流達到目標時,就確實可以將當前生成的圖像移動一小步,實現(xiàn)一個向左移動一點的效果。所以其實當時這個方式算法是可行的,它的問題就在于我們引入一個光流模型,它是一個迭代式計算的模型,計算開銷相對較大。而在這樣一個用戶交互時圖像邊界的應(yīng)用,我們希望算法能夠給用戶及時的反饋,所以我們想進一步提升效率,那么有沒有可能去不需要光流?

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

之所以需要光流模型,是因為它提取了對物體的精細的語義信息敏感的特征,這樣才能在兩張圖像之間做相似的匹配。對于 GAN 來說,當它生成一張圖片的時候,我們得到的不僅是這張圖片,也有這個生成器內(nèi)部的很多特征。之前的很多研究表明, GAN 的內(nèi)部特征與圖像的語義信息有非常強的關(guān)聯(lián)性,但是非常具有判別力,它體現(xiàn)在僅僅通過 GAN 的特征,你就可以去做小樣本的語義分割,甚至無樣本語義分割。這些證據(jù)表明, GAN 擁有這種強判別力,通過它我們可能在 GAN 特征上就可以通過簡單的設(shè)計來運用監(jiān)督和點跟蹤,這也就引出了我們最終的方案。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023


這里同樣是通過隱編碼經(jīng)過生成器得到圖像的過程,立方體展示的是 GAN 中間過程的特征。那么為了將紅點移到藍點,我們用紅色 patch 的特征是作為 ground shoes 去監(jiān)督藍色的 patch ,也就是我們希望藍色的 patch 去模仿去 紅色 patch 的數(shù)值。你可以想象,當藍色 patch 的數(shù)值變成紅色 patch 的時候,其實就相當于紅色這個圓移動到了藍色圓的位置,這就可以通過損失函數(shù)來實現(xiàn)。在實現(xiàn)的時候,我們需要將紅色的 patch 從反向傳播的計算圖中分離出來。前面提到了用戶可以選擇性地輸入一個 Mask 來指定可編輯區(qū)域,那么對于可編輯區(qū)域之外的部分,我們也會讓這部分的特征始終與最初的特征保持一致。

通過這樣的損失函數(shù)優(yōu)化隱編碼后,我們會得到一個新的特征和新的圖像。我們假設(shè)最初的抓取點,它所對應(yīng)的特征值是F0,我們所做的就是在當前的特征圖上抓取點附近的一小塊區(qū)域,去尋找和 F0 數(shù)值最近的那個相似的位置,也就是一個 feature matching 。由于GAN 的特征與語義非常強的耦合性,通過這種方式找到的位置,它就在語義上傾向于和原本特征抓取點所對應(yīng)的語義相一致。比如這里原本抓取點在十字的筆尖,那么我們通過 feature matching 找到的點也會傾向于在十字的筆尖,這樣就實現(xiàn)了一個tracking跟蹤的功能。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

剛剛介紹的是針對一個點進行的,對于多點的情況,我是只需要將不同的運動監(jiān)督損失函數(shù)進行累加,并且每個點單獨跟蹤就可以。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

通過GAN所實現(xiàn)的編輯效果是,用戶只需要進行非常自然簡單的拖拽式編輯,就可以改變圖像姿態(tài)的屬性。你也可以重新設(shè)計一個車的外形或者改變車的視角,當然也可以編輯很多其他的動物,甚至讓貓睜一只眼閉一只眼。對人臉的年紀同樣比較輕松,你可以改變他的頭發(fā)、表情,也可以改變模特的姿態(tài)以及他的衣服的長短??梢钥吹?,這種編輯方式非常靈活地編輯了不同物體的多種空間屬性。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

那么我們也和其他方法進行了對比。這里第一行展示的是輸入圖片以及用戶的編輯,那么第二行展示的是一個 baseline 方法,雖然它的速度較快,但是編輯的準確性顯著低于我們的方法,最后一行是我們的方法。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

第一個例子中我們看到 baseline 方法,它沒有辦法把馬腳和馬頭移動到目標位置去,按照我們的方法移動的比較精確,我們也同樣可以對更密集的關(guān)鍵點進行編輯。這里是一個人臉關(guān)鍵點的編輯,那么對于每一個例子左邊的兩行分別兩列,分別是輸入圖像和目標的人臉,我們目的就是把輸入的點的關(guān)鍵點編輯到和目標點一致,那么可以看到,確實可以實現(xiàn)這樣的編輯。我們也進行了定量式實驗,和其他的方法相比,我們的方法也是顯著的取得了性能的提升。那么這里是一個點跟蹤的對比,第一列是我們的方法,可以看到在整個編輯的過程中,這個紅點會始終跟隨獅子的鼻子上方這個位置。但是對于另外兩個跟蹤的方法, PIPs 和Raft,他們在跟蹤的過程中會逐漸偏離原來的位置,那這樣的話你就沒有辦法準確地移動到目標點。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

前面展示的大部分例子都是基于 GAN 本身所生成的圖片,但是對于圖像編輯來說,一個非常重要的問題就是如何去編輯真實世界的用戶的圖片。要實現(xiàn)這一點,通常要做的是額外引入的 GAN 重建,也就是先用 GAN 組成用戶的圖片,然后再基于自己進行編輯。這里展示了一些真實圖片編輯的效果,同樣可以通過點關(guān)鍵點拖拽來實現(xiàn)對各種空間屬性的編輯,其實關(guān)鍵點拖拽的編輯方式,很多時候是有歧義的,或者說存在脫節(jié)的。比如這樣去拉狗的鼻子位置的拖拽,你可以通過轉(zhuǎn)動整個狗的身體實現(xiàn),可以通過只改變狗頭位置來實現(xiàn),那么實踐中,它會選擇在這個 GAN 有模擬的圖像和空間中與當前圖片最近的一個位置,在這里它就會轉(zhuǎn)動整個狗的身體。另一點是用戶可能會做出很多夸張的編輯。這里展示了一些夸張的編輯的效果,比如讓獅子的嘴張得非常大,雖然我們的方法也一定程度上會展示一些不完美之處,但這是相對合理的一些結(jié)果。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

當然我們的方法也不是完美的。目前的一些局限性首先是對于超出訓(xùn)練數(shù)據(jù)分布的編輯,那么很多時候仍然會產(chǎn)生瑕疵。比如,這里人體的數(shù)據(jù)集,它是在模特數(shù)據(jù)上訓(xùn)練的,也就是說模特通常都會比較自然,如果你希望產(chǎn)生一些夸張的姿勢的話,它會產(chǎn)生一些比較扭曲的缺陷。

此外關(guān)鍵點的選取也有局限,如果所選取的點在一個非常平滑的、沒有什么紋理的區(qū)域,比如車門靠中間的位置選中紅色,那么在編輯的跟蹤的過程中,關(guān)鍵點它會容易發(fā)生一些偏移,它相對于車發(fā)生了滑動,這是我們所不希望看到的。但是如果將關(guān)鍵點選取后視鏡的位置,紋理相對豐富,它就不會發(fā)生這樣的偏離。

另外一點是對于真實世界復(fù)雜的圖像的編輯。當一個圖像中存在非常多的內(nèi)容的時候,那無論是這個生成模型的訓(xùn)練還是 GAN 組件進行編輯的過程都非常復(fù)雜,后續(xù)如何在更復(fù)雜的真實圖像上實現(xiàn)編輯是一個重要的研究方向。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

這樣的一個關(guān)鍵點拖拽式的編輯對目前所火熱的文生圖的生成方式提供了一個非常好的補充,所以當我們發(fā)布公開成果的時候,受到了非常多的關(guān)注,大家看到了拖拽式編輯的巨大的可能性。在學(xué)術(shù)界關(guān)于關(guān)鍵點拖拽的編輯也要成為一個新的競賽。在我們公開 DragGAN 大概一個月后,有研究人員嘗試將它拓展到擴大模型上,同樣是用我們提出的類似的運動損失函數(shù)還有點跟蹤的算法,它們結(jié)合 Fine Tune 實現(xiàn)了一些在真實圖像上進行拖拽編輯的效果。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

這里展示的措施其實已經(jīng)可以看到,擴散模型所展示的編輯過程不如 GAN 那么連續(xù)。那么緊隨其后的是北大和騰訊所展示的 DragGAN 模型,那么他們提出了一個不一樣的策略,實現(xiàn)了類似的編輯效果。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

所以可以看到,目前擴散模型已經(jīng)產(chǎn)生了一些鼓舞人心的效果,但是對于比較大角度的編輯以及比較長距離的編輯仍然有局限性。例如,對一輛車來說,如何讓車轉(zhuǎn)動起來,對于擴散模型仍然是一個比較大的挑戰(zhàn)。另外它所展示的編輯過程非常的不連續(xù),這對于視頻這樣的應(yīng)用來說還是不夠的。如何生成更加自然連續(xù)的編輯仍然是一個 open problem。所以這里有一個有非常有趣的問題,就是我們有沒有可能把 GAN 和擴散模型的優(yōu)勢互補,既有擴散模型強大的生成能力,又有 GAN 所展示的圖像連續(xù)性以及可編輯性,這也是一個學(xué)術(shù)界會非常感興趣的未來的研究方向。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

視覺內(nèi)容當然不局限于圖片, 如何更好地創(chuàng)建3D 內(nèi)容也是一個非常有意義的問題。未來,對于 DragGAN 來說,同樣可以拓展到 3D 問題上,已經(jīng)有學(xué)者將其與 3D 生成模型結(jié)合,實現(xiàn)了對 3D 形狀進行拖拽式編輯的效果,這對于 3D 設(shè)計師來說也將會是非常有意義的。那么我們可以想象未來在其他的視覺內(nèi)容上,比如說視頻,甚至 4G 的視頻上都可能利用這種拖拽式編輯的方式。

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

DragGAN 目前已經(jīng)開源,在 GitHub 上獲得了 32000 個Star,歡迎大家使用,并且我們提供了一些線上體驗的平臺,也歡迎大家體驗。我的分享到這里就結(jié)束了,謝謝大家。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

潘新鋼:為了讓AIGC更好用,我們選擇了 GAN丨GAIR 2023

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說