0
本文作者: 賴文昕 | 2024-06-20 14:40 |
作者:賴文昕 馬蕊蕾
編輯:陳彩嫻
北京時(shí)間今天凌晨,美國(guó)西雅圖正在召開(kāi)的計(jì)算機(jī)視覺(jué)盛會(huì) CVPR 2024 正式公布了最佳論文等獎(jiǎng)項(xiàng)。今年共有 2 篇論文獲得了這份全球最重要的計(jì)算機(jī)視覺(jué)領(lǐng)域的大獎(jiǎng),團(tuán)隊(duì)成員分別來(lái)自谷歌研究院、加州大學(xué)圣地亞哥分校、南加州大學(xué)、劍橋大學(xué)及布蘭迪斯大學(xué)。
本周(6.17-6.21),第四十一屆國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR)在美國(guó)西雅圖拉開(kāi)帷幕。根據(jù)CVPR官方的最新公告,CVPR 2024已經(jīng)成為該會(huì)議歷史上規(guī)模最大、參與人數(shù)最多的一屆,截止6月19日,現(xiàn)場(chǎng)參會(huì)人數(shù)已超過(guò)一萬(wàn)兩千人。
作為計(jì)算機(jī)視覺(jué)乃至人工智能領(lǐng)域最具學(xué)術(shù)影響力的三大頂會(huì)之一,第一屆 CVPR 會(huì)議要追溯到1983年美國(guó)華盛頓,自此每一年都會(huì)吸引全球的計(jì)算機(jī)研究者和行業(yè)領(lǐng)袖匯聚一堂,共同探討計(jì)算機(jī)視覺(jué)領(lǐng)域最新的科學(xué)進(jìn)展和產(chǎn)業(yè)成果。
作為領(lǐng)先的計(jì)算機(jī)視覺(jué)盛會(huì),會(huì)議每年都會(huì)錄用當(dāng)前視覺(jué)領(lǐng)域的最新研究。早在2月27日,CVPR 官網(wǎng)就公布了今年的論文接收結(jié)果:CVPR 2024 共有 35691 位注冊(cè)作者,11532 篇提交論文,其中 2719 篇被接收,錄用率為 23.6%。
與之相比,CVPR 2023 共有 9155 篇論文被提交,2359 篇論文被接收,錄用率為 25.8%。今年的論文數(shù)量提高了20.6%,創(chuàng)下新高,而錄用率降低了 2.2%。另外,hightlights 和 Oral 兩種類型的論文展示分別有 324 篇(占2.81%)和 90 篇(占0.78%)論文獲選,由此可見(jiàn),本屆會(huì)議的熱度、競(jìng)爭(zhēng)難度與入選獲獎(jiǎng)的含金量都有所上升。
CVPR 2024 頒獎(jiǎng)環(huán)節(jié)
入圍 CVPR 2024 決賽圈的最佳論文有24篇,相比去年多了12篇。
AI 科技評(píng)論梳理了候選論文的基本情況:
從地理位置上來(lái)看,位列前三的國(guó)家依次為美國(guó)、中國(guó)和德國(guó);從研究領(lǐng)域來(lái)看,主要聚焦在視覺(jué)與圖形、單視圖 3D 重建以及圖像與視頻合成等;從產(chǎn)業(yè)界來(lái)看,有三家機(jī)構(gòu)入選,分別是 NAVER Cloud AI、Google Research 以及 NVIDIA;從學(xué)術(shù)界來(lái)看,高校依舊是研究的主要推動(dòng)力,其中,國(guó)內(nèi)入選的高校有北京大學(xué)、上海交通大學(xué)、中山大學(xué)和深圳大學(xué)。
最佳論文
本屆 CVPR 總共評(píng)選出 2 篇最佳論文。
第一篇最佳論文屬于谷歌研究院團(tuán)隊(duì)的《Generative Image Dynamics 》。
論文鏈接:https://arxiv.org/pdf/2309.07906
代碼地址:http://generative-dynamics.github.io/
作者:Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski
論文介紹:本文通過(guò)從真實(shí)視頻中提取自然振蕩動(dòng)態(tài)的運(yùn)動(dòng)軌跡來(lái)學(xué)習(xí)圖像空間中的場(chǎng)景運(yùn)動(dòng)先驗(yàn)。該方法利用傅里葉域?qū)﹂L(zhǎng)期運(yùn)動(dòng)進(jìn)行建模,通過(guò)單圖像預(yù)測(cè)頻譜體積,進(jìn)而生成整個(gè)視頻的運(yùn)動(dòng)紋理,可應(yīng)用于將靜態(tài)圖像轉(zhuǎn)化為循環(huán)視頻,或通過(guò)圖像空間模態(tài)基實(shí)現(xiàn)用戶與真實(shí)圖像中對(duì)象的交互,模擬其動(dòng)態(tài)。
第二篇最佳論文頒給了由加州大學(xué)圣地亞哥分校、谷歌研究院、南加州大學(xué)、劍橋大學(xué)及布蘭迪斯大學(xué) 5 所機(jī)構(gòu)共同發(fā)表的《Rich Human Feedback for Text-to-Image Generation 》。
論文鏈接:https://arxiv.org/pdf/2312.10240
代碼地址:https://github.com/google-research/google-research/tree/master/richhf_18k
作者:Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam
論文介紹:許多生成的圖像仍然存在諸如不真實(shí)性、與文本描述不一致以及審美質(zhì)量低等問(wèn)題。本文通過(guò)選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)來(lái)改進(jìn)生成模型,或者通過(guò)創(chuàng)建帶有預(yù)測(cè)熱圖的掩模來(lái)修復(fù)問(wèn)題區(qū)域。值得注意的是,這些改進(jìn)可以推廣到用于收集人類反饋數(shù)據(jù)的圖像之外的模型(Muse)。
最佳學(xué)生論文
今年的最佳學(xué)生論文同樣有 2 篇工作獲選。
第一篇頒發(fā)給了來(lái)自德國(guó)圖賓根大學(xué)、圖賓根 AI 中心、上??萍即髮W(xué)及布拉格捷克技術(shù)大學(xué)共同發(fā)表的《Mip-Splatting: Alias-free 3D Gaussian Splatting》。值得注意的是,該篇論文的三位華人作者都是上??萍即髮W(xué)在讀或畢業(yè)的碩士、博士生。
論文鏈接:https://arxiv.org/pdf/2311.16493
代碼地址:https://github.com/autonomousvision/mip-splatting
作者:Zehao Yu , Anpei Chen, Binbin Huang , Torsten Sattler , Andreas Geiger
論文介紹:3D高斯點(diǎn)染技術(shù)在新視角合成方面取得了高保真度和效率的成果,但在改變采樣率時(shí)會(huì)出現(xiàn)偽影。為解決該問(wèn)題,本文引入了基于最大采樣頻率的 3D 平滑濾波器,限制了高斯基元的大小,消除了放大時(shí)的高頻偽影。同時(shí),用 2D Mip 濾波器替代 2D 膨脹,模擬 2D 盒濾波器,減輕了混疊和膨脹問(wèn)題。評(píng)估結(jié)果顯示,在單尺度訓(xùn)練和多尺度測(cè)試下,該方法有效。
第二篇最佳學(xué)生論文頒發(fā)給了來(lái)自美國(guó)俄亥俄州立大學(xué)、微軟研究院、加州大學(xué)歐文分校、倫斯勒理工學(xué)院共同發(fā)布的《BioCLlP: A Vision Foundation Model for the Tree of Life》。
論文鏈接:https://arxiv.org/abs/2311.18803
代碼地址:https://imageomics.github.io/bioclip/
作者:Samuel Stevens, Jiaman (Lisa) Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee (Luke) Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun (Harry) Chao, Yu Su
論文介紹:自然界圖像的豐富性為生物信息學(xué)提供了寶貴數(shù)據(jù)源。盡管針對(duì)特定任務(wù)的計(jì)算方法和工具不斷涌現(xiàn),但它們通常不易適應(yīng)新問(wèn)題或擴(kuò)展到不同背景和數(shù)據(jù)集。為應(yīng)對(duì)這一挑戰(zhàn),本文創(chuàng)建了 TreeOfLife-10M 數(shù)據(jù)集,這是迄今為止最大和最多樣化的生物圖像數(shù)據(jù)集。BioCLIP 模型基于生命樹(shù)構(gòu)建,利用 TreeOfLife-10M 的多樣化生物圖像和結(jié)構(gòu)化知識(shí),展現(xiàn)出在細(xì)粒度生物分類任務(wù)中的卓越性能,顯著超越現(xiàn)有基線方法,其內(nèi)在評(píng)估揭示了 BioCLIP 的強(qiáng)泛化能力。
其他獎(jiǎng)項(xiàng)
本屆黃煦濤紀(jì)念獎(jiǎng)由 Andrea Vedaldi 獲得。
Andrea Vedaldi 是牛津大學(xué)計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)教授,也是 VGG(視覺(jué)幾何)組的成員。他的研究重點(diǎn)在于開(kāi)發(fā)計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)方法,以自動(dòng)理解圖像和視頻內(nèi)容。此外,他還在 2012 年至 2023 年期間擔(dān)任 Facebook AI Research(FAIR)的研究科學(xué)家,并在2023年成為 Meta AI 的研究科學(xué)家。
圖像視頻生成占領(lǐng)C位
從近期喬治亞理工學(xué)院計(jì)算機(jī)學(xué)院(College of Computing, Georgia Institute of Technology)對(duì) CVPR 2024 錄用數(shù)據(jù)的統(tǒng)計(jì)分析來(lái)看,論文主要涵蓋36個(gè)主題領(lǐng)域,排名前十的主題分別是:圖像和視頻合成與生成,三維視覺(jué),人體行為識(shí)別,視覺(jué)、語(yǔ)言與語(yǔ)言推理,底層視覺(jué),識(shí)別(分類、檢測(cè)、檢索),遷移學(xué)習(xí)與多模態(tài)學(xué)習(xí)。
其中,除了自動(dòng)駕駛與三維視覺(jué)這兩位熱點(diǎn)??屯猓衲昱旁谑孜坏年P(guān)鍵詞是圖像和視頻合成與生成(Image and video synthesis and generation),總計(jì)有 329 篇論文,成為了今年 CVPR 最火的研究主題。
熱門(mén)主題從去年的擴(kuò)散模型(Diffusion models)轉(zhuǎn)變?yōu)榻衲甑膱D像和視頻合成與生成,也同 Sora 在春節(jié)打響的開(kāi)門(mén)炮遙相呼應(yīng)。
在被 CVPR 接收的圖像和視頻合成與生成相關(guān)論文中,有不少過(guò)去幾個(gè)月令人驚艷的新科研成果或產(chǎn)品,比如谷歌 DeepMind 和研究院發(fā)布的 Instruct-Imagen。
Instruct-Imagen 是一個(gè)能夠處理異構(gòu)圖像生成任務(wù)并在未見(jiàn)過(guò)的任務(wù)上泛化的模型。有趣的是,谷歌團(tuán)隊(duì)引入了多模態(tài)指令生成圖像的任務(wù)表示,以精確地表達(dá)一系列生成意圖,并使用自然語(yǔ)言將不同的模態(tài)(例如文本、邊緣、風(fēng)格、主題等)融合起來(lái),使得豐富的生成意圖可以在統(tǒng)一的格式中標(biāo)準(zhǔn)化。
華東理工大學(xué)提出的 DisenDiff 注意校準(zhǔn)機(jī)制也被選為 Oral 文章,他們的工作旨在解決現(xiàn)有的文本到圖像(T2I)模型在個(gè)性化定制時(shí)無(wú)法保持視覺(jué)一致性和概念交叉影響的問(wèn)題。
該方法通過(guò)引入與類別綁定的學(xué)習(xí)型修飾符來(lái)捕捉多個(gè)概念的屬性,并在交叉注意力操作激活后分離和加強(qiáng)類別,以確保概念的全面性和獨(dú)立性。此外,通過(guò)抑制不同類別的注意力激活來(lái)減少概念間的相互影響。
實(shí)驗(yàn)結(jié)果表明,DisenDiff 在定性和定量評(píng)估中均優(yōu)于現(xiàn)有技術(shù),并能與 LoRA 和修復(fù)管道兼容,提供更豐富的交互體驗(yàn)。
擴(kuò)散模型在當(dāng)下可以說(shuō)主導(dǎo)了圖像生成這個(gè)領(lǐng)域,也對(duì)于大數(shù)據(jù)集展現(xiàn)出了強(qiáng)大的縮放性,由 NVIDIA 和 Aalto University 的研究人員撰寫(xiě)的《Analyzing and Improving the Training Dynamics of Diffusion Models》,關(guān)注點(diǎn)在于改進(jìn)擴(kuò)散模型的訓(xùn)練動(dòng)態(tài)。
該篇研究者在不改變 high-level 架構(gòu)的前提下,識(shí)別和糾正了流行的 ADM 擴(kuò)散模型中的幾個(gè)訓(xùn)練方面不均勻的原因。把 ImageNet 512×512 圖像生成任務(wù)的 FID 由原來(lái)的 2.41 降低到了 1.81,這是一個(gè)衡量生成圖像質(zhì)量的重要指標(biāo),將生成質(zhì)量和模型復(fù)雜度變得可視化。
研究者還提出了一種在訓(xùn)練完成后設(shè)置EMA參數(shù)的方法,允許在不增加多次訓(xùn)練成本的情況下精確調(diào)整EMA長(zhǎng)度,并揭示了其與網(wǎng)絡(luò)架構(gòu)、訓(xùn)練時(shí)間和引導(dǎo)的驚人交互作用。
這些突破性的研究,預(yù)示著人工智能在圖像生成領(lǐng)域,正在以前所未有的速度重塑藝術(shù)創(chuàng)作和視覺(jué)上內(nèi)容生產(chǎn)的邊界。
值得一提的是,今年恰好是生成對(duì)抗網(wǎng)絡(luò)(GANs)誕生的十周年。2014年,Ian Goodfellow 等人提出了深度學(xué)習(xí)領(lǐng)域的此項(xiàng)里程碑技術(shù),不僅開(kāi)辟了生成式模型的新領(lǐng)域,而且對(duì)無(wú)監(jiān)督學(xué)習(xí)產(chǎn)生了深遠(yuǎn)影響。
視覺(jué)基礎(chǔ)模型點(diǎn)燃現(xiàn)場(chǎng)
基于 Transformer,以及受到語(yǔ)言大模型的啟發(fā),計(jì)算機(jī)視覺(jué)領(lǐng)域在 2023 年以來(lái)對(duì)視覺(jué)基礎(chǔ)模型(VFM)的研究熱情高漲。
視覺(jué)基礎(chǔ)模型 (VFM),一般在特定的領(lǐng)域,像圖像分類、目標(biāo)檢測(cè)和圖像生成等眾多下游任務(wù)中表現(xiàn)突出。例如,多模態(tài) CLIP 模型擅長(zhǎng)零樣本視覺(jué)語(yǔ)言理解,自監(jiān)督學(xué)習(xí)模型DINOv2 擅長(zhǎng)語(yǔ)義分割,自監(jiān)督學(xué)習(xí)方法SAM 擅長(zhǎng)開(kāi)放詞匯實(shí)例分割。
CVPR 2024 共有 123 個(gè) workshop 與 24 場(chǎng) tutorial,在這個(gè)年度盛會(huì)的現(xiàn)場(chǎng),AI 科技評(píng)論觀察到:盡管視覺(jué)基礎(chǔ)模型的相關(guān)工作在被接收論文數(shù)量中的占比不大,但超過(guò) 10 場(chǎng)研討會(huì)以視覺(jué)基礎(chǔ)模型為主題,開(kāi)展了學(xué)習(xí)和應(yīng)用視覺(jué)基礎(chǔ)模型最前沿方法的討論。
比如 6 月 17 日舉行的第二屆基礎(chǔ)模型研討會(huì)上,與會(huì)者分享了視覺(jué)基礎(chǔ)模型和大語(yǔ)言模型的理論洞察、高效架構(gòu)設(shè)計(jì)以及卷積和圖混合網(wǎng)絡(luò)設(shè)計(jì)的研究,并探討了在圖像和視頻生成、不同監(jiān)督學(xué)習(xí)設(shè)置、多模態(tài)模型等,還討論了如何將基礎(chǔ)模型的前沿研究成果應(yīng)用于醫(yī)療、地球科學(xué)、遙感、生物、農(nóng)業(yè)和氣候科學(xué)等多個(gè)領(lǐng)域,以彌合研究與實(shí)際應(yīng)用之間的差距。
在「視覺(jué)基礎(chǔ)模型最新進(jìn)展」的分享會(huì)中,嘉賓們討論了用于多模態(tài)理解和生成的視覺(jué)基礎(chǔ)模型,基準(zhǔn)測(cè)試和評(píng)估視覺(jué)基礎(chǔ)模型,以及基于視覺(jué)基礎(chǔ)模型的智能體和其他高級(jí)系統(tǒng)。
分享嘉賓:Tiktok-Chunyuan Li
自 2020 年引入視覺(jué) Transformers(ViT)以來(lái),計(jì)算機(jī)視覺(jué)界見(jiàn)證了基于 Transformer 的計(jì)算機(jī)視覺(jué)模型的爆炸性增長(zhǎng),其應(yīng)用范圍從圖像分類到密集預(yù)測(cè)(如目標(biāo)檢測(cè)、分割)、視頻、自監(jiān)督學(xué)習(xí)、3D和多模態(tài)學(xué)習(xí)。
因此,CVPR 2024 中的第三屆視覺(jué) Transformer 研討會(huì)將會(huì)議重點(diǎn)放在了為視覺(jué)任務(wù)設(shè)計(jì) Transformer 模型的機(jī)遇和其開(kāi)放性挑戰(zhàn)之中。
機(jī)器遺忘(Machine Unlearning,也稱遺忘學(xué)習(xí))對(duì)基礎(chǔ)模型的重要性同樣不言而喻,專注于從預(yù)訓(xùn)練模型中剔除那些不再需要的數(shù)據(jù),如個(gè)人隱私信息或違反法規(guī)的數(shù)據(jù),并確保模型繼續(xù)發(fā)揮其應(yīng)有的功能而不受影響,因此 CVPR 2024 中也有研討會(huì)集中討論視覺(jué)基礎(chǔ)模型中機(jī)器遺忘的運(yùn)用。
而 3D 基礎(chǔ)模型的發(fā)展正成為自然語(yǔ)言處理和 2D 視覺(jué)之后的又一場(chǎng)技術(shù)革命,預(yù)示著在 3D 內(nèi)容創(chuàng)作、AR/VR、機(jī)器人技術(shù)和自動(dòng)駕駛等領(lǐng)域的廣泛應(yīng)用前景。CVPR 2024 的研討會(huì)還邀請(qǐng)了 3D 視覺(jué)領(lǐng)域的專家,共同探討 3D 基礎(chǔ)模型的構(gòu)建,包括數(shù)據(jù)集的選擇、模型應(yīng)針對(duì)的3D任務(wù)、架構(gòu)共識(shí)以及潛在應(yīng)用。
此外,基礎(chǔ)模型還被視為構(gòu)建更通用自主系統(tǒng)的新路徑,因其能夠從大量數(shù)據(jù)中學(xué)習(xí)并泛化到新任務(wù)。CVPR 2024 中有研討會(huì)關(guān)注自主系統(tǒng),探究基礎(chǔ)模型對(duì)自主代理的潛力,與會(huì)者們認(rèn)為未來(lái)在于可解釋的、端到端的模型,這些模型能夠理解世界并泛化到未訪問(wèn)的環(huán)境中。
CVPR 2024 的現(xiàn)場(chǎng)中還有研討會(huì)探討了對(duì)抗性機(jī)器學(xué)習(xí)的最新進(jìn)展和挑戰(zhàn),重點(diǎn)關(guān)注基礎(chǔ)模型的魯棒性,該 workshop 還組織了一場(chǎng)針對(duì)基礎(chǔ)模型的對(duì)抗性攻擊挑戰(zhàn)。
有的研討會(huì)則聚焦于醫(yī)學(xué)成像領(lǐng)域基礎(chǔ)模型的集成和應(yīng)用,討論涵蓋了各種醫(yī)學(xué)數(shù)據(jù)的最新技術(shù),如超聲心動(dòng)圖、眼底、病理學(xué)和放射學(xué),以及在臨床環(huán)境中使用基礎(chǔ)模型的實(shí)際挑戰(zhàn)。
寫(xiě)在最后
兩天前,Runway 時(shí)隔一年推出 Gen-3 Alpha,宣布視頻生成賽道王者歸來(lái)。在 CVPR 2024 的現(xiàn)場(chǎng),AI 科技評(píng)論也聽(tīng)到了關(guān)于 GPT-5 或于 3 個(gè)月后發(fā)布的消息,業(yè)內(nèi)對(duì)其推理能力與多模態(tài)能力更是報(bào)以期待。
那么,計(jì)算機(jī)視覺(jué)還有哪些熱點(diǎn)會(huì)是未來(lái)趨勢(shì)?圖像、視頻生成與視覺(jué)基礎(chǔ)模型的下一步發(fā)展在哪里?3D 視覺(jué)、自動(dòng)駕駛等往屆「花旦」又有何新動(dòng)態(tài)?機(jī)器人與具身智能有無(wú)新亮點(diǎn)?
讓我們一起期待,CVPR 2024 的精彩仍在繼續(xù)。
本文雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))作者 anna042023 將持續(xù)關(guān)注AI大模型領(lǐng)域的人事、企業(yè)、商業(yè)應(yīng)用以及行業(yè)發(fā)展趨勢(shì),歡迎添加交流,互通有無(wú)。雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。