丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給劉欣
發(fā)送

0

萬字長文實(shí)錄:RL 界與 CV 界的“世界模型”有什么不同?丨GAIR Live

本文作者: 劉欣   2025-08-31 17:11
導(dǎo)語:無論是自動駕駛還是具身智能,都在走向大規(guī)?;谑澜缒P偷挠?xùn)練之路。

 世界模型在人工智能領(lǐng)域中扮演著重要角色,能夠有效為智能體提供對復(fù)雜現(xiàn)實(shí)世界的內(nèi)在表征,使其像人類一樣理解世界運(yùn)行的邏輯與因果關(guān)系,對自動駕駛、具身智能的突破性發(fā)展至關(guān)重要,它已成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。

 2015年8月5日,雷峰網(wǎng)(公眾號:雷峰網(wǎng))、AI 科技評論 GAIR Live 品牌舉辦了一場主題為“世界模型——通向通用智能的關(guān)鍵拼圖”的線上圓桌沙龍。 

 圓桌主持人為清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)助理教授、智源學(xué)者趙昊,并邀請了寧波東方理工大學(xué)助理教授金鑫、浙江大學(xué)特聘研究員廖依伊、布里斯托大學(xué)助理教授楊夢月、伯克利人工智能實(shí)驗(yàn)室博士后研究員鄭文釗一起進(jìn)行了一場深度的討論。 

 會上主持人趙昊帶頭討論世界模型,先是探討其定義、范圍,接著分析強(qiáng)化學(xué)習(xí)界與計(jì)算機(jī)視覺界的世界模型的不同,隨后圍繞視頻生成、三維重建等內(nèi)容,剖析通用視頻生成模型向真正的世界模型的發(fā)展路徑,最后關(guān)注于落地場景,聚焦于自動駕駛以及具身智能,并探討構(gòu)建其世界模型的難點(diǎn)和方向。

 其中,四位嘉賓圍繞具身智能世界模型的構(gòu)建分別提出了自己的獨(dú)到見解: 

 鄭文釗認(rèn)為具身智能的問題與自動駕駛相似,未來應(yīng)該實(shí)現(xiàn)重建與生成的結(jié)合、提升三維建模精度,以及更精準(zhǔn)地判斷因果性,使因果性與物理規(guī)律更好契合,但由于具身智能的數(shù)據(jù)稀缺,純數(shù)據(jù)驅(qū)動很難訓(xùn)練出符合物理規(guī)律的世界模型,因此需要更好地建模物理規(guī)律,甚至將其“注入”模型。除了“真實(shí)到仿真再到真實(shí)”的路徑,更優(yōu)的方向可能是數(shù)據(jù)驅(qū)動與物理規(guī)律結(jié)合——探索如何通過某種方式將物理規(guī)律注入數(shù)據(jù)驅(qū)動模型,這可能是未來的趨勢。 

 金鑫也表示物理規(guī)律、物理真實(shí)性(physical world intelligence)對具身智能的世界模型很重要,探索方向不僅依賴數(shù)據(jù)驅(qū)動,還借鑒了傳統(tǒng)仿真領(lǐng)域的經(jīng)驗(yàn),結(jié)合圖形學(xué)中的物理建模方法(如楊氏模量、彈簧 - 質(zhì)量模型等基于規(guī)則的物理仿真)與數(shù)據(jù)驅(qū)動的生成模型(如AIGC生成模型),希望讓具身智能的世界模型既能保證物理真實(shí)性,又能實(shí)現(xiàn)外觀真實(shí)。 

 楊夢月則提出了她自己的思路,在具身場景中,通過某種機(jī)制或智能體捕捉物理規(guī)律,將其整合成因果模型,再利用該模型進(jìn)行反事實(shí)預(yù)測或推斷。 最后廖依伊對金鑫和鄭文釗的觀點(diǎn)表示贊同,還發(fā)出了路線選擇的疑問,她認(rèn)為核心問題在于:是否必須顯式建模3D?在2D層面能否學(xué)好交互?若有足夠訓(xùn)練數(shù)據(jù),2D學(xué)習(xí)交互可能更簡單——比如疊衣服、泥巴落地等非剛性物體場景,在3D中建模難度極大。如何做好2D與3D的結(jié)合,仍是難題。

以下是此次圓桌討論的精彩分享,AI 科技評論進(jìn)行了不改原意的編輯整理:

一、如何定義世界模型? 

 趙昊:大家好,歡迎來到本次線上研討會。我們將圍繞“世界模型——通向通用智能的關(guān)鍵拼圖”這一主題展開討論。我是趙昊,此前曾在北京大學(xué)和英特爾研究院工作,目前任職于清華大學(xué)智能產(chǎn)業(yè)研究院(AIR),主要從事計(jì)算機(jī)視覺、圖形學(xué)與機(jī)器人的交叉研究。世界模型作為串聯(lián)這些領(lǐng)域的核心技術(shù),我對其始終秉持堅(jiān)定的信念。 

 在正式開始前,我想先界定一下世界模型的范疇。從最狹義的角度來看,是自動駕駛領(lǐng)域的世界模型,這也是目前研究較多的方向;進(jìn)一步拓展,則是具身智能的世界模型;再往上,第三層可涵蓋通用視頻生成或傳感器生成模型;而最廣義的層面,我認(rèn)為是訓(xùn)練智能體的世界模型。 

 今天參與討論的幾位老師雖多來自計(jì)算機(jī)視覺領(lǐng)域,但考慮到AI科技評論的廣泛視野,我們的討論范圍應(yīng)當(dāng)進(jìn)一步擴(kuò)大。盡管部分領(lǐng)域,如自然語言處理(NLP)、智能體(Agent)等,我個人并非深耕其中,但既然舉辦此次線上研討會,就應(yīng)當(dāng)拓展討論邊界,最終聚焦到第四層級的核心議題——通用智能如何在世界模型中誕生。 

 當(dāng)然,考慮到今天受邀的幾位老師多具備計(jì)算機(jī)視覺(CV)背景,我們的討論可以從自動駕駛領(lǐng)域切入,再逐步向外延伸。畢竟不同領(lǐng)域的科學(xué)原理在本質(zhì)上存在共通之處。 

 金鑫:謝謝趙老師的開場。大家好,我是金鑫,目前任職于寧波東方理工大學(xué)信息學(xué)部。寧波東方理工大學(xué)是一所新型研究型大學(xué),目前正在全球范圍內(nèi)廣納賢才。 

 我是中國科學(xué)技術(shù)大學(xué)博士,研究方向包括空間智能及世界模型相關(guān)工作,一直與趙老師團(tuán)隊(duì)合作推進(jìn)自動駕駛相關(guān)研究,涉及基于 Occupancy-based 的生成等方向等等。 

 廖依伊:大家好,我是浙江大學(xué)特聘研究員廖依伊。我的求學(xué)和工作經(jīng)歷如下:我在浙江大學(xué)獲得博士學(xué)位,在德國馬普所從事博士后研究,所在組是搭建KITTI數(shù)據(jù)集的Autonomous Vision Group,在組里期間我主導(dǎo)了KITTI-360數(shù)據(jù)集的構(gòu)建工作,所以開始涉足自動駕駛相關(guān)研究。圍繞世界模型的方案,我們做了街景重建與生成。 

 我們近期研發(fā)的HUGSIM是一款基于3D高斯的仿真器,能夠與自動駕駛算法實(shí)現(xiàn)互動。正如趙老師所說,這屬于狹義的世界模型研究。今天非常期待能與各位老師探討,從狹義到廣義的世界模型發(fā)展。 

 楊夢月:我是楊夢月,去年10月加入布里斯托大學(xué)擔(dān)任助理教授,之前在UCL攻讀博士學(xué)位,導(dǎo)師是汪軍教授。我的研究方向最初是因果表征學(xué)習(xí),后來結(jié)合強(qiáng)化學(xué)習(xí)(RL)相關(guān)內(nèi)容,近期轉(zhuǎn)向世界模型研究,尤其聚焦于世界模型對世界規(guī)則的理解。我的研究方向可能不太偏向CV,更多側(cè)重于因果理解和表征學(xué)習(xí)。 

 鄭文釗:我是鄭文釗,目前在伯克利人工智能實(shí)驗(yàn)室從事博士后研究。我本科和博士均畢業(yè)于清華大學(xué),本科就讀于物理系。博士期間,我主要從事相似性度量等基礎(chǔ)研究,后期也涉足自動駕駛領(lǐng)域。我們始終堅(jiān)持基于世界模型的自動駕駛,之后也會將世界模型拓展至更通用的智能領(lǐng)。 

 趙昊:接下來我們正式進(jìn)入討論環(huán)節(jié)。開頭的這兩個話題,我想把我們討論的世界模型的Scope變得更大一點(diǎn)。 

 剛剛結(jié)束的智源大會也讓我學(xué)到了很多新知識。我個人主要是做 CV 的,CV 領(lǐng)域長期以來的觀點(diǎn)是通過重建物理世界、再做仿真和渲染來構(gòu)建世界模型,但在這次大會上,許多 senior 學(xué)者從更抽象的角度看待世界模型,將其視為通向通用智能的關(guān)鍵拼圖。盡管我們可能從自動駕駛汽車、機(jī)器人的角度出發(fā),但第一部分,我想從更通用的人工智能角度來思考這個問題。

 GPT為代表的LLM無疑是當(dāng)前人工智能領(lǐng)域的典范,但它也面臨一些問題。首先是數(shù)據(jù)短缺, 數(shù)據(jù)耗盡后GPT的發(fā)展可能會停滯;其次,GPT距離通用智能還有差距,它存在一些無法完成的任務(wù)。在智源大會上,我發(fā)現(xiàn)許多通用人工智能研究者也在關(guān)注世界模型,盡管他們心中的世界模型可能與我們 CV 領(lǐng)域狹義的虛擬世界模型不同,但他們都暢想,未來像GPT這樣的Agent能夠在真實(shí)物理世界中不斷探索學(xué)習(xí),從而實(shí)現(xiàn)通用人工智能。這是一個bigger scope。 

 我們可以將范圍稍作限制,聚焦于LeCun團(tuán)隊(duì)的世界模型研究,如JEPA、V-JEPA等,這些研究更grounded,方便我們展開討論。 

 經(jīng)常有人問我,CV 所做的視頻生成、三維重建等世界模型,與LeCun所說的通用世界模型有何區(qū)別與聯(lián)系。二者確實(shí)存在較大差異。了解LeCun學(xué)術(shù)流派的人知道,他創(chuàng)辦ICLR會議的核心關(guān)注點(diǎn)是表征學(xué)習(xí)。他所研究的世界模型更多是一種能夠表達(dá)和預(yù)測世界的通用表征思路,這種思路也更易被不具備太多三維視覺知識的通用人工智能研究者所理解。所以,我想從最寬泛的表征學(xué)習(xí)視角出發(fā),聽聽大家的看法。我隨機(jī)點(diǎn)一位,有請楊老師。

 楊夢月:我一直從事表征學(xué)習(xí)相關(guān)研究。在我看來,CV 與表征學(xué)習(xí)之間存在gap。表征學(xué)習(xí)的本質(zhì)是理解圖像或視頻背后的構(gòu)成的factor。圖像和視頻是高維空間的表現(xiàn),而控制這種表現(xiàn)的其實(shí)是低維feature space(特征空間)中的特征。 

 我們可以有多種方式來表示特征空間,例如大模型的embedding(嵌入)是一種表現(xiàn);我們也可以將特征空間完全可解釋化,明確某個具體嵌入所對應(yīng)的物理概念和語義含義。 

 當(dāng)前大模型的訓(xùn)練方式本質(zhì)上是對數(shù)據(jù)的模仿,并不關(guān)注表征學(xué)習(xí)層面,因此可能僅學(xué)到數(shù)據(jù)表面的樣子,容易出現(xiàn)“幻覺”問題,無法真正理解世界正在發(fā)生的事情,也不清楚自身行為及其可能導(dǎo)致的結(jié)果。 

 表征學(xué)習(xí)更偏向于可解釋的范疇。也就是說,我們希望Agent是真正理解世界背后的規(guī)則,——這個世界由哪些factor構(gòu)成,這些factor之間又存在怎樣的關(guān)系。 一旦理解了這些,智能體在做決策時,就不會僅僅基于像素級的圖像進(jìn)行預(yù)測并以此決策,而是通過理解事件背后的邏輯來行動。例如,知曉兩個因素之間的關(guān)聯(lián):當(dāng)機(jī)械臂要將小球運(yùn)到終點(diǎn)時,有兩種選擇——推球或者抓球。若它掌握了物理規(guī)則,就會知道當(dāng)?shù)孛婺Σ亮^高時,推球并非最佳選擇,轉(zhuǎn)而選擇抓起小球直接送至終點(diǎn),從而達(dá)成目標(biāo)狀態(tài)。   

世界模型的定義一直較為模糊,視頻生成、VLA乃至空間智能等相關(guān)技術(shù)都被籠統(tǒng)地歸為世界模型范疇。但現(xiàn)在越來越多的研究者認(rèn)為,若要讓智能體真正具備決策能力,必須讓它理解世界的運(yùn)行邏輯,否則決策可能因“幻覺”失效,尤其在高安全性場景中,看似無害的動作可能導(dǎo)致一些比較危險的狀態(tài)。 

 因此,要實(shí)現(xiàn)通用智能、讓智能體理解世界,還是要走表征學(xué)習(xí)的路子。表征學(xué)習(xí)包含多種技術(shù),我們所研究的因果分析便是其中之一。這種技術(shù)不僅關(guān)注factor間的相關(guān)關(guān)系,更著重探究因果關(guān)系,而掌握因果關(guān)系能幫助智能體做出更優(yōu)決策。以上就是我的觀點(diǎn)。 

 趙昊:楊老師的觀點(diǎn)很有意思,即當(dāng)前的表征可能只有correlation,而缺乏因果關(guān)系,這確實(shí)是值得深入研究的方向。那么,楊老師認(rèn)為完整的三維或四維世界表示作為一種factor表示方式,是否是必需的呢? 

 楊夢月:我認(rèn)為構(gòu)建3D或4D表示是一種新視角,對幫助到智能體理解世界,但它們之間的聯(lián)系還需進(jìn)一步探索,目前這方面的研究還比較匱乏。 

 在世界模型層面,我們通常對其有明確的界定標(biāo)準(zhǔn)。普通的預(yù)測模型(比如視頻生成過程)往往是基于當(dāng)前狀態(tài)預(yù)測下一個狀態(tài),而世界模型要有智能體交互的屬性。具體來說,能被統(tǒng)稱為世界模型的模型,其邏輯應(yīng)該是“當(dāng)前狀態(tài) + 智能體動作”通過模型函數(shù)映射到“下一狀態(tài)”。這里的動作既可以是顯性的,也可以是隱性的,關(guān)鍵是模型要能明確回答“當(dāng)前采取某動作后,下一步會呈現(xiàn)什么狀態(tài)”。

 按照這個定義,當(dāng)前的 3D、4D 生成技術(shù)雖然實(shí)現(xiàn)了對世界的重建,但尚未充分融入動作因素,也沒有考慮到動作對空間內(nèi)部各因素相互作用的影響,因此與嚴(yán)格意義上的世界模型仍有差距。

 當(dāng)然,目前世界模型的定義還比較寬泛,但如果要進(jìn)一步明確其核心內(nèi)涵,就必須在模型中構(gòu)建交互層面的建模,這是不可或缺的關(guān)鍵環(huán)節(jié)。 

 趙昊:我完全同意。我們CV領(lǐng)域的研究者常常關(guān)注傳感器數(shù)據(jù)的渲染質(zhì)量,卻不太重視交互輸入,這是我們領(lǐng)域存在的一個較大問題。不過,目前在自動駕駛和機(jī)器人領(lǐng)域,已有不少視覺模型研究引入了動作因素。 

 聽到楊老師的觀點(diǎn),她認(rèn)為我們當(dāng)前研究的最大問題是缺乏動作因素,我自己也意識到了這一點(diǎn)。我也分享一個觀點(diǎn):我們真的必須依賴3D表征嗎?看起來3D表征并非在所有場景下都是必需的,比如我們根據(jù)牛頓定律建模了以后,模型就可以根據(jù)物理規(guī)律來運(yùn)行輸出,這就不需要表征學(xué)習(xí)。但是物理規(guī)律也可能失效,比如現(xiàn)在有了極限情況,你必須引入相對論來修正。

 我們計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域的研究者可能存在一種幻覺,認(rèn)為只要重建并仿真世界,就能完全掌握其規(guī)律,但物理模型永遠(yuǎn)不可能達(dá)到完美。所以從宏觀意義上看,或許完全數(shù)據(jù)驅(qū)動的表征學(xué)習(xí)反而是更正確的路徑。這一點(diǎn)我想聽聽鄭文釗的看法,因?yàn)槲抑浪行┱撐膬H在占用率(occupancy)層面開展研究,不會對傳感器數(shù)據(jù)進(jìn)行真實(shí)渲染。 

 鄭文釗:謝謝趙老師。我接著剛才的話題談?wù)勎业挠^點(diǎn)。如前所述,狹義的世界模型是對環(huán)境的建模,核心是接收智能體的交互動作作為輸入,并輸出對應(yīng)的反饋。 

 我們早期基于占用率的世界模型研究中就引入了action,當(dāng)時我們認(rèn)為世界模型不僅要對行為做出反饋,還應(yīng)輸出動作,因此在論文中將其定義為“泛化的世界模型”,但這一觀點(diǎn)在審稿人中存在爭議。直到現(xiàn)在,大家對世界模型的定義仍有分歧:它僅僅是對世界環(huán)境的建模并提供反饋,還是需要包含對世界運(yùn)行規(guī)律的自主建模? 

 但我認(rèn)為,若要邁向通用智能,世界模型的定義必須更泛化一些。這也是我認(rèn)同LeCun觀點(diǎn)的原因,他所強(qiáng)調(diào)的世界模型偏向通用范疇。從LeCun對智能系統(tǒng)的描述來看,其中包含世界模型、記憶模塊、行為模塊等,分別對應(yīng)空間智能、行為智能等能力,可見世界模型在通用智能中扮演著重要角色。

 盡管存在爭議,但從宏觀角度而言,我們的核心目標(biāo)是結(jié)合動作對環(huán)境進(jìn)行建模。接下來我想談?wù)勈澜缒P团c表征的關(guān)系:世界模型在某種程度上是更具泛化性的語言模型。大語言模型的核心范式是next token prediction,當(dāng)然現(xiàn)在有一些不同的語言模型并非采用這種范式。語言并不是數(shù)據(jù)驅(qū)動學(xué)習(xí)到的表征方式,它是人類通過數(shù)千年文化歷史凝練而成的對世界的描述,是人類定義好的認(rèn)知框架。 從這個角度來看,語言模型其實(shí)也是在預(yù)測未來會發(fā)生什么。

 除了語言之外,是否存在其他更完備、更細(xì)節(jié)的世界表征方式?這也是我認(rèn)為世界模型能成為比大語言模型更通用的基礎(chǔ)模型的原因——如果CV領(lǐng)域未來會出現(xiàn)類似大語言模型的核心模型,其形態(tài)很可能是世界模型,而其中最核心的就是表征的選擇。在NLP中,表征選擇很直接,就是語言本身。但在視覺領(lǐng)域或更通用的場景中,表征選擇需要更深入的考量:可以選擇像素,但像素僅能反映二維空間信息;我們之前的研究選擇占用率作為表征,因?yàn)槭澜绫举|(zhì)是三維的,可以稱為三維空間中的“像素”,類似于體素(Voxel),能更底層地描述三維空間。

 不過,是否存在更高層次的表征?這也是LeCun團(tuán)隊(duì)的研究方向。我推測他們可能認(rèn)為僅在像素空間建模不夠完善,更傾向于類似大語言模型選擇語言模態(tài)的思路——在視覺領(lǐng)域選擇更合適的表征。例如JEPA、V-JEPA通過自監(jiān)督學(xué)習(xí)提取特征,而他們最近發(fā)布的DINO-World,則選擇DINO作為世界表征,因?yàn)镈INO本身已包含對世界的語義提取。這些思路的共性是:世界模型的表征未必局限于像素,完全可以是更高層次的feature。 

 因此,若要將大語言模型的范式泛化至通用智能,世界模型是核心路徑,而表征選擇是關(guān)鍵。像JEPA、DINO等模型在語義描述上表現(xiàn)出色,但一個理想的世界模型表征還需具備其他特性:一方面要能對世界進(jìn)行抽象的語義描述,另一方面要具備三維建模能力。因?yàn)槲覀兯幍氖澜缡侨S的,未來邁向通用智能的話,要把三維空間最本質(zhì)的東西建模出來。 

 廖依伊:我非常贊成鄭老師剛才的觀點(diǎn)。不同的世界模型,包括LeCun提出的世界模型,我們基于純視頻生成的世界模型,核心區(qū)別其實(shí)在于對“x”的定義。正如楊老師之前強(qiáng)調(diào)的,如果我們將世界模型定義為“當(dāng)前狀態(tài)x(t) + 動作a(t) → 下一狀態(tài)x(t+1)”的映射關(guān)系,那么它們的核心差異就在于如何定義“x(t+1)”這個輸出目標(biāo)。 

 以視頻生成為例,我們并非直接在像素空間操作,而是在潛空間(latent space)中進(jìn)行,比如VAE的潛在空間。但VAE的潛在空間設(shè)計(jì)目標(biāo)是服務(wù)于像素解碼,因此未必能充分學(xué)習(xí)到語義信息。這也是鄭老師提到的JEPA、V-JEPA及V-JEPA 2等工作的價值——它們通過自監(jiān)督學(xué)習(xí),目標(biāo)是獲取更具語義的特征。

 LeCun在V-JEPA 2中的思路也是如此:先通過無監(jiān)督學(xué)習(xí)得到潛空間,再引入動作監(jiān)督進(jìn)行post training,最終將其轉(zhuǎn)化為世界模型??梢娫谶@一框架下,表征學(xué)習(xí)與世界模型是相輔相成的:良好的表征學(xué)習(xí)是構(gòu)建高性能世界模型的基礎(chǔ)。 

 一個值得探討的問題是,語義更豐富的世界表征是否更合理?從直觀上看,若潛空間的特征能實(shí)現(xiàn)更好的解耦并蘊(yùn)含更豐富的語義,后續(xù)的世界模型學(xué)習(xí)確實(shí)會更高效,這一點(diǎn)我非常認(rèn)同楊老師的觀點(diǎn)。   

 關(guān)于是否需要引入3D建模,我的看法是:如果僅考慮最簡單的動作場景——即自身的剛性運(yùn)動(rigid motion)(比如相機(jī)位姿變化),那么 3D 重建本身就能發(fā)揮重要作用。在 3D 重建任務(wù)中,一旦完成建模,就相當(dāng)于將動作因素(這里的相機(jī)位姿變化)從狀態(tài)中完全解耦出來。這意味著我們無需再通過學(xué)習(xí)的方式額外建模相機(jī)位姿,而是可以直接基于新的視角進(jìn)行渲染,這與楊老師提到的“潛空間中可解耦因素”的思路是一致的。因此,3D 建模的一大優(yōu)勢在于能夠顯式地將這類可解耦的因素(如相機(jī)位姿)完全解耦。當(dāng)然,對于一些難以解耦的復(fù)雜特征,仍然可以保留。 

 趙昊:廖老師說得非常好。我一直在思考,盡管潛在向量沒有顯式的3D信息,但作為一種抽象表征,或許能找到其與物理屬性的關(guān)聯(lián)。比如512維的token中,某些維度可能對應(yīng)材料屬性,某些對應(yīng)幾何結(jié)構(gòu),甚至可能包含表達(dá)復(fù)雜運(yùn)動的向量。這是一個很有潛力的研究方向。 

 不過關(guān)于是否引入3D信息,核心爭議在于“是否讓模型更好學(xué)”。廖老師的思路是引入3D表征,讓剩余維度專注學(xué)習(xí)物理建模難以覆蓋的復(fù)雜特征,這很合理。但也有學(xué)者持不同觀點(diǎn),比如彭老師推崇large view synthesis network,認(rèn)為未來無需依賴3D歸納偏置。這個話題比較專業(yè),我們先從更宏觀的層面繼續(xù)討論。有請金老師分享對世界模型表征學(xué)習(xí)思路的看法。 

 金鑫:Richard Feynman所說的“I could never create something I didn’t understand.”,我無法創(chuàng)造我不理解的東西。所以剛才楊老師等幾位老師提到的內(nèi)容,核心其實(shí)都指向表征學(xué)習(xí)——我們首先要理解世界,找到合適的表征,這個表征可能是3D的,也可能不是,比如V-JEPA、I-JEPA這類模型最初針對圖像構(gòu)建表征,就是在做這樣的探索。 

 找到合適的表征后,再基于它建立蘊(yùn)含物理規(guī)律和機(jī)制的世界模型。這條路徑的核心是“先理解再構(gòu)建”,把表征學(xué)習(xí)放在第一步,也就是先實(shí)現(xiàn)對世界的理解。

 我們團(tuán)隊(duì)近期一直在研究的“解耦表征學(xué)習(xí)”概念,源自2013年Bengio的研究,剛才廖老師也提到了這個關(guān)鍵詞——希望把3D相機(jī)位姿、3D歸納偏置解耦出來。今年我們在ICCV 2025舉辦了一個workshop,主題是“解耦表征學(xué)習(xí)與可控生成”,雖然聚焦可控生成,但仍被歸入表征學(xué)習(xí)專題。

 我對楊夢月老師那篇引用率很高的Causal VAE論文非常熟悉,經(jīng)常讓學(xué)生以它為baseline對比表征解耦的性能。我們做了很多表征解耦的工作,因?yàn)槲覀冋J(rèn)為理解世界的方式有很多,自監(jiān)督學(xué)習(xí)、MIM等都是,而表征解耦也是其中一種,能將特征層面、特征域、特征空間中的因素分離,找到關(guān)鍵因素并讓它們保持正交。比如在圖像中,將物體的大小、顏色、屬性等在特征域中明確解耦,這不僅能提升AI的可解釋性,還能為后續(xù)的生成、世界模型構(gòu)建、高層規(guī)劃等任務(wù)提供便利。

 趙老師從JEPA思路出發(fā)探討世界模型,我覺得很有道理。JEPA也是先通過感知理解世界,再建立世界模型,這與“先理解再創(chuàng)造/生成”的邏輯一致。現(xiàn)在大模型也強(qiáng)調(diào)融合理解與生成能力,包括我們后面要討論的“生成與理解、重建是否需要統(tǒng)一”,這些概念和思路其實(shí)是相通的。 

 我再補(bǔ)充一個觀點(diǎn),我之前做過很多圖像視頻編碼壓縮的研究,有句話印象很深——“壓縮即智能”。深度學(xué)習(xí)的本質(zhì)是一個熵減的過程,去除圖像、視頻中的冗余和相關(guān)性,保留最核心、最原始的關(guān)鍵信息。 

 在編碼壓縮領(lǐng)域,那些無法再進(jìn)行熵估計(jì)和冗余去除的信息,就是我們理想中的表征。做世界模型時也是如此,需要找到這些關(guān)鍵因素和表征,它們可能無法完全理想化解耦,正如楊老師所說,可能存在關(guān)聯(lián)和因果關(guān)系。這就是我的觀點(diǎn)。 

 二、RL與CV的世界模型有何不同? 

 趙昊:接下來我們進(jìn)入下一個問題。楊老師剛才提到,當(dāng)前許多視頻生成工作因缺乏動作因素而存在不足。那么RL界與CV界的世界模型有哪些不同?我認(rèn)為動作因素可能是主要差異。接下來我們具體探討技術(shù)路徑,如何讓世界模型真正對動作、決策制定發(fā)揮作用。有請金老師先發(fā)言。

 金鑫:雖然我自己親手寫RL代碼的經(jīng)驗(yàn)不多,但通過和學(xué)生的討論(我的學(xué)生中有做RL的),我了解到強(qiáng)RL分為基于模型(model-based)和無模型(model-free)兩種類型。其中,基于模型的RL所構(gòu)建的“模型”,我的理解是對環(huán)境的一種代理或模擬。簡單來說,就是建立一個環(huán)境模型,然后用這個模型輸出環(huán)境的轉(zhuǎn)移函數(shù)等信息,智能體基于這些信息進(jìn)行學(xué)習(xí)。 

 2018 年 David Ha 和 Jürgen Schmidhuber 關(guān)于世界模型的那篇論文,就和強(qiáng)化學(xué)習(xí)做了一些對比。所以我個人理解,強(qiáng)化學(xué)習(xí)中基于模型的“模型”,與 CV 領(lǐng)域用于自動駕駛等場景的世界模型模擬器,核心都是通過模擬環(huán)境讓智能體進(jìn)行交互訓(xùn)練。 

 我們CV里面經(jīng)常會用到 “simulator”(模擬器)這個詞,它本質(zhì)上就是對環(huán)境的模擬 —— 構(gòu)建出環(huán)境后,讓智能體在里面通過動作交互進(jìn)行訓(xùn)練,這和趙老師一直強(qiáng)調(diào)的“action”是相呼應(yīng)的。這只是我的個人理解,可能不一定準(zhǔn)確,歡迎大家交流指正。 

 楊夢月:我在強(qiáng)化學(xué)習(xí)方面的研究相對多一些。我認(rèn)為RL與CV的世界模型的核心區(qū)別在于服務(wù)對象不同。CV界的核心是建模世界本身,關(guān)注如何刻畫世界的形態(tài);而RL界的核心是智能體,建模世界的最終目的是服務(wù)于智能體,讓它掌握世界知識,進(jìn)而提升自身的決策策略policy。   

 正如趙老師所說,NLP領(lǐng)域面臨數(shù)據(jù)有限的問題,CV領(lǐng)域雖然數(shù)據(jù)量更大,但也可能存在類似瓶頸。我們近期在世界模型研究中使用了一個較新的觀點(diǎn),名為“開放性”(open endedness),其實(shí)質(zhì)是“自我提升智能體”(self-improve agent)。具體來說,若想提升智能體性能,我們可以通過數(shù)據(jù)訓(xùn)練,但當(dāng)數(shù)據(jù)量有限,無法支撐智能體理解世界上所有事件間的關(guān)系時,就需要讓智能體主動探索,比如通過自問自答的方式學(xué)習(xí)。 

 例如在代碼生成領(lǐng)域,讓智能體自己提出新的代碼問題;在開放世界游戲中,讓它自主構(gòu)建task。生成task的過程本身就是世界模型的建模過程,但其最終目標(biāo)是提升智能體的決策能力和泛化能力,而非讓智能體簡單過擬合于某個特定環(huán)境,而是使其具備理解世界、自主構(gòu)建世界模型的能力。 

 趙昊:比如做RL的研究者,就算沒有圖像,他們將編碼環(huán)境中“智能體自己給自己出題”的過程也稱為世界模型嗎? 

 楊夢月:最廣義的世界模型,可以建模任何規(guī)則,這些規(guī)則不一定局限于物理規(guī)則,數(shù)學(xué)規(guī)則、代碼運(yùn)行機(jī)制等也屬于規(guī)則范疇。世界模型的核心目標(biāo)是讓智能體在特定環(huán)境或任務(wù)中,具備理解該環(huán)境或任務(wù)規(guī)則的能力。 

 世界模型的建模方式具有多樣性,生物、化學(xué)等領(lǐng)域都有其獨(dú)特規(guī)則。但這些規(guī)則未必都像物理規(guī)則那樣明顯,也未必有成熟的模擬器支持訓(xùn)練。許多環(huán)境中的規(guī)則是隱性的,比如ChatGPT,它的生成規(guī)則也屬于一種世界規(guī)則,但這種規(guī)則的概率屬性就非常大。

 所以對于不同的環(huán)境,可能都有其對應(yīng)的世界模型建模方法,這些方法都可以統(tǒng)稱為世界模型。

 我今年在 ICLR上組織了一個關(guān)于世界模型的研討會,當(dāng)時我們希望征集的稿件能覆蓋各個領(lǐng)域,比如自然科學(xué)、社會科學(xué)、數(shù)學(xué)等。實(shí)際上,我們也收到了一些比較特別的投稿,它們都將自己的研究稱為世界模型。我認(rèn)為世界模型最核心的特質(zhì)是能夠建模世界背后的規(guī)律,并且智能體能夠借此與世界進(jìn)行交互。

 廖依伊:我覺得楊老師剛剛的觀點(diǎn)非常有意思,這讓我想到一個問題:CV 所說的世界模型是否無法服務(wù)于Agent的訓(xùn)練呢?可能有的也未必。 

 RL界的世界模型和CV界的世界模型有什么不同?我的理解是這樣的,一方面,正如我們之前討論的“x(t) + a(t) → x(t+1)”框架,CV界確實(shí)更關(guān)注與圖像平面相關(guān)的狀態(tài)變量x;而在RL界,狀態(tài)變量不一定局限于圖像平面,可以是任意形式的抽象狀態(tài)。另一方面,據(jù)我觀察,RL在涉及世界模型時,通常不僅要預(yù)測下一狀態(tài)x(t+1),還要學(xué)習(xí)獎勵(reward)。如果能直接學(xué)到獎勵,就可以基于此進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練和后續(xù)決策。 

 但目前CV界在視頻生成(無論是3D還是純視頻路線)中,更關(guān)注預(yù)測下一時刻的視覺呈現(xiàn),比如畫面“長什么樣子”,卻很少考慮獎勵機(jī)制。舉個例子,在視頻生成中,即使模擬車輛即將撞車,模型也可能因?yàn)槿狈ψ曹嚁?shù)據(jù)而繼續(xù)生成車輛前行的畫面,不會提示“撞車”這個負(fù)面結(jié)果。所以,獎勵確實(shí)是CV界世界模型目前較少考慮的點(diǎn)。 

 比如LeCun團(tuán)隊(duì)今年在ICML上發(fā)表的“Navigation World Model”研究,就將自身運(yùn)動作為action,輸出圖像平面結(jié)果,并基于“目標(biāo)圖像”(goal image)定義獎勵。在這種情況下,即使模型沒有直接學(xué)習(xí)獎勵,也能通過生成圖像與目標(biāo)圖像的對比構(gòu)造獎勵,進(jìn)而基于模型的控制思路遍歷路徑空間,實(shí)現(xiàn)導(dǎo)航、抓取等任務(wù)。這么做的話還是可以服務(wù)于Agent的。 

 趙昊:廖老師提到的這一點(diǎn)很關(guān)鍵:我們現(xiàn)在做的這些世界模型,大部分確實(shí)沒有考慮reward。這是一個很好的研究方向,我們都可以嘗試探索。如果能在今年的ICLR和CVPR投稿中探討“如何在CV的視頻生成世界模型中引入獎勵”,會是非常好的選題。感謝廖老師的分享。最后有請鄭老師也來分享一下看法。

 鄭文釗:我對RL其實(shí)不是特別懂,所以簡單說一下我的觀點(diǎn),不一定正確。但我很認(rèn)同剛才幾位老師的看法,總結(jié)來說,我認(rèn)為RL界的世界模型和CV界世界模型主要區(qū)別在于,RL界的世界模型更類似判別式模型,當(dāng)Agent在環(huán)境中執(zhí)行某個動作后,它會輸出一個獎勵值。而CV界的世界模型更像生成式模型,它不會評判行為的好壞,而是告訴你這個行為會導(dǎo)致世界呈現(xiàn)出什么樣的狀態(tài)。 

 比如在自動駕駛場景中,若使用RL界的模型,當(dāng)車輛前行即將撞車時,它只會反饋“撞上了,獎勵值為-1000”,而不會展示撞車后的畫面;但CV界的世界模型會生成撞車后的具體圖像,而非直接告知后果。這是第一個區(qū)別。   

 第二個區(qū)別,我結(jié)合剛才楊老師的觀點(diǎn)補(bǔ)充一下,判別式模型在很多情況下聚焦于從輸入x到輸出y的映射,而生成式模型則會同時對p(x,y)進(jìn)行建模。由此我認(rèn)為,RL界的世界模型更多是一種局部模型,它必須依賴Agent獲取反饋,正如楊老師所說,其核心是為Agent服務(wù)。但CV界的世界模型更接近獨(dú)立運(yùn)行的模型,它可以不依賴智能體,獨(dú)立建模世界的運(yùn)行規(guī)律。 而且它是全局模型,如果有Agent在其中交互,理論上也能基于模型計(jì)算獎勵。不過目前這類獎勵計(jì)算的方法還比較缺乏,但基于模型對未來的預(yù)測,其實(shí)是有可能推導(dǎo)出獎勵的。

 這就引出了第三個區(qū)別,RL界的世界模型更多是反饋機(jī)制,不涉及動作建模,動作由Agent單獨(dú)處理;而CV界的世界模型可以給出Action??偨Y(jié)來說,CV界的世界模型更通用,涵蓋世界與動作建模;RL界的世界模型則更狹義,主要是對智能體動作的反饋。   

 趙昊:我總結(jié)一下,當(dāng)前CV界的世界模型已經(jīng)取得不錯進(jìn)展,動作因素也已被引入,但尚未大規(guī)模應(yīng)用并產(chǎn)生變革性影響,關(guān)鍵就在于缺乏獎勵機(jī)制。只要定義好獎勵,我們現(xiàn)在做的視頻生成模型、數(shù)據(jù)生成模型就能很快在自動駕駛、具身智能、通用智能體等領(lǐng)域發(fā)揮作用。這是一個很好的趨勢性觀點(diǎn)。 

 三、通用視頻生成 

 趙昊:我們已經(jīng)討論完兩個比較抽象的問題,接下來進(jìn)入專場環(huán)節(jié),聚焦視頻生成、三維重建等內(nèi)容。第一個問題通用視頻生成模型什么時候能變成真正的世界模型? 

 通用視頻生成模型的發(fā)展速度遠(yuǎn)超我的預(yù)期。去年三月,很多圖形學(xué)老師還認(rèn)為視頻生成模型缺乏物理規(guī)律,發(fā)展尚早,現(xiàn)在這些聲音已經(jīng)很少了,數(shù)據(jù)驅(qū)動的力量確實(shí)不容小覷。我很好奇大家對其發(fā)展速度和演變趨勢的看法,請廖老師先講。 

 廖依伊:謝謝趙老師。關(guān)于通用視頻生成模型的發(fā)展,我確實(shí)不敢下結(jié)論,因?yàn)樗倪M(jìn)步正如您所說,超乎想象。至于“通用視頻生成模型如何變成真正的世界模型”這個問題,我認(rèn)為答案相對清晰,還是要回到我們之前達(dá)成的共識,世界模型需要具備動作(action)和因果性(causality)。

 當(dāng)前最先進(jìn)的視頻生成方法大多采用“三維注意力機(jī)制”(3D attention),將空間(spatial)和時間(temporal)維度的 token 聯(lián)合處理生成視頻。但真正的世界模型需要滿足“x(t) + a(t) → x(t+1)”的邏輯,即基于當(dāng)前狀態(tài)和動作,預(yù)測下一幀的觀測結(jié)果。 

 近期已有相關(guān)研究嘗試引入因果信息,例如在注意力機(jī)制中限制時序依賴——第二幀僅關(guān)注第一幀和自身,第三幀僅關(guān)注前兩幀和自身,通過這種方式強(qiáng)化因果關(guān)系,我認(rèn)為這是合理的探索方向。而動作因素的引入仍存在開放性問題:比如建模自身相機(jī)位姿這類動作相對容易,但世界中其他動態(tài)物體的動作是否需要建模?若要建模,該如何設(shè)計(jì)?當(dāng)然,也可以如鄭老師所說,將無關(guān)動態(tài)歸為噪聲,建模未來的所有可能性,但世界模型的核心目標(biāo)是什么、動作部分如何設(shè)計(jì),這里還有很多問題。 

 趙昊:我完全同意這個觀點(diǎn)。以前我認(rèn)為開發(fā)基于diffusion 的Game Engine沒什么用,因?yàn)樗唐趦?nèi)不可能替代游戲行業(yè),且這類模型缺乏三維表征。但現(xiàn)在我認(rèn)為它是重要的代理任務(wù)(Proxy Task),比單純的多媒體視頻生成模型更接近世界模型的終極目標(biāo),是很好的研究載體。因此,動作條件下的通用視頻生成模型若能進(jìn)一步優(yōu)化,我們就離真正的世界模型更近一步。接下來有請鄭老師分享看法。 

 鄭文釗:我比較同意剛才廖老師的觀點(diǎn)。關(guān)于通用視頻生成模型與世界模型的區(qū)別,之前很多人認(rèn)為,前者可能存在虛假內(nèi)容,后者需在視覺和物理層面都真實(shí),但這種看法并不本質(zhì)。隨著技術(shù)發(fā)展,視頻生成模型中可能隱含物理規(guī)律,至于具體怎么做,是否通過三維表征實(shí)現(xiàn)更優(yōu)建模,屬于技術(shù)路徑問題,并非核心差異。 

 實(shí)際上,當(dāng)前許多生成模型已能建模部分物理規(guī)律。伯克利的Trevor老師曾有一篇有趣的研究講過,盡管物理規(guī)律難以直接定義,但數(shù)據(jù)驅(qū)動的視頻生成模型可通過學(xué)習(xí)挖掘物理規(guī)律,即數(shù)據(jù)驅(qū)動在一定程度上能捕獲物理規(guī)律。因此回到核心問題,我認(rèn)為廖老師的觀點(diǎn)非常正確:通用視頻生成模型與世界模型目前最大的gap,在于對動作的反饋機(jī)制。具體包括:一是動作的定義方式(如路徑類動作易定義,但復(fù)雜交互動作如何定義);二是視頻生成模型能否對動作做出準(zhǔn)確反饋;三是反饋與動作之間是否存在合理的因果關(guān)系。 

 趙昊:聽完鄭老師的分享,我忍不住想分享自己的觀點(diǎn)。我認(rèn)為當(dāng)前通用視頻模型要發(fā)展為真正的世界模型,缺少的是編輯能力、文本對齊能力和指令遵循能力。今年年初, GPT-4o等模型的編輯能力給人帶來巨大震撼——用戶輸入指令后,模型能精準(zhǔn)執(zhí)行。如果這不是專門調(diào)優(yōu)的結(jié)果,那么這類模型的圖片編輯能力已接近世界模型,因?yàn)樗軐⑷我庵噶钷D(zhuǎn)化為對應(yīng)的視覺內(nèi)容(盡管在精細(xì)的數(shù)量、位置描述上仍有不足)。   

 我認(rèn)為編輯能力是比 action condition 更好的task。當(dāng)通用視頻生成模型能像GPT-4o一樣,通過文本指令實(shí)現(xiàn)高精度編輯時,無論其內(nèi)部原理如何,它必然已經(jīng)學(xué)到了關(guān)于世界的某些知識。所以我的觀點(diǎn)是,通用視頻生成模型除了通過動作條件(如游戲引擎類模型)這條路徑外,視頻編輯能力的突破也至關(guān)重要 —— 編輯能力做好了,它就會無限接近真正的世界模型。這算是我的一個“暴論”,接下來有請楊老師分享觀點(diǎn)。 

 楊夢月:我對視頻生成領(lǐng)域了解不深,但聽了剛才的分析后有一些想法。我怕在使用視頻生成大模型時,有時會覺得生成內(nèi)容奇怪,可能是因?yàn)槲醋裱蚬P(guān)系。但因果關(guān)系是否為必需,需根據(jù)具體場景判斷。若要利用模型訓(xùn)練Agent,使其在真實(shí)世界具備決策和探索能力,就需要模型貼近真實(shí),遵循因果關(guān)系;但從視頻生成角度,可能無需嚴(yán)格遵循因果或物理規(guī)則。因?yàn)槿祟愐獎?chuàng)作,有時會突破常規(guī)認(rèn)知,反而能產(chǎn)生新穎的創(chuàng)意。 

 當(dāng)前視頻生成模型多基于被動數(shù)據(jù)學(xué)習(xí),若數(shù)據(jù)本身帶有傾向性,模型可能學(xué)到人類收集數(shù)據(jù)時的集體意識,進(jìn)而迸發(fā)新的創(chuàng)造力。因此需具體場景具體分析,部分場景需要因果關(guān)系支撐。 

 關(guān)于廖老師提到的動態(tài)建模問題,世界模型的定義本就非常廣義。Multi-Agent系統(tǒng)就是完全動態(tài)的,具有“智能體策略相互影響的循環(huán)關(guān)系”,例如自動駕駛場景中,兩輛車決策會相互作用,但這種動態(tài)過程仍存在某種均衡。這又回到最初的問題:如何衡量動態(tài)中的不變?可能需要引入獎勵模型,才能分析場景需求,從動態(tài)中提取靜態(tài)知識。 

 趙昊:楊老師的觀點(diǎn)很有意思。CV研究者常認(rèn)為,能真實(shí)重建物理世界的才是好的世界模型,但大家使用Sora時,常讓它生成不符合真實(shí)物理的內(nèi)容?;蛟S生成真實(shí)內(nèi)容并非評判世界模型好壞的唯一標(biāo)準(zhǔn)。 

 我觀察 Sora 的dashboard發(fā)現(xiàn),流量最高、被用戶推崇的視頻,大多是那些 “不太可能在真實(shí)世界中出現(xiàn)” 的內(nèi)容,它們可能符合基礎(chǔ)物理規(guī)律,但在現(xiàn)實(shí)中難以見到。這確實(shí)很有意思。接下來有請金老師分享對通用視頻生成模型的看法。 

 金鑫:幾位老師剛才從物理真實(shí)性、可編輯性等方面都做了很好的分享。楊老師的觀點(diǎn)讓我想到一個點(diǎn):生成與物理事實(shí)相違背的內(nèi)容,即“反事實(shí)生成”(counterfactual generation)。我記得之前某本書中提到智能的幾個階段,第一階段是“觀察”,第二階段是“行動”,第三階段是“想象”,是“what if”,想象“如果做了這件事會怎樣”,這種反事實(shí)生成能力或許是關(guān)鍵。 

 我認(rèn)為真正的世界模型若能生成全新場景或反事實(shí)結(jié)果,可能更接近通用智能,甚至涌現(xiàn)出新能力。若世界模型能學(xué)到甚至超越人類總結(jié)的既定的物理規(guī)則,會非常令人興奮。這是我的觀點(diǎn)。 

 趙昊:金老師的觀點(diǎn)很有啟發(fā)性。我剛才提到生成視頻中存在不符合真實(shí)物理規(guī)律的內(nèi)容,這是否真的代表模型具備反事實(shí)生成能力?我覺得不一定。反而可能是因?yàn)镾ora等模型在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)了大量互聯(lián)網(wǎng)視頻中的特效內(nèi)容,這些內(nèi)容并非真實(shí)物理世界的記錄,模型過擬合到了訓(xùn)練集中的視覺特效素材上。

 廖依伊:我想結(jié)合楊老師和金老師的觀點(diǎn)提個問題。若我們的最終目標(biāo)是通用智能體,使其能在真實(shí)世界交互并完成任務(wù),那么這些視覺特效數(shù)據(jù)對智能體而言是干擾還是有用呢? 

 楊夢月:我可以回答這個問題。今年有一個令我印象深刻的新流派,叫做open endedness。他們認(rèn)為,在數(shù)據(jù)有限的情況下,要提升Agent決策能力,需不斷為其生成新任務(wù)和新環(huán)境,這些環(huán)境可包含前所未有的元素。 

 我曾與蘇昊團(tuán)隊(duì)交流,他們現(xiàn)在也要涉足視頻生成領(lǐng)域,因?yàn)樗麄兪亲鰎obotics的,我就問為什么。他們表示,其實(shí)是希望將視頻生成的結(jié)果用于訓(xùn)練robotics agent,提升其某些能力。因?yàn)閷τ跈C(jī)器人而言,在真實(shí)環(huán)境中的探索代價是非常大的,比如讓智能體在真實(shí)環(huán)境中學(xué)習(xí)時,即使是在樣本復(fù)雜度可能不高的場景,在線探索也有很大的風(fēng)險和代價,因此,通過視頻生成輔助生成訓(xùn)練數(shù)據(jù),讓智能體能夠先獲得一些先驗(yàn)和反事實(shí)知識能在很大程度上提升樣本效率。 

 趙昊:open endedness(開放性),這個詞很好。關(guān)于通用視頻生成中的視覺特效數(shù)據(jù)是否“有毒”,這個觀點(diǎn)很值得探討。這很像NLP領(lǐng)域的問題:有些數(shù)據(jù)存在錯誤或冗余,被稱為“有毒數(shù)據(jù)”或“垃圾數(shù)據(jù)”,網(wǎng)上生成的這類內(nèi)容可能也存在類似問題。如何讓通用視頻生成模型在垂直領(lǐng)域做好對齊,視頻生成領(lǐng)域遲早會走到這一步。 

 四、自動駕駛的世界模型發(fā)展到哪兒了? 

 趙昊:好,我們進(jìn)入下一個問題,回到我們的老本行,來聊聊自動駕駛。我們都做了這么多年,什么時候才能到L4???首先有請金老師分享。 

 金鑫:很多學(xué)術(shù)界原本研究自動駕駛的老師,現(xiàn)在轉(zhuǎn)向了具身智能領(lǐng)域,這確實(shí)是很現(xiàn)實(shí)的情況。在我看來,學(xué)術(shù)界的特點(diǎn)是把技術(shù)做到 60% 或 70%,搭建好方法和原型后,剩下的 “最后一公里” 或 “最后 10%”會交由工業(yè)界完成。學(xué)術(shù)界注重方法與預(yù)研,工業(yè)界則更快地將其集成產(chǎn)品,因?yàn)樗麄冇懈鄡?yōu)秀工程師和具備產(chǎn)品思維的產(chǎn)品經(jīng)理。這是互聯(lián)網(wǎng)與 IT 技術(shù)發(fā)展至今的規(guī)律。 

 自動駕駛問題已相對清晰,所以并非是這些學(xué)術(shù)界的老師放棄了自動駕駛,反而它已接近落地階段。在硅谷,Waymo的自動駕駛出租車服務(wù)每天都在跑。我之前和華為的王新宇老師在論壇交流時,他提到自動駕駛的后續(xù)核心是工程化集成,華為也投入了很多人力做這些dirty work。 

 從自動駕駛轉(zhuǎn)向具身智能,要解決的問題更多、更復(fù)雜,這正是學(xué)術(shù)界需要重點(diǎn)突破的方向。在我看來,這不是跟風(fēng)轉(zhuǎn)向,而是合理的研究遞進(jìn)。自駕已經(jīng)有了很多的方案,已經(jīng)可以帶來價值了,可以先投入到市場,之后有了新問題之后大家可以繼續(xù)研究。 

 趙昊:金老師認(rèn)為自動駕駛已發(fā)展到一定階段,剩余工作由工業(yè)界大規(guī)模落地。我基本贊同,但覺得還存在一些技術(shù)問題。一是分辨率有待提高,二是視頻長度不足。這些技術(shù)難題大概率會在今年得到徹底解決。對于自動駕駛的場景片段(CLIP),真實(shí)數(shù)據(jù)通常是十幾秒的片段,我認(rèn)為如果模型能在一分鐘內(nèi)保持穩(wěn)定的生成質(zhì)量就足夠了;分辨率則是另一個技術(shù)難題,目前車廠使用的數(shù)據(jù)分辨率較高,但模型生成的分辨率仍偏低,這是很具體的技術(shù)層面問題。

 關(guān)于如何服務(wù)決策,我認(rèn)為今年還剩最后一個關(guān)鍵問題,“在自動駕駛世界模型中如何定義獎勵(reward)”。目前動作和高質(zhì)量傳感器數(shù)據(jù)生成能力已經(jīng)具備,就差獎勵機(jī)制。一旦獎勵建模完成,方法論就能形成閉環(huán),通過持續(xù)驗(yàn)證優(yōu)化,真正邁向 L4 級。接下來有請廖老師談?wù)勛詣玉{駛世界模型的下一步方向。 

 廖依伊:我的觀點(diǎn)和金老師略有不同。金老師提到自動駕駛已有很多落地算法,這一點(diǎn)我認(rèn)同:如果將世界模型定義為生成環(huán)境觀測、將AD模型定義為生成動作,那么在AD模型方面確實(shí)已有相對成熟的算法投入實(shí)際運(yùn)行。但我認(rèn)為,目前還沒有特別有說服力的工作,能證明自動駕駛世界模型在訓(xùn)練閉環(huán)中真正發(fā)揮了關(guān)鍵作用。 

 現(xiàn)在CV界的人,在世界模型研究中,關(guān)注的都是損失函數(shù),都是圖像生成或渲染質(zhì)量,無論是重建還是生成路線,都以峰值信噪比(PSNR)等指標(biāo)衡量,而沒有回到Agent上去。因?yàn)樯扇蝿?wù)更容易推進(jìn),大家更多先追求 “生成得好”。但實(shí)際中,路上跑的系統(tǒng)大多還是基于大量數(shù)據(jù)的模仿學(xué)習(xí)訓(xùn)練而成。

 目前,世界模型即便被應(yīng)用于自動駕駛,可能也只是作為驗(yàn)證工具,比如驗(yàn)證車輛在場景中能否正常行駛。但真正將世界模型納入訓(xùn)練閉環(huán),用它支持Agent訓(xùn)練并證明其有效性的工作,目前還較為缺乏。當(dāng)然也有一些初步的相關(guān)嘗試,例如地平線的RAD在3D高斯場景中開展了自動駕駛強(qiáng)化學(xué)習(xí)微調(diào)。我認(rèn)為從世界模型的角度來看,仍有許多問題值得探索。比如,當(dāng)前的3D高斯技術(shù)以及我們自研的模擬器,是否真的能有效縮小領(lǐng)域差距(domain gap),這一點(diǎn)就非常需要驗(yàn)證。 

 金鑫:我同意廖老師的觀點(diǎn)。剛才說的是自動駕駛整體算法層面,而針對自動駕駛世界模型,我認(rèn)為它才剛起步,或者說在追求更完備解決方案的道路上,大家的思路才剛轉(zhuǎn)變。兩年前,大家可能還在想著收集數(shù)據(jù)、自監(jiān)督訓(xùn)練,但慢慢發(fā)現(xiàn),數(shù)據(jù)無法窮盡所有邊緣案例(corner case),每次遇到新案例就補(bǔ)數(shù)據(jù),這種方式永遠(yuǎn)無法覆蓋所有情況。于是大家才轉(zhuǎn)向借助閉環(huán)模擬器(即世界模型)來輔助訓(xùn)練,不需要依賴持續(xù)收集數(shù)據(jù)就能學(xué)好,這個思路轉(zhuǎn)變其實(shí)才剛剛開始,還處于早期階段。 

 趙昊:總結(jié)廖老師的觀點(diǎn),下一步我們要走向大規(guī)?;谑澜缒P偷挠?xùn)練,我完全同意。這其中最核心的問題就是reward如何定義。接下來有請鄭老師分享自動駕駛世界模型的發(fā)展趨勢和下一個突破點(diǎn)。 

 鄭文釗:我整體還是比較認(rèn)同廖老師的觀點(diǎn)。在sora等模型出現(xiàn)后,大家開始探索如何將其遷移到自動駕駛場景,有些工作直接使用自動駕駛數(shù)據(jù)訓(xùn)練,但本質(zhì)上仍在像素(Pixel)空間建模;當(dāng)然還有另一類方法,比如我們之前做的工作,直接在三維空間(如占據(jù)空間、邊界框空間,或是后來的高斯空間)中建模,探索如何讓世界模型真正在三維空間用起來。 

 自動駕駛的特點(diǎn)是,對世界模型的精度要求極高,比如停車時可能需要厘米級的精度,“看起來對”是一回事,“實(shí)際能用”是另外一回事。像sora這類模型,看起來沒裝上,但是差幾厘米,后果差別是很大的。因此,自動駕駛世界模型目前的關(guān)鍵問題是:如何實(shí)現(xiàn)對未來的精準(zhǔn)預(yù)測,以及對動作的精準(zhǔn)響應(yīng)能力。

 從當(dāng)前趨勢來看,有一些工作開始走三維與二維結(jié)合的路線。三維重建的優(yōu)勢是在三維空間中精度較高,但缺乏想象能力,生成效果可能不夠自然,兩者結(jié)合可能是自動駕駛世界模型未來的發(fā)展趨勢之一。 第二點(diǎn)是泛化能力的提升,這關(guān)系到世界模型如何更好地落地。我認(rèn)為泛化性可分為兩個層面:第一是泛化到數(shù)據(jù)未覆蓋但符合物理規(guī)律的場景;第二類似之前提到的反事實(shí)(counter factual)泛化,即泛化到不真實(shí)的場景。我們需要第一種,比如數(shù)據(jù)中沒有撞車案例,模型能否想象出真實(shí)的拐彎碰撞場景。 

 第三點(diǎn)是如何用好世界模型,這也是金老師和廖老師提到的未來發(fā)展方向。結(jié)合我們早期的探索,我認(rèn)為可以從兩方面入手:一是讓世界模型具備預(yù)測action的能力。這類似人類開車,人具有有預(yù)測未來的能力,但很多時候人的動作是下意識的本能判斷(無需刻意思考左拐加速的后果);二是在有時間的情況下,模型可以像人一樣“深思熟慮”,比如模擬左拐、右拐的結(jié)果后選擇最優(yōu)動作。因此,世界模型在自動駕駛中的應(yīng)用不應(yīng)僅作為訓(xùn)練的獎勵機(jī)制,更應(yīng)轉(zhuǎn)化為一種預(yù)測范式,既包含“系統(tǒng)一”的本能反應(yīng),也包含“系統(tǒng)二”的深度決策。 

 趙昊:感謝鄭老師。我們聊了很多專業(yè)細(xì)節(jié),不知道普通聽眾會不會覺得難以理解?整體而言,鄭老師提到的一個觀點(diǎn)很有意思:當(dāng)前自動駕駛世界模型的基準(zhǔn)(Benchmark)性能還比較低,比如占據(jù)預(yù)測(occupancy)指標(biāo)在部分?jǐn)?shù)據(jù)集上僅二十幾,有些數(shù)據(jù)集能到四十幾,可能要等指標(biāo)提升到70左右,才能說模型相對成熟。 

 這就引出一個問題:隨著VGGT等視覺基礎(chǔ)模型的發(fā)展,自動駕駛數(shù)據(jù)集上的指標(biāo)卻難以上漲,大家覺得有什么新機(jī)會能推動指標(biāo)提升嗎?

 鄭文釗:有時可視化結(jié)果看起來不錯,但指標(biāo)只有20,這正反映了自動駕駛對精準(zhǔn)度的嚴(yán)格標(biāo)準(zhǔn)。趙老師提到的方向很關(guān)鍵:目前在基礎(chǔ)層面,自動駕駛還缺乏像VGGT那樣成熟的感知基礎(chǔ)模型?,F(xiàn)在大家訓(xùn)練的模型多基于早期的ResNet等架構(gòu),或未經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練的骨干網(wǎng)絡(luò)(backbone)。未來若能出現(xiàn)專為自動駕駛設(shè)計(jì)的感知基礎(chǔ)模型(perception foundation model for autonomous driving),性能應(yīng)該會有較大飛躍。 

 趙昊:我們最近用VGGT更多是做重建和仿真。長期來看,我和同行聊過一個觀點(diǎn):遲早會出現(xiàn)自動駕駛垂類的動態(tài)基礎(chǔ)模型?,F(xiàn)在已不是單純的VGGT,而是有了動態(tài)版本的SpatialTracker V2,它的性能非常強(qiáng),我們最近的工作都基于它。自動駕駛場景是動態(tài)的,必然需要適配動態(tài)場景的模型。如果能有這類垂類的SpatialTracker V2模,當(dāng)前的范圍檢測、occupancy mapping等任務(wù)的指標(biāo)都可能大幅提升,我們可以期待,這樣的工作誰能做出來,一定會很有影響力。 

 或許不如把所有自動駕駛數(shù)據(jù)整合起來,訓(xùn)練一個專屬的SpatialTracker,說不定今年自動駕駛感知任務(wù)能迎來突破。之前大家覺得Waymo上模型的檢測性能已觸頂,但今年或許能再漲一漲。最后有請楊老師分享看法。 

 楊夢月:我對自動駕駛領(lǐng)域的具體方法并不十分熟悉,但從金老師提到的關(guān)聯(lián)、干預(yù)與反事實(shí)推理角度來看,我們希望智能體具備反事實(shí)想象能力,那它就必須理解場景的因果結(jié)構(gòu)——這源于圖靈獎獲得者朱迪亞·珀?duì)?Judea Pearl)提出的“因果階梯”概念,他是因果推理領(lǐng)域的核心研究者。   

 因果推理的核心是“三層階梯”,而實(shí)現(xiàn)三層階梯的根本要求是理解系統(tǒng)內(nèi)部的運(yùn)行規(guī)則。因此,若要確保智能體具備想象能力,或是滿足安全層面的高要求,它必須掌握具體的物理規(guī)則和環(huán)境規(guī)則。此外好的世界模型,也無法捕捉現(xiàn)實(shí)世界的所有情況。這一方面受限于數(shù)據(jù),另一方面因?yàn)槭澜缒P驮谟?xùn)練之初就應(yīng)處于動態(tài)更新的閉環(huán)中,從RL的角度來看,這個過程是:首先通過經(jīng)驗(yàn)數(shù)據(jù)訓(xùn)練出轉(zhuǎn)移模型,再基于轉(zhuǎn)移模型做出決策。而決策結(jié)果與轉(zhuǎn)移模型預(yù)期結(jié)果的差異,就可以用來更新世界模型。因此,我認(rèn)為提升模型性能的一個重要方向是:不能僅依賴訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,還需要通過兩方面發(fā)力 —— 一方面要思考如何在真實(shí)系統(tǒng)中進(jìn)行干預(yù)并獲取真實(shí)反饋,這種干預(yù)是基于當(dāng)前對世界的理解(比如已有的世界模型)做出的決策;另一方面,當(dāng)決策執(zhí)行后,將收到的真實(shí)反饋用于更新當(dāng)前的世界模型。

 因此,模型訓(xùn)練應(yīng)從兩方面展開:一是從數(shù)據(jù)和仿真器中學(xué)習(xí);二是在保證安全的前提下,讓智能體在真實(shí)環(huán)境中進(jìn)行一定程度的探索,通過真實(shí)反饋持續(xù)自我更新。 

 五、具身智能的世界模型應(yīng)該如何構(gòu)建? 

 趙昊:我們接著討論下一個話題:具身智能的世界模型應(yīng)該如何構(gòu)建。具身智能世界模型目前尚未形成明確的范式、規(guī)范和定義,需要一個好的切入點(diǎn)來證明其價值,推動領(lǐng)域發(fā)展。 

 我覺得,具身智能的世界模型需要一個“觸發(fā)器”,一個能證明其價值的場景,這樣這個領(lǐng)域才能真正發(fā)展壯大,目前還缺少這樣的閉環(huán)機(jī)制。我還沒找到特別好的思路,也沒看到成熟的案例,但今年有兩個工作讓我印象深刻:一是賀老師團(tuán)隊(duì)的呂江燃在ICCV會議上做的工作,能用具身智能世界模型實(shí)現(xiàn)非預(yù)編程操作(non-prehensible manipulation);二是董老師團(tuán)隊(duì)的寧川若同學(xué)在RSS會議上發(fā)表的《Prompting with Future》,用高斯世界模型展現(xiàn)了規(guī)劃能力。這兩個工作可能是目前具身智能世界模型領(lǐng)域相對閉環(huán)的baseline案例,不過都還處于初期階段。想先問問鄭老師,若要研究具身智能世界模型,您認(rèn)為哪些技術(shù)路徑比較值得探索? 

 鄭文釗:我覺得具身智能的問題特點(diǎn)與自動駕駛有相似之處,比如都對三維精度有極高要求,甚至比自動駕駛更嚴(yán)格。自動駕駛場景相對宏大,而具身智能的抓取等場景可能需要毫米級精度——一旦誤差超過范圍,就可能抓取失敗,這是第一個挑戰(zhàn)。第二,物理規(guī)律在具身智能中扮演更重要的角色:自動駕駛的物理規(guī)律相對簡單(如車輛行駛),涉及的重力等復(fù)雜物理作用較少;但具身智能的抓取場景中,物理規(guī)律至關(guān)重要,這也是為什么大家常做real2sim2real的研究——需要先將真實(shí)場景映射到仿真空間,而仿真空間必須明確建模物理規(guī)律。 

 從發(fā)展階段看,具身智能的世界模型整體比自動駕駛稍落后,但有其獨(dú)特性,比如已有工作嘗試在仿真空間中建模物理規(guī)律,而自動駕駛領(lǐng)域缺乏對物理引擎(Physics engine)的深度建模,這是具身智能的一大特點(diǎn)。 

 未來具身智能世界模型的發(fā)展,我認(rèn)為有兩個方向:一是像自動駕駛中提到的,實(shí)現(xiàn)重建與生成的結(jié)合,提升三維建模精度;二是更精準(zhǔn)地判斷因果性,并讓因果性與物理規(guī)律更好契合。由于具身智能的數(shù)據(jù)稀缺,純數(shù)據(jù)驅(qū)動很難訓(xùn)練出符合物理規(guī)律的世界模型,因此需要更好地建模物理規(guī)律,甚至將其“注入”模型。除了real2sim2real的路徑,更優(yōu)的方向可能是數(shù)據(jù)驅(qū)動與物理規(guī)律結(jié)合——探索如何通過某種方式將物理規(guī)律注入數(shù)據(jù)驅(qū)動模型,這可能是未來的趨勢。 

 金鑫:我跟鄭老師觀點(diǎn)相似。我們最近半年也在做類似探索。記得去年年底會議上碰到廖老師,討論她的HUGSIM工作時,我曾建議是否考慮加入物理規(guī)則,讓仿真層(SIM layer)更具物理屬性。當(dāng)時廖老師反問:“物理性對自動駕駛?cè)蝿?wù)真的那么重要嗎?” 這個問題讓我深思,后來發(fā)現(xiàn)確實(shí)如此,自動駕駛中,除了天氣光照、路面積水反光(比如陳寶權(quán)老師團(tuán)隊(duì)做的相關(guān)研究)等邊緣場景,對物理規(guī)律的依賴并不強(qiáng)。但具身智能不同,機(jī)器人的夾爪摩擦力、力反饋,以及軟體、流體、鉸接體等的物理屬性,對任務(wù)影響極大。因此,物理真實(shí)性(physical world intelligence)對具身智能的世界模型反而更重要。 

 我們的探索方向和鄭老師提到的很接近:不僅依賴數(shù)據(jù)驅(qū)動,還借鑒了傳統(tǒng)仿真領(lǐng)域的經(jīng)驗(yàn),結(jié)合圖形學(xué)中的物理建模方法(如楊氏模量、彈簧 - 質(zhì)量模型等基于規(guī)則的物理仿真)與數(shù)據(jù)驅(qū)動的生成模型(如AIGC生成模型),希望讓具身智能的世界模型既能保證物理真實(shí)性,又能實(shí)現(xiàn)表現(xiàn)真實(shí)(appearance real)。 

 楊夢月:我對具身智能領(lǐng)域的了解確實(shí)比較有限,更多是從各位的觀點(diǎn)中學(xué)習(xí)。我的想法是,在具身場景中,能否通過某種機(jī)制或智能體捕捉物理規(guī)律,將其整合成因果模型,再利用該模型進(jìn)行反事實(shí)預(yù)測或推斷,大概是這樣的思路。 

 趙昊:我覺得這個觀點(diǎn)很有意思,這也是今年的一個重要趨勢。比如近期的4KAgent表現(xiàn)出色。我隱約感覺到,今年存在“算法Agent化”的趨勢。這個理論在2023年就已出現(xiàn)(比如Visual Programming團(tuán)隊(duì)關(guān)于tool using的best paper),但今年堪稱“Agent元年”,連寫代碼都能被Agent替代,因此,今年或許可以重新審視Auto ML、視覺編程等方向。 

 這個思路很有價值:世界模型未必是客觀被動的、被物理規(guī)則固化的存在,它能否成為主動演變的“環(huán)境Agent”,在與數(shù)據(jù)的互動中持續(xù)優(yōu)化?這是今年值得探索的有趣方向。 

 廖依伊:我總體贊成金老師和鄭老師的觀點(diǎn),思路確實(shí)比較相近。從自動駕駛世界模型到通用具身智能世界模型,兩者差異顯著:自動駕駛中,智能體與環(huán)境的交互很有限,主要是與路面的交互,路面可建模為平面,自車可用基礎(chǔ)模型簡化,其他物體(如車輛、行人)也有特定模型,場景相對局限。因此,自動駕駛中無論是視頻生成還是其他任務(wù),都容易回歸到3D建模,且3D渲染高效,操作便捷。 

 但具身智能中,3D固然重要(因涉及交互),但維度復(fù)雜度大幅提升——既包括智能體自身的維度,也包括與環(huán)境交互的維度。我一直在糾結(jié)路線選擇:是走2D路線,還是3D路線?比如今年Cosmos的工作采用“3D+2D”模式,先通過仿真器生成Mesh,再驅(qū)動生成逼真視頻,這確實(shí)是未來趨勢之一,但未必是唯一趨勢。核心問題在于:是否必須顯式建模3D?在2D層面能否學(xué)好交互?若有足夠訓(xùn)練數(shù)據(jù),2D學(xué)習(xí)交互可能更簡單——比如疊衣服、泥巴落地等非剛性物體場景,在3D中建模難度極大。如何做好2D與3D的結(jié)合,仍是難題。

 趙昊:完全同意。若3D、4D仿真過于復(fù)雜,不顯式建?;蛟S更好。 

 金鑫:還要考慮訓(xùn)練復(fù)雜度和推理效率——機(jī)械臂等硬件的算力有限,復(fù)雜建模會更麻煩。   

 趙昊:感謝四位老師的分享。希望今天的安排大家滿意。                    

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

萬字長文實(shí)錄:RL 界與 CV 界的“世界模型”有什么不同?丨GAIR Live

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說