類Sora模型到底懂不懂物理？字節(jié)完成系統(tǒng)性實(shí)驗(yàn)證明

本文作者：聰聰

2024-11-07 17:33

導(dǎo)語(yǔ)：視頻生成模型可以記憶訓(xùn)練案例，但暫時(shí)還無(wú)法真正理解物理規(guī)律，做到“舉一反三”。

Sora爆火以來(lái)，“視頻生成模型到底懂不懂物理規(guī)律”受到熱議，但業(yè)界一直未有研究證實(shí)。近日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)公布最新論文，研究歷時(shí)8個(gè)月，圍繞“視頻生成模型距離世界模型有多遠(yuǎn)”首次在業(yè)界完成系統(tǒng)性實(shí)驗(yàn)并給出明確結(jié)論：視頻生成模型可以記憶訓(xùn)練案例，但暫時(shí)還無(wú)法真正理解物理規(guī)律，做到“舉一反三”。

圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家楊立昆點(diǎn)贊并轉(zhuǎn)發(fā)了該研究，表示“結(jié)論不令人意外，但很高興終于有人做了這個(gè)嘗試！”

自O(shè)penAI發(fā)布Sora模型以來(lái)，很多視頻生成模型都會(huì)強(qiáng)調(diào)其生成結(jié)果對(duì)物理規(guī)律的遵循。豆包大模型視覺(jué)團(tuán)隊(duì)相關(guān)小組，對(duì)視頻生成模型究竟能否從視覺(jué)數(shù)據(jù)中“發(fā)現(xiàn)”并“理解”物理定律感到好奇，決定深入研究。

歷時(shí)8個(gè)月，該團(tuán)隊(duì)完成了業(yè)界首個(gè)系統(tǒng)性的實(shí)驗(yàn)研究。團(tuán)隊(duì)通過(guò)專門(mén)開(kāi)發(fā)的物理引擎合成了勻速直接運(yùn)動(dòng)、小球碰撞、拋物線運(yùn)動(dòng)等經(jīng)典物理場(chǎng)景的運(yùn)動(dòng)視頻，用于訓(xùn)練基于主流DiT架構(gòu)的視頻生成模型。然后，通過(guò)檢驗(yàn)?zāi)Ｐ秃罄m(xù)生成的視頻在運(yùn)動(dòng)和碰撞方面是否符合力學(xué)定律，判斷模型是否真正理解了物理規(guī)律，并具有“世界模型”的潛力。類Sora模型到底懂不懂物理？字節(jié)完成系統(tǒng)性實(shí)驗(yàn)證明

實(shí)驗(yàn)中設(shè)計(jì)的不同運(yùn)動(dòng)場(chǎng)景

豆包大模型團(tuán)隊(duì)的實(shí)驗(yàn)發(fā)現(xiàn)，即使遵循“Scaling Law”增大模型參數(shù)規(guī)模和數(shù)據(jù)量，模型依然無(wú)法抽象出一般物理規(guī)則，做到真正“理解”。

以最簡(jiǎn)單的勻速直線運(yùn)動(dòng)為例，當(dāng)模型學(xué)習(xí)了不同速度下小球保持勻速直線運(yùn)動(dòng)的訓(xùn)練數(shù)據(jù)后，給定初始幾幀，要求模型生成小球在訓(xùn)練集速度區(qū)間內(nèi)勻速直線運(yùn)動(dòng)的視頻，隨著模型參數(shù)和訓(xùn)練數(shù)據(jù)量的增加，生成的視頻逐漸更符合物理規(guī)律。

然而，當(dāng)要求模型生成未曾見(jiàn)過(guò)的速度區(qū)間（即超出訓(xùn)練數(shù)據(jù)范圍）的運(yùn)動(dòng)視頻時(shí)，模型突然不再遵循物理規(guī)律，并且無(wú)論如何增加模型參數(shù)或訓(xùn)練數(shù)據(jù)，生成的結(jié)果都沒(méi)有顯著改進(jìn)。這表明，視頻生成模型無(wú)法真正理解物理規(guī)律，也無(wú)法將這些規(guī)律泛化應(yīng)用到全新的場(chǎng)景中。

通過(guò)進(jìn)一步的實(shí)驗(yàn)分析，研究團(tuán)隊(duì)得出結(jié)論，“生成新視頻時(shí)，模型主要依賴對(duì)訓(xùn)練案例的記憶和匹配。視頻生成模型就像一個(gè)只會(huì)‘抄作業(yè)’的學(xué)生，一旦遇到從未見(jiàn)過(guò)的場(chǎng)景，如不同大小、速度的物體相互作用，就會(huì)‘犯迷糊’，生成結(jié)果與物理規(guī)則不符?！?/p>

不過(guò)，研究中也有一個(gè)好消息：如果訓(xùn)練視頻中所有概念和物體都是模型已熟悉的，此時(shí)加大訓(xùn)練視頻的復(fù)雜度，比如組合增加物體間的物理交互，通過(guò)加大訓(xùn)練數(shù)據(jù)，模型對(duì)物理規(guī)律的遵循將越來(lái)越好。這一結(jié)果可為視頻生成模型繼續(xù)提升表現(xiàn)提供啟發(fā)。

據(jù)了解，本研究?jī)晌缓诵囊蛔鞫挤浅Ｄ贻p，一位是95后，一位是00后，在豆包大模型團(tuán)隊(duì)專注視覺(jué)領(lǐng)域的基礎(chǔ)研究工作。作者們一直對(duì)世界模型感興趣，在8個(gè)月的探索中，他們閱讀了大量物理學(xué)研究文獻(xiàn)，也嘗試從游戲中獲得研發(fā)靈感，歷經(jīng)多次失敗后，最終一步步確定研究思路和實(shí)驗(yàn)方法。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))了解到，今年以來(lái)，字節(jié)跳動(dòng)在大模型領(lǐng)域不斷加大投入。不久前，字節(jié)豆包大模型團(tuán)隊(duì)還發(fā)起Top Seed人才計(jì)劃，在全球范圍持續(xù)招募大語(yǔ)言模型、視覺(jué)、語(yǔ)音、大模型基座等領(lǐng)域的頂尖研究人才，提供充分的創(chuàng)新探索空間。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

聰聰

主筆

個(gè)人微信：Congc_a，歡迎添加交流。

發(fā)私信

當(dāng)月熱門(mén)文章

類Sora模型到底懂不懂物理？字節(jié)完成系統(tǒng)性實(shí)驗(yàn)證明

類Sora模型到底懂不懂物理？字節(jié)完成系統(tǒng)性實(shí)驗(yàn)證明