DeepMind 發(fā)布超真實世界模型 Genie 3，AGI 向前一步

本文作者：梁丙鑒

2025-08-06 16:26

導(dǎo)語：物理一致性實現(xiàn)分鐘級質(zhì)變，研究團(tuán)隊稱實質(zhì)為涌現(xiàn)能力。

雷峰網(wǎng)訊

就在昨晚，谷歌宣布推出通用型世界模型 Genie 3。用戶可通過文本提示生成動態(tài)世界，以每秒 24 幀的速度進(jìn)行實時交互。更重要的是，Genie 3 的生成內(nèi)容可在 720p 分辨率下維持物理一致性“幾分鐘時間”，遠(yuǎn)超此前世界模型讀秒級水平。

根據(jù) DeepMind 的說法，Genie 3 是首個允許實時交互的世界模型。相較于該系列前作 Genie 2、游戲生成引擎 GameNGen 以及視頻生成模型 Veo，Genie 3 在生成內(nèi)容的連貫性上堪稱質(zhì)的飛躍，同時分辨率、交互性、延遲均在一流水平。

DeepMind 發(fā)布超真實世界模型 Genie 3，AGI 向前一步

Genie 3 在業(yè)內(nèi)人士之間也廣受好評。英偉達(dá)高級科學(xué)家的 Jim Fan 稱其是 Genie 1 基礎(chǔ)上的“量子飛躍”。DeepMind 前科學(xué)家 Tejas Kulkarni 專門為其撰寫長評，不僅高度評價 Genie 3 在通用性、物理規(guī)律、視覺記憶等方面的表現(xiàn)，更是稱之為“實現(xiàn) AGI 之前的最后一塊拼圖”。但同時，也指出其在多主體互動和長指令跟隨方面存在明顯缺陷。

DeepMind 發(fā)布超真實世界模型 Genie 3，AGI 向前一步

目前研究團(tuán)隊正為 Genie 3 尋找更多測試者，其中一個被寄予厚望的應(yīng)用場景是訓(xùn)練工具。不僅人類學(xué)生可以借助世界模型進(jìn)行學(xué)習(xí)、積累經(jīng)驗，對于 Agent 來說，世界模型也意味著在多樣化的交互環(huán)境中進(jìn)行不斷訓(xùn)練和性能評估成為可能。Agent 有望借此理解其行為如何影響環(huán)境的變化，并學(xué)著預(yù)測環(huán)境的演變。

“世界模型是通往通用人工智能（AGI）道路上的關(guān)鍵里程碑?！痹搱F(tuán)隊表示。

連貫性質(zhì)變：從秒級到分鐘級

Genie 3 甫一發(fā)布便引起熱議，甚至有用戶 @el.cine 將其比作又一個 GPT 時刻。

DeepMind 發(fā)布超真實世界模型 Genie 3，AGI 向前一步

Genie 3 研發(fā)團(tuán)隊的 Matt McGill 分享了自己生成的視頻，稱自己讓角色試著”低頭看看鞋，看模型是否理解什么是水坑”。用戶@Boston | Capx AI 在其評論區(qū)感嘆：“谷歌街景?！?/p>

看到 Genie 3 的生成效果，用戶@The Canaanite 提醒 DeepMind 看好自家工程師，“Zuck 已經(jīng)在提著十億年薪趕來的路上?！?/p>

DeepMind 發(fā)布超真實世界模型 Genie 3，AGI 向前一步

Genie 3 令人驚喜之處在于，其模擬真實世界時已不需要靠著高糊畫面以假亂真，是依循真實物理規(guī)律的交互表現(xiàn)，和相對連貫的生成內(nèi)容，讓用戶感到畫面可信。

據(jù)DeepMind官方介紹，Genie 3 的功能具體包括：

模擬世界的物理屬性：展現(xiàn)自然現(xiàn)象如水與光照，以及自然環(huán)境中的復(fù)雜交互；

模擬自然世界：從動物行為到錯綜復(fù)雜的植物生命，生成充滿活力的生態(tài)系統(tǒng)；

建模動畫和小說：激發(fā)想象力，創(chuàng)造奇幻場景和富有表現(xiàn)力的動畫角色；

探索地點和歷史背景：超越地理和時間的界限，探索不同的地方和過去的時代；

為了讓 AI 生成的世界具有沉浸感，它們必須在長時間尺度上保持物理一致性。但基于自回歸技術(shù)生成三維環(huán)境，通常比生成視頻更具技術(shù)挑戰(zhàn)性，因為誤差往往會隨著時間的推移而累積。

與傳統(tǒng)的視頻生成模型不同，Genie 3 通過在每一幀的自回歸生成過程中，將此前的生成軌跡同步納入計算以解決這一挑戰(zhàn)。例如用戶在世界模型中走上了一分鐘之前的回頭路，模型也就必須參考一分鐘之前的相關(guān)信息。

用戶每一次完成輸入，這種計算便宣告開始，每秒鐘進(jìn)行多次。在用戶和 Genie 3 的實時交互過程中，這一循環(huán)周而復(fù)始，由此三維場景的一致性從秒級提升至分鐘級。

Genie 3 研發(fā)團(tuán)隊支持，通過 NeRF 和 Gaussian Splatting 等方法也能實現(xiàn)連貫的可交互 3D 環(huán)境，但它們依賴于用戶提供明確的 3D 指示。而 Genie 3 的連貫性實質(zhì)上是一種涌現(xiàn)能力，3D 環(huán)境基于世界描述和用戶操作被逐幀創(chuàng)建，從而更具動態(tài)、富于變化。

Genie 3 還提供了一種新的基于文本的交互形式。除了前進(jìn)后退，用戶還能在其生成的三維場景中“呼風(fēng)喚雨”。在 DeepMind 官方文檔中，這被稱為“可提示世界事件”。

這類事件意在改變已生成的世界，如修改天氣狀況，或引入新的物體和角色，從而增強(qiáng)從導(dǎo)航控制中獲得的體驗。

DeepMind 發(fā)布超真實世界模型 Genie 3，AGI 向前一步

對于Agent而言，這種交互形式意味著其在與環(huán)境的交互過程中可以設(shè)想更多“如果……會怎樣”的場景。這些場景將成為 Agent 提供學(xué)習(xí)如何應(yīng)對意外情況的經(jīng)驗。

具身 AGI 向前一步

熱度之下，Genie 3 的局限性也同樣突出：

行動空間有限：盡管可提示的世界事件允許進(jìn)行廣泛的環(huán)境干預(yù)，但這些干預(yù)不一定由Agent自身執(zhí)行。Agent能夠直接執(zhí)行的行動范圍目前受到限制；

與其他智能體的交互與模擬：在共享環(huán)境中準(zhǔn)確建模多個獨立智能體之間的復(fù)雜交互，仍然是一個持續(xù)的研究挑戰(zhàn)；

精確呈現(xiàn)真實世界位置：Genie 3 目前無法以完美的地理精度模擬真實世界位置；

文本渲染：通常只有在輸入的世界描述中提供時，才能生成清晰易讀的文本；

交互時間有限：Genie 3目前僅支持幾分鐘的連續(xù)交互，而不是數(shù)小時；

然而毋庸置疑的是，世界模型剛剛向我們的世界邁出了一大步。

用戶 @Bilawal Sidhu 用同一個場景對比了 Genie 2 和 Genie 3 的表現(xiàn)。短短七個月時間，已然天差地別。

此前的世界模型，大多難以兼顧實時交互效果和物理一致性。根據(jù)用戶提示渲染出的世界，可能在任何一幀分崩離析。而 Genie 3 發(fā)布后，研發(fā)團(tuán)隊的 @Jack Parker-Holder 則表示我們已經(jīng)站在了世界模型的分水嶺上，用戶可以生成任何其想象中的世界，并進(jìn)行多分鐘的實時交互模擬。更為長遠(yuǎn)的意義在于，“這或許就是具身 AGI 的關(guān)鍵缺失部分?！?/p>

DeepMind 發(fā)布超真實世界模型 Genie 3，AGI 向前一步

在 DeepMind 官方文件中，有一個特別的 Genie 3 用例。研究團(tuán)隊將專門應(yīng)用于 3D 虛擬環(huán)境的通用 Agent “SIMA” 置于 Genie 3 生成的虛擬世界中，并為其設(shè)定了一組目標(biāo)。

DeepMind 發(fā)布超真實世界模型 Genie 3，AGI 向前一步

雖然與此前的世界模型一樣，Genie 3 并不了解 SIMA 的目標(biāo)，而是根據(jù)其動作模擬未來。但在 Genie 3 生成的虛擬世界中，更穩(wěn)定的物理一致性使 SIMA 可以執(zhí)行更長的動作序列、實現(xiàn)更復(fù)雜的目標(biāo)，這一突破對于邁向通用人工智能有著至關(guān)重要的作用。

在不久前剛剛結(jié)束的 WAIC 上，Rich Sutton 曾形容 AI 是“創(chuàng)造事物的事物”。GPT-4 發(fā)布不到三年，我們可以借助 AI 創(chuàng)造的對象就從文本、代碼躍升到了無限瑰麗的想象世界。

回到 Genie 3 發(fā)布時，DeepMind 提出的問題：如果你不僅可以觀看生成的視頻，還可以探索它，將會怎樣？

DeepMind 發(fā)布超真實世界模型 Genie 3，AGI 向前一步