0
雷峰網訊
就在昨晚,谷歌宣布推出通用型世界模型 Genie 3。用戶可通過文本提示生成動態(tài)世界,以每秒 24 幀的速度進行實時交互。更重要的是,Genie 3 的生成內容可在 720p 分辨率下維持物理一致性“幾分鐘時間”,遠超此前世界模型讀秒級水平。
根據 DeepMind 的說法,Genie 3 是首個允許實時交互的世界模型。相較于該系列前作 Genie 2、游戲生成引擎 GameNGen 以及視頻生成模型 Veo,Genie 3 在生成內容的連貫性上堪稱質的飛躍,同時分辨率、交互性、延遲均在一流水平。
Genie 3 在業(yè)內人士之間也廣受好評。英偉達高級科學家的 Jim Fan 稱其是 Genie 1 基礎上的“量子飛躍”。DeepMind 前科學家 Tejas Kulkarni 專門為其撰寫長評,不僅高度評價 Genie 3 在通用性、物理規(guī)律、視覺記憶等方面的表現,更是稱之為“實現 AGI 之前的最后一塊拼圖”。但同時,也指出其在多主體互動和長指令跟隨方面存在明顯缺陷。
目前研究團隊正為 Genie 3 尋找更多測試者,其中一個被寄予厚望的應用場景是訓練工具。不僅人類學生可以借助世界模型進行學習、積累經驗,對于 Agent 來說,世界模型也意味著在多樣化的交互環(huán)境中進行不斷訓練和性能評估成為可能。Agent 有望借此理解其行為如何影響環(huán)境的變化,并學著預測環(huán)境的演變。
“世界模型是通往通用人工智能(AGI)道路上的關鍵里程碑?!痹搱F隊表示。
連貫性質變:從秒級到分鐘級
Genie 3 甫一發(fā)布便引起熱議,甚至有用戶 @el.cine 將其比作又一個 GPT 時刻。
Genie 3 研發(fā)團隊的 Matt McGill 分享了自己生成的視頻,稱自己讓角色試著”低頭看看鞋,看模型是否理解什么是水坑”。用戶@Boston | Capx AI 在其評論區(qū)感嘆:“谷歌街景?!?/p>
看到 Genie 3 的生成效果,用戶@The Canaanite 提醒 DeepMind 看好自家工程師,“Zuck 已經在提著十億年薪趕來的路上?!?/p>
Genie 3 令人驚喜之處在于,其模擬真實世界時已不需要靠著高糊畫面以假亂真,是依循真實物理規(guī)律的交互表現,和相對連貫的生成內容,讓用戶感到畫面可信。
據DeepMind官方介紹,Genie 3 的功能具體包括:
模擬世界的物理屬性:展現自然現象如水與光照,以及自然環(huán)境中的復雜交互;
模擬自然世界:從動物行為到錯綜復雜的植物生命,生成充滿活力的生態(tài)系統(tǒng);
建模動畫和小說:激發(fā)想象力,創(chuàng)造奇幻場景和富有表現力的動畫角色;
探索地點和歷史背景:超越地理和時間的界限,探索不同的地方和過去的時代;
為了讓 AI 生成的世界具有沉浸感,它們必須在長時間尺度上保持物理一致性。但基于自回歸技術生成三維環(huán)境,通常比生成視頻更具技術挑戰(zhàn)性,因為誤差往往會隨著時間的推移而累積。
與傳統(tǒng)的視頻生成模型不同,Genie 3 通過在每一幀的自回歸生成過程中,將此前的生成軌跡同步納入計算以解決這一挑戰(zhàn)。例如用戶在世界模型中走上了一分鐘之前的回頭路,模型也就必須參考一分鐘之前的相關信息。
用戶每一次完成輸入,這種計算便宣告開始,每秒鐘進行多次。在用戶和 Genie 3 的實時交互過程中,這一循環(huán)周而復始,由此三維場景的一致性從秒級提升至分鐘級。
Genie 3 研發(fā)團隊支持,通過 NeRF 和 Gaussian Splatting 等方法也能實現連貫的可交互 3D 環(huán)境,但它們依賴于用戶提供明確的 3D 指示。而 Genie 3 的連貫性實質上是一種涌現能力,3D 環(huán)境基于世界描述和用戶操作被逐幀創(chuàng)建,從而更具動態(tài)、富于變化。
Genie 3 還提供了一種新的基于文本的交互形式。除了前進后退,用戶還能在其生成的三維場景中“呼風喚雨”。在 DeepMind 官方文檔中,這被稱為“可提示世界事件”。
這類事件意在改變已生成的世界,如修改天氣狀況,或引入新的物體和角色,從而增強從導航控制中獲得的體驗。
對于Agent而言,這種交互形式意味著其在與環(huán)境的交互過程中可以設想更多“如果……會怎樣”的場景。這些場景將成為 Agent 提供學習如何應對意外情況的經驗。
具身 AGI 向前一步
熱度之下,Genie 3 的局限性也同樣突出:
行動空間有限:盡管可提示的世界事件允許進行廣泛的環(huán)境干預,但這些干預不一定由Agent自身執(zhí)行。Agent能夠直接執(zhí)行的行動范圍目前受到限制;
與其他智能體的交互與模擬:在共享環(huán)境中準確建模多個獨立智能體之間的復雜交互,仍然是一個持續(xù)的研究挑戰(zhàn);
精確呈現真實世界位置:Genie 3 目前無法以完美的地理精度模擬真實世界位置;
文本渲染:通常只有在輸入的世界描述中提供時,才能生成清晰易讀的文本;
交互時間有限:Genie 3目前僅支持幾分鐘的連續(xù)交互,而不是數小時;
然而毋庸置疑的是,世界模型剛剛向我們的世界邁出了一大步。
用戶 @Bilawal Sidhu 用同一個場景對比了 Genie 2 和 Genie 3 的表現。短短七個月時間,已然天差地別。
此前的世界模型,大多難以兼顧實時交互效果和物理一致性。根據用戶提示渲染出的世界,可能在任何一幀分崩離析。而 Genie 3 發(fā)布后,研發(fā)團隊的 @Jack Parker-Holder 則表示我們已經站在了世界模型的分水嶺上,用戶可以生成任何其想象中的世界,并進行多分鐘的實時交互模擬。更為長遠的意義在于,“這或許就是具身 AGI 的關鍵缺失部分?!?/p>
在 DeepMind 官方文件中,有一個特別的 Genie 3 用例。研究團隊將專門應用于 3D 虛擬環(huán)境的通用 Agent “SIMA” 置于 Genie 3 生成的虛擬世界中,并為其設定了一組目標。
雖然與此前的世界模型一樣,Genie 3 并不了解 SIMA 的目標,而是根據其動作模擬未來。但在 Genie 3 生成的虛擬世界中,更穩(wěn)定的物理一致性使 SIMA 可以執(zhí)行更長的動作序列、實現更復雜的目標,這一突破對于邁向通用人工智能有著至關重要的作用。
在不久前剛剛結束的 WAIC 上,Rich Sutton 曾形容 AI 是“創(chuàng)造事物的事物”。GPT-4 發(fā)布不到三年,我們可以借助 AI 創(chuàng)造的對象就從文本、代碼躍升到了無限瑰麗的想象世界。
回到 Genie 3 發(fā)布時,DeepMind 提出的問題:如果你不僅可以觀看生成的視頻,還可以探索它,將會怎樣?
在那個世界里,我們可上九天攬月,也可以化身自己的小狗,在海邊漫步。
雷峰網(公眾號:雷峰網)文章
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。