拳打可靈，腳踢 Veo 3，誰是物理世界的「懂王」？

本文作者：郭海惟

2025-06-20 16:04

導(dǎo)語：“價格最低只有 Veo 3 的 1/9?！?

一個優(yōu)秀的多模態(tài)視頻生成大模型永遠(yuǎn)是一套復(fù)雜的系統(tǒng)級工程，它包括但不限于：跨模態(tài)理解與對齊能力，時序一致性的控制能力，精細(xì)化的編輯和修正能力，以及高效計算和成本控制的能力等。這讓它看起來總像是一個巨頭的游戲：字節(jié)、快手，谷歌、OpenAI，他們手握著深如湖海的現(xiàn)金，寬似江河的流量動員能力。

不過在這條巨龍扎堆的賽道上，有三兩個身影站出來做點新東西。MiniMax大概就是其中跑得最前，聲音最響亮的團隊之一。二十多天前，谷歌最新推出的Veo3，被許多產(chǎn)業(yè)觀察者稱作視頻生成劃時代的產(chǎn)品；而二十天后，在又一個萬籟俱靜的618里，MiniMax發(fā)布了新一代Hailuo 02，給視頻生成大模型領(lǐng)域增添了一些實打?qū)嵉摹岸嗫旌檬　薄?/p>

Artificial Analysis視頻模型評測榜顯示，Hailuo 02視頻模型甫一推出，其ELO得分大幅度超過谷歌 Veo 3 和快手的 Kling 2.0，成為了全球排名第二的視頻生成模型。

拳打可靈，腳踢 Veo 3，誰是物理世界的「懂王」？

01 讓復(fù)雜運動成為現(xiàn)實

一些用戶對Hailuo 02的評價是“更具電影感”，其中很重要的原因是Hailuo 02擁有了更好的復(fù)雜場景與運動呈現(xiàn)的能力，也被認(rèn)為是目前全球唯一能夠?qū)崿F(xiàn)此類極限物理運動視頻效果的模型。

復(fù)雜的運動鏡頭，可以帶來很好的情節(jié)張力，讓觀眾迅速被鏡頭抓住而進入場景，往往出現(xiàn)在電影制作中最核心的高潮情節(jié)中。但相關(guān)場景的生成，對于模型的時空一致性要求非常高。稍有不慎，模型很容易發(fā)生丟失細(xì)節(jié)、違反物理規(guī)律，甚至穿模的情況。

比如在“馬躍起，落地奔跑”這么一段簡單的prompt測試中，模型需要讓馬和人保持一致性的身體姿態(tài)，才可以給觀眾傳達出真實感。這種一致性不是簡單的姿勢同步，而是要呈現(xiàn)符合物理規(guī)律的力的傳遞中的層次感。

Hailuo 02很好地處理了每一個細(xì)節(jié)的物理關(guān)系，不僅是人與馬的姿態(tài)協(xié)同，包括馬尾、馬鬃毛和人的頭發(fā)飛揚都很有真實感。

Hailuo 02

相比之下，對標(biāo)的測試模型便出現(xiàn)“馬淺跳，但人高飛”的情況，起跳過程也完全發(fā)生在了障礙物以外。

可靈2.1大師版

類似的場景還有“hellokitty打網(wǎng)球”，大量的模型在這個prompt測試詞上翻了大車。

海螺基本能實現(xiàn)球拍與球之間的互動：

Hailuo 02

但有些對標(biāo)測試模型則出現(xiàn)了“精靈球”的情況，有點像哈利波特的場景，球很有自己的想法：

vidu

同樣的球與拍之間出現(xiàn)了神秘磁場：

luma

大變活“球”：

即夢：視頻3.0 pro

而對世界物理規(guī)律具體而微的理解，只是復(fù)雜動作的難點之一。在一些快速移動的運動中，往往會面臨背景的快速變化。相比于人的動作，背景視野的大范圍移動意味著模型優(yōu)秀的空間感知能力。

其中最典型的莫過于滑雪運動：鏡頭固定在快速變化的人體動作的同時，雪景可能隨著人的拍攝角度和速度移動而不斷遷移，場地本身則會隨著雪橇板的移動而掀起雪浪、留下移動軌跡。

Hailuo 02基本重建了滑雪場的環(huán)境視覺效果，滑雪板會留下仿真的雪痕，雪浪飛舞的方向與大小也隨著動作和軌跡的變化而變化。

Hailuo 02

相比之下，同類模型的雪道缺乏動態(tài)，在快速移動收尾時，雪橇板會在高速運動中，出現(xiàn)從雙腳“脫落”的穿模現(xiàn)象。

可靈2.1大師版

如果你看完了以上兩段雪場視頻，或許會發(fā)現(xiàn)，在第二段視頻中，鏡頭其實是沒有保持一致性的。其整個5秒視頻，總計是由一段3秒和一段2秒的視頻組合起來的，畫面從近景切換到全景，從而達到某種類似蒙太奇的視覺效果。

這其實是由于“跨幀連貫性”是長期困擾視頻生成模型的痛點，視頻的連續(xù)畫面每增加一秒，對于時序一致性的處理難度便會幾何級地提升，更遑論保持長鏡頭、高強度的運動畫面中的畫面穩(wěn)定。

這也是為何，絕大部分的大模型視頻長度都被設(shè)計在10秒以內(nèi)，同時在10秒的選項之外，還會給出能力更穩(wěn)健、成本更友好的5秒選項。

但一些快速的運動軌跡，意味著模型必須在短時間內(nèi)產(chǎn)生大量的動作與物體交互，這些高強度交互，相當(dāng)于在有限時間內(nèi)快速提高了保持視頻時序一致性的難度。因此即便一些交互看起來并不復(fù)雜，但一旦頻次超過閾值，模型也可能會擺爛。

例如在經(jīng)典的拋多個小球的雜技場景里，Hailuo 02演示了很穩(wěn)定的鏡頭表現(xiàn)。畫面中六個小球的大小和顏色雖然都很相似，但觀眾依然可以分辨出每一個小球的運行軌跡，其中絕大部分的小球也在運動中保持了穩(wěn)定的形態(tài)。

提示詞：畫面中人物快速拋接球體，彩帶飄動落下，人物不停拋接球體——

Hailuo 02

但在測試的對標(biāo)模型demo中，除了在一開始沒有識別到初始圖中的“雜?！眻鼍耙鈭D外，大量的球體和彩帶交互，也出現(xiàn)了明顯的“吞球”現(xiàn)象，不斷有球體消失和生成，場面顯得非?；靵y。

可靈2.1大師版

如上，優(yōu)秀的復(fù)雜運動鏡頭呈現(xiàn)，背后是一整套模型的體驗優(yōu)化——它除了有強大的物理渲染能力外，還需要模型能夠熟悉世界的物理規(guī)律呈現(xiàn)方式，有很好的跨幀連貫性。

但相比于以上的技術(shù)優(yōu)化，模型對畫面和語言意圖的理解，或許是讓畫面得以更加符合觀眾直覺的更核心的能力。

如果再回到騎馬和拋接球兩個場景，我們會發(fā)現(xiàn)，理解第一幀畫面的意圖是整個圖生視頻中最關(guān)鍵的一環(huán)：模型需要知道，馬術(shù)前面有障礙物，其實是暗示讓馬越過障礙；而黑色領(lǐng)結(jié)+白色T恤的拋接球者，很可能是暗示雜技表演的場景。

除了畫面理解外，大模型對動作的理解也需要更加符合人類的直覺。以一個很簡單的測試prompt詞，“運動幅度，中等”。中等是個模糊的概念，不同模型對“中等”的理解不盡相同，Hailuo 02 基本能做到脖子等大關(guān)節(jié)的移動，基本符合人對畫面與prompt的直覺。

而在對標(biāo)測試模型中，一些模型則出現(xiàn)了只有臉部活動的情況，顯然與人類直覺并不匹配。

vidu

或者只搖動鏡頭，雖然畫面實現(xiàn)了“中等”的“運動”，但人其實幾乎不動。

luma

測試demo中一個比較極端的案例是，提示詞：動畫風(fēng)格，畫面中人物騎車穿越小鎮(zhèn)狹窄街道，鏡頭穩(wěn)定地側(cè)拍她向前移動，背景快速拉動——

Hailuo 02很好地還原提示詞與第一幀畫面中的“導(dǎo)演意圖”，給出了人物與生活環(huán)境的關(guān)系特寫，甚至能通過一秒鐘的人臉大側(cè)寫呈現(xiàn)出了日本動漫中常見的人物積極情緒。

Hailuo 02

在其他對標(biāo)測試模型中，模型似乎錯誤地把前進對象理解成了“背景”，導(dǎo)致出現(xiàn)了詭異的自行車倒退的情況，而人物狀態(tài)則完全隱匿在視頻中。

可靈2.1大師版

02 效率總是AI與世界雙向奔赴的前提

MiniMax創(chuàng)始人閆俊杰曾多次在接受采訪中表示，多模態(tài)是AGI擴散的最佳途徑，因為絕大部分人的輸入和輸出其實都是多模態(tài)的。與此同時，越來越多的從業(yè)者也開始將多模態(tài)作為大模型理解世界物理規(guī)則的方式。從這個角度而言，Hailuo 02的升級不止是視頻能力的迭代，也是MiniMax基礎(chǔ)模型智能對世界理解力的提升。

據(jù)了解，MiniMax 這次的 Hailuo 02 和 01 其實是兩代截然不同的產(chǎn)品，其中最核心的變量是 Hailuo 02 幾乎完全重建了模型的底層架構(gòu)，推出了 Noise-aware Compute Redistribution（NCR）。

NCR將超長視頻token根據(jù)噪聲水平進行有規(guī)劃的壓縮，構(gòu)成不同難度的“去噪目標(biāo)”，并配合精心設(shè)計的噪聲調(diào)度體系，用統(tǒng)一的模型進行聯(lián)合學(xué)習(xí)。MiniMax這套新架構(gòu)一方面大幅提高訓(xùn)練推理效率，另一方面也有效幫助模型擴展。

拳打可靈，腳踢 Veo 3，誰是物理世界的「懂王」？

據(jù)官方披露，在同等的參數(shù)量級下，新架構(gòu)使海螺的訓(xùn)練和推理效率提升了2.5倍。

這意味著在同等成本的考量下，MiniMax 可以采用更大的參數(shù)來推高模型的表現(xiàn)力。最終，MiniMax 將 Hailuo 02 的總模型參數(shù)規(guī)模推高了三倍、數(shù)據(jù)量提升了四倍。而更大的模型參數(shù)又為推理提供了優(yōu)化的空間。于是我們看到了一個細(xì)節(jié)能力更好、意圖識別更強的視頻模型。

此外在評分表現(xiàn)中，Hailuo02也擁有SOTA的“指令遵循”的能力表現(xiàn)：其在復(fù)雜指令 prompt 響應(yīng)率能做到 85%，超越所有同行。這也解釋了為什么在剛才幾個 demo 案例對比中，無論是什么類型視頻生成，Hailuo 02 能更好地還原和實現(xiàn) prompt 的意圖。

而能夠?qū)崿F(xiàn)SOTA的底層支持，便是像 NCR 等一系列效率工具所提供的智能冗余，讓模型有能力去很好完善推理能力，從而更好去理解世界和生成世界。于是，我們才有了今天唯一能生成電影機復(fù)雜運動場景的“Hailuo 02”。

如果說，效率讓模型能力上限更多元、更綜合地提升，讓 AI 模型更加貼近世界；那么效率所帶來的更低價格，永遠(yuǎn)是讓世界貼近 AI 模型的最有效、最屢試不爽的手段之一。

高效的模型能力，意味著相同的預(yù)算、同級別的視頻能力，Hailuo 02可以支持更長更多的視頻生成。

根據(jù) MiniMax 的官方測算，Hailuo 02 的成本在第一梯隊的視頻生成模型中保持了明顯的優(yōu)勢。尤其是在 1080P 高清視頻的輸出中，Hailuo 02 比 Seedance 領(lǐng)先了整整一個身位，而相比同期發(fā)布的Google Veo3，海螺的價格約為后者的1/9。

拳打可靈，腳踢 Veo 3，誰是物理世界的「懂王」？

這其實與不同公司的技術(shù)審美分野有關(guān)：

有些公司追求的是智能上限，用極限的資源做極限的事情，而 MiniMax 從 DAY ONE 開始就是一家“奔赴世界”的公司，它的目標(biāo)是“Intelligence with Everyone”，從一開始就注定了它的技術(shù)審美是面向所有人的，模型迭代自然也要為普通人和普通創(chuàng)作者服務(wù)。

與之對應(yīng)的，海螺作為視頻模型，它的技術(shù)初心也是“Accessible to Everyone”，即希望讓用戶都能用到上限最高、成本最低的模型。

接下來，海螺還將繼續(xù)“卷”下去。根據(jù)官方表態(tài)，Hailuo 02 接下來將繼續(xù)在以下幾個方面更快速更新：

生成速度提升

更好的偏好對齊，抽卡率 / 穩(wěn)定性提高

T2V / I2V 之外的高階功能的實現(xiàn)

視頻生成大模型沒有完美的產(chǎn)品，但 Hailuo 02 已經(jīng)是一個足夠酷炫、也足夠親民的產(chǎn)品，而 AI 也正在不斷接近它完成“復(fù)雜運動”、理解“復(fù)雜世界”的使命。

（雷峰網(wǎng)(公眾號：雷峰網(wǎng))）

（作者微信：hai2023zi）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。