丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給郭海惟
發(fā)送

0

拳打可靈,腳踢 Veo 3,誰(shuí)是物理世界的「懂王」?

本文作者: 郭海惟   2025-06-20 16:04
導(dǎo)語(yǔ):“價(jià)格最低只有 Veo 3 的 1/9?!?

拳打可靈,腳踢 Veo 3,誰(shuí)是物理世界的「懂王」?



一個(gè)優(yōu)秀的多模態(tài)視頻生成大模型永遠(yuǎn)是一套復(fù)雜的系統(tǒng)級(jí)工程,它包括但不限于:跨模態(tài)理解與對(duì)齊能力,時(shí)序一致性的控制能力,精細(xì)化的編輯和修正能力,以及高效計(jì)算和成本控制的能力等。這讓它看起來(lái)總像是一個(gè)巨頭的游戲:字節(jié)、快手,谷歌、OpenAI,他們手握著深如湖海的現(xiàn)金,寬似江河的流量動(dòng)員能力。

不過(guò)在這條巨龍?jiān)训馁惖郎?,有三兩個(gè)身影站出來(lái)做點(diǎn)新東西。MiniMax大概就是其中跑得最前,聲音最響亮的團(tuán)隊(duì)之一。二十多天前,谷歌最新推出的Veo3,被許多產(chǎn)業(yè)觀察者稱(chēng)作視頻生成劃時(shí)代的產(chǎn)品;而二十天后,在又一個(gè)萬(wàn)籟俱靜的618里,MiniMax發(fā)布了新一代Hailuo 02,給視頻生成大模型領(lǐng)域增添了一些實(shí)打?qū)嵉摹岸嗫旌檬 薄?/p>

Artificial Analysis視頻模型評(píng)測(cè)榜顯示,Hailuo 02視頻模型甫一推出,其ELO得分大幅度超過(guò)谷歌 Veo 3 和快手的 Kling 2.0,成為了全球排名第二的視頻生成模型。


拳打可靈,腳踢 Veo 3,誰(shuí)是物理世界的「懂王」?



01 讓復(fù)雜運(yùn)動(dòng)成為現(xiàn)實(shí)



一些用戶對(duì)Hailuo 02的評(píng)價(jià)是“更具電影感”,其中很重要的原因是Hailuo 02擁有了更好的復(fù)雜場(chǎng)景與運(yùn)動(dòng)呈現(xiàn)的能力,也被認(rèn)為是目前全球唯一能夠?qū)崿F(xiàn)此類(lèi)極限物理運(yùn)動(dòng)視頻效果的模型。

復(fù)雜的運(yùn)動(dòng)鏡頭,可以帶來(lái)很好的情節(jié)張力,讓觀眾迅速被鏡頭抓住而進(jìn)入場(chǎng)景,往往出現(xiàn)在電影制作中最核心的高潮情節(jié)中。但相關(guān)場(chǎng)景的生成,對(duì)于模型的時(shí)空一致性要求非常高。稍有不慎,模型很容易發(fā)生丟失細(xì)節(jié)、違反物理規(guī)律,甚至穿模的情況。

比如在“馬躍起,落地奔跑”這么一段簡(jiǎn)單的prompt測(cè)試中,模型需要讓馬和人保持一致性的身體姿態(tài),才可以給觀眾傳達(dá)出真實(shí)感。這種一致性不是簡(jiǎn)單的姿勢(shì)同步,而是要呈現(xiàn)符合物理規(guī)律的力的傳遞中的層次感。

Hailuo 02很好地處理了每一個(gè)細(xì)節(jié)的物理關(guān)系,不僅是人與馬的姿態(tài)協(xié)同,包括馬尾、馬鬃毛和人的頭發(fā)飛揚(yáng)都很有真實(shí)感。

Hailuo 02

相比之下,對(duì)標(biāo)的測(cè)試模型便出現(xiàn)“馬淺跳,但人高飛”的情況,起跳過(guò)程也完全發(fā)生在了障礙物以外。


可靈2.1大師版

類(lèi)似的場(chǎng)景還有“hellokitty打網(wǎng)球”,大量的模型在這個(gè)prompt測(cè)試詞上翻了大車(chē)。

海螺基本能實(shí)現(xiàn)球拍與球之間的互動(dòng):

Hailuo 02

但有些對(duì)標(biāo)測(cè)試模型則出現(xiàn)了“精靈球”的情況,有點(diǎn)像哈利波特的場(chǎng)景,球很有自己的想法:

vidu

同樣的球與拍之間出現(xiàn)了神秘磁場(chǎng):

luma

大變活“球”:

即夢(mèng):視頻3.0 pro

而對(duì)世界物理規(guī)律具體而微的理解,只是復(fù)雜動(dòng)作的難點(diǎn)之一。在一些快速移動(dòng)的運(yùn)動(dòng)中,往往會(huì)面臨背景的快速變化。相比于人的動(dòng)作,背景視野的大范圍移動(dòng)意味著模型優(yōu)秀的空間感知能力。

其中最典型的莫過(guò)于滑雪運(yùn)動(dòng):鏡頭固定在快速變化的人體動(dòng)作的同時(shí),雪景可能隨著人的拍攝角度和速度移動(dòng)而不斷遷移,場(chǎng)地本身則會(huì)隨著雪橇板的移動(dòng)而掀起雪浪、留下移動(dòng)軌跡。

Hailuo 02基本重建了滑雪場(chǎng)的環(huán)境視覺(jué)效果,滑雪板會(huì)留下仿真的雪痕,雪浪飛舞的方向與大小也隨著動(dòng)作和軌跡的變化而變化。

Hailuo 02

相比之下,同類(lèi)模型的雪道缺乏動(dòng)態(tài),在快速移動(dòng)收尾時(shí),雪橇板會(huì)在高速運(yùn)動(dòng)中,出現(xiàn)從雙腳“脫落”的穿模現(xiàn)象。

可靈2.1大師版

如果你看完了以上兩段雪場(chǎng)視頻,或許會(huì)發(fā)現(xiàn),在第二段視頻中,鏡頭其實(shí)是沒(méi)有保持一致性的。其整個(gè)5秒視頻,總計(jì)是由一段3秒和一段2秒的視頻組合起來(lái)的,畫(huà)面從近景切換到全景,從而達(dá)到某種類(lèi)似蒙太奇的視覺(jué)效果。

這其實(shí)是由于“跨幀連貫性”是長(zhǎng)期困擾視頻生成模型的痛點(diǎn),視頻的連續(xù)畫(huà)面每增加一秒,對(duì)于時(shí)序一致性的處理難度便會(huì)幾何級(jí)地提升,更遑論保持長(zhǎng)鏡頭、高強(qiáng)度的運(yùn)動(dòng)畫(huà)面中的畫(huà)面穩(wěn)定。

這也是為何,絕大部分的大模型視頻長(zhǎng)度都被設(shè)計(jì)在10秒以?xún)?nèi),同時(shí)在10秒的選項(xiàng)之外,還會(huì)給出能力更穩(wěn)健、成本更友好的5秒選項(xiàng)。

但一些快速的運(yùn)動(dòng)軌跡,意味著模型必須在短時(shí)間內(nèi)產(chǎn)生大量的動(dòng)作與物體交互,這些高強(qiáng)度交互,相當(dāng)于在有限時(shí)間內(nèi)快速提高了保持視頻時(shí)序一致性的難度。因此即便一些交互看起來(lái)并不復(fù)雜,但一旦頻次超過(guò)閾值,模型也可能會(huì)擺爛。

例如在經(jīng)典的拋多個(gè)小球的雜技場(chǎng)景里,Hailuo 02演示了很穩(wěn)定的鏡頭表現(xiàn)。畫(huà)面中六個(gè)小球的大小和顏色雖然都很相似,但觀眾依然可以分辨出每一個(gè)小球的運(yùn)行軌跡,其中絕大部分的小球也在運(yùn)動(dòng)中保持了穩(wěn)定的形態(tài)。

提示詞:畫(huà)面中人物快速拋接球體,彩帶飄動(dòng)落下,人物不停拋接球體——

Hailuo 02

但在測(cè)試的對(duì)標(biāo)模型demo中,除了在一開(kāi)始沒(méi)有識(shí)別到初始圖中的“雜?!眻?chǎng)景意圖外,大量的球體和彩帶交互,也出現(xiàn)了明顯的“吞球”現(xiàn)象,不斷有球體消失和生成,場(chǎng)面顯得非?;靵y。

可靈2.1大師版

如上,優(yōu)秀的復(fù)雜運(yùn)動(dòng)鏡頭呈現(xiàn),背后是一整套模型的體驗(yàn)優(yōu)化——它除了有強(qiáng)大的物理渲染能力外,還需要模型能夠熟悉世界的物理規(guī)律呈現(xiàn)方式,有很好的跨幀連貫性。

但相比于以上的技術(shù)優(yōu)化,模型對(duì)畫(huà)面和語(yǔ)言意圖的理解,或許是讓畫(huà)面得以更加符合觀眾直覺(jué)的更核心的能力。

如果再回到騎馬和拋接球兩個(gè)場(chǎng)景,我們會(huì)發(fā)現(xiàn),理解第一幀畫(huà)面的意圖是整個(gè)圖生視頻中最關(guān)鍵的一環(huán):模型需要知道,馬術(shù)前面有障礙物,其實(shí)是暗示讓馬越過(guò)障礙;而黑色領(lǐng)結(jié)+白色T恤的拋接球者,很可能是暗示雜技表演的場(chǎng)景。

除了畫(huà)面理解外,大模型對(duì)動(dòng)作的理解也需要更加符合人類(lèi)的直覺(jué)。以一個(gè)很簡(jiǎn)單的測(cè)試prompt詞,“運(yùn)動(dòng)幅度,中等”。中等是個(gè)模糊的概念,不同模型對(duì)“中等”的理解不盡相同,Hailuo 02 基本能做到脖子等大關(guān)節(jié)的移動(dòng),基本符合人對(duì)畫(huà)面與prompt的直覺(jué)。

而在對(duì)標(biāo)測(cè)試模型中,一些模型則出現(xiàn)了只有臉部活動(dòng)的情況,顯然與人類(lèi)直覺(jué)并不匹配。

vidu

或者只搖動(dòng)鏡頭,雖然畫(huà)面實(shí)現(xiàn)了“中等”的“運(yùn)動(dòng)”,但人其實(shí)幾乎不動(dòng)。

luma

測(cè)試demo中一個(gè)比較極端的案例是,提示詞:動(dòng)畫(huà)風(fēng)格,畫(huà)面中人物騎車(chē)穿越小鎮(zhèn)狹窄街道,鏡頭穩(wěn)定地側(cè)拍她向前移動(dòng),背景快速拉動(dòng)——

Hailuo 02很好地還原提示詞與第一幀畫(huà)面中的“導(dǎo)演意圖”,給出了人物與生活環(huán)境的關(guān)系特寫(xiě),甚至能通過(guò)一秒鐘的人臉大側(cè)寫(xiě)呈現(xiàn)出了日本動(dòng)漫中常見(jiàn)的人物積極情緒。

Hailuo 02

在其他對(duì)標(biāo)測(cè)試模型中,模型似乎錯(cuò)誤地把前進(jìn)對(duì)象理解成了“背景”,導(dǎo)致出現(xiàn)了詭異的自行車(chē)倒退的情況,而人物狀態(tài)則完全隱匿在視頻中。

可靈2.1大師版



02 效率總是AI與世界雙向奔赴的前提



MiniMax創(chuàng)始人閆俊杰曾多次在接受采訪中表示,多模態(tài)是AGI擴(kuò)散的最佳途徑,因?yàn)榻^大部分人的輸入和輸出其實(shí)都是多模態(tài)的。與此同時(shí),越來(lái)越多的從業(yè)者也開(kāi)始將多模態(tài)作為大模型理解世界物理規(guī)則的方式。從這個(gè)角度而言,Hailuo 02的升級(jí)不止是視頻能力的迭代,也是MiniMax基礎(chǔ)模型智能對(duì)世界理解力的提升。

據(jù)了解,MiniMax 這次的 Hailuo 02 和 01 其實(shí)是兩代截然不同的產(chǎn)品,其中最核心的變量是 Hailuo 02 幾乎完全重建了模型的底層架構(gòu),推出了 Noise-aware Compute Redistribution(NCR)。

NCR將超長(zhǎng)視頻token根據(jù)噪聲水平進(jìn)行有規(guī)劃的壓縮,構(gòu)成不同難度的“去噪目標(biāo)”,并配合精心設(shè)計(jì)的噪聲調(diào)度體系,用統(tǒng)一的模型進(jìn)行聯(lián)合學(xué)習(xí)。MiniMax這套新架構(gòu)一方面大幅提高訓(xùn)練推理效率,另一方面也有效幫助模型擴(kuò)展。

拳打可靈,腳踢 Veo 3,誰(shuí)是物理世界的「懂王」?

據(jù)官方披露,在同等的參數(shù)量級(jí)下,新架構(gòu)使海螺的訓(xùn)練和推理效率提升了2.5倍。

這意味著在同等成本的考量下,MiniMax 可以采用更大的參數(shù)來(lái)推高模型的表現(xiàn)力。最終,MiniMax 將 Hailuo 02 的總模型參數(shù)規(guī)模推高了三倍、數(shù)據(jù)量提升了四倍。而更大的模型參數(shù)又為推理提供了優(yōu)化的空間。于是我們看到了一個(gè)細(xì)節(jié)能力更好、意圖識(shí)別更強(qiáng)的視頻模型。

此外在評(píng)分表現(xiàn)中,Hailuo02也擁有SOTA的“指令遵循”的能力表現(xiàn):其在復(fù)雜指令 prompt 響應(yīng)率能做到 85%,超越所有同行。這也解釋了為什么在剛才幾個(gè) demo 案例對(duì)比中,無(wú)論是什么類(lèi)型視頻生成,Hailuo 02 能更好地還原和實(shí)現(xiàn) prompt 的意圖。

而能夠?qū)崿F(xiàn)SOTA的底層支持,便是像 NCR 等一系列效率工具所提供的智能冗余,讓模型有能力去很好完善推理能力,從而更好去理解世界和生成世界。于是,我們才有了今天唯一能生成電影機(jī)復(fù)雜運(yùn)動(dòng)場(chǎng)景的“Hailuo 02”。


如果說(shuō),效率讓模型能力上限更多元、更綜合地提升,讓 AI 模型更加貼近世界;那么效率所帶來(lái)的更低價(jià)格,永遠(yuǎn)是讓世界貼近 AI 模型的最有效、最屢試不爽的手段之一。

高效的模型能力,意味著相同的預(yù)算、同級(jí)別的視頻能力,Hailuo 02可以支持更長(zhǎng)更多的視頻生成。

根據(jù) MiniMax 的官方測(cè)算,Hailuo 02 的成本在第一梯隊(duì)的視頻生成模型中保持了明顯的優(yōu)勢(shì)。尤其是在 1080P 高清視頻的輸出中,Hailuo 02 比 Seedance 領(lǐng)先了整整一個(gè)身位,而相比同期發(fā)布的Google Veo3,海螺的價(jià)格約為后者的1/9。

拳打可靈,腳踢 Veo 3,誰(shuí)是物理世界的「懂王」?

這其實(shí)與不同公司的技術(shù)審美分野有關(guān):

有些公司追求的是智能上限,用極限的資源做極限的事情,而 MiniMax 從 DAY ONE 開(kāi)始就是一家“奔赴世界”的公司,它的目標(biāo)是“Intelligence with Everyone”,從一開(kāi)始就注定了它的技術(shù)審美是面向所有人的,模型迭代自然也要為普通人和普通創(chuàng)作者服務(wù)。

與之對(duì)應(yīng)的,海螺作為視頻模型,它的技術(shù)初心也是“Accessible to Everyone”,即希望讓用戶都能用到上限最高、成本最低的模型。

接下來(lái),海螺還將繼續(xù)“卷”下去。根據(jù)官方表態(tài),Hailuo 02 接下來(lái)將繼續(xù)在以下幾個(gè)方面更快速更新:

生成速度提升

更好的偏好對(duì)齊,抽卡率 / 穩(wěn)定性提高

T2V / I2V 之外的高階功能的實(shí)現(xiàn)

視頻生成大模型沒(méi)有完美的產(chǎn)品,但 Hailuo 02 已經(jīng)是一個(gè)足夠酷炫、也足夠親民的產(chǎn)品,而 AI 也正在不斷接近它完成“復(fù)雜運(yùn)動(dòng)”、理解“復(fù)雜世界”的使命。

(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

(作者微信:hai2023zi)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

拳打可靈,腳踢 Veo 3,誰(shuí)是物理世界的「懂王」?

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)