實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

本文作者：鄭佳美

2025-11-04 14:14

導(dǎo)語：生成式 AI 的下半場：讓創(chuàng)意重新連貫。

現(xiàn)在的 AI 生成技術(shù)突飛猛進，但視頻創(chuàng)作仍然是一件“高門檻”的事。

雖然生成式 AI 帶來了前所未有的創(chuàng)作能力，但整個流程仍然瑣碎。創(chuàng)作者需要先寫腳本，再用文生視頻工具生成畫面，隨后還要處理配音、剪輯、字幕、節(jié)奏……每一步都依賴不同的軟件。專業(yè)團隊可以用流程去銜接這些環(huán)節(jié)，但對普通創(chuàng)作者來說，這樣的分工往往意味著更多的時間成本和學習負擔。

AI 讓創(chuàng)作更容易開始，卻還沒有讓創(chuàng)作變得更連貫。真正的突破，也許不是更大的模型或更強的算力，而是讓 AI 真正理解創(chuàng)意、參與創(chuàng)作。只有當這些分散的環(huán)節(jié)被重新連起來，創(chuàng)意才能自然流動。

未來的 AI 視頻創(chuàng)作，或許不在于增加更多工具，而是在于形成一個統(tǒng)一的系統(tǒng)——讓文字、圖像和聲音能在同一個空間協(xié)作，讓構(gòu)思、生成和調(diào)整在同一語境中完成。

而現(xiàn)在，這種改變，正在被昆侖萬維逐步實現(xiàn)。

全新 SkyReels：創(chuàng)作不再有縫隙

昆侖萬維最新推出的全新 SkyReels，就是在這種“重構(gòu)創(chuàng)作方式”的思路下誕生的。它不是又一款單一的生成工具，而是一套讓創(chuàng)作重新回到“統(tǒng)一與流動”的多模態(tài)系統(tǒng)。

在全新 SkyReels 里，圖片、視頻、音樂和人聲講解等元素都被放在同一個空間中理解和生成。創(chuàng)作者不用再在不同平臺之間來回切換、反復(fù)導(dǎo)入導(dǎo)出，而是能在同一張畫布上完成構(gòu)思、生成和調(diào)整。創(chuàng)作的過程因此變得更順暢，創(chuàng)意也能自然地延伸下去。

為了讓更多人進入這種新的創(chuàng)作方式，全新 SkyReels 還設(shè)計了 3 種方式：

它既可以讓熟悉 AI 的創(chuàng)作者可以直接生成圖像、視頻、音頻或數(shù)字人，也能幫助希望獲得更結(jié)構(gòu)化幫助的用戶，可以調(diào)用近三十個聚焦具體場景的 Agent，獲得任務(wù)級協(xié)助。除此之外，初學者或效率導(dǎo)向的創(chuàng)作者，只需使用模板，輸入文字或替換畫面，即可快速完成創(chuàng)作。

而這一切，都發(fā)生在一張無限畫布上。畫布讓不同模態(tài)的內(nèi)容以拖拽的方式被組織與組合，讓創(chuàng)意的邊界隨著操作而自然擴展。在全新 SkyReels 上，創(chuàng)作不再是對模型的調(diào)度，而是一次對思維的可視化延伸。

更深層的變化來自昆侖萬維的 Agentic Copilot。在這個系統(tǒng)中，有一個 Super Agent 統(tǒng)籌著整體創(chuàng)作方向，近三十個 Expert Agent 分工協(xié)作，覆蓋腳本、鏡頭、音效、剪輯等各個環(huán)節(jié)。創(chuàng)作者只需用自然語言表達需求，或上傳素材、提供鏈接，AI 便能在多模態(tài)內(nèi)容中完成理解、生成與優(yōu)化。

在理念層面，全新 SkyReels 已經(jīng)描繪出一種更自然、更連貫的創(chuàng)作方式，而在實際體驗中，這種重構(gòu)也并非概念上的想象，而是能夠被直接感知到的變化。

AI 科技評論對畫布與 Agent 系統(tǒng)等功能進行了一手實測，用更直觀的方式還原了它們在實際創(chuàng)作過程中的表現(xiàn)。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

實測畫布：當創(chuàng)作不再被切割

當我們在畫布中加入一張靜態(tài)圖片并讓它動起來時，生成的效果出乎意料地生動。畫面中的主體在落腳處出現(xiàn)了輕微的下壓與形變，連腳下柔軟墊子的塌陷感都被自然捕捉。

除此之外，原本貼在畫面中的 2D 卡通貼紙，也被轉(zhuǎn)譯成具有體積感的 3D 元素，與整體光影氛圍融為一體。這種細節(jié)層面的真實感，讓生成的畫面不再是“動起來的圖”，而更像是一段真正拍攝出的片段。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

同時，畫布還支持將文字直接生成語音。只需在界面中輸入臺詞或旁白，系統(tǒng)便能自動生成語氣自然、情感流暢的聲音，為畫面增添完整的敘事節(jié)奏。無論是品牌講解還是人物旁白，語音都能與畫面氛圍保持統(tǒng)一，讓靜態(tài)的創(chuàng)意真正“說話”。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

我們還用畫布生成了一段 ASMR 視頻，主題是“星辰摩擦的聲音”。模型在生成時準確捕捉了聲波的顆粒感與空間分布，聲音層次分明，節(jié)奏自然，帶有切割肥皂般的細碎觸感。視覺與音頻在同一畫布內(nèi)被同步渲染，整體效果極其干凈、細膩。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

實測 Agent：當創(chuàng)意開始被承接

除了畫布功能，當你打開首頁時，還會發(fā)現(xiàn)這里有很多針對不同領(lǐng)域的專業(yè) Agent。它們覆蓋市場營銷、電商內(nèi)容、創(chuàng)意故事、虛擬形象等多個方向，用戶可直接選擇所需場景，即刻進入任務(wù)級創(chuàng)作，無需額外配置或?qū)W習。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

我們先是用 Agent 創(chuàng)作了一個關(guān)于奧德修斯冒險的旁白故事視頻。從人物造型、腳本撰寫，到靜態(tài)畫面的生成、動態(tài)鏡頭的延展，再到解說人聲和字幕的添加，整個流程幾乎無需額外干預(yù)。

你只需要提供一個想法，并勾選希望呈現(xiàn)的元素，系統(tǒng)就能自動組合成一段結(jié)構(gòu)完整、節(jié)奏自然的解說視頻。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

除此之外，我們還用 Agent 做了一個 15 秒的護手霜廣告視頻實驗。只上傳了一張產(chǎn)品圖，并輸入提示詞：“我要推廣一款護手霜，目標受眾是都市白領(lǐng)，風格輕快?！?/p>

Agent 在幾分鐘鐘內(nèi)生成了完整的廣告腳本與畫面方案。鏡頭從手部特寫緩緩?fù)七M到產(chǎn)品包裝，背景是干凈的辦公場景與自然光線交織的氛圍，鏡頭節(jié)奏輕盈，背景音樂也是干凈明快。

整個視頻沒有過度渲染，卻精準拿捏了品牌感與氛圍感的平衡。從一張靜態(tài)圖片到完整成片，系統(tǒng)只用了幾分鐘的時間，而且可以讓你明顯地感受到，這已經(jīng)不只是“生成內(nèi)容”，而是在“理解創(chuàng)意”。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

實測數(shù)字人：當生成內(nèi)容開始有情緒

而到了數(shù)字人板塊，官方展示的 Demo 效果同樣令人印象深刻，人物的表情細節(jié)、眼神互動和說話節(jié)奏都非常接近真人。這樣的完成度讓我們對數(shù)字人板塊產(chǎn)生了好奇，也想看看在真實使用場景下，它的表現(xiàn)是否依然自然流暢。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

測試中，我們先是上傳了一張老馬與老黃的經(jīng)典名場面圖，并為其添加了相應(yīng)的臺詞。最終在生成的視頻中，兩位角色的語氣自然流暢，表情與身體細微動作精準匹配語音節(jié)奏。無論是說話時的輕微點頭、視線的轉(zhuǎn)移，還是停頓與呼吸的節(jié)奏，都呈現(xiàn)出接近真人表演的真實感。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

在相同的對話內(nèi)容下，我們還生成了一個由奧特曼單人出演的數(shù)字人視頻。整體表現(xiàn)依舊流暢，語音與表情同步自然，人物在說話時的停頓與呼吸節(jié)奏也得到了較好還原。單人場景在情緒表現(xiàn)上更加集中，更容易看出模型對語音細節(jié)的捕捉能力。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

值得一提的是，全新 SkyReels 是業(yè)內(nèi)首個支持單鏡頭多人多輪對話的數(shù)字人模型。它能精確控制每個角色的發(fā)聲時機與語氣節(jié)奏，讓多角色互動自然連貫，呈現(xiàn)出極具“真實對話感”的生成效果。

除此之外，我們還測試了一下全新 SkyReels 的其他功能。

例如在風格化測試中，我們嘗試將一段蜘蛛俠視頻轉(zhuǎn)換成樂高風格。最終的生成結(jié)果的轉(zhuǎn)譯非常干凈，動作邏輯完整，光影層次保留，人物在變?yōu)榉e木結(jié)構(gòu)后仍具動感與體積感。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

而全新 SkyReels 在視頻延長測試中也有不俗的表現(xiàn)，我們先是上傳了一段僅有一張主角正臉的視頻，并給出提示詞： “固定鏡頭，過肩視角，透過男人的背影看到女人含羞地一笑，然后開口說話?！?/p>

最終生成的視頻令人驚艷，鏡頭反轉(zhuǎn)后，原片中僅作背景的女性角色被完整生成，她的表情從微微低頭到抬眼、輕笑，再到開口說話的細微變化都被自然捕捉，情緒層次清晰。

整個延展片段不僅延續(xù)了原有畫面的光影與色調(diào)，還在情感上實現(xiàn)了順暢銜接，讓延展效果幾乎無縫銜接。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

整體測下來，全新 SkyReels 的實用性超出預(yù)期。它的功能覆蓋了創(chuàng)意工作者最常用的生產(chǎn)環(huán)節(jié) —— 無論是電商營銷視頻、自媒體內(nèi)容，還是廣告、設(shè)計、影視創(chuàng)意等場景，都能在幾分鐘內(nèi)完成從構(gòu)思到成片的全過程。

而在與 Agent 協(xié)作時，系統(tǒng)會主動確認每個創(chuàng)作細節(jié)，用戶也能隨時表達和修改自己的想法，整個過程像一次自然的創(chuàng)意對話。雷峰網(wǎng)

值得一提的是，SkyReels 已正式上線移動端。它在手機上完整保留了 Web 端的核心創(chuàng)作功能，讓用戶能夠隨時捕捉靈感、快速生成內(nèi)容。即使沒有專業(yè)設(shè)備，僅憑一部手機，也能輕松創(chuàng)作出專業(yè)水準的視頻

技術(shù)之下，是統(tǒng)一的多模態(tài)思維

優(yōu)秀的實測結(jié)果背后，是全新 SkyReels 所依托的統(tǒng)一多模態(tài)學習框架。

無論是基于圖片、音頻還是視頻的生成任務(wù)，所有模型都共享同一個 Multi-modal In-Context Learning 預(yù)訓(xùn)練基礎(chǔ)，再通過任務(wù)級精調(diào)進行差異化優(yōu)化。這種設(shè)計讓模型能夠在不同模態(tài)之間建立穩(wěn)定的語義聯(lián)系，實現(xiàn)跨模態(tài)的一致性與泛化能力。

在圖片驅(qū)動的視頻生成中，全新 SkyReels 版本重點解決了“多主體一致性”與“背景連貫性”問題。模型通過跨幀配對策略和圖像編輯模型的聯(lián)合預(yù)處理，精準分離主體與背景，并在生成過程中進行語義級的重組，而非簡單的圖像拼接。再結(jié)合圖像-視頻混合訓(xùn)練與多分辨率聯(lián)合優(yōu)化機制，使模型在主體保持、動作延展和指令響應(yīng)上同時提升。

這一改進使得其在參考圖一致性與視覺質(zhì)量指標上均超越主流閉源模型。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

而在音頻參考生成上，全新 SkyReels 基于 SkyReels-A3 框架進行了全新設(shè)計。通過引入?yún)^(qū)域路由機制，模型能夠在單鏡頭中識別多角色并分別生成對應(yīng)嘴型，實現(xiàn)自然的多輪對話。

此外，系統(tǒng)支持相機運動參數(shù)的監(jiān)督學習，可在同一時間組合多種運鏡，也能在不同時間實現(xiàn)平滑切換。關(guān)鍵幀插幀范式的加入，使其能在分鐘級時長內(nèi)保持高質(zhì)量嘴部對齊與動作一致性。在官方評測中，模型在嘴部同步、視頻質(zhì)量（IQA 4.58）與角色一致性（ID 0.78）等指標上均達到閉源 SOTA 水平。

實測全新 SkyReels ：AI 創(chuàng)作，終于連成了一體

不光如此，V3 在視頻參考任務(wù)上也實現(xiàn)了三類生成的統(tǒng)一——延長、編輯與風格化。

它通過設(shè)計不同任務(wù)的空間位置編碼和專屬嵌入，讓模型能理解參考視頻與生成視頻的關(guān)系，從而在同一結(jié)構(gòu)下完成多種任務(wù)。同時結(jié)合 token concat 與 channel concat 的優(yōu)勢，大幅減少計算量的同時保持高質(zhì)量輸出。

延長模型通過語義級預(yù)測，支持 Cut-In、Cut-Out、Reverse Shot 等多種切鏡銜接方式，風格化模型則依托自建的自動化風格數(shù)據(jù)生成與篩選系統(tǒng)，構(gòu)建了高質(zhì)量風格配對數(shù)據(jù)集，實現(xiàn)穩(wěn)定且可控的藝術(shù)化生成。

總的來說，從架構(gòu)到訓(xùn)練，全新 SkyReels 的核心競爭力在于對“統(tǒng)一性”的徹底實現(xiàn)。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

它通過多模態(tài)聯(lián)合訓(xùn)練，讓模型能在不同輸入之間形成共享語義空間，通過跨任務(wù)的結(jié)構(gòu)設(shè)計，讓延展、對話、編輯、風格化具備同樣的理解邏輯，最終在一致性、畫面質(zhì)量和生成可控性上同時提升，成為目前少數(shù)能在圖片、音頻與視頻任務(wù)中都達到閉源水準的多模態(tài)生成模型。

但這不僅僅是模型層面的升級，其實它更是創(chuàng)作邏輯的一次重構(gòu)。全新 SkyReels 所實現(xiàn)的“統(tǒng)一”，不僅是把多模態(tài)能力融合在一起，更代表著 AI 理解世界方式的一次跨越——它不再把圖像、聲音、文字當成彼此孤立的信號，而是以語義為底層語言去思考、生成和表達。

當技術(shù)真的具備這種語義上的連貫性時，創(chuàng)作就不再是“調(diào)用模型”的過程，而更像是一種思維的自然流動。這正是全新 SkyReels 的意義所在——讓 AI 的力量，重新回到創(chuàng)意本身。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。