丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給曉楠
發(fā)送

0

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

本文作者: 曉楠 2024-07-10 11:06
導(dǎo)語: AI 生產(chǎn)力與人類日益增長的想象力之間的需求還有多久才能滿足?


年初,OpenAI 推出文本-視頻生成模型 Sora,只需輸入提示文本描述,或輸入一張圖片,Sora 就能生成類似電影大片的逼真場景視頻,前所未有的新奇觀感,讓大眾直呼「現(xiàn)實不存在了」。

驚嘆之余,Sora 所展現(xiàn)出的神奇「魔法」,也讓業(yè)界意識到 AI 視頻生成在高清晰度、高保真度、高質(zhì)量方面的巨大潛力與價值。

此后,AI 視頻生成模型搖身一變成為科技圈新的寵兒,并一改之前大語言模型一家獨大的格局為兩者的分庭抗禮。

「Sora熱」開始席卷全球,直到現(xiàn)在,國內(nèi)外相關(guān)的 AI 視頻生成模型或產(chǎn)品工具都將 Sora 奉為業(yè)界標(biāo)桿,沿著一條類 Sora、比肩 Sora、超越 Sora 的道路狂奔。

但不可否認(rèn),相較于大語言模型的「狂飆」,目前 AI 視頻生成技術(shù)還處于早期階段,距離「ChatGPT」式的爆發(fā)仍有一段距離。即便強(qiáng)大如 Sora,也并非完美,在技術(shù)端依舊存在著許多未解的問題與挑戰(zhàn)。

為此,在當(dāng)下, 如何利用大模型技術(shù)的強(qiáng)大能力,破解 AI 視頻生成領(lǐng)域的難題,更大程度上地釋放 AI 生產(chǎn)力,助推 AI 視頻生成再往前進(jìn)一步,是業(yè)界在不斷思考和探索的重心。

前幾天,在世界人工智能大會上,阿里達(dá)摩院發(fā)布了一站式 AI 視頻創(chuàng)作平臺——尋光,似乎為 AI 視頻生成的發(fā)展帶來了新的范式。

可控編輯、一致性難以實現(xiàn),現(xiàn)有 AI 工作流亟待重塑

關(guān)注 Sora 的業(yè)界從業(yè)者應(yīng)該都知道幾個月前的著名「打假貼」事件。

簡單來說,當(dāng)時 Sora 一經(jīng)發(fā)布,OpenAI 為了展示其強(qiáng)大能力和維持話題熱度,邀請了一些專業(yè)創(chuàng)作者、行業(yè) KOL 等試用 Sora,并時不時放出雙方合作生成的創(chuàng)意視頻,吸引大眾目光。

其中,有一個合作方是來自于多倫多的 Shy Kids 團(tuán)隊,他們使用 Sora 制作的《Air Head(氣球人)》短片,因為創(chuàng)意新穎、將藝術(shù)與 AI 技術(shù)的完美結(jié)合,得到了大眾的一致贊美,更有甚者將之稱為「Sora 史上最佳短片作品」。

可是令人意想不到的是,后來制作團(tuán)隊發(fā)文稱,《Air Head》并非由 Sora 一鍵生成,在實際的制作過程中,有大量的視覺效果是經(jīng)過人工后期編輯而成,才呈現(xiàn)出最終效果。

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

據(jù)他們介紹,整個短片是由多個視頻片段組成的,但是在生成不同的視頻片段時,很難保證主角始終是個長著黃色氣球腦袋的人,有時候氣球上會自動「長出」一張人臉,或者依照常識給主角安裝一個不符合劇情的腦袋,等等,bug多到創(chuàng)作人員頻頻吐槽「生成過程很難控制」。

另外,還有角色對象一致性的問題。

在短片中,主角的衣服和那頂標(biāo)志性的黃色氣球腦袋充斥著劇情的始終,「絲滑」到看不出這是由多個視頻片段組成的。但實際上,Sora 并不能夠保證不同分鏡頭之間的主體一致性,僅僅依靠輸入提示詞,就想讓主角的衣服和氣球顏色保持一致根本不可行。這也是為什么后期需要那么多的人工參與。

彼時新聞一出,業(yè)界在感到震驚之余,也意識到,即便是 Sora,生成內(nèi)容都需要大量的人工參與,難以為這些問題提供良好的解決方案,那么可想而知在整個領(lǐng)域中這些問題的普遍性。

的確如此。

據(jù)達(dá)摩院視覺技術(shù)實驗室高級算法專家陳威華介紹,在尋光平臺的研發(fā)過程中,團(tuán)隊對當(dāng)下的一眾現(xiàn)有視頻創(chuàng)作工具進(jìn)行了大量的調(diào)研,并走訪了許多視頻創(chuàng)作者,對目前業(yè)界存在的問題匯總、分析之后發(fā)現(xiàn),當(dāng)前在 AI 視頻生成領(lǐng)域,對于生成內(nèi)容的可控編輯、一致性等問題是創(chuàng)作過程中的重要需求,也是當(dāng)前算法面臨的最大挑戰(zhàn)。

「現(xiàn)有 AI 工作流亟待重塑?!?/p>

在他看來,如今各種視頻生成大模型已經(jīng)讓大家感受到了 AI 技術(shù)帶來的福利,給短視頻制作提供了各種各樣的素材。而在素材齊全之后,接下來要做的就是進(jìn)一步提升視頻制作的效率,解決視頻后期編輯中存在的各種問題。

而這也正是達(dá)摩院推出尋光平臺的初衷。

據(jù)雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解,此次達(dá)摩院發(fā)布的尋光平臺,定位為 PUGC 一站式 AI 視頻創(chuàng)作平臺,能夠解決 AI 視頻編輯不夠精準(zhǔn)可控的痛點,可支持接入多種視頻生成模型,并在行業(yè)首次落地基于圖層的視頻編輯,為復(fù)雜視頻創(chuàng)作提供了更高效、易用的 AI 工作流。

「我們的目標(biāo)是用 AI 能力去重塑傳統(tǒng)視頻制作的整個流程,打造 AI 時代的全新視頻工作流。尋光視頻創(chuàng)作平臺,最大的特點是讓用戶實現(xiàn)對視頻內(nèi)容的精準(zhǔn)控制,同時可以保持多個視頻中角色和場景的一致性?!龟愅A說道。

「讓編輯像操作PPT一樣簡潔直觀,容易上手」

在發(fā)布現(xiàn)場,陳威華形容尋光平臺的推出,會對當(dāng)前的視頻創(chuàng)作工作流進(jìn)行優(yōu)化,使得 AI 視頻生成的工作范式發(fā)生新的變革,「讓編輯像操作 PPT 一樣簡潔直觀,容易上手」。

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

那么,尋光平臺具體是怎么做到的呢?其實可以通過幾個關(guān)鍵詞來認(rèn)識它。

一個是「一站式 AI 視頻創(chuàng)作平臺」,如何理解?

大家都知道,當(dāng)前市面上存在各種各樣的 AI 視頻生成工具,但是仔細(xì)看下來,當(dāng)創(chuàng)作者想要創(chuàng)作一個視頻時,可能需要不同的工具來生成文字、圖片、分鏡頭等素材,最后再把它們匯總放在一起,生成最終的視頻。但在這個過程中,創(chuàng)作者往往需要在不同工具間流轉(zhuǎn),獲取不同的素材,不僅耗時,而且容易出錯,對創(chuàng)作者來說十分不友好。

而有了尋光平臺,直接可以一步到位,不再需要再多個平臺中間來回「轉(zhuǎn)場」。

比如,用戶在創(chuàng)作時,從劇本創(chuàng)作、分鏡生成到素材編輯等全套操作,都可以在尋光平臺上完成。另外,通過工作流整合提升了創(chuàng)作全流程的效率,支持對生成及上傳素材進(jìn)行豐富的 AI 編輯,提供人物控制、場景控制、風(fēng)格遷移、運鏡控制、目標(biāo)新增/消除/修改等十多種 AI 編輯功能,讓視頻中的元素和對象精準(zhǔn)可控。

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

舉例來說,對于視頻中的分鏡頭,用戶可以選擇在平臺上通過劇本自動生成,也可以選擇自己上傳原始視頻素材,由算法切分成多個分鏡頭。

另外,在創(chuàng)作空間中,如果用戶在查看分鏡頭的時候,發(fā)現(xiàn)有些細(xì)節(jié)需要完善,那么就可以通過編輯工具欄對分鏡頭做進(jìn)一步的編輯,不再像傳統(tǒng)的視頻制作過程那樣,需要專門的工具來制作,然后再進(jìn)行復(fù)制粘貼等操作。

可以說,一站式的工作流程,體現(xiàn)了尋光在用戶交互上面的友好,而這正是它的一大亮點所在。

據(jù)了解,尋光平臺是目前業(yè)界首個一站式 AI 視頻創(chuàng)作平臺。

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

第二個關(guān)鍵詞是首創(chuàng)「基于圖層的視頻編輯」。

前面在 Sora 的案例中提到,AI 視頻生成創(chuàng)作中,多個分鏡頭之間的場景與人物的一致性是至關(guān)重要的,其中的一個關(guān)鍵因素就在于分鏡頭中的視頻圖層,如果能夠基于圖層,在語義層面而不是像素層面實現(xiàn)可控編輯,是不是就能保證內(nèi)容的一致性呢?尋光就是這樣做的。

具體來看,尋光平臺是通過把視頻圖層相關(guān)的各項能力以一個系統(tǒng)性的方式完整地呈現(xiàn)給用戶,讓用戶基于圖層進(jìn)行視頻的編輯、創(chuàng)作,主要包括前景圖層的生成、圖層拆解、圖層融合等環(huán)節(jié),從而保證視頻的一致性。

比如,尋光平臺上有個前景圖層功能,用戶可以通過輸入文本生成符合文本描述的、并且具有透明背景的視頻圖層。

另外,尋光平臺還提供圖層拆解功能,即如果用戶想從自己的已有視頻素材中提取需要的圖層,那么就可以使用拆解功能,算法就會把整段視頻中對應(yīng)物體的內(nèi)容拆解出來,然后形成一個獨立的帶透明背景的視頻圖層。

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

獲得了視頻圖層后,針對不同的創(chuàng)作需求,用戶就可以通過尋光平臺上的「圖層融合」功能,將前景圖層與不同的背景進(jìn)行融合,從而生成各種各樣的視頻。

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

比如,以「小和尚練功」的視頻為例。

在原視頻中,小和尚正在練功,背景環(huán)境中有寺廟、竹林。那么,如果想要讓小和尚在不同的背景環(huán)境中練功,就可以通過尋光平臺的圖層拆解功能,將小和尚作為一個整體圖層拆解出來,然后根據(jù)具體的創(chuàng)作需求,將小和尚與不同的背景環(huán)境融合,生成新的視頻。

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

寫在最后

看到尋光平臺居然可以實現(xiàn)這么強(qiáng)大的功能,是不是有被震撼到?原來 AI 視頻生成也可以這么簡單。

如今,類 Sora 產(chǎn)品層出不窮。在世界人工智能大會上,不少國內(nèi)廠商的視頻生成模型也展示出令人驚艷的效果。但不可否認(rèn)的是,它們距離廣泛應(yīng)用還有很長的距離,原因就在于AI視頻編輯流程復(fù)雜、門檻高,并不是人人都可以流暢玩轉(zhuǎn)。

而達(dá)摩院推出的尋光平臺,定位為解決當(dāng)前業(yè)界類 Sora 產(chǎn)品涌現(xiàn)之后的編輯與創(chuàng)作問題,聚焦該如何滿足人類日益增長的想象力與 AI 生產(chǎn)力之間的需求,希望借此真正釋放 AI 生產(chǎn)力。

按照官方所展示的功能,尋光平臺將對傳統(tǒng)視頻制作的整個流程進(jìn)行重塑,在不久的將來,每個人都擁有、并熟練使用 AI 視頻生成工具將變成可能。到那時候,我們或許會距離 AI 視頻生成迎來「ChatGPT」式爆發(fā)再近一步。

「我們希望尋光視頻創(chuàng)作平臺就是每一個人手中的利器,是 AIGC 時代,每一個人的專屬視頻工作室?!龟愅A說。

據(jù)雷峰網(wǎng)了解,尋光平臺將于近期開放內(nèi)測,感興趣的創(chuàng)作者們可以來試用!

官網(wǎng)地址:https://xunguang.damo-vision.com/


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

達(dá)摩院跨入 AIGC 深水區(qū),發(fā)布一站式 AI 視頻創(chuàng)作平臺「尋光」

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說