0
在 GPT-4 發(fā)布一年多后,OpenAI 推出 GPT-4o,是有史以來第一個真正實現(xiàn)「多模態(tài)輸入—多模態(tài)輸出」的多模態(tài)模型。
GPT-4o 的出現(xiàn)所傳遞的信息是:在底層模型并沒有變得更智能的情況下,能夠跨多種模態(tài)進行推理的模型必然是更加通用的。因為其不僅具備多種功能,還能以不同模態(tài)傳遞知識。
雖然具備了強大的多模態(tài)能力, 但 GPT-4o 目前只可以接受文本、音頻和圖像/視頻數(shù)據(jù)的任意組合作為輸入,并生成文本、音頻和圖像作為輸出,其中尚未涉及視頻生成這一部分。其實,這也側面證明了,視頻生成是難啃的一塊骨頭。
即使是主打視頻生成能力的 Sora 在今年發(fā)布后也尚未對外開放使用,其真正的技術穩(wěn)定性仍然存疑,而國內則是處在悶頭追趕 Sora 的技術研發(fā)期,各文生視頻創(chuàng)業(yè)公司亦是把戰(zhàn)力值加滿,想在短暫的窗口期融到更多的錢來盡快在幾個月內追趕上 Sora 的腳步。
「三個月內對齊到 Sora 的視頻生成效果還是很難的,和 Sora 相比大家都還是在一個相對低的起跑線上,這樣是個長期發(fā)力、急不得的事。」香港大學教授、歐洲科學院外籍院士、徐圖智能創(chuàng)始人徐東告訴 AI 科技評論。
AI 2.0 時代,模型即平臺、模型即產品。在當下技術無定論、底層模型尚未開源的階段,文生視頻還處在科研和產品中間的位置,沒有出現(xiàn)較為成熟的產品。因此,文生視頻背后的技術能力就會起決定性作用,而技術又跟科研水平強掛鉤,研究成果幾乎就是模型本身。
背靠香港大學,徐東和其它幾位教授和學生組成的徐圖智能團隊在 Sora 發(fā)布之前就開始采用 DiT 路線來實現(xiàn)文生視頻。并且,在影響視頻生成時長的壓縮技術上,團隊從 2018 年就開始進行技術積累。「做深度視頻壓縮算法,就相當于在攻克大語言模型的長文本能力。如果沒辦法在時間和空間層面同時做好視頻壓縮,那么生成的時長就無法做到 1 分鐘?!剐鞏|說道。
人類運用感官的能力被認為是智能的關鍵部分,而其中眼睛能看到的圖像和視頻則受眾面更廣、傳播性更強,相較于文字有更低的接受門檻。因此,視頻能力是多模態(tài)的關鍵,更是邁向 AGI 的路上不可跳過的一步。
至于最后究竟是大廠、AI 獨角獸還是文生視頻創(chuàng)業(yè)公司能夠跑出來,還懸而未決?!傅鑫纳曨l最重要的是有信仰,抱著 fomo 的心態(tài)去試水和心懷堅定的技術信仰去研發(fā)是完全不同的兩件事?!剐鞏|說道。
文生視頻這條賽道上,需要有技術實力、堅定信仰的創(chuàng)業(yè)者穩(wěn)扎穩(wěn)打、長期發(fā)力跑下去。
一、三個月無法對齊 Sora
AI 科技評論:Sora 出現(xiàn)之前,文生視頻賽道中 Pika、Runway 剛嶄露頭角, Sora 的出現(xiàn)打了大家一個措手不及,這是否會使文生視頻創(chuàng)業(yè)者因壓力過大而動作變形?
徐東:壓力肯定還是有的,但我覺得還好。因為我對這個賽道的判斷是,肯定會有幾家初創(chuàng)公司能活下來,當然大廠也認為不可 miss 這么大的機會所以肯定也會去做,但未必每家大廠都能做出來。其中可能至少有兩家不同類型的公司能夠活下來,其中一家提供最底層文生視頻技術,另外一家可能更強調把 community 做好。
文生視頻這個賽道和大語言模型的賽道是不一樣的,去年一年涌現(xiàn)出上百個大模型,幾個月內會定生死,而文生視頻的賽道其實還挺長的,而且現(xiàn)在專注做文生視頻的公司也不多,所以其實并不是那么擁擠。
因此,大家目前即使誰有一點領先、誰落后一點都還相對是能接受的,和 Sora 相比大家都還是在一個相對低的起跑線上,對齊 Sora 是個長期發(fā)力、急不得的事,不在乎一時的輸贏,那壓力就沒那么大了。
AI 科技評論:在 Sora 出現(xiàn)之后,行業(yè)內有一種說法是想要在半年左右的時間去追趕上 Sora ,這是可行的嗎?
徐東:老實講,我覺得 3 個月對齊Sora還是挺難的。因為 Sora 消耗的 GPU 資源還是蠻大的。在當下創(chuàng)業(yè)公司都沒有融很多錢的時候,去設置一個不太可能完成的目標,其實是沒必要的。
還是把心態(tài)放平衡,除非某家有很多資源,那如果在沒有很多資源的情況下,大家就是需要花相當長的時間去把這事逐步地追趕上去,而且最終也不止一家能活下來,所以說也沒必要搞那么大壓力。
并且這個賽道如果只做到快,也是不行的,沒把數(shù)據(jù)準備、視頻壓縮、DiT 訓練以及架構這些工作做扎實的話,很難做出國內的 Sora,不能跨越式發(fā)展。而且 Sora 的技術報告也沒有給太多細節(jié),所以會有時間上的試錯成本。
AI 科技評論:也就是說做多模態(tài)或者文生視頻,相較于大語言模型,是需要把戰(zhàn)線拉得更長,節(jié)奏沒有大語言模型那么快?
徐東:是的?,F(xiàn)在即使是 Sora 的落地狀況也不是很清楚,可能是由于 Sora 目前還是 ChatGPT 1.0 ,距離ChatGPT 3.5 這種能提高生產力的、可靠性較高的程度還是有差別的。當然生成視頻如果只是 for fun, Sora也可能是可以的。但是大家估計Sora在云端做推理的成本很高,所以條件也不允許免費、大范圍無限制地調用Sora來生成視頻 to C for fun。
AI 科技評論:Sora 發(fā)布以來,現(xiàn)在國內有部分廠商也發(fā)布了自家生成的 20 秒視頻,這是不是說明國內文生視頻水平很快就能追上 Sora?
徐東:Sora 是甩開了大家至少兩個身位。雖然很多家能做到10秒以上,但問題是到底有多可靠,無論是 Sora 還是國內,很少有視頻大模型給大家開放實測。這背后的問題就是,目前國內的文生視頻是否能很可靠地生成 20 秒視頻?是否能做到不需要精挑細選就能生成一個可以對外的 demo?這幾天快手「可靈」開放測試,不過網(wǎng)上放出來的生成結果都還只是5秒的視頻,不知道是否能夠穩(wěn)定地生成其demo中呈現(xiàn)的120s視頻。
AI 科技評論:做視頻AI研究有 20 多年的時間以來,視頻這一模態(tài)大概經歷了什么樣的發(fā)展歷程?
徐東:正如計算機視覺可以分為 high level 視覺和 low level 視覺,視頻方向的研究也可以分成 high level 和 low level。前者是做視頻的識別、檢測、分割、看視頻說話( video to text),后者則是視頻超分、去噪、 視頻生成(text to video)。
在相當長一段時間,視頻動作/事件識別是視頻AI最重要的研究方向。最早做控制環(huán)境下(比如固定攝像頭,簡單背景)對人物動作的識別,后來逐步過渡到2007年左右的時候,就可以在真實的、沒有限制的環(huán)境下進行動作/事件識別(比如電影視頻里面的動作識別和我們做的新聞視頻里面的事件識別)。之后到智能手機拍攝圖像/視頻變得流行以后,就開始做用戶拍攝的personal video(個人視頻)中的動作/事件識別。
AI 科技評論:最后為什么選擇去做 low level 層面的創(chuàng)業(yè)?
徐東:我早期是做 high level 視覺的,后來深度學習火了以后就發(fā)覺做 high level 視覺的人太多了,看 CVPR 的論文,那時幾乎有 90% 以上的文章都是high level 視覺的,不到 10% 是 low level視覺的論文。而其中大部分做深度學習的人并不擅長做視頻壓縮,他們更傾向去做識別、分割、檢測這種高層任務,于是就想著能不能來做底層視覺,就開始做深度視頻壓縮的研究。雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
AI 科技評論:你們團隊解決過多視頻這一模態(tài)的哪些關鍵問題?
徐東:我們是最早把遷移學習引入到做個人視頻識別領域的團隊。因為當時的一個難點是缺乏做視頻事件識別所需要的訓練數(shù)據(jù)集,但在 YouTube 上已經有一些用戶為自己創(chuàng)作的視頻打上一些關鍵詞(tag),于是我們在網(wǎng)上下載到這些YouTube視頻作為訓練樣本來學習分類模型,然后用它來識別其他用戶自己拍攝的視頻,很自然的就把遷移學習引進來處理訓練 YouTube 視頻和個人用戶視頻之間分布不一致的問題。這項研究的論文獲了 CVPR 2010 最佳學生論文獎,期刊版本發(fā)表于T-PAMI 2012(參見如下論文)。
論文鏈接:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=9b969e1ef4de098ebc6ba388e1b41aa98ea5df47
由于這個工作和我們團隊2010年前后一系列的相關工作,計算機視覺領域的研究人員逐步提出了大量針對不同視覺任務的遷移學習方法,最后我和加利福尼亞大學伯克利分校Trevor Darrell教授,波士頓大學Kate Saenko教授(當時是Darrell教授的博士后)以及約翰霍普金斯大學Rama Chellappa等教授一起開創(chuàng)了一個名為視覺領域自適應(Visual Domain Adaptation)的新研究領域。
除此之外,2018 年開始,我們團隊開始做端到端優(yōu)化的深度視頻壓縮網(wǎng)絡DVC(Deep Video Compression),現(xiàn)在這個領域的研究人員會普遍將 DVC 這項工作認為是世界上第一個端到端優(yōu)化的深度視頻壓縮框架。
論文鏈接:https://arxiv.org/pdf/1812.00101
過去做視頻壓縮的方式是人為設計新的模塊,來更好的去除視頻數(shù)據(jù)空間和時間維度上的冗余,這種方式延續(xù)了幾十年。我們做的時候就把所有的模塊都替換成神經網(wǎng)絡。這時候面臨的第一個難題就是沒有可供訓練的數(shù)據(jù)集,反復嘗試以后我們采用了麻省理工團隊收集的數(shù)據(jù)庫Vimeo-90k。麻省理工團隊的成員告訴我們他們收集這個數(shù)據(jù)集的時候也沒有意識到這個數(shù)據(jù)庫可以被用來做深度視頻壓縮。但是由于我們首先采用了這個數(shù)據(jù)庫,Vimeo-90k 數(shù)據(jù)集就成了做深度視頻壓縮方向的訓練數(shù)據(jù)庫。經過幾年的研究,我們在視頻壓縮標注數(shù)據(jù)集上的結果從和20多年前的壓縮標準 H.264 相當?shù)匠^最新的壓縮標準 H.266,在相當長的一段時間內,我們團隊都是這個領域在世界范圍內最前沿的研究團隊。
AI 科技評論:當下文生視頻的發(fā)展處于什么樣的階段?
徐東:其實當下文生視頻還處在科研和產品中間,坦言來講它和產品之間還有不小的距離,研發(fā)的比重會更多一點。如果技術已經沒有什么發(fā)展空間,大家都準備做工程化了,這樣的節(jié)點我們肯定沒有優(yōu)勢。但現(xiàn)在是只知道大概的方向,具體細節(jié)尚未可知,而且說不定未來還需換成另外的技術路線,這個時候科研團隊的優(yōu)勢就體現(xiàn)了出來。這種優(yōu)勢和 0—1 的 research 能力,是即使有錢也買不到的。
AI 科技評論:目前文生視頻創(chuàng)業(yè)團隊,一部分是之前大廠出來的業(yè)界大咖,另一部分是高校學者,兩者各有什么優(yōu)勢?誰更有可能跑出來?
徐東:互聯(lián)網(wǎng)時代,在視頻領域有現(xiàn)象級的 APP 抖音、快手, 而在學術界,高校學者確實并不擅長做 APP,也不擅長做工程化太強的東西。即使是在 AI 1.0 時代,在視頻領域能夠真正落地且對人們的生活方式有實質改變的東西也相當比較少,也許只能做一些 tools,但無法真的靠 AI 來做出一家現(xiàn)象級的平臺型公司。
但是在 AI 2.0 時代, 做一家平臺型公司的難度和過去互聯(lián)網(wǎng)時代是不一樣。AI 2.0 是技術驅動的團隊更擅長的事,因為現(xiàn)在就是模型即產品、模型即平臺的時代,因此模型質量就是最關鍵的因素,而模型質量跟科研水平十分掛鉤,幾乎是你的研究成果就是模型。而模型本身又離產品又很近,基本上不需要做太多其他的步驟就是產品。也就是說,做研究的 output 恰好就是產品,這個時候教授帶隊的創(chuàng)業(yè)反而會有一定優(yōu)勢。
而且可以看到,OpenAI 這幫人中,雖然有工程化能力很強的人,但能夠驅動這個項目的還是頂尖的 researcher。
二、深度壓縮——對應 LLM 的長文本能力
AI 科技評論:你認為做文生視頻的關鍵技術問題是什么?
徐東:對于文生視頻,其實最難的還不只是 DiT,視頻壓縮也重要。如果做不好時間和空間這兩個維度的壓縮你就生成不了長視頻。
壓縮是文生視頻中很關鍵的步驟,它決定了生成視頻的時長。在保證同等生成質量的情況下,假設視頻壓縮算法能夠多去除50%的信息冗余,那可能別人能生成10秒的視頻,壓縮效率提高后就能生成 15 秒的視頻。
Pika 和Runway 的問題就是,他們只做了空間維度的壓縮,而沒有做時空維度同時的數(shù)據(jù)壓縮,導致模型在訓練的時候也只能用一個時長較短的視頻做訓練。如果他只能用 4 秒的視頻做訓練的話,最終也不能生成一個 20 秒的視頻。
Sora 目前能把一個空間分辨率高、時長也很長的視頻同時進行時空數(shù)據(jù)壓縮,那這個視頻的空間時間維度都變小,在這個小的空間上再去做 DiT 路線是可行的。DiT路線只是一個加噪和去噪的過程,它本身只是把文本的信息引入到去噪的過程當中,通過把文本信息跟視覺信息有效地融合來實現(xiàn)文生視頻。因此,用長視頻去訓練,推理的時候也能生成長視頻。更重要的是,完成DiT路線之后,還要經過一個 decoder 過程來重建原始高分辨率的視頻,將低分辨率的特征還原到高分辨率的視頻上去。壓縮壓得不好的話,重建視頻的質量也有問題,比如出現(xiàn)抖動現(xiàn)象。
AI 科技評論:如果用大語言模型做對比的話,深度壓縮相當于哪一個技術關鍵點?
徐東:深度視頻壓縮算法,有點相當于大語言模型的長文本,大家其實沒有意識到它的重要性,其實它意味著,同等情況下我壓得比你狠,那就一定能做到生成視頻時長比你長。
AI 科技評論:除了壓縮以外,還有什么關鍵技術能拉開各家文生視頻模型的差距?
徐東:更多的在于 DiT 實現(xiàn)的細節(jié),其中scaling up非常重要。另外從數(shù)據(jù)角度來講,需要準備高質量的數(shù)據(jù),我們花了一年多的時間收集數(shù)據(jù),有上億個 video clip。
AI 科技評論:行業(yè)內有一種說法是,相比于視頻生成能力,先做好語言生成能力會更重要,認為只做視頻生成模型,不做基礎語言模型的公司會處于劣勢。你是否認同?
徐東:語言能力確實決定了多模態(tài)能力,多模態(tài)模型肯定要依賴于語言模型,如果語言做不好,多模態(tài)也就做不好。當然,語言模型或者多模態(tài)模型對文生視頻模型的一些數(shù)據(jù)準備工作是有幫助的。
但整體來講,文生視頻主要的 DiT 架構和語言大模型的路線不一樣,視頻能力相對會獨立一些。我認為,視頻能力還是挺重要的,主要是視頻這種載體的受眾面廣,傳播得也很快。雖然目前仍然是語言模型更成熟、離商業(yè)化更近,文生視頻模型離商業(yè)化稍微遠一點。確實我們不做語言模型,也不擅長做離商業(yè)化很近的東西,但兩者仍然各有優(yōu)劣,我們擅長做創(chuàng)新科研,這也是我們這種高??蒲袌F隊創(chuàng)業(yè)的原因和存在的理由。
三、視頻模型是原子彈,不是茶葉蛋
AI 科技評論:周鴻祎說過,2023年,看大模型像原子彈,現(xiàn)在再看大模型像茶葉蛋。文生視頻的賽道是否會出現(xiàn)相同的情況?
徐東:這個賽道不像大語言模型那樣,能很快融資、變現(xiàn),和大語言模型的發(fā)展路徑其實是不太一樣的,很大程度上是因為大語言模型中有 LLaMA 開源,國內進行微調之后會瞬間涌現(xiàn)上百個模型。
文生視頻模型落地的節(jié)奏會更長一些,現(xiàn)在也沒有高質量的開源模型,不是隨便做一下就能做出來的。如果沒有高質量開源模型的話,它就永遠還是原子彈,而不是茶葉蛋。
AI 科技評論:現(xiàn)在 MiniMax 等大模型獨角獸、字節(jié)等互聯(lián)網(wǎng)大廠都在做文生視頻模型,那么專門做文生視頻的創(chuàng)業(yè)公司如何與他們競爭?
徐東:其實我覺得做文生視頻最重要的是要有信仰的,因為這件事并不是很容易,尤其是在沒有高質量開源模型而且 OpenAI 也沒有提供太多技術細節(jié)的情況下,技術還處于研究和產品中間,沒有信仰的團隊很難 All In 做這個事情,并將其做出來。
對大模型創(chuàng)業(yè)公司來說,如果只是想通過這個亮點來抬抬估值,估計是不行的。真的需要去相信它能做出來并且不管多么困難都愿意投入資源去做,真的需要有一個頂尖人才的團隊 All In 去做這件事,并且 All In 之后還有可能打水漂。做個效果差強人意的模型是可能的,真的做得像 Sora 效果那么好還是很難。
于大廠而言,文生視頻是件 fomo 的事情,所以他們肯定會做。只不過抱著害怕錯過的心態(tài)和堅定的技術信仰去做事是完全不同的,并且大廠要想專門組建一個頂尖人才的團隊去做這件事情還是很困難的。從側面也說明了,大廠也給技術較強的文生視頻創(chuàng)業(yè)公司提供了一些收購的機會。
AI 科技評論:什么樣的才是頂尖人才?
徐東:中國的 AI 人才數(shù)量比美國是多的,但從結果上來看,國內在技術水平上和美國相比可能還是有一定的差距,我猜測主要原因是頂尖人才比較稀缺。至于,怎么衡量是不是頂尖人才?其中很重要的一個指標就是,不能等OpenAI 研究完之后告訴你該做哪個你就做哪個,而是在 OpenAI 告訴你之前就在做這個事情,甚至有外界的聲音指責你做錯了,但仍會一直堅持做你相信的。
AI 科技評論:最近 OpenAI 發(fā)布了ChatGPT-4o,這預示了多模態(tài)大模型的那些趨勢?
徐東:其實 ChatGPT-4o 目前的突破點就是,把語音識別、文字生成、語音合成這三個獨立的模塊給它合并成了一個模塊。以此為基礎,之后從多模態(tài) in 到多模態(tài) out 會是進化的方向,也就是說輸入可以是文字、語音或者圖像/視頻,輸出也可以是語音、文字和圖像。但這個體系中,還沒有把視頻生成的能力加進去,可能是因為 Sora 本身或者文生視頻還不是很成熟。
AI 科技評論:國內距離 ChatGPT-4o 是否有很大差距?
徐東:ChatGPT-4o 里面包括很多工程化的事情,更像是一個成熟的產品,但他并不是一個breakthrough。 ChatGPT-4o 包含的這幾個模塊之前都是相對成熟的,只是各部分之間相對獨立、語音交互反應的延遲又很大,而ChatGPT-4o 則是把對圖像 high level 的理解能力和 low level 的生成能力結合在一起了,可以把他做成一個端到端的模型,可以做到較低的時延,做到實時語音聊天。所以,國內如果想追的話可能不是那么難。
AI 科技評論:從技術路線的角度來講,您認為 ChatGPT-4o 有什么突破的地方嗎?
徐東:它可能涉及到了路線之爭,ChatGPT-4o 這一點是很厲害的。因為之前 DALL·E3 系列用的是 Diffusion 模型,但 ChatGPT-4o 是一個新的端到端訓練的Single模型,我們猜測似乎是文生圖部分走回到了最早 DALL·E 的自回歸路線。雖然之前大家會認為 Diffusion 模型效果好,而自回歸路線是 DALL·E 的老路線,但GPT-4o 證明了, 自回歸路線能實現(xiàn)的結果也不差,也就是說 Diffusion 路線不一定比自回歸路線好很多,兩者可能是半斤八兩、各有優(yōu)勢。
AI 科技評論:在 2024 年剩下的時間里,你認為文生視頻賽道可見的競爭點是什么?
徐東:得開放出來用,讓各種類型的用戶能測試到,這個是比較重要的。不能說公開的這一個效果驚艷的 demo 是從大量的結果里面挑出來的,不至于說要求百發(fā)百中,但至少抽卡不能抽得太兇,穩(wěn)定性和可控性十分重要。其中,如何提升可控性,即如何更好地按照用戶的意圖來生成視頻,迄今為止任然是一個非常難的開放課題,這個問題在圖片領域都沒有被很好的解決。當然效率也很重要,因為其直接決定了文生視頻系統(tǒng)的推理成本。
AI 科技評論:文生視頻賽道中,仍處于從技術到產品的階段,但各廠商也在技術不是很成熟的階段做出了一些商業(yè)化,這是一種健康的狀態(tài)嗎?
徐東:早點做商業(yè)化還是有必要的,并且目前投資環(huán)境不是很好,不能一直燒投資人的錢。并且盡早做商業(yè)化,有一些數(shù)據(jù)和用戶反饋進來后,也有利于模型的迭代,之后別人要是追趕的話也比較難。
AI 科技評論:文生視頻需要哪些條件、發(fā)展到什么程度才可以大范圍 To C?
徐東:具體的時間點可能很難去預測,但一個關鍵問題會取決于端側推理能力的發(fā)展。最開始肯定是 AIPC 的發(fā)展,現(xiàn)在微軟、聯(lián)想、戴爾等 PC 廠商都在做。然后慢慢地考慮高端手機到中端手機。除了端側推理能力的發(fā)展之外,也會取決于模型壓縮,如何把一個性能優(yōu)異的模型壓縮后能夠部署在端上。
如果有一天,在能夠把這兩件事做到的基礎上,至少還能生成一個哪怕分辨率不是那么高、20 秒左右的視頻,那么 To C 這件事就是真的可行的。那時候可以達到,對手機說一段話就能產生一個視頻,如果不滿意還可以就再接著說一句話進行修改,這才真正是「人人都是視頻創(chuàng)作者的時代」。
AI 科技評論:你認為對于文生視頻這個領域而言, To C 會早于 To B 嗎?
徐東:走在前面的可能還是 To B,從大 B 的影視公司,到中 B 的游戲工作室、短劇工作室、廣告工作室,再到小 B 的專業(yè)用戶比如 up 主這類,這時候切實能為他們的工作降本增效,付費意愿自然會強烈。
如果真的做到 To C,像抖音一樣達到老人和小朋友隨時隨地都能用的程度, 一定需要模型的推理都到端上。
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。