0
2月16日凌晨,正值中國春節(jié)法定節(jié)假日期間,OpenAI 毫無預(yù)兆地發(fā)布了 AI 視頻生成大模型 Sora??催^視頻效果后,網(wǎng)友紛紛感嘆「現(xiàn)實,不存在了?!?/p>
不夸張地說,Sora 的技術(shù)結(jié)果直接碾壓了過去世界范圍內(nèi)所有文生視頻的探索結(jié)果,顛覆了 AI 短視頻生成的現(xiàn)狀。又一次,OpenAI 拉開了和 Pika 、Runway 等知名文生視頻團(tuán)隊的代差,鞏固了“遙遙領(lǐng)先”的“AI 霸主”地位。
基于此,可以預(yù)見的是:接下來,很多傳統(tǒng)的影視公司、視頻素材行業(yè),甚至是新興的虛擬拍攝制作、特效生成領(lǐng)域都要迎來“大變天”。更有網(wǎng)友戲謔調(diào)侃:OpenAI 沒有停下殺掉初創(chuàng)公司的腳步。
以 ChatGPT 為首的人工智能正在改寫世界的邏輯,帶來誘人機(jī)遇,吸引諸多創(chuàng)業(yè)者前赴后繼,但同時,冒險者也面臨巨大不確定性,所有努力可能在頃刻間化為烏有。無論是 OpenAI 開發(fā)者大會發(fā)布的 GPTs 等一系列新成果,還是文生視頻底層大模型 Sora 的問世,都「抄」了很多創(chuàng)業(yè)者的后路。
但實際上,Sora 并非 2024 年 AI 短視頻生成領(lǐng)域的唯一“開門紅”。2 月 16 日,海外各科技巨頭紛紛亮相了 2024 開年的新產(chǎn)品:除了OpenAI 的 Sora 這一記驚雷之外,Google 發(fā)布了 Gemini Pro 1.5,Meta 也發(fā)布了全新視頻生成模型 V-JEPA。
春節(jié)前,著名科技網(wǎng)紅周鴻祎調(diào)侃大模型 “去年(2023 年)像原子彈,今年(2024 年)像茶葉蛋”;但在 OpenAI 推出 Sora 后,也紛紛改口,稱“AGI 實現(xiàn)將從 10 年縮短到 1 年”。Sora 對現(xiàn)實物理世界的理解與模擬,超出了所有人的想象,在 Sora 的推動下,大模型的競爭也從 2023 年的暗流涌動,轉(zhuǎn)為 2024 年的風(fēng)起云涌。
2023 年,國產(chǎn)大模型的呼聲高開低走,年底一度出現(xiàn)唱衰大模型的聲音。但在科技大趨勢面前,真正的追隨者一直遵循同一個原則,即長期主義。2024 年將是大浪淘沙的一年,一部分人已經(jīng)放棄,另一部分人則繼續(xù)火力全開,如 OpenAI、谷歌與 Meta。
時代,永遠(yuǎn)眷顧有準(zhǔn)備的人。
萬眾矚目的 Sora
先來看風(fēng)頭最盛的 OpenAI Sora。
“生活中最大的樂趣之一就是發(fā)現(xiàn)未被發(fā)現(xiàn)的人才,賦予他們堅定的信念,并看著他們改變事物的軌跡?!?/p>
信任并不吝嗇于給予年輕人資源——這一理念深深植根于 OpenAI 的基因中。Sora 的兩位研發(fā)核心負(fù)責(zé)人Tim Brooks 和 William (Bill) Peebles 便是年輕的技術(shù)人才,兩人同為美國加州大學(xué)伯克利分校的博士同窗,師從計算機(jī)視覺先驅(qū) Alyosha Efros,并均在 2023 年畢業(yè)。
為何應(yīng)屆博士生能成為 Sora 負(fù)責(zé)人,帶領(lǐng)團(tuán)隊扔出這個重磅炸彈?回顧二人的過往經(jīng)歷,不難發(fā)現(xiàn),他們能夠研發(fā) Sora,并非幸運或偶然。
Tim Brooks 早兩個月加入 OpenAI——去年 1 月 PhD 畢業(yè)后,Tim Brooks就絲滑入職 OpenAI,參與了 DALL·E-3 的工作。
Tim Brooks個人網(wǎng)站:https://www.timothybrooks.com/about/
2017 年 8 月,Tim Brooks 本科畢業(yè)于卡內(nèi)基梅隆大學(xué),畢業(yè)后加入了 谷歌的 Pixel 團(tuán)隊,研究 AI 在手機(jī)攝像頭上的應(yīng)用。
2019 年,Tim Brooks 在年初結(jié)束了在谷歌的工作,并于同年8月進(jìn)入 UC Berkeley(加州大學(xué)伯克利分校)攻讀PhD。就讀期間,Tim Brooks 以實習(xí)生的身份加入 Nvidia,領(lǐng)導(dǎo)了視頻生成的項目。
在 PhD 時期,Tim Brooks還與導(dǎo)師Alyosha Efros和現(xiàn)谷歌科學(xué)家Aleksander Holynski一起研發(fā)了一個條件擴(kuò)散模型——InstructPix2Pix,它不需進(jìn)行微調(diào),能在幾秒鐘內(nèi)快速編輯圖像。該模型結(jié)合了GPT-3和Stable Diffusion語言和圖像兩種模型的互補知識,為跨越兩種模態(tài)的任務(wù)創(chuàng)建配對訓(xùn)練數(shù)據(jù),并根據(jù)該數(shù)據(jù)訓(xùn)練而成。
該研究成功入選CVPR 2023 Highlight。
但 Tim Brooks 不僅僅是一位技術(shù)人才。在他的個人網(wǎng)站里,還能看到他攝影、阿卡貝拉、BeatBox 相關(guān)的作品。其高中時期的攝影作品甚至獲得了國家地理的獎項,他還曾在紐約百老匯的燈塔劇院演出,并獲得 BeatBox 的國際獎項。
Tim Brooks 這樣形容自己:“我對計算機(jī)科學(xué)和人工智能的職業(yè)充滿熱情,幸運的是它與我對攝影、電影和音樂的熱愛融為一體?!?/p>
與 Tim Brooks 師出同門的 William Peebles 則在兩個月后也加入了 OpenAI,兩人共同領(lǐng)導(dǎo) Sora 團(tuán)隊,負(fù)責(zé)研發(fā)工作。
William Peebles個人網(wǎng)站:https://www.wpeebles.com/
William Peebles 本科就讀于 MIT 的計算機(jī)科學(xué)專業(yè),期間加入了 MIT 知名的計算機(jī)科學(xué)與人工智能實驗室(CSAIL),參與了 GAN 和 text2video 相關(guān)的研究。本科時期他曾在英偉達(dá)的深度學(xué)習(xí)與自動駕駛團(tuán)隊實習(xí),研究計算機(jī)視覺。
2019年,William 加入加州大學(xué)伯克利分校開啟了他的博士學(xué)習(xí)之旅。就讀期間,William 繼續(xù)研究 GAN,并先后在 Adobe 和 Meta 實習(xí)。
值得一提的是,自 2022 年 5 月至 12 月,William 在 Meta 僅實習(xí)不到一年,就與當(dāng)時仍在 Meta 任職的 AI 技術(shù)大牛謝賽寧合作發(fā)表了 DiT(Diffusion Transformer)模型,首次將擴(kuò)散模型與 Transformer 結(jié)合起來。此研究發(fā)表在 ICCV 2023 上,新鮮出爐的 Sora 就是建立在 DiT 的基礎(chǔ)上的。
謝賽寧在推特上解讀 Sora 與 DiT 模型
Sora 展現(xiàn)出驚人的視頻效果,其背后的技術(shù)原理包含了文生視頻技術(shù)變革的潛力。在 OpenAI 官網(wǎng)最新發(fā)布的技術(shù)報告中,可以窺探到 Sora 顛覆的技術(shù)細(xì)節(jié)。
借鑒 Transformer 架構(gòu)的 Diffusion 擴(kuò)散模型
Sora 大體技術(shù)架構(gòu)和 Walt 類似,側(cè)面說明整體的技術(shù)框架在行業(yè)內(nèi)已逐漸確定下來。根據(jù)技術(shù)報告分析,Sora 的優(yōu)勢可能在于:找到了更好的表征視頻數(shù)據(jù)的方式。
雖然 Sora 本質(zhì)上采用的仍然是 Diffusion 擴(kuò)散模型,但 Sora 把其中的實現(xiàn)邏輯 U-Net 架構(gòu)替換成了 Transformer 架構(gòu)。
基于 Transformer 的實現(xiàn),依賴視覺數(shù)據(jù)向量化,Sora 用 visual patches 代表被壓縮后的視頻向量進(jìn)行訓(xùn)練,每個「patches」相當(dāng)于GPT中的一個「token」。
所謂的 patches 是一種高度可擴(kuò)展和有效的表示,帶有時間和空間信息,還可以自由排列,靈活度極高,可以用于訓(xùn)練不同類型的視頻和圖像的生成模型。使用patches,可以對視頻、音頻、文字進(jìn)行統(tǒng)一的表征。
和大模型中的 tokens 類似,Sora用 patches 表示視頻,把視頻壓縮到低維空間(latent space)后表示為Spacetime patches。
在 DiT 架構(gòu)上,Sora 通過輸入的提示詞信息,即可預(yù)測下一個 patch 來生成視頻,就大模型預(yù)測下一個 token 生成文本一樣,這意味著 OpenAI 可以在訓(xùn)練 Sora 時傾注更多的數(shù)據(jù)和計算資源以實現(xiàn)更優(yōu)的效果。
Sora 甚至能夠接受帶有噪聲的圖像塊(及條件信息如文本提示)作為輸入,并被訓(xùn)練以預(yù)測出原始的“清晰”圖像塊。
2023 年,在文生視頻領(lǐng)域,行業(yè)內(nèi)一致認(rèn)為,現(xiàn)有的視頻生成工具有一個共同難點,即運動一致性的持續(xù)性。針對這個問題,OpenAI 堅持了“壓縮即智能”的技術(shù)路線,建立了相對完善的訓(xùn)練機(jī)制,從噪聲開始,逐步精煉其生成的視頻,直到出現(xiàn)生動、連貫的場景。這種架構(gòu)不僅保證了 Sora 的高效率和可擴(kuò)展性,也使其能夠處理各種格式和比例的視覺內(nèi)容。
不過,盡管 Sora 在 60 秒短視頻的生成上效果大幅提升,仍有技術(shù)人員向 AI 科技評論表示,“運動一致性”在短期內(nèi)仍是文生視頻領(lǐng)域的一大掣肘。
可變持續(xù)時間、分辨率、寬高比
過去的圖像和視頻生成方法通常將視頻調(diào)整為標(biāo)準(zhǔn)尺寸、裁剪或修剪——例如,256x256 分辨率的 4 秒視頻。Sora 則更加靈活多樣,可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的一切。
這允許 Sora 直接以原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容。它還允許在以全分辨率生成之前,以較低的尺寸快速制作內(nèi)容原型——所有這些都使用相同的模型。
改進(jìn)的框架和構(gòu)圖
根據(jù) OpenAI 的實驗,以原生寬高比進(jìn)行視頻訓(xùn)練可以改善構(gòu)圖。將 Sora 與其他模型版本進(jìn)行比較,發(fā)現(xiàn)其他模型會將所有訓(xùn)練視頻裁剪為正方形,這通常是訓(xùn)練生成模型時的常見做法。在其他模型(上)生成的視頻中,主體僅部分出現(xiàn)在視野里。相比之下,Sora(下)的視頻則有明顯的改進(jìn)。
Sora 脫穎而出,不僅因為其獨到的文本解析能力,更在于其重現(xiàn)物理世界動態(tài)的獨特方式。它不僅僅是一個文本到視頻的轉(zhuǎn)換工具,而是一個能夠理解復(fù)雜命令并將其轉(zhuǎn)化為視覺故事的智能實體。與現(xiàn)有技術(shù)如 Runway 和 Pika 相比,Sora 在視頻生成的真實感和細(xì)節(jié)表現(xiàn)上已邁出了重要一步。
世界模型
盡管 Sora 和真正的世界模型相比仍存在一定差距,但顯而易見的是,與其他文生視頻模型相比,Sora 更擅長模擬現(xiàn)實世界中的人、動物和環(huán)境,且這種能力不需要對三維空間、物體等有任何特定的預(yù)設(shè)偏好——它們純粹是由數(shù)據(jù)規(guī)模驅(qū)動的結(jié)果。
此外,Sora 還能接受圖片或已有視頻作為輸入。這意味著 Sora 能夠完成各種圖片和視頻編輯任務(wù),比如制作無縫循環(huán)視頻、給靜態(tài)圖片添加動畫效果、延長視頻的播放時間等。雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
Sora 具有三維空間的連貫性。它能生成帶有動態(tài)視角變化的視頻,當(dāng)攝像機(jī)位置和角度變動時,視頻中的人物和場景元素能夠在三維空間中保持連貫移動。
在生成長視頻時,保持時間上的連續(xù)性一直是個挑戰(zhàn)。而 Sora 具有遠(yuǎn)距離連續(xù)性與物體持久性,能夠有效處理短距離和長距離的依賴關(guān)系。比如,即使人物、動物或物體被遮擋或移出畫面,Sora 也能保持它們的連續(xù)存在,能在同一視頻樣本中多次展示同一角色,確保其外觀貫穿始終。
Sora 還能模擬出簡單地影響世界狀態(tài)的行為。例如,畫家在畫布上留下的筆觸隨時間持久存在,或者某人吃漢堡留下的咬痕,實現(xiàn)與世界的互動。
通過對視頻的學(xué)習(xí),Sora在一定程度上能理解人類的現(xiàn)實物理世界,預(yù)判了物理世界中物體之間的關(guān)系。
除了現(xiàn)實世界,Sora 還能模擬數(shù)字化過程,如視頻游戲。它能在控制 Minecraft 游戲角色進(jìn)行基本操作的同時,高質(zhì)量渲染游戲世界及其動態(tài)。僅需通過提及“Minecraft”等字樣的提示,即可激發(fā)這些能力的展現(xiàn)。
Sora 之后,大模型的軍備競賽加劇
Sora 的性能的確足夠炸裂,從根本上來說,Sora 的打法就是在擁有足夠大量的訓(xùn)練視頻基礎(chǔ)上,用多模態(tài)模型給視頻做標(biāo)注,把不同格式的視頻編碼成統(tǒng)一的視覺塊(patches)嵌入,然后用足夠大的網(wǎng)絡(luò)架構(gòu)加足夠大的訓(xùn)練批次加足夠強的算力,讓模型對足夠多的訓(xùn)練集做全局?jǐn)M合。
有行業(yè)內(nèi)人士如此評價 OpenAI 這一解決方案:雖然不是十分高深,但卻是聰明的,是務(wù)實的訓(xùn)練方式和算力結(jié)合之后向前邁的一大步。
可以說,OpenAI 憑借 Sora 在國內(nèi)外 AI 領(lǐng)域中又引發(fā)了一場沒有硝煙的戰(zhàn)爭。
谷歌 、Meta 等先入場的巨頭們也展示各自力量,紛紛謀劃如何守住自身陣地,增強自身 AI 武器裝備,進(jìn)行新一輪軍備競賽較量,不至于落于后風(fēng)。
首當(dāng)其沖的就是谷歌。在 OpenAI 發(fā)布 Sora 的 2 小時之前,谷歌就已經(jīng)先發(fā)布了 Gemini Pro 1.5。
從模型的性能來講,谷歌 Gemini Pro 1.5 在多個維度上都有顯著改進(jìn),能夠跨模態(tài)進(jìn)行高度復(fù)雜的理解和推理,其威力也可以稱得上是王炸級別。
尤其是在長語境理解方面實現(xiàn)了突破,在 GPT-4 能理解的上下文長度是 128K,Claude 是 200K 的背景下, Gemini Pro 1.5 提升至 10M。也就是說,1 個小時的視頻、11 個小時的音頻、超過 70 萬字的代碼庫,它都可以一次性閱讀處理完。
除此之外, Gemini Pro 1.5 能夠同時處理文本、圖像、音頻、視頻等大量的多模態(tài)信息。例如,研究人員給 Gemini Pro 1.5 提供了一份長達(dá) 402 頁的阿波羅登月的任務(wù)記錄,然后向其提問這個腳印所代表的含義,Gemini Pro 1.5 能準(zhǔn)確地記住信息并回答:這代表登月的那一刻,是個人的一小步,人類的一大步。
除了 OpenAI 的 Sora、谷歌的 Gemini Pro 1.5,Meta 在當(dāng)?shù)貢r間 2 月 15 日也發(fā)布了 V-JEPA (Video Joint-Embedding Predictive Architecture,即視頻聯(lián)合嵌入預(yù)測架構(gòu))。
V-JEPA 是基于圖靈三巨頭 Yann LeCun 提出的“自監(jiān)督+世界模型”所構(gòu)建的技術(shù)框架。Yann LeCun 認(rèn)為必須讓機(jī)器學(xué)習(xí)世界模型,從而能夠填補缺失的信息,預(yù)測將要發(fā)生的事情和未來行動的影響。而 Yann LeCun 最早提出“自監(jiān)督+世界模型”,是在 2022 年年初。可以說,Meta 醞釀 V-JEPA 已久。
V-JEPA 采用新的模型訓(xùn)練方法,經(jīng)過打磨也能開發(fā)類似 Sora 的短視頻生成產(chǎn)品,并解決視頻、圖像生成的幀間一致性問題。
在基準(zhǔn)測試中,V-JEPA 表現(xiàn)不凡:Kinetics-400達(dá)到了 82.0% 的準(zhǔn)確率,Something-Something-v2 達(dá)到了 72.2% 的準(zhǔn)確率,ImageNet1K 中則在圖像分類任務(wù)上達(dá)到了 77.9% 的準(zhǔn)確率。
這些成績部分超過了之前 SOTA 的視頻模型,顯示了 V-JEPA 在理解視頻內(nèi)容、分類動作和圖像分類等方面的能力雛型,特別是對視頻中細(xì)節(jié)豐富的對象互動的理解能力。
有硅谷 AI 創(chuàng)業(yè)者向 AI 科技評論評價,Meta 在這波大模型競賽中最大的優(yōu)勢是其一直奉承的開源路線。無論是語言大模型還是文生視頻大模型,Meta 的開源路線都對擁有理想主義情懷的技術(shù)極客們有著極大的吸引力,聚集人才、配齊算力,Meta 有機(jī)會做成大模型時代的“安卓”,一枝獨秀。
今日早晨,Meta 首席科學(xué)家、圖靈獎得主 Yann LeCun 也針對新晉的 Sora 發(fā)表了看法。Yann LeCun 是最早提出世界模型的科學(xué)家。他表達(dá)了對于 OpenAI 旗下 Sora 模型尚未能深入理解物理世界本質(zhì)的思索,深度剖析了生成式模型在捕捉物理世界內(nèi)在規(guī)律以及生成視覺內(nèi)容方面存在的固有限制,并進(jìn)一步探討了聯(lián)合嵌入預(yù)測架構(gòu)(Joint Embedding Predictive Architecture, JEPA)相對于傳統(tǒng)生成式模型所展現(xiàn)出的獨特優(yōu)勢。
關(guān)鍵點包括:
生成逼真視頻并不意味著系統(tǒng)具備對物理世界的真實理解,因為生成式模型僅需從概率分布中采樣合理結(jié)果,而非模擬真實的因果邏輯。
能夠生成符合物理規(guī)律及特定動作要求的連續(xù)視頻片段難度較大且計算成本高,實際價值有限。
JEPA著重于構(gòu)建連續(xù)視覺片段的抽象表征,剝離無關(guān)動作決策的細(xì)節(jié),通過預(yù)測而非直接生成來優(yōu)化表示學(xué)習(xí)。
JEPA系列方法相較于專注于像素重建的生成模型(例如變分自編碼器、掩碼自編碼器、去噪自編碼器等),能夠在保持高質(zhì)量的同時,生成對下游任務(wù)更具指導(dǎo)意義的視覺特征表示。
在下游任務(wù)應(yīng)用中,聯(lián)合嵌入架構(gòu)的學(xué)習(xí)表示作為監(jiān)督信號輸入時,無需微調(diào)主干網(wǎng)絡(luò)就能取得優(yōu)于生成式架構(gòu)的表現(xiàn)。
作為 Meta 的首席科學(xué)家,Yann LeCun 自然會為 JEPA 站臺,在 Sora 率先引爆文生視頻大戰(zhàn)之后,雙方的競爭將呈現(xiàn)怎樣的發(fā)展趨勢,也讓大家十分關(guān)注。
此外,在 2 月16 號發(fā)布撞車的還有 Stability 的 SVD1.1,其官網(wǎng)曾發(fā)布 SVD1.1 正式介紹的推文,后被刪除。
諸多廠商在文生視頻大模型領(lǐng)域的競爭背后,是斥巨量資金支持海量實驗的結(jié)果,也是基于算力邏輯對「卡」的比拼。
思謀科技創(chuàng)始人賈佳亞在朋友圈公開評價:“Sora 是大力出奇跡,在學(xué)術(shù)界連 VIT 的 256*256 的分辨率都沒法改的情況下,Sora 直接用上了高清以及更大的分辨率,這沒幾千上萬張 H100 都不敢想象如何開始這個項目?!?/p>
基于此,有行業(yè)人士預(yù)測,英偉達(dá)也定會加入這場大模型或 AGI 的軍備競賽中。幾天前,英偉達(dá)也表示自己會造聊天機(jī)器人,發(fā)布了對話機(jī)器人「Chat with RTX」,面向 GeForce RTX 30 系列和 40 系列顯卡用戶。與 ChatGPT 等需要聯(lián)網(wǎng)使用的聊天機(jī)器人不同,Chat with RTX 可以在本地運行,幫助檢索、分析保存在電腦上的文件,并提供帶有上下文的答案。
英偉達(dá)的這一行為在一定程度上可以說是向 OpenAI 的護(hù)城河進(jìn)攻。黃仁勛近期也就Sora發(fā)表了見解,他堅信,計算機(jī)科學(xué)與人類生物學(xué)的深度融合將成為未來科技進(jìn)步的核心驅(qū)動力。
Sora 的發(fā)布讓 OpenAI 在大模型領(lǐng)域繼續(xù)保持了“遙遙領(lǐng)先”的優(yōu)勢,但群雄逐鹿下,OpenAI 制霸天下的局面能持續(xù)多久也尚未可知。技術(shù)人士分析,半年內(nèi)開源社區(qū)必有 Sora 的開源技術(shù)出現(xiàn)。
我們無法用提出問題的思維解決問題
在 Sora 這一標(biāo)志性模型發(fā)布后,另一個火熱的話題討論是 Sora 的技術(shù)進(jìn)步有可能加劇中美之間的人工智能技術(shù)水平差距。
有調(diào)研指出,相對于美國市場,2023 年,中國 AI 領(lǐng)域投融資領(lǐng)域處于“下滑”狀態(tài)。
CB insights 報告顯示,2023 年,中國 AI 領(lǐng)域投融資數(shù)量約為232筆,同比下降 38%;融資總額約為 20 億美元(約合 142.45 億元),同比下降 70%。特別是 2023 年第一季度,無論是融資額還是融資量,都創(chuàng)下了 5 年來最低。在 2023 年大模型角逐之中,中國明顯處于下風(fēng)。
隨著 ChatGPT 引領(lǐng)了國人對自然語言處理(NLP)的關(guān)注熱潮,Sora 的出現(xiàn)則預(yù)示著生成式視頻內(nèi)容可能成為海內(nèi)外 AI 發(fā)展的下一波流行趨勢。截至 2023 年末,僅國內(nèi)短視頻用戶規(guī)模已突破 10 億人,視頻生成賽道前景廣闊,也更容易讓普通大眾接受。
然而,對于 OpenAI 的追趕僅停留在技術(shù)層面的跟進(jìn)并非長遠(yuǎn)之策。對于國內(nèi)眾多企業(yè)而言,在大模型競賽中,研究人員和開發(fā)者不僅需要解答已知的具體技術(shù)難題,更要具備前瞻視野,主動挖掘未來可能出現(xiàn)的問題,并通過革新整體技術(shù)路徑來應(yīng)對日益復(fù)雜的AI技術(shù)研發(fā)挑戰(zhàn)。這是橫向競爭中遲早得面對的思維革新。
Sora 推出后,2023 年狂歡的語言大模型團(tuán)隊緘默了,這就好比 2019 年至 2020 年期間,當(dāng)國內(nèi)的團(tuán)隊還在追趕谷歌的預(yù)訓(xùn)練語言模型、OpenAI 已經(jīng)推出 1750 億參數(shù)的 GPT-3。也有投資人表示,從 Sora 再看國內(nèi)的大模型團(tuán)隊,內(nèi)心的一大感受就是“太慢了”。
另一方面,從 OpenAI 的一系列舉措中可以看出,其對于生成式人工智能的發(fā)展路徑在于持續(xù)加大投入,堅信大力出奇跡,基于大語言模型成功,快速拓展到視頻領(lǐng)域,加上大量的訓(xùn)練數(shù)據(jù)和算力,促使 OpenAI 快速迭代生成文生視頻模型,才出現(xiàn)了 Sora 的火爆。
這也給我們帶來了另一層啟示,即在 AI 技術(shù)的全局發(fā)展中,需要兼顧多個層面的考量,每一個細(xì)分領(lǐng)域的創(chuàng)新突破都是至關(guān)重要的,需要學(xué)會從整體布局與協(xié)同創(chuàng)新的角度出發(fā),探尋和把握每一個細(xì)微變革所帶來的深遠(yuǎn)影響。
可以用開源打閉源,可以快速對戰(zhàn)亦可以穩(wěn)中求勝,更可以用算力來取得扼喉式的突破,但重要的是需要明白,我們無法用提出問題的思維解決問題。
雷峰網(wǎng)將繼續(xù)關(guān)注 Sora 后續(xù),歡迎添加:s1060788086、lionceau2046、anna042023,交流認(rèn)知,互通有無
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。