0
本文作者: 賴文昕 | 2024-03-07 15:13 |
作者:賴文昕
編輯:陳彩嫻
自3天前Sora發(fā)布以來,由圖靈獎(jiǎng)得主、Meta首席科學(xué)家Yann LeCun提出的“世界模型”又一次引起了廣泛關(guān)注。
“世界模型”作為Sora的一大核心亮點(diǎn),被OpenAI寫在技術(shù)報(bào)告中。但Sora是否真的如Open AI所說,是一個(gè)世界模型,卻引起了行業(yè)內(nèi)的爭論。
在Yann LeCun的愿景中,世界模型是一個(gè)能夠?qū)W習(xí)世界如何運(yùn)作的內(nèi)在規(guī)律的內(nèi)部模型,可以更快速地學(xué)習(xí),為完成復(fù)雜任務(wù)做出計(jì)劃,并且隨時(shí)應(yīng)對(duì)不熟悉的新情況,所以它很有可能克服目前限制最先進(jìn)的AI系統(tǒng)發(fā)展的難關(guān)。
而在這場爭論持續(xù)之際, UC Berkeley(加州大學(xué)伯克利分校)發(fā)布了一項(xiàng)名為“Large World Model(LWM)”的最新研究成果,今日已成功登上GitHub榜首。
值得一提的是,兩位華人學(xué)者Hao Liu和Wilson Yan為共同一作,指導(dǎo)老師是吳恩達(dá)開門大弟子、伯克利人工智能實(shí)驗(yàn)室主任Pieter Abbeel與計(jì)算機(jī)副教授Matei Zaharia。兩位教授的谷歌學(xué)術(shù)引用次數(shù)均十分耀眼,分別高達(dá)13.8萬次與7.4萬次。
論文鏈接:https://arxiv.org/pdf/2402.08268.pdf
為了應(yīng)對(duì)由于內(nèi)存限制、計(jì)算復(fù)雜性和數(shù)據(jù)集有等重大挑戰(zhàn),這個(gè)團(tuán)隊(duì)構(gòu)建了一個(gè)由不同視頻和書籍組成的大型數(shù)據(jù)集,以Hao Liu先前提出的RingAttention技術(shù)為基礎(chǔ),對(duì)長序列進(jìn)行可伸縮訓(xùn)練,并將上下文大小從4K逐漸增加到100萬tokens,一次可以分析1小時(shí)長度的視頻。
100萬token,1小時(shí)長視頻,它還開源
大模型的發(fā)展進(jìn)程快得令人驚嘆,但是仍存在不少技術(shù)痛點(diǎn)。比如,目前的語言模型無法理解世界上某些難以用語言描述的問題,且難以處理復(fù)雜冗長的任務(wù)。
針對(duì)這個(gè)難題,該團(tuán)隊(duì)提出了“Large World Model(LWM)”,因?yàn)橐曨l序列能提供語言和靜態(tài)圖像中沒有的、有價(jià)值的時(shí)間信息,這使得它們對(duì)于語言的聯(lián)合建模具有特別作用。這樣的模型可以更好地理解人類文本知識(shí)和物理世界,從而實(shí)現(xiàn)更廣泛的人工智能能力來幫助人類。
這個(gè)“大世界模型”是否確如其名呢?
在研究報(bào)告的開篇,團(tuán)隊(duì)便自信展示了LWM與GPT-4V、Gemini Pro Vision與Video-LLaVA的對(duì)比結(jié)果:將長達(dá)1小時(shí)的油管視頻輸入并根據(jù)視頻內(nèi)容細(xì)節(jié)提問后,只有LWM能提供準(zhǔn)確的答復(fù)。
而除了能讀懂理解長視頻外,LWM在超長文本任務(wù)的表現(xiàn)同樣亮眼。LWM 可以高精度地檢索 1M 上下文中的事實(shí)。 針對(duì)Gemini Pro 和 GPT-4各自的最大上下文長度(32K 和 128K)進(jìn)行單針檢索比較時(shí),LWM在各個(gè)指標(biāo)上的表現(xiàn)均大幅領(lǐng)先。
團(tuán)隊(duì)對(duì)LWM的研究成果作出了以下總結(jié):
該研究在長視頻和語言序列上訓(xùn)練了一個(gè)擁有極大上下文尺寸的 transformers 模型,從而設(shè)立了新的檢索任務(wù)和長視頻理解方面的標(biāo)桿。
為了克服視覺 - 語言訓(xùn)練帶來的挑戰(zhàn),該研究采取了以下措施,包括使用掩碼序列以混合不同長度的序列、損失加權(quán)以平衡語言和視覺、以及使用模型生成的問答數(shù)據(jù)來處理長序列對(duì)話。
通過 RingAttention、掩碼序列打包等方法,可以訓(xùn)練數(shù)百萬長度的多模態(tài)序列。
完全開源 7B 參數(shù)系列模型,其能夠處理超過 100 萬 token 的長文本文檔(LWM-Text、LWM-Text-Chat)和視頻(LWM、LWM-Chat)。
分階段的漸進(jìn)式訓(xùn)練,模型能力逐步升級(jí)
是什么訓(xùn)練方法讓LWM具備如此亮眼的能力呢?
LWM的訓(xùn)練步驟主要分為兩個(gè)階段:第一階段是學(xué)習(xí)長上下文語言模型(Learning Long-Context Language Models),第二階段是學(xué)習(xí)長上下文視覺-語言模型(Learning Long-Context Vision-Language Models)。
第一階段時(shí),團(tuán)隊(duì)將研究重點(diǎn)分為了上下文擴(kuò)展、訓(xùn)練步驟、聊天微調(diào)和語言結(jié)果評(píng)估四個(gè)部分。
在上下文擴(kuò)展中,他們使用RingAttention技術(shù),通過分塊計(jì)算和序列并行,理論上可以擴(kuò)展到無限上下文,僅受限于可用設(shè)備數(shù)量。
RingAttention作為一個(gè)環(huán)形結(jié)構(gòu)來組織blocks,這樣每個(gè)block只需要與其相鄰的block進(jìn)行通信、交換信息,此結(jié)構(gòu)能夠大大減少通信開銷。
分塊計(jì)算則是將長序列分割成多個(gè)較小的blocks,每個(gè)block包含固定數(shù)量的tokens。這樣,模型只需要計(jì)算每個(gè)block內(nèi)的注意力權(quán)重,而不是整個(gè)序列。
在訓(xùn)練過程中,序列并行的方法可以并行處理多個(gè)block,每個(gè)block由不同的GPU處理,使模型能在多個(gè)設(shè)備上同時(shí)處理序列的不同部分,從而提高了訓(xùn)練效率。
同時(shí),由于RingAttention 支持漸進(jìn)式訓(xùn)練,讓模型可以從處理較短的序列開始,然后逐步增加序列長度。于是團(tuán)隊(duì)就采用了漸進(jìn)式訓(xùn)練方法,從32K tokens開始,逐步增加到1M tokens,以有效擴(kuò)展上下文大小。這意味著此方法有助于模型逐步學(xué)習(xí)處理更長序列的能力,同時(shí)保持訓(xùn)練效率。
到了訓(xùn)練步驟的部分,團(tuán)隊(duì)會(huì)初始化模型參數(shù),然后逐步增加上下文長度,分為32K、128K、256K、512K和1M tokens共5個(gè)階段,且在每個(gè)階段,會(huì)使用不同版本的Books3數(shù)據(jù)集進(jìn)行訓(xùn)練,這些數(shù)據(jù)集經(jīng)過過濾,以適應(yīng)當(dāng)前的上下文長度。
針對(duì)聊天微調(diào),團(tuán)隊(duì)構(gòu)建了模型生成的問答數(shù)據(jù)集,通過將文檔分割成固定大小的block,然后使用短上下文語言模型生成問題和答案對(duì)。而在長上下文長度(如32K tokens)下,則是通過連接相鄰的block和在序列末尾添加相關(guān)的問答對(duì)來構(gòu)建單個(gè)32K tokens的示例。
在第一階段的最后,團(tuán)隊(duì)對(duì)于LWM的語言能力進(jìn)行了單針檢索、多針檢索、多文本評(píng)估和聊天評(píng)估。
值得一提的是,此研究還對(duì)比了具有 4K 上下文的 Llama2-7B 模型與LWM-Text(從 32K 到 1M)的語言能力。 評(píng)估涵蓋了各種語言任務(wù),證明擴(kuò)大上下文大小不會(huì)影響短上下文任務(wù)的性能。結(jié)果表明,LWM在32K 到 1M長度下各任務(wù)中表現(xiàn)得同樣好,甚至更好。
這一證據(jù)表明上下文擴(kuò)展不存在負(fù)面影響,突顯了模型適應(yīng)不同任務(wù)要求而不會(huì)在較短上下文中損失效率的能力。
在完成語言模型的訓(xùn)練后,團(tuán)隊(duì)開啟了他們的第二階段——學(xué)習(xí)長上下文視覺-語言模型。在此階段中,團(tuán)隊(duì)也將研究工作分為三個(gè)板塊,即視覺架構(gòu)修改、訓(xùn)練步驟和評(píng)估結(jié)果。
對(duì)于視覺架構(gòu)修改,他們使用了預(yù)訓(xùn)練的VQGAN將圖像和視頻幀轉(zhuǎn)換為離散tokens,并且引入新的tokens來區(qū)分文本生成的結(jié)束和視覺生成的開始,以及視頻幀的結(jié)束。
而在訓(xùn)練步驟中,團(tuán)隊(duì)從LWM-Text-1M文本模型開始初始化,然后在大量結(jié)合文本-圖像和文本-視頻數(shù)據(jù)上進(jìn)行漸進(jìn)式訓(xùn)練。他們分別在1K、8K、32K、128K和1M tokens的序列長度上進(jìn)行訓(xùn)練,同樣地,每個(gè)階段都是從先前的較短序列長度階段初始化。
在最終的評(píng)估結(jié)果上,團(tuán)隊(duì)在長視頻理解、圖像理解和短視頻理解等任務(wù)上評(píng)估了LWM的模型性能并展示了其在處理長視頻和圖像生成方面的優(yōu)秀能力。
結(jié)語
Sora在2024年拉響了大模型比拼的第一槍,使得文生視頻技術(shù)躍為時(shí)下焦點(diǎn),也讓“世界模型”變得似乎不再遙不可及。
在應(yīng)對(duì)長文本、視頻甚至是多模態(tài)技術(shù)時(shí),世界模型對(duì)物理世界規(guī)律的理解與應(yīng)用,或?qū)⒊蔀楦骷掖竽P瓦x手能否在角逐中取勝的關(guān)鍵。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))AI 科技評(píng)論將持續(xù)關(guān)注大模型領(lǐng)域動(dòng)態(tài),歡迎添加anna042023,交流認(rèn)知,互通有無
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。