0
本文作者: nebula | 2023-12-10 13:53 |
家人們誰懂,連大模型都學會看好萊塢大片了,播放過億的GTA6預告片大模型還看得津津有味,實在太卷了!
而讓LLM卷出新境界的辦法簡單到只有2token——將每一幀編碼成2個詞即可搞定。等等!這種大道至簡的方法有種莫名的熟悉感。不錯,又是出自香港中文大學賈佳亞團隊。
這是賈佳亞團隊自8月提出主攻推理分割的LISA多模態(tài)大模型、10月發(fā)布的70B參數(shù)長文本開源大語言模型LongAlpaca和超長文本擴展術LongLoRA后的又一次重磅技術更新。而LongLoRA只需兩行代碼便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens的成績收獲了無數(shù)好評。
這次,賈佳亞團隊的新作多模態(tài)大模型LLaMA-VID,可支持單圖、短視頻甚至長達3小時電影的輸入處理。須知當前,包括GPT-4V在內的多模態(tài)模型 [1,2,3]基本只能支持圖像輸入,面對實際場景中對多圖像長視頻的處理需求支持十分有限,面對幾十分鐘甚至幾個小時的長視頻更顯無能為力。
可以說,LLaMA-VID的出現(xiàn)填補了大語言模型在長視頻領域的空白。
電影搭子LLaMA-VID的一手體驗
先拿最近爆火的GTA6預告片試試手感。
LLaMA-VID能夠準確理解預告片里出現(xiàn)的場景,并能分析預告片中游戲吸引人的地方在于廣泛的活動場景和驚艷的視覺效果。
而根據(jù)游戲中的場景和特征,LLaMA-VID還能推測出預告片是Rockstar公司游戲GTA6的推廣,并說出游戲的背景城市為邁阿密。
針對網(wǎng)絡上流行的短視頻和圖片,LLaMA-VID也不在話下。
LLaMA-VID能夠分析短視頻中知名表情包的笑點,因為視頻中人物夸張的表情以及對周圍人物的情緒感染不斷加深并強化。
也能扮演“福爾摩斯”,像偵探來根據(jù)室內的環(huán)境分析人物性格。
接下來,LLaMA-VID將通過看經(jīng)典電影來展示自己的看家本領。首先是勵志、溫情的《阿甘正傳》:
可以看出,LLaMA-VID對角色的理解與分析十分準確。
如珍妮對于阿甘的意義(孩童時期的朋友,后來成為阿甘的妻子,是阿甘生活和心靈的慰藉);阿甘在戰(zhàn)爭及退伍后的事件分析(丹中尉責怪阿甘救了自己,無法戰(zhàn)死沙場),并對接見阿甘的美國總統(tǒng)如數(shù)家珍(肯尼迪、約翰遜、尼克松分別因為全美橄欖球運動員、越戰(zhàn)榮譽勛章、和全美乒乓球隊接見阿甘)。
這一次直接挑戰(zhàn)超長視頻,讓LLaMA-VID看一部近3小時的、刺激的科幻大片《星際穿越》,并與其進行對話。
可以看出,LLaMA-VID不僅能結合電影情節(jié)和人物輕松對電影進行點評,而且能很精準地回答出劇中所涉的細節(jié)。
例如,蟲洞的作用和創(chuàng)造者是誰(未來的智慧生物放置在土星附近,用于幫助人類進行遠距離星際穿越),男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲(通過手表以摩斯密碼的方式傳遞數(shù)據(jù)),以及米勒星球上相對地球時間的快慢及原因(米勒星球由于在黑洞附近,導致1小時相當于地球7年)。
不得不說,這個電影搭子實在太強大了,又狠話又多那種!
16個圖片視頻量化指標直接Promax
見識過電影搭子的超能力后,不妨來看看賈佳亞團隊是如何開發(fā)LLaMA-VID的。
要知道,當前的多模態(tài)模型無法處理長視頻的主要原因在于傳統(tǒng)多模態(tài)大模型對單張圖片的編碼token數(shù)量過多,導致在視頻時間加長后所需要的token數(shù)急劇增加,使模型難以承受。
以當前多模態(tài)大模型的技術標桿GPT-4V為例。由于每張圖像都需要過多的Token進行編碼,GPT-4V很難將所有的視頻幀全部送入大模型。例如對于GTA6預告片(1分30秒)的輸入,GPT-4V采用抽取5幀的策略進行逐幀分析:
這不僅會使用戶對視頻內容無法獲得直觀的理解,并難以處理更長的視頻輸入。
如果讓GPT-4V對視頻進行統(tǒng)一分析,則會出現(xiàn)報錯并無法處理:
為解決這個問題,賈佳亞團隊重新設計了圖像的編碼方式,采用上下文編碼 (Context Token) 和圖像內容編碼 (Content Token) 來對視頻中的單幀進行編碼,從而將視頻中的每一幀用2個Token來表示。
其中,上下文編碼根據(jù)用戶輸入的問題生成,從而保證了在極限壓縮視頻消耗的同時,能盡可能保留和用戶問題相關的視覺特征。而圖像內容編碼則更加關注圖像本身的內容信息,來對上下文編碼未關注到的環(huán)境進行補充。
簡單來說,對于上下文編碼 (Context Token),LLaMA-VID利用文本解碼器(Text Decoder)根據(jù)用戶的輸入和圖像編碼器(Visual Encoder)提取的特征來生成輸入指令相關的跨模態(tài)索引(Text Query),并使用所生成的索引對圖像編碼器生成的特征利用注意力機制(Context Attention)進行特征采樣和組合,從而生成高質量的指令相關特征。
而對于圖像內容編碼 (Content Token) ,LLaMA-VID直接根據(jù)用戶需求對圖像特征進行池化采樣。這對于單張圖片或短視頻,可保留絕大多數(shù)的圖像特征從而提升細節(jié)理解,而面對幾個小時的長視頻時,則可將每幀的圖像特征壓縮成2個Token。
用這種方式,LLaMA-VID可以將3個小時的電影或視頻精簡為數(shù)個Token,直接使用大語言模型進行理解和交互。
這種Token生成方法非常簡潔,僅需幾行代碼即可實現(xiàn)高效的生成。
此外,LLaMA-VID還收集了400部電影并生成9K條長視頻問答語料,包含電影影評、人物成長及情節(jié)推理等。結合之前賈佳亞團隊所發(fā)布的長文本數(shù)據(jù)集LongAlpaca-12k(9k條長文本問答語料對、3k短文本問答語料對), 可輕松將現(xiàn)有多模態(tài)模型拓展來支持長視頻輸入。
在16個視頻、圖片理解及推理數(shù)據(jù)集上實現(xiàn)了promax的效果
與現(xiàn)有方法相比,LLaMA-VID所提出的創(chuàng)新之處在于,僅用2個Token來處理視頻中的圖片即已大幅超越以往的模型,在MSVD-QA,MSRVTT-QA,ActivityNet-QA等多個視頻問答和推理的榜單上實現(xiàn)了SOTA。而隨著語言模型的增大,效果還能進一步增強。
而面對現(xiàn)有的多模態(tài)模型如LLaVA-1.5,LLaMA-VID僅需加入1個所提出的上下文編碼 (Context Token)拓展,能在GQA、MMBench、MME、SEED等8個圖片問答指標上獲得顯著的提升:
值得一提的是,LLaMA-VID的視頻理解和推理能力已經(jīng)出了Demo,可以在線跟電影對話的那種。
操作也極其簡單,只需選擇電影海報和對應的電影段,即可直接和電影交流(部署在單塊3090,需要的小伙伴可以參考code用更大的顯存部署,直接和整個電影對話)。
同時也支持用戶上傳短視頻進行互動。
如果對描述指令有疑惑的,Demo也給出了一些示例,感興趣的小伙伴們不妨來pick一下這個電影搭子。
Github地址:https://github.com/dvlab-research/LLaMA-VID
Demo地址: http://103.170.5.190:7864/
論文地址:https://arxiv.org/abs/2311.17043
參考文獻
[1] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv:2306.02858, 2023.
[2] KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao. Videochat: Chat-centric video understanding. arXiv:2305.06355, 2023.
[3] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv:2306.05424, 2023.
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。