0
本文作者: 嘉嘉 | 2022-04-21 14:22 |
今天,騰訊對(duì)外正式宣布,騰訊“混元”AI大模型在MSR-VTT,MSVD,LSMDC,DiDeMo和ActivityNet 五大跨模態(tài)視頻檢索數(shù)據(jù)集榜單中先后取得第一名的成績(jī),實(shí)現(xiàn)了該領(lǐng)域的大滿貫。
特別是在MSR-VTT榜單上,“混元”AI大模型將文字-視頻檢索精度提高到55%,領(lǐng)先第二名1.7%,位居行業(yè)第一。
圖1:各模型方法在5個(gè)公開數(shù)據(jù)集上指標(biāo)對(duì)比
據(jù)悉,這是騰訊首次對(duì)外披露“混元”AI大模型的研發(fā)進(jìn)展,該模型包含但不限于:計(jì)算機(jī)視覺、自然語(yǔ)言處理、多模態(tài)內(nèi)容理解、文案生成、文生視頻等多個(gè)方向的超大規(guī)模AI智能模型?!盎煸盇I大模型基于騰訊太極機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行研發(fā),借助GPU算力,實(shí)現(xiàn)快速的算法迭代和模型訓(xùn)練。
近年來,圖文及視頻內(nèi)容在互聯(lián)網(wǎng)內(nèi)容中所占比例不斷提高,如何更細(xì)粒度的理解視頻內(nèi)容,融合多個(gè)模態(tài)的特征信息,成為跨模態(tài)視頻檢索技術(shù)的“重中之重”,在AI領(lǐng)域有深入研究的科技公司紛紛開始在該領(lǐng)域布局和投入。
MSR-VTT、MSVD、 LSMDC、DiDeMo、ActivityNet是行業(yè)內(nèi)最具權(quán)威性的五大跨模態(tài)視頻檢索數(shù)據(jù)集榜單,主辦單位包括微軟、加州大學(xué)伯克利、阿卜杜拉國(guó)王科技大學(xué)等,檢索庫(kù)涵蓋了日常生活的諸多場(chǎng)景,已經(jīng)成為科技企業(yè)和研究機(jī)構(gòu)展現(xiàn)AI大模型技術(shù)實(shí)力的重要的競(jìng)技場(chǎng)之一。
經(jīng)過多年研究,騰訊廣告多媒體AI團(tuán)隊(duì)以層次化、細(xì)粒度、高精度為目標(biāo),提出了“混元“跨模態(tài)視頻檢索AI大模型(簡(jiǎn)稱HunYuan_tvr)。與業(yè)界其他大模型相比,團(tuán)隊(duì)首創(chuàng)了層級(jí)化跨模態(tài)技術(shù),可將視頻和文本等跨模態(tài)數(shù)據(jù)分別做拆解,通過相似度分析,綜合考量并提取視頻和文本之間層次化的語(yǔ)義關(guān)聯(lián)。
圖2:HunYuan_tvr模型架構(gòu)示意圖
這種“先分層、再關(guān)聯(lián)、后檢索”的交互方法,一方面可捕捉多模態(tài)(文字、視頻)內(nèi)部的細(xì)粒度語(yǔ)義信息,另一方面也能有效地檢索跨模態(tài)數(shù)據(jù)間的關(guān)聯(lián)性,從而大大提升了檢索的精確度。
精確度的大幅提升代表國(guó)內(nèi)在多模態(tài)內(nèi)容理解方面的技術(shù)研究取得了新突破,這意味著計(jì)算機(jī)將進(jìn)一步貼近人類對(duì)視頻內(nèi)容的理解與認(rèn)知能力。同時(shí),“混元”AI大模型的優(yōu)越性及泛化性得到了驗(yàn)證,將為AI學(xué)術(shù)研究和工業(yè)級(jí)應(yīng)用帶來更多長(zhǎng)期價(jià)值。
目前,“混元“AI大模型已被廣泛應(yīng)用到廣告創(chuàng)作、廣告檢索、廣告推薦等騰訊業(yè)務(wù)場(chǎng)景中。一方面,該模型能夠幫助廣告創(chuàng)作者和騰訊平臺(tái)方預(yù)測(cè)視頻內(nèi)容與消費(fèi)者群體之間的興趣關(guān)聯(lián),提升創(chuàng)作效率;另一方面,能夠有效提升廣告推薦的精準(zhǔn)度,讓內(nèi)容搜索和匹配更加精確,有效優(yōu)化用戶體驗(yàn)。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。