0
本文作者: 朱可軒 | 2024-11-22 19:56 |
計(jì)算機(jī)視覺技術(shù)在真實(shí)世界的應(yīng)用場(chǎng)景十分廣泛。然而,過(guò)去主流的小模型方案,難以應(yīng)對(duì)碎片化、多變的長(zhǎng)尾需求,限制了技術(shù)落地規(guī)模。
源自自然語(yǔ)言研究的Transformer架構(gòu)誕生后,視覺模型與之結(jié)合,走上一條“從小變大,從N變1”之路。自2022年起,IDEA團(tuán)隊(duì)從目標(biāo)檢測(cè)出發(fā),打造精準(zhǔn)度、通用性、泛化能力兼優(yōu)的DINO系列視覺大模型。
11月22日,IDEA大會(huì)在深舉辦,在本次大會(huì)上,IDEA研究院發(fā)布了該系列最新的DINO-X通用視覺大模型,擁有真正的物體級(jí)別理解能力,實(shí)現(xiàn)開放世界(Open-world)目標(biāo)檢測(cè)。無(wú)需用戶提示,直接檢測(cè)萬(wàn)物。
與此同時(shí),IDEA團(tuán)隊(duì)還推出行業(yè)平臺(tái)架構(gòu),通過(guò)一個(gè)大模型基座,結(jié)合通用識(shí)別技術(shù)結(jié)合,讓模型不需重新訓(xùn)練,就可邊用邊學(xué),支撐多種多樣的B端應(yīng)用需求。
萬(wàn)物識(shí)別:無(wú)須指引,罕物盡覽
全面檢測(cè):DINO-X在物體檢測(cè)領(lǐng)域樹立新標(biāo)桿,無(wú)需任何提示,即可識(shí)別幾乎所有物體,并給出其類別,包括罕見的長(zhǎng)尾物體(出現(xiàn)頻率低但種類繁多的物體)。
在零樣本評(píng)估設(shè)置中,DINO-X Pro在業(yè)界公認(rèn)的LVIS-minival數(shù)據(jù)集上取得了59.7%的AP,遙遙領(lǐng)先于其它現(xiàn)有算法。在LVIS-val數(shù)據(jù)集上,DINO-X Pro也表現(xiàn)亮眼,取得了52.4%的AP。具體到LVIS-minival數(shù)據(jù)集上的各個(gè)長(zhǎng)尾類別評(píng)估中,DINO-X Pro在稀有類別上取得了63.3%的AP(比Grounding DINO 1.5 Pro還要高出7.2%),在常見類別上取得了61.7%的AP,在頻繁類別上取得了57.5%的AP。DINO-X稱得上目前業(yè)界檢測(cè)最全的通用視覺模型。
泛化和通用性:得益于超過(guò)1億高質(zhì)量樣本的大規(guī)模數(shù)據(jù)集多樣化訓(xùn)練,DINO-X對(duì)未知場(chǎng)景和新物體具有更強(qiáng)的適應(yīng)性。這意味著在面對(duì)未見過(guò)的物體或環(huán)境時(shí),模型仍能保持高水平的檢測(cè)性能。這種超強(qiáng)的泛化能力,使其在實(shí)際應(yīng)用中更加靈活。
多任務(wù)感知與理解:DINO-X整合了多個(gè)感知頭,支持包括分割、姿態(tài)估計(jì)、區(qū)域描述和基于區(qū)域的問(wèn)答在內(nèi)的多種區(qū)域級(jí)別任務(wù),讓感知到理解逐步成為了現(xiàn)實(shí)。
長(zhǎng)尾目標(biāo)檢測(cè)優(yōu)化:為了支持長(zhǎng)尾目標(biāo)的檢測(cè)任務(wù),DINO-X不僅支持文本提示和視覺提示,還支持經(jīng)過(guò)視覺提示優(yōu)化的自定義提示。
開放世界:服務(wù)豐富場(chǎng)景,邁向具身智能
DINO-X的萬(wàn)物識(shí)別能力,讓其擁有了對(duì)開放世界(Open World)的視覺感知,輕松應(yīng)對(duì)真實(shí)世界中的眾多不確定性和開放環(huán)境,賦能具身智能、大規(guī)模多模態(tài)數(shù)據(jù)的自動(dòng)標(biāo)注、視障人士服務(wù)等高難度場(chǎng)景。
對(duì)具身智能而言,開發(fā)環(huán)境感知和理解是核心能力,這其中的視覺感知更是機(jī)器和物理世界交互的基礎(chǔ)。近期,聚焦人居環(huán)境具身智能核心技術(shù)攻關(guān)的福田實(shí)驗(yàn)室正式掛牌,該實(shí)驗(yàn)室正式由IDEA研究院與騰訊合作組建,致力于打造最前沿的具身智能創(chuàng)新平臺(tái)。
多模態(tài)模型通常需要處理大量的圖片并生成圖文對(duì),而僅依靠人工標(biāo)注的方式不僅耗時(shí)、成本高,而且在面對(duì)海量數(shù)據(jù)時(shí)難以保障標(biāo)注的一致性和效率。DINO-X的萬(wàn)物識(shí)別能力,可以幫助標(biāo)注公司快速完成大批量的高質(zhì)量圖像標(biāo)注或者為標(biāo)注員提供自動(dòng)化的輔助結(jié)果,從而降低手工標(biāo)注的工作量。
視障人士獨(dú)立性和生活質(zhì)量的提升對(duì)信息獲取與感知等方面有著極高的要求,DINO-X的萬(wàn)物識(shí)別能力恰逢其時(shí)地為助盲工具開發(fā)帶來(lái)福音,為視障人士的未來(lái)生活帶來(lái)美好希望。
在自動(dòng)駕駛、智能安防、工業(yè)檢測(cè)等領(lǐng)域,DINO-X也將發(fā)揮關(guān)鍵作用。其卓越的通用檢測(cè)能力,使得系統(tǒng)能夠應(yīng)對(duì)各種復(fù)雜場(chǎng)景,識(shí)別出傳統(tǒng)模型難以檢測(cè)的物體,為產(chǎn)業(yè)升級(jí)和社會(huì)發(fā)展注入新的活力。
Dino-X基座大模型零樣本檢測(cè)能力,為廣大中小企業(yè)客戶提供便捷高效的計(jì)數(shù)和標(biāo)注工具
IDEA研究院一系列視覺大模型,包括DINO-X,為解決業(yè)務(wù)場(chǎng)景現(xiàn)存的小模型繁多、維護(hù)迭代成本高昂、準(zhǔn)確率不足等問(wèn)題,提供了可行的方案。IDEA研究院與多家企業(yè)聯(lián)合開展視覺大模型及應(yīng)用場(chǎng)景的探索研究工作,在視覺大模型的落地方面取得了實(shí)質(zhì)性進(jìn)展。
一方面,有別于市場(chǎng)上的以語(yǔ)言為基礎(chǔ)的多模態(tài)大模型基于全圖理解的方法, 通過(guò)在物體級(jí)別的理解上加入語(yǔ)言模塊優(yōu)化大模型幻覺問(wèn)題。另一方面結(jié)合自研的“視覺提示優(yōu)化”方法,無(wú)需更改模型結(jié)構(gòu),不用重新訓(xùn)練模型,實(shí)現(xiàn)小樣本下的場(chǎng)景化定制。
IDEA研究院通用視覺大模型行業(yè)平臺(tái)架構(gòu)
從DINO到DINO-X,IDEA研究院始終站在視覺感知技術(shù)的前沿。通過(guò)對(duì)開放世界的探索和對(duì)具身智能的賦能,DINO-X的卓越性能和通用檢測(cè)能力更加凸顯。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
值得一提的是,IDEA 研究院也開放了DINO-X API:
https://user.deepdataspace.com/login?redirect=https%3A%2F%2Fcloud.deepdataspace.com%2Fapply-token
有關(guān)DINO-X 的技術(shù)細(xì)節(jié),請(qǐng)參考同期發(fā)布的論文。
? 論文鏈接:https://arxiv.org/abs/2411.14347
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。