0
本文作者: 我在思考中 | 2024-04-28 12:09 |
人類獲取的信息83%來自視覺,圖文多模態(tài)大模型能感知更豐富和精確的真實世界信息,構(gòu)建更全面的認(rèn)知智能,從而向AGI(通用人工智能)邁出更大步伐。
元象今日發(fā)布多模態(tài)大模型 XVERSE-V ,支持任意寬高比圖像輸入,在主流評測中效果領(lǐng)先。
XVERSE-V 性能優(yōu)異,在多項權(quán)威多模態(tài)評測中超過零一萬物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等開源模型,在綜合能力測評MMBench中超過了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。
傳統(tǒng)的多模態(tài)模型的圖像表示只有整體,XVERSE-V 創(chuàng)新性地采用了融合整體和局部的策略,支持輸入任意寬高比的圖像。
注:
這樣的處理方式使模型可以應(yīng)用于廣泛的領(lǐng)域,包括全景圖識別、衛(wèi)星圖像、古文物掃描分析等。
示例- 高清全景圖識別 、圖片細(xì)節(jié)文字識別
免費(fèi)下載大模型
Hugging Face:
ModelScope魔搭:
Github:
問詢發(fā)送:
商業(yè)合作
微信添加:
元象持續(xù)打造國內(nèi)開源標(biāo)桿,在國內(nèi)最早開源最大參數(shù)65B 、全球最早開源最長上下文256K 以及 國際前沿的MoE模型, 并在SuperCLUE測評全國領(lǐng)跑。
商業(yè)應(yīng)用上,元象大模型是 廣東最早獲得國家備案的模型之一 ,可向全社會提供服務(wù)。
模型不僅在基礎(chǔ)能力上表現(xiàn)出色,在實際的應(yīng)用場景中也有著出色的表現(xiàn)。
圖表理解
不論是復(fù)雜圖文結(jié)合的信息圖理解,還是單一圖表的分析與計算,模型都能夠自如應(yīng)對。
視障真實場景
在真實視障場景測試集VizWiz中,XVERSE-V 表現(xiàn)出色,超過了InternVL-Chat-V1.5、DeepSeek-VL-7B 等幾乎所有主流的開源多模態(tài)大模型。
VizWiz測試示例
看圖內(nèi)容創(chuàng)作
XVERSE-V 具備多模態(tài)能力的同時保持強(qiáng)大的文本生成能力,能夠很好勝任理解圖像后創(chuàng)造性文本生成的任務(wù)。
教育解題
模型具備了廣泛的知識儲備和邏輯推理能力,能夠識別圖像解答不同學(xué)科的問題。
百科解答
模型儲備了歷史、文化、科技、安全等各類主題的知識。
代碼撰寫
自動駕駛
情感理解與識別
一元復(fù)始,萬象更新。
元象創(chuàng)始人姚星是前騰訊副總裁和騰訊 AI Lab 創(chuàng)始人、國家科技部新一代人工智能戰(zhàn)略咨詢委員會成員。
元象獲國家“專精特新”、“高新技術(shù)企業(yè)”認(rèn)證,團(tuán)隊目前有75%為研發(fā)人員(60%為碩博學(xué)歷)。
元象已經(jīng)為多家龍頭企業(yè)提供一站式技術(shù)與服務(wù),包括:
公司注冊名:
官網(wǎng):
官微:
Logo下載
鏈接: https://pan.baidu.com/s/1fB-zoITVJZ7Znv5IVe-fZg
提取碼: rav0
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。