元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

本文作者：我在思考中

2024-04-28 12:09

導(dǎo)語：該模型全開源，無條件免費(fèi)商用 .

人類獲取的信息83%來自視覺，圖文多模態(tài)大模型能感知更豐富和精確的真實(shí)世界信息，構(gòu)建更全面的認(rèn)知智能，從而向AGI（通用人工智能）邁出更大步伐。

元象今日發(fā)布多模態(tài)大模型 XVERSE-V ，支持任意寬高比圖像輸入，在主流評(píng)測(cè)中效果領(lǐng)先。該模型全開源，無條件免費(fèi)商用 ，持續(xù)推動(dòng)海量中小企業(yè)、研究者和開發(fā)者的研發(fā)和應(yīng)用創(chuàng)新。

XVERSE-V 性能優(yōu)異，在多項(xiàng)權(quán)威多模態(tài)評(píng)測(cè)中超過零一萬物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等開源模型，在綜合能力測(cè)評(píng)MMBench中超過了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

圖. 多模態(tài)大模型綜合評(píng)測(cè)

融合整體和局部的高清圖像表示

傳統(tǒng)的多模態(tài)模型的圖像表示只有整體，XVERSE-V 創(chuàng)新性地采用了融合整體和局部的策略，支持輸入任意寬高比的圖像。兼顧全局的概覽信息和局部的細(xì)節(jié)信息，能夠識(shí)別和分析圖像中的細(xì)微特征，看的更清楚，理解的更準(zhǔn)確。

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

注：Concate* 表示按列進(jìn)行拼接

這樣的處理方式使模型可以應(yīng)用于廣泛的領(lǐng)域，包括全景圖識(shí)別、衛(wèi)星圖像、古文物掃描分析等。

示例- 高清全景圖識(shí)別、圖片細(xì)節(jié)文字識(shí)別

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

免費(fèi)下載大模型

Hugging Face：https://huggingface.co/xverse/XVERSE-V-13B
ModelScope魔搭：https://modelscope.cn/models/xverse/XVERSE-V-13B
Github：https://github.com/xverse-ai/XVERSE-V-13B
問詢發(fā)送：opensource@xverse.cn

商業(yè)合作

微信添加：lixing_lixing

元象持續(xù)打造國(guó)內(nèi)開源標(biāo)桿，在國(guó)內(nèi)最早開源最大參數(shù)65B 、全球最早開源最長(zhǎng)上下文256K 以及國(guó)際前沿的MoE模型，并在SuperCLUE測(cè)評(píng)全國(guó)領(lǐng)跑。此次推出MoE模型，填補(bǔ)國(guó)產(chǎn)開源空白，更將其推向了國(guó)際領(lǐng)先水平。

商業(yè)應(yīng)用上，元象大模型是廣東最早獲得國(guó)家備案的模型之一，可向全社會(huì)提供服務(wù)。元象大模型去年起已和多個(gè)騰訊產(chǎn)品，包括 QQ音樂、虎牙直播、全民K歌、騰訊云等，進(jìn)行深度合作與應(yīng)用探索，為文化、娛樂、旅游、金融領(lǐng)域打造創(chuàng)新領(lǐng)先的用戶體驗(yàn)。

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

多方向?qū)嶋H應(yīng)用表現(xiàn)突出

模型不僅在基礎(chǔ)能力上表現(xiàn)出色，在實(shí)際的應(yīng)用場(chǎng)景中也有著出色的表現(xiàn)。具備不同場(chǎng)景下的理解能力，能夠處理信息圖、文獻(xiàn)、現(xiàn)實(shí)場(chǎng)景、數(shù)理題目、科學(xué)文獻(xiàn)、代碼轉(zhuǎn)化等不同需求。

圖表理解

不論是復(fù)雜圖文結(jié)合的信息圖理解，還是單一圖表的分析與計(jì)算，模型都能夠自如應(yīng)對(duì)。

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

視障真實(shí)場(chǎng)景

在真實(shí)視障場(chǎng)景測(cè)試集VizWiz中，XVERSE-V 表現(xiàn)出色，超過了InternVL-Chat-V1.5、DeepSeek-VL-7B 等幾乎所有主流的開源多模態(tài)大模型。該測(cè)試集包含了來自真實(shí)視障用戶提出的超過31,000個(gè)視覺問答，能準(zhǔn)確反映用戶的真實(shí)需求與瑣碎細(xì)小的問題，幫助視障人群克服他們?nèi)粘Ｕ鎸?shí)的視覺挑戰(zhàn)。

VizWiz測(cè)試示例

看圖內(nèi)容創(chuàng)作

XVERSE-V 具備多模態(tài)能力的同時(shí)保持強(qiáng)大的文本生成能力，能夠很好勝任理解圖像后創(chuàng)造性文本生成的任務(wù)。

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

教育解題

模型具備了廣泛的知識(shí)儲(chǔ)備和邏輯推理能力，能夠識(shí)別圖像解答不同學(xué)科的問題。

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

百科解答

模型儲(chǔ)備了歷史、文化、科技、安全等各類主題的知識(shí)。

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

代碼撰寫

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

自動(dòng)駕駛

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

情感理解與識(shí)別

元象首個(gè)多模態(tài)大模型 XVERSE-V 開源，刷新權(quán)威大模型榜單，支持任意寬高比輸入

元象公司介紹

一元復(fù)始，萬象更新。元象 XVERSE 于 2021 年初在深圳成立，是國(guó)內(nèi)領(lǐng)先的 AI 與 3D 技術(shù)服務(wù)公司，致力于打造 AI 驅(qū)動(dòng)的 3D 內(nèi)容生產(chǎn)與消費(fèi)一站式平臺(tái)，愿景為“定義你的世界”。

元象創(chuàng)始人姚星是前騰訊副總裁和騰訊 AI Lab 創(chuàng)始人、國(guó)家科技部新一代人工智能戰(zhàn)略咨詢委員會(huì)成員。元象累計(jì)融資金額超過 2 億美元，投資機(jī)構(gòu)包括騰訊、高榕資本、五源資本、高瓴創(chuàng)投、紅杉中國(guó)、淡馬錫和CPE源峰等。

元象獲國(guó)家“專精特新”、“高新技術(shù)企業(yè)”認(rèn)證，團(tuán)隊(duì)目前有75%為研發(fā)人員（60%為碩博學(xué)歷）。公司積極推動(dòng)前沿技術(shù)自主研發(fā)，在3D領(lǐng)域，自研行業(yè)引領(lǐng)性的“端云協(xié)同” 3D 互動(dòng)技術(shù)，開創(chuàng)零門檻（輕）、一站式（快）、高品質(zhì)（美）全新 3D 體驗(yàn)；在AI領(lǐng)域，公司最早開源國(guó)內(nèi)最大參數(shù)大模型（650億）、世界最長(zhǎng)上下文長(zhǎng)度（256K）在內(nèi)的一系列高性能大模型，免費(fèi)可商用，將國(guó)產(chǎn)開源提升至國(guó)際一流水平，積極推動(dòng)大模型國(guó)產(chǎn)可替代和行業(yè)應(yīng)用發(fā)展。

元象已經(jīng)為多家龍頭企業(yè)提供一站式技術(shù)與服務(wù)，包括：澳門大三巴、南京大報(bào)恩寺、央視、騰訊音樂TMELAND、華為、一汽大眾、阿迪達(dá)斯、中國(guó)平安、中科院深圳先進(jìn)院等。

公司注冊(cè)名：深圳元象信息科技有限公司

官網(wǎng)：www.XVERSE.cn

官微：元象 XVERSE

Logo下載

鏈接: https://pan.baidu.com/s/1fB-zoITVJZ7Znv5IVe-fZg

提取碼: rav0

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。