重磅升級(jí)、限時(shí)免費(fèi)，通義千問(wèn)視覺(jué)理解模型Qwen-VL性能創(chuàng)新高

本文作者： nebula

2024-01-26 13:49

導(dǎo)語(yǔ)：通義千問(wèn)多模態(tài)大模型重磅升級(jí),性能趕超GPT-4V和Gemini。

1月26日，阿里云公布多模態(tài)大模型研究進(jìn)展。通義千問(wèn)視覺(jué)理解模型Qwen-VL再次升級(jí)，繼Plus版本之后，再次推出Max版本，升級(jí)版模型擁有更強(qiáng)的視覺(jué)推理能力和中文理解能力，能夠根據(jù)圖片識(shí)人、答題、創(chuàng)作、寫(xiě)代碼，并在多個(gè)權(quán)威測(cè)評(píng)中獲得佳績(jī)，比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。

LLM（大語(yǔ)言模型）之后，大模型領(lǐng)域的下一個(gè)爆點(diǎn)是什么？多模態(tài)是當(dāng)前最具共識(shí)的方向。過(guò)去半年來(lái)，OpenAI、谷歌等爭(zhēng)相推出多模態(tài)模型，阿里云也在2023年8月發(fā)布并開(kāi)源具備圖文理解能力的Qwen-VL模型，Qwen-VL取得了同期遠(yuǎn)超同等規(guī)模通用模型的表現(xiàn)。

視覺(jué)是多模態(tài)能力中最重要的模態(tài)，作為人類(lèi)感知世界、認(rèn)知世界的第一感官，視覺(jué)傳遞的信息占據(jù)了“五感”信息的80%。通義千問(wèn)視覺(jué)語(yǔ)言模型基于通義千問(wèn)LLM開(kāi)發(fā)，通過(guò)將視覺(jué)表示學(xué)習(xí)模型與LLM對(duì)齊，賦予AI理解視覺(jué)信息的能力，在大語(yǔ)言模型的“心靈”上開(kāi)了一扇視覺(jué)的“窗”。

重磅升級(jí)、限時(shí)免費(fèi)，通義千問(wèn)視覺(jué)理解模型Qwen-VL性能創(chuàng)新高

相比Qwen-VL，Qwen-VL-Plus和Qwen-VL-Max擁有更強(qiáng)的視覺(jué)推理和中文理解能力，整體性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等測(cè)評(píng)中遠(yuǎn)超業(yè)界所有開(kāi)源模型，在文檔分析（DocVQA）、中文圖像相關(guān)（MM-Bench-CN）等任務(wù)上超越GPT-4V,達(dá)到世界最佳水平。

基礎(chǔ)能力方面，升級(jí)版模型能夠準(zhǔn)確描述和識(shí)別圖片信息，并且根據(jù)圖片進(jìn)行信息推理、擴(kuò)展創(chuàng)作；具備視覺(jué)定位能力，還可針對(duì)畫(huà)面指定區(qū)域進(jìn)行問(wèn)答。

視覺(jué)推理方面，Qwen-VL-Plus和Qwen-VL-Max可以理解流程圖等復(fù)雜形式圖片，可以分析復(fù)雜圖標(biāo)，看圖做題、看圖作文、看圖寫(xiě)代碼也不在話下。

重磅升級(jí)、限時(shí)免費(fèi)，通義千問(wèn)視覺(jué)理解模型Qwen-VL性能創(chuàng)新高

Qwen-VL-Max看圖做題

圖像文本處理方面，升級(jí)版Qwen-VL的中英文文本識(shí)別能力顯著提高，支持百萬(wàn)像素以上的高清分辨率圖和極端寬高比的圖像，既能完整復(fù)現(xiàn)密集文本，也能從表格和文檔中提取信息。

重磅升級(jí)、限時(shí)免費(fèi)，通義千問(wèn)視覺(jué)理解模型Qwen-VL性能創(chuàng)新高

Qwen-VL-Max復(fù)現(xiàn)密集文本

相比LLM，多模態(tài)大模型擁有更大的應(yīng)用想象力。比如，有研究者在探索將多模態(tài)大模型與自動(dòng)駕駛場(chǎng)景結(jié)合，為“完全自動(dòng)駕駛”找到新的技術(shù)路徑；將多模態(tài)模型部署到手機(jī)、機(jī)器人、智能音箱等端側(cè)設(shè)備，讓智能設(shè)備自動(dòng)理解物理世界的信息；或者基于多模態(tài)模型開(kāi)發(fā)應(yīng)用，輔助視力障礙群體的日常生活，等等。

目前，Qwen-VL-Plus和Qwen-VL-Max限時(shí)免費(fèi)，用戶可以在通義千問(wèn)官網(wǎng)、通義千問(wèn)APP直接體驗(yàn)Max版本模型的能力，也可以通過(guò)阿里云靈積平臺(tái)（DashScope）調(diào)用模型API。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

nebula

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門(mén)文章

重磅升級(jí)、限時(shí)免費(fèi)，通義千問(wèn)視覺(jué)理解模型Qwen-VL性能創(chuàng)新高

重磅升級(jí)、限時(shí)免費(fèi)，通義千問(wèn)視覺(jué)理解模型Qwen-VL性能創(chuàng)新高