丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給二維馬曉寧
發(fā)送

0

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

本文作者: 二維馬曉寧 2024-04-15 12:29
導(dǎo)語(yǔ):Mini-Gemini還提供了2B小杯到34B的超大杯,最強(qiáng)模型在多個(gè)指標(biāo)上相比Google Gemini Pro甚至GPT-4V都不遑多讓。

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

更高清圖像的精確理解、更高質(zhì)量的訓(xùn)練數(shù)據(jù)、更強(qiáng)的圖像解析推理能力,還能結(jié)合圖像推理和生成,香港中文大學(xué)終身教授賈佳亞團(tuán)隊(duì)提出的這款多模態(tài)模型Mini-Gemini堪稱絕絕子,相當(dāng)于開源社區(qū)的GPT4+DALLE3的王炸組合!

Mini-Gemini還提供了2B小杯到34B的超大杯,最強(qiáng)模型在多個(gè)指標(biāo)上相比Google Gemini Pro甚至GPT-4V都不遑多讓。目前,Mini-Gemini從代碼、模型、到數(shù)據(jù)已全部開源,登上了PaperWithCode熱榜。

Mini-Gemini線上Demo也已發(fā)布,超會(huì)玩梗,一起來(lái)體驗(yàn)下!

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

Mini-Gemini Demo放出后受到廣大網(wǎng)友關(guān)注,一番“品嘗”后,他們認(rèn)為Mini-Gemini跟商業(yè)模型差不了多少!

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

目前,絕大多數(shù)多模態(tài)模型僅支持低分辨率圖像輸入和文字輸出,而在實(shí)際場(chǎng)景中,許多任務(wù)都需要對(duì)高清圖像進(jìn)行解析,并用圖像的形式進(jìn)行展現(xiàn)。

如上圖所示,Mini-Gemini不僅能夠根據(jù)圖片對(duì)做面包的過(guò)程進(jìn)行手把手教學(xué),也能夠準(zhǔn)確將不同電腦品種根據(jù)圖片中的各種參數(shù)進(jìn)行對(duì)比。網(wǎng)友表示:媽媽再也不用擔(dān)心我的生活了。

更重要的是,Mini-Gemini在保留超強(qiáng)的圖像理解和推理能力的同時(shí),還解鎖了圖像的生成能力,就如同ChatGPT和生成模型的結(jié)合。

下面,讓我們通過(guò)幾個(gè)例子來(lái)更直觀地感受這種能力:

案例分析:

還記得Google Gemini的官方演示視頻么?當(dāng)用戶給出兩個(gè)毛線團(tuán)并問出能用它們做什么時(shí),Gemini可以識(shí)別出圖片內(nèi)容并給出相應(yīng)的建議。

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

當(dāng)我們把相似的輸入給到Mini-Gemini,它會(huì)怎么回答呢?

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

可以發(fā)現(xiàn),Mini-Gemini也可以識(shí)別出圖片中的元素,并且合理地建議,同時(shí)生成了一只對(duì)應(yīng)的毛線小熊。

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

通過(guò)一些抽象的多模態(tài)指令來(lái)讓模型給出推理,并生成合適的圖片,這個(gè)操作就很像是ChatGPT和DALLE3的聯(lián)動(dòng)了!

接下來(lái)讓Mini-Gemini做自己最擅長(zhǎng)的推理和圖片理解,看看它表現(xiàn):比如理解圖片中的矛盾點(diǎn)并舉一反三——輸入冰川中的仙人掌,它會(huì)解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片:

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

圖片呈現(xiàn)了仙人掌的典型棲息地與冰的存在之間的視覺矛盾,因?yàn)樵谏衬h(huán)境中自然不會(huì)出現(xiàn)冰。這種矛盾的類似例子可能是一只北極熊出現(xiàn)在熱帶雨林中,因?yàn)楸睒O熊適應(yīng)于寒冷、覆蓋著冰的環(huán)境,在炎熱潮濕的氣候中無(wú)法生存。這種并置創(chuàng)造了一個(gè)引人注目且超現(xiàn)實(shí)的視覺效果,挑戰(zhàn)觀眾的期待,并可能引發(fā)人們對(duì)氣候變化、環(huán)境適應(yīng)或不同生態(tài)系統(tǒng)融合的思考。

同時(shí),正如ChatGPT+DALLE3的夢(mèng)幻結(jié)合一樣,Mini-Gemini的“推理生成”功能還可以在多輪對(duì)話中通過(guò)簡(jiǎn)單指令生成連環(huán)小故事。

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

比方說(shuō),讓它根據(jù)用戶輸入講一個(gè)貴族小老鼠的故事。Mini-Gemini會(huì)根據(jù)前文的文字生成結(jié)果和用戶輸入進(jìn)行推理,在保持一致性的情況下對(duì)圖片進(jìn)行修改,使其更符合用戶的要求。

當(dāng)然,Mini-Gemini對(duì)于多模態(tài)模型的傳統(tǒng)技能圖片理解也不在話下。比方讓模型理解輸入曲線圖的數(shù)學(xué)意義(高斯分布),并讓它使用代碼復(fù)現(xiàn)這張圖,通過(guò)運(yùn)行生成的代碼,模型可以高質(zhì)量地還原曲線圖,節(jié)省了復(fù)現(xiàn)的時(shí)間。

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

又或者讓Mini-Gemini理解梗圖,通過(guò)其強(qiáng)大的OCR和推理能力,也可以準(zhǔn)確指出笑點(diǎn)。

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

高清復(fù)雜的多圖表理解和歸納也是小菜一碟,Mini-Gemini直接秒變打工人效率提升的超級(jí)外掛。

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

技術(shù)細(xì)節(jié):

問題來(lái)了,Mini-Gemini是怎樣做到這種驚艷的效果呢?核心在于三點(diǎn),(1) 用于高清圖像的雙編碼器機(jī)制,(2) 更高質(zhì)量的數(shù)據(jù), (3) 訓(xùn)練階段結(jié)合生成模型數(shù)據(jù)拓展。

大道至簡(jiǎn),Mini-Gemini的整體思路并不復(fù)雜。其中的Gemini(雙子座)表達(dá)的是使用視覺雙分支的信息挖掘(Mining-Info in Gemini)解決高清圖像理解問題。

詳細(xì)來(lái)說(shuō),Mini-Gemini將傳統(tǒng)所使用的ViT當(dāng)做低分辨率的Query,而使用卷積網(wǎng)絡(luò)(ConvNet) 將高分辨率的圖像編碼成Key和Value。使用Transformer中常用的Attention機(jī)制,來(lái)挖掘每個(gè)低分辨率Query所對(duì)應(yīng)的高分辨率區(qū)域。從而在保持最終視覺Token數(shù)目不變的情況下去提升對(duì)高清圖像的響應(yīng),保證了在大語(yǔ)言模型 (LLM) 中對(duì)于高清圖像的高效編碼。值得一提的是,由于高分辨率分支卷積網(wǎng)絡(luò)的使用,可以根據(jù)需要對(duì)圖像所需的分辨率自適應(yīng)調(diào)整,能夠遇強(qiáng)則強(qiáng)。對(duì)于圖像的生成部分,Mini-Gemini借助了SDXL,使用LLM推理后所生成的文本鏈接兩個(gè)模型,類似于DALLE3的流程。

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

而對(duì)于數(shù)據(jù)這個(gè)萬(wàn)金油,Mini-Gemini進(jìn)一步收集并優(yōu)化了訓(xùn)練數(shù)據(jù)的質(zhì)量,并加入了跟生成模型結(jié)合的文本數(shù)據(jù)進(jìn)行訓(xùn)練。在僅使用2-3M數(shù)據(jù)的情況下,實(shí)現(xiàn)了對(duì)圖像理解、推理、和生成的統(tǒng)一流程。

Mini-Gemini在各種Zero-shot的榜單上毫不遜色于各種大廠用大量數(shù)據(jù)訓(xùn)練出來(lái)的模型,可謂是“平、靚、正” !

量化指標(biāo):

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

可以看出,Mini-Gemini提供了多種普通和高清版本的模型,并且覆蓋了2B的小杯到34B的超大杯,各個(gè)版本都取得了相似參數(shù)量下領(lǐng)先的效果,在許多指標(biāo)上甚至超越Gemini Pro和GPT-4V。

在線可玩:

值得一提的是,Mini-Gemini的圖像理解和生成能力已經(jīng)出了Demo,可以在線跟自定義圖像對(duì)話的那種。

操作也極其簡(jiǎn)單,直接跟輸入圖像或文字進(jìn)行對(duì)話即可,歡迎來(lái)撩!

生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

Github地址:https://github.com/dvlab-research/MiniGemini

Demo地址: http://103.170.5.190:7860/

論文地址:https://arxiv.org/pdf/2403.18814.pdf

模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

數(shù)據(jù)地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))文章

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)