丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給徐咪
發(fā)送

0

美團(tuán)發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA

本文作者: 徐咪   2025-12-08 14:51
導(dǎo)語:我們堅(jiān)信,真正的技術(shù)進(jìn)步源于社區(qū)的集體智慧。

盡管近年來AIGC關(guān)鍵技術(shù)不斷突破,但圖像生成領(lǐng)域始終面臨著一個(gè)“兩難困境”:閉源模型性能強(qiáng)大但難以私有化部署;開源方案在輕量化與高性能之間難以取舍,且缺乏面向商用的專項(xiàng)能力。

針對這一行業(yè)痛點(diǎn),美團(tuán)LongCat團(tuán)隊(duì)近日宣布,開源其最新研發(fā)的LongCat-Image模型。該模型通過高性能模型架構(gòu)設(shè)計(jì)、系統(tǒng)性的訓(xùn)練策略和數(shù)據(jù)工程,以6B的緊湊參數(shù)規(guī)模,在文生圖與圖像編輯核心能力上逼近了更大尺寸的頭部模型,為開發(fā)者與產(chǎn)業(yè)界提供了一個(gè)“高性能、低門檻、全開放”的全新選擇。

美團(tuán)發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA ▲模型架構(gòu)

據(jù)介紹,LongCat-Image的核心優(yōu)勢在于其架構(gòu)設(shè)計(jì)與訓(xùn)練策略。

具體來看,模型采用文生圖與圖像編輯同源的架構(gòu),結(jié)合漸進(jìn)式學(xué)習(xí)策略,成功在6B參數(shù)下實(shí)現(xiàn)了指令遵循精準(zhǔn)度、生圖質(zhì)量與文字渲染能力的高效協(xié)同。

在圖像編輯方面,LongCat-Image的“可控性”表現(xiàn)突出,而性能突破的關(guān)鍵在于一套緊密協(xié)同的訓(xùn)練范式和數(shù)據(jù)策略。

為有效繼承文生圖模型的知識(shí)和美感,同時(shí)避免文生圖后訓(xùn)練階段收窄的狀態(tài)空間對編輯指令多樣性的限制,團(tuán)隊(duì)一方面基于文生圖Mid-training階段模型進(jìn)行初始化,并采用指令編輯與文生圖多任務(wù)聯(lián)合學(xué)習(xí)機(jī)制,深化對復(fù)雜多樣化指令的理解;另一方面,通過預(yù)訓(xùn)練階段的多源數(shù)據(jù)及指令改寫策略,以及結(jié)合SFT階段引入的人工精標(biāo)數(shù)據(jù),最終實(shí)現(xiàn)了指令遵循精準(zhǔn)度、泛化性和編輯前后視覺一致性的共同提升。

在GEdit-Bench和ImgEdit-Bench等權(quán)威基準(zhǔn)測試中,LongCat-Image均達(dá)到開源SOTA(當(dāng)前最佳)水平,可精準(zhǔn)響應(yīng)用戶的多樣化修改需求。

在中文文本渲染這一長期困擾業(yè)界的難題上,LongCat-Image也取得了很大進(jìn)展,通過課程學(xué)習(xí)策略提升字符覆蓋度和渲染精準(zhǔn)度:預(yù)訓(xùn)練階段基于千萬量級合成數(shù)據(jù)學(xué)習(xí)字形,覆蓋通用規(guī)范漢字表的8105個(gè)漢字;SFT 階段引入真實(shí)世界文本圖像數(shù)據(jù),提升在字體、排版布局上的泛化能力;在RL(強(qiáng)化學(xué)習(xí))階段,引入OCR與美學(xué)雙獎(jiǎng)勵(lì)模型,進(jìn)一步提升文本準(zhǔn)確性與背景融合自然度。

該模型在ChineseWord評測中以90.7的得分領(lǐng)先同類產(chǎn)品。無論是商業(yè)海報(bào)中的復(fù)雜筆畫,還是古詩詞插圖中的生僻字,LongCat-Image均能實(shí)現(xiàn)精準(zhǔn)、自然的渲染,進(jìn)一步拓展AI在設(shè)計(jì)領(lǐng)域的應(yīng)用邊界。

為了提升生成圖像的審美與真實(shí)感,LongCat團(tuán)隊(duì)還構(gòu)建了系統(tǒng)性的數(shù)據(jù)篩選與對抗訓(xùn)練框架。團(tuán)隊(duì)在預(yù)訓(xùn)練階段嚴(yán)格過濾低質(zhì)量AIGC數(shù)據(jù),并在RL階段創(chuàng)新性引入AIGC內(nèi)容檢測器作為獎(jiǎng)勵(lì)模型,利用其對抗信號(hào)逆向引導(dǎo)模型學(xué)習(xí)真實(shí)世界的物理紋理、光影和質(zhì)感,從而顯著改善了AI繪圖常見的“塑料感”紋理。

美團(tuán)發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA ▲客觀基準(zhǔn)測試性能對比

全面的客觀與主觀評測數(shù)據(jù)均驗(yàn)證了LongCat-Image的能力:在客觀基準(zhǔn)測試中,其圖像編輯得分與中文渲染能力均領(lǐng)跑參評模型;在文生圖任務(wù)上,GenEval與DPG-Bench的優(yōu)異表現(xiàn)證明了其相比頭部開源與閉源模型依然具備強(qiáng)競爭力。

美團(tuán)發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA ▲人類主觀評分對比& 并列對比評估勝率

在更貼近用戶體驗(yàn)的主觀評測(文生圖方面采用大規(guī)模的人工主觀評分與圖像編輯方面采用嚴(yán)格的并列對比評估)中,LongCat-Image在真實(shí)度方面相比主流開閉源模型表現(xiàn)出色,同時(shí)在文本-圖像對齊與合理度上達(dá)到開源SOTA水平;至于綜合編輯質(zhì)量和視覺一致性方面,雖然與Nano Banana等商業(yè)閉源模型仍有一定差距,但在開源領(lǐng)域已形成領(lǐng)先優(yōu)勢。

值得一提的是,為了構(gòu)建一個(gè)更透明、開放、協(xié)作的開源生態(tài)系統(tǒng),美團(tuán) LongCat團(tuán)隊(duì)此次全面開源了從Mid-training到Post-training的文生圖多階段模型及圖像編輯模型,旨在支持從前沿研究到商業(yè)應(yīng)用的全流程。相關(guān)資源已在Hugging Face和GitHub上線,用戶也可在官網(wǎng)longcat.ai上體驗(yàn)。

與此同時(shí),面向終端用戶的“LongCat APP”也迎來重大升級,全新上線的圖生圖功能與24個(gè)零門檻玩法模板,讓普通用戶也能一鍵生成海報(bào)、精修人像,實(shí)現(xiàn)“專業(yè)AI創(chuàng)作零門檻”。

美團(tuán)LongCat團(tuán)隊(duì)還表示:“我們堅(jiān)信,真正的技術(shù)進(jìn)步源于社區(qū)的集體智慧?,F(xiàn)誠邀廣大開發(fā)者體驗(yàn)?zāi)P汀⑴c共建,與我們共同基于這個(gè)高效能模型,探索視覺生成的更多可能?!?/p>

相關(guān)鏈接:

· Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image

· GitHub: https://github.com/meituan-longcat/LongCat-Image

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說