美圖視覺大模型3.0：讓設(shè)計師做甲方

本文作者：郭思

2023-10-12 16:12

導(dǎo)語：AI工作流提效之戰(zhàn)正式開啟。

作者：郭思

編輯：陳彩嫻

ChatGPT之前，國內(nèi)最近一次的AI熱潮是以“AI四小龍”的發(fā)展為代表，但這些公司燒錢程度與落地產(chǎn)出的不匹配，令市場倍感失望。

時間來到2023年，在ChatGPT 出來之后，市場再度火熱，視覺大模型公司也如雨后春筍般不斷涌現(xiàn)，據(jù)不完全數(shù)據(jù)統(tǒng)計，市面上現(xiàn)有的視覺大模型公司共有三十余家。淘金者前仆后繼，但相同的問題卻仍然存在。

部分入局者好大喜功，產(chǎn)品未經(jīng)雕琢就推上市，拉高用戶期待值，結(jié)果在真正使用過程中，卻漏洞百出。

要想讓用戶對視覺大模型的聲音從嘆氣變?yōu)闅g呼，似乎需要一場新的革命。

2023年，10月9日，美圖公司舉辦15周年生日會并發(fā)布自研AI視覺大模型MiracleVision(奇想智能)3.0版本。面世100天后，美圖AI視覺大模型MiracleVision3.0將全面應(yīng)用于美圖旗下影像與設(shè)計產(chǎn)品，并將助力電商、廣告、游戲、動漫、影視五大行業(yè)。

在生日會現(xiàn)場，美圖CEO吳欣鴻不僅向與會者展示了美圖視覺大模型MiracleVision(奇想智能)3.0版本的效果，也對產(chǎn)品和整個行業(yè)給出了自己的思考和見解。

「現(xiàn)如今視覺大模型普遍在生成效果上、結(jié)果可控性以及適用范圍上還有很多待解決的問題。比如說對于成熟的大中型企業(yè)，他們對效果的精度要求很高。當(dāng)前，大部分視覺大模型的生成效果與設(shè)計師的標(biāo)準(zhǔn)存在一定差距，甚至不少設(shè)計師會覺得AI味很重，一看就是生成的，很沒誠意?！?/p>

市面上的大部分視覺大模型都在卷數(shù)據(jù)量和參數(shù)量。但美圖認(rèn)為，衡量能力的標(biāo)準(zhǔn)并非在追求參數(shù)指標(biāo)，而是要抓住應(yīng)用場景的核心需求，并且在商業(yè)模式上得到驗證。

意簡言賅，美圖想做的，是一個離用戶更近的大模型。

以設(shè)計師為主導(dǎo)的視覺大模型

大模型熱度毋庸置疑，針對大模型產(chǎn)品發(fā)布的評測榜單也五花八門。

甚至有行業(yè)人士曾經(jīng)就表示，現(xiàn)在市面上大家能看到的很多榜單數(shù)據(jù)背后很有可能是各家公司在前期調(diào)整過，刷榜現(xiàn)象是行業(yè)共識。

不顧實際效果的刷榜帶來的弊端十分明顯，這就像一個平日在學(xué)校只會迎合學(xué)校標(biāo)準(zhǔn)，而忽視了自己能力的「好學(xué)生」在基準(zhǔn)測試時高分通過，表現(xiàn)優(yōu)異，但實際應(yīng)用中卻還會犯一些非?；A(chǔ)的錯誤。

要想防止這種現(xiàn)象的頻繁發(fā)生，或許確得從根源思考，在評判標(biāo)準(zhǔn)上下功夫。

究竟什么樣的視覺大模型才是好用的？以什么樣的標(biāo)準(zhǔn)來評價？

美圖給出的答案是，榜單說的不算，吳欣鴻說的不算，只有設(shè)計師和用戶說好用，才是真正好用的大模型。

帶著這樣的理念，美圖視覺大模型最大的不同便是整個研發(fā)團(tuán)隊由設(shè)計師主導(dǎo)。

美團(tuán)視覺大模型負(fù)責(zé)人是設(shè)計師許俊，對于大模型效果的呈現(xiàn)有沒有在領(lǐng)域取得應(yīng)用，作為設(shè)計師的他，標(biāo)準(zhǔn)非常高。

而對于整個美圖團(tuán)隊而言，一切指令都以設(shè)計師的意見為先，當(dāng)設(shè)計師說可以上，美圖視覺大模型就上，設(shè)計師說不能上，團(tuán)隊就會繼續(xù)進(jìn)行調(diào)整。加上設(shè)計師自己得時刻使用，對于模型實際體驗感肯定是最在意之人。

「他天天用我們的模型，我們的生成架構(gòu)敢不快嗎？天天催?！?/p>

作為一家以美為基因的公司，美圖在美學(xué)上與用戶產(chǎn)生的深厚鏈接，足以讓美圖視覺大模型團(tuán)隊以用戶體驗作為第一出發(fā)，進(jìn)行大模型的評估，從而反推技術(shù)上的研發(fā)。

從實際效果上來說，在發(fā)布會現(xiàn)場，我們通過各類效果的對比，著實看到了美圖視覺大模型3.0的強(qiáng)大實力。

美圖視覺大模型3.0：讓設(shè)計師做甲方

圖片由MiracleVision3.0生成，關(guān)鍵詞：新聞現(xiàn)場，1記者，專注的眼神，城市街道，高清分辨率，科技感，現(xiàn)代，自然光，金屬質(zhì)地

以應(yīng)用場景為例，身處傳媒行業(yè)或者廣告行業(yè)的小伙伴，都有過熬夜拼趕，花費(fèi)巨大心力的設(shè)計稿發(fā)給「甲方爸爸」，卻因?qū)Ψ揭粋€NO字，需要重新進(jìn)行返工重做的經(jīng)歷。

這其實和傳統(tǒng)的設(shè)計工作模式相關(guān)，一個設(shè)計師，在創(chuàng)意腦暴后，尋找情緒版給甲方參考，確認(rèn)后再由設(shè)計師進(jìn)行具體設(shè)計，中間需要與甲方反復(fù)溝通確認(rèn)，最終交付作品，耗時耗力。

傳統(tǒng)的設(shè)計工作流，在創(chuàng)意腦暴后，尋找情緒版給甲方參考，確認(rèn)后再由設(shè)計師進(jìn)行具體設(shè)計，當(dāng)然這中間需要與甲方反復(fù)溝通確認(rèn)，最終交付作品。

美圖視覺大模型的出現(xiàn)，帶來了AI原生工作流。在創(chuàng)意腦暴后，AI能快速生成各種創(chuàng)意視覺供甲方確認(rèn)，在確定最終創(chuàng)意后，再交由設(shè)計師與AI協(xié)同進(jìn)行創(chuàng)意細(xì)化，很快能完成作品交付。

美圖視覺大模型3.0：讓設(shè)計師做甲方

在具體的功能上，美圖將自研AI視覺大模型MiracleVision(奇想智能)的核心能力拆解為“奇思妙想”和“智能創(chuàng)作”兩大特性。

「奇思妙想」主要聚焦于輔助用戶提供創(chuàng)意方面，當(dāng)用戶輸入關(guān)鍵詞，MiracleVision可自動補(bǔ)充相關(guān)表述，如光影效果、質(zhì)感、風(fēng)格、圖片質(zhì)量等，讓即使沒有那么多年美術(shù)功底的普通用戶也能一鍵生成大片。

當(dāng)然，如果用戶有更專業(yè)的需求，通過MiracleVision的「提示詞精準(zhǔn)控制」功能也可以輕松實現(xiàn)「近景」、「遠(yuǎn)景」、「順光」、「逆光」等生成效果。

在「智能創(chuàng)作」層面，MiracleVision通過「深化創(chuàng)作」功能，可以進(jìn)一步豐富作品細(xì)節(jié)和提升表現(xiàn)力。通過「AI畫面擴(kuò)展」功能讓作品尺寸更大、細(xì)節(jié)更豐富。通過「局部修改」功能，對部分畫面進(jìn)行精準(zhǔn)修改與調(diào)整。通過「分辨率提升」功能生成高清大圖，讓細(xì)節(jié)表現(xiàn)、色彩展示、物體辨識更加的精準(zhǔn)和生動。

美圖視覺大模型3.0：讓設(shè)計師做甲方

MiracleVision將落地電商、廣告、游戲、動漫、影視五大行業(yè)，希望能幫助五大行業(yè)「工作流提效」。

文科生的表面，理科生的內(nèi)核

算力和數(shù)據(jù)、算法是大模型行業(yè)的三駕馬車。

盡管老生常談，但是這三個方面的基本功，卻決定著大模型能否走得扎實且長遠(yuǎn)。

美圖2015年成立了美圖影像研究院（MT Lab），從那時起，便致力于影像技術(shù)的研發(fā)與探索。在算法方面，美圖影像實驗室擁有在近十年的經(jīng)驗積累。

在算力方面，美圖聯(lián)合廠商合作，擁有雄厚的算力資源。在數(shù)據(jù)方面，美圖有專業(yè)的設(shè)計師標(biāo)準(zhǔn)的數(shù)據(jù)，數(shù)據(jù)集比較高質(zhì)量。其次是有標(biāo)注，除了設(shè)計師還有一些美院合作的專業(yè)人士幫我們標(biāo)注，還有藝術(shù)家們幫助審核。

在三個月前，MiracleVision繪畫水平在前三個月其實還停留在一個初級階段，如今的3.0版本已經(jīng)能描繪出真實細(xì)膩的畫面細(xì)節(jié)。

美圖視覺大模型3.0：讓設(shè)計師做甲方

而從6月份美圖視覺大模型1.0發(fā)布到如今3.0上新，中間的每一步，美圖都有著自己的考量。

從0到1階段，美圖考慮更多的是如何搭建這個平臺，而在1.0版本發(fā)布后。高質(zhì)量的數(shù)據(jù)集變成了美圖的關(guān)注重點(diǎn)。數(shù)據(jù)怎么來，質(zhì)量怎么保證？

美圖的做法是，既然針對的是美學(xué)領(lǐng)域的視覺大模型，那集思廣益，采集最專業(yè)的數(shù)據(jù)，邀請外部設(shè)計師包括藝術(shù)院校的老師和學(xué)生一起去構(gòu)建比較高質(zhì)量的數(shù)據(jù)集，從而使得美圖在美學(xué)上達(dá)到比較好的狀態(tài)。

如今美圖視覺大模型3.0發(fā)布，如何保證效果的卓越？

第一點(diǎn)便是模型的可控性。不管是在細(xì)節(jié)的控制還是在局部的編輯都能達(dá)到用戶想要的效果，在模型的技術(shù)層面能達(dá)到一個很好的實現(xiàn)。

通用領(lǐng)域可控，那么一些十分專業(yè)的垂直領(lǐng)域，是否也同樣可控呢？

這一點(diǎn)也是美圖花費(fèi)了大量心力去完善的地方，美圖視覺大模型3.0十分注重垂直領(lǐng)域的效果精致度。

美圖在發(fā)布會上坦言，如果做通用視覺大模型，把全網(wǎng)的各種圖片進(jìn)行訓(xùn)練，然后生成圖片，這個事情很好做。

但難的是細(xì)分到各個場景里，這些圖片不一定能用，比如電商細(xì)分下去分為特別多的品類，鞋子分運(yùn)動鞋、帆布鞋、拖鞋。美圖技術(shù)團(tuán)隊對各個垂直領(lǐng)域效果進(jìn)行訓(xùn)練、生成、調(diào)試，最后才得以在各個領(lǐng)域產(chǎn)生生產(chǎn)力。

擁有深厚美學(xué)功底的美圖呈現(xiàn)給大家的是非常文藝的文科生形象，但對產(chǎn)品精雕細(xì)琢，不斷內(nèi)省的理科生思維，夯實了美圖的技術(shù)底座，也讓美圖的視覺大模型之路走得更加長遠(yuǎn)。

視覺模型新一輪增長飛輪背后

新一輪AI大模型浪潮中，每個公司都想分一份羹，但對于視覺這個專精深領(lǐng)域，卻并不是所有公司都可以hold得住。

什么樣的公司做視覺大模型會有優(yōu)勢？

對于這個問題的答案，很多人第一反應(yīng)很可能是擁有深厚學(xué)術(shù)背景的技術(shù)團(tuán)隊。

但在美圖發(fā)布會現(xiàn)場，我們得到了一個全新的答案。

最懂視覺，與用戶打交道的公司做視覺大模型的優(yōu)勢不可忽視。

大模型創(chuàng)業(yè)九死一生，巨大的成本投入是一方面，另一方面，沒有實際的應(yīng)用場景也是創(chuàng)業(yè)成功道路上的攔路虎。再好的技術(shù)也得先活下來才有話語權(quán)。

大半年過去了，大模型浪潮大浪淘沙之下，存活下來的模型創(chuàng)意公司非常之少。最后只剩下比較成熟或者中型的公司存在，因為創(chuàng)業(yè)很關(guān)鍵的一點(diǎn)是做模型給誰用，給別人用的前提是中間要有一個應(yīng)用層作為輔助和支撐。沒有這些，那么創(chuàng)業(yè)團(tuán)隊需要從0開始推廣應(yīng)用，如果無法短時間獲得成效，風(fēng)險巨大。

而對于美圖而言，這個問題并不存在。

擁有強(qiáng)大用戶規(guī)模的美圖已經(jīng)擁有了現(xiàn)成的應(yīng)用場景。模型研發(fā)-發(fā)布-應(yīng)用-用戶反饋-調(diào)整，閉環(huán)已經(jīng)形成。

「我們所謂的增長飛輪，能夠越推越好，這個是非常關(guān)鍵的，也是美圖過去15年的厚積薄發(fā)在大模型時代的體現(xiàn)?！?/p>

對于美圖視覺大模型3.0，美圖團(tuán)隊給予它的期待是在可控性上持續(xù)發(fā)力。

美圖視覺大模型3.0：讓設(shè)計師做甲方

而看向更長遠(yuǎn)的未來，在吳欣鴻看來，視覺大模型應(yīng)用普及將經(jīng)歷三個階段：2024年之前為探索期，2024-2025年為高速發(fā)展期，2026-2030年為成熟期，隨著視覺大模型在生產(chǎn)端的應(yīng)用走向成熟，視覺大模型將助力千萬設(shè)計場景，引領(lǐng)美學(xué)的升級與社會經(jīng)濟(jì)增長。

在這股競爭之潮中，當(dāng)被問及深耕視覺領(lǐng)域的美圖對自己的角色定位是什么時，吳欣鴻面帶微笑，目光一如15年創(chuàng)立美圖之初那般堅定，緩緩答道：

「相比起在同業(yè)競爭里面獲得多大的地位，我們更加注重用戶體驗，以及自身能力的不斷提升，即使是對標(biāo)也是去對標(biāo)我們認(rèn)為全球最領(lǐng)先的產(chǎn)品，我們要一點(diǎn)點(diǎn)去接近乃至超越，因為對我們來說，視覺大模型的競爭才剛開始，做，是第一要義。」

雷峰網(wǎng)(公眾號：雷峰網(wǎng)) 雷峰網(wǎng) 雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

郭思

主筆

發(fā)私信

當(dāng)月熱門文章

美圖視覺大模型3.0：讓設(shè)計師做甲方

以設(shè)計師為主導(dǎo)的視覺大模型

文科生的表面，理科生的內(nèi)核

文科生的表面，理科生的內(nèi)核