0
作者:郭思
編輯:陳彩嫻
ChatGPT之前,國(guó)內(nèi)最近一次的AI熱潮是以“AI四小龍”的發(fā)展為代表,但這些公司燒錢(qián)程度與落地產(chǎn)出的不匹配,令市場(chǎng)倍感失望。
時(shí)間來(lái)到2023年, 在ChatGPT 出來(lái)之后,市場(chǎng)再度火熱,視覺(jué)大模型公司也如雨后春筍般不斷涌現(xiàn),據(jù)不完全數(shù)據(jù)統(tǒng)計(jì),市面上現(xiàn)有的視覺(jué)大模型公司共有三十余家。淘金者前仆后繼,但相同的問(wèn)題卻仍然存在。
部分入局者好大喜功,產(chǎn)品未經(jīng)雕琢就推上市,拉高用戶期待值,結(jié)果在真正使用過(guò)程中,卻漏洞百出。
要想讓用戶對(duì)視覺(jué)大模型的聲音從嘆氣變?yōu)闅g呼,似乎需要一場(chǎng)新的革命。
2023年,10月9日,美圖公司舉辦15周年生日會(huì)并發(fā)布自研AI視覺(jué)大模型MiracleVision(奇想智能)3.0版本。面世100天后,美圖AI視覺(jué)大模型MiracleVision3.0將全面應(yīng)用于美圖旗下影像與設(shè)計(jì)產(chǎn)品,并將助力電商、廣告、游戲、動(dòng)漫、影視五大行業(yè)。
在生日會(huì)現(xiàn)場(chǎng),美圖CEO吳欣鴻不僅向與會(huì)者展示了美圖視覺(jué)大模型MiracleVision(奇想智能)3.0版本的效果,也對(duì)產(chǎn)品和整個(gè)行業(yè)給出了自己的思考和見(jiàn)解。
「現(xiàn)如今視覺(jué)大模型普遍在生成效果上、結(jié)果可控性以及適用范圍上還有很多待解決的問(wèn)題。比如說(shuō)對(duì)于成熟的大中型企業(yè),他們對(duì)效果的精度要求很高。當(dāng)前,大部分視覺(jué)大模型的生成效果與設(shè)計(jì)師的標(biāo)準(zhǔn)存在一定差距,甚至不少設(shè)計(jì)師會(huì)覺(jué)得AI味很重,一看就是生成的,很沒(méi)誠(chéng)意?!?/p>
市面上的大部分視覺(jué)大模型都在卷數(shù)據(jù)量和參數(shù)量。但美圖認(rèn)為,衡量能力的標(biāo)準(zhǔn)并非在追求參數(shù)指標(biāo),而是要抓住應(yīng)用場(chǎng)景的核心需求,并且在商業(yè)模式上得到驗(yàn)證。
意簡(jiǎn)言賅,美圖想做的,是一個(gè)離用戶更近的大模型。
大模型熱度毋庸置疑,針對(duì)大模型產(chǎn)品發(fā)布的評(píng)測(cè)榜單也五花八門(mén)。
甚至有行業(yè)人士曾經(jīng)就表示,現(xiàn)在市面上大家能看到的很多榜單數(shù)據(jù)背后很有可能是各家公司在前期調(diào)整過(guò),刷榜現(xiàn)象是行業(yè)共識(shí)。
不顧實(shí)際效果的刷榜帶來(lái)的弊端十分明顯,這就像一個(gè)平日在學(xué)校只會(huì)迎合學(xué)校標(biāo)準(zhǔn),而忽視了自己能力的「好學(xué)生」在基準(zhǔn)測(cè)試時(shí)高分通過(guò),表現(xiàn)優(yōu)異,但實(shí)際應(yīng)用中卻還會(huì)犯一些非?;A(chǔ)的錯(cuò)誤。
要想防止這種現(xiàn)象的頻繁發(fā)生,或許確得從根源思考,在評(píng)判標(biāo)準(zhǔn)上下功夫。
究竟什么樣的視覺(jué)大模型才是好用的?以什么樣的標(biāo)準(zhǔn)來(lái)評(píng)價(jià)?
美圖給出的答案是,榜單說(shuō)的不算,吳欣鴻說(shuō)的不算,只有設(shè)計(jì)師和用戶說(shuō)好用,才是真正好用的大模型。
帶著這樣的理念,美圖視覺(jué)大模型最大的不同便是整個(gè)研發(fā)團(tuán)隊(duì)由設(shè)計(jì)師主導(dǎo)。
美團(tuán)視覺(jué)大模型負(fù)責(zé)人是設(shè)計(jì)師許俊,對(duì)于大模型效果的呈現(xiàn)有沒(méi)有在領(lǐng)域取得應(yīng)用,作為設(shè)計(jì)師的他,標(biāo)準(zhǔn)非常高。
而對(duì)于整個(gè)美圖團(tuán)隊(duì)而言,一切指令都以設(shè)計(jì)師的意見(jiàn)為先,當(dāng)設(shè)計(jì)師說(shuō)可以上,美圖視覺(jué)大模型就上,設(shè)計(jì)師說(shuō)不能上,團(tuán)隊(duì)就會(huì)繼續(xù)進(jìn)行調(diào)整。加上設(shè)計(jì)師自己得時(shí)刻使用,對(duì)于模型實(shí)際體驗(yàn)感肯定是最在意之人。
「他天天用我們的模型,我們的生成架構(gòu)敢不快嗎?天天催?!?/p>
作為一家以美為基因的公司,美圖在美學(xué)上與用戶產(chǎn)生的深厚鏈接,足以讓美圖視覺(jué)大模型團(tuán)隊(duì)以用戶體驗(yàn)作為第一出發(fā),進(jìn)行大模型的評(píng)估,從而反推技術(shù)上的研發(fā)。
從實(shí)際效果上來(lái)說(shuō),在發(fā)布會(huì)現(xiàn)場(chǎng),我們通過(guò)各類(lèi)效果的對(duì)比,著實(shí)看到了美圖視覺(jué)大模型3.0的強(qiáng)大實(shí)力。
圖片由MiracleVision3.0生成,關(guān)鍵詞:新聞現(xiàn)場(chǎng),1記者,專(zhuān)注的眼神,城市街道,高清分辨率,科技感,現(xiàn)代,自然光,金屬質(zhì)地
以應(yīng)用場(chǎng)景為例,身處傳媒行業(yè)或者廣告行業(yè)的小伙伴,都有過(guò)熬夜拼趕,花費(fèi)巨大心力的設(shè)計(jì)稿發(fā)給「甲方爸爸」,卻因?qū)Ψ揭粋€(gè)NO字,需要重新進(jìn)行返工重做的經(jīng)歷。
這其實(shí)和傳統(tǒng)的設(shè)計(jì)工作模式相關(guān),一個(gè)設(shè)計(jì)師,在創(chuàng)意腦暴后,尋找情緒版給甲方參考,確認(rèn)后再由設(shè)計(jì)師進(jìn)行具體設(shè)計(jì),中間需要與甲方反復(fù)溝通確認(rèn),最終交付作品,耗時(shí)耗力。
傳統(tǒng)的設(shè)計(jì)工作流,在創(chuàng)意腦暴后,尋找情緒版給甲方參考,確認(rèn)后再由設(shè)計(jì)師進(jìn)行具體設(shè)計(jì),當(dāng)然這中間需要與甲方反復(fù)溝通確認(rèn),最終交付作品。
美圖視覺(jué)大模型的出現(xiàn),帶來(lái)了AI原生工作流。在創(chuàng)意腦暴后,AI能快速生成各種創(chuàng)意視覺(jué)供甲方確認(rèn),在確定最終創(chuàng)意后,再交由設(shè)計(jì)師與AI協(xié)同進(jìn)行創(chuàng)意細(xì)化,很快能完成作品交付。
在具體的功能上,美圖將自研AI視覺(jué)大模型MiracleVision(奇想智能)的核心能力拆解為“奇思妙想”和“智能創(chuàng)作”兩大特性。
「奇思妙想」主要聚焦于輔助用戶提供創(chuàng)意方面,當(dāng)用戶輸入關(guān)鍵詞,MiracleVision可自動(dòng)補(bǔ)充相關(guān)表述,如光影效果、質(zhì)感、風(fēng)格、圖片質(zhì)量等,讓即使沒(méi)有那么多年美術(shù)功底的普通用戶也能一鍵生成大片。
當(dāng)然,如果用戶有更專(zhuān)業(yè)的需求,通過(guò)MiracleVision的「提示詞精準(zhǔn)控制」功能也可以輕松實(shí)現(xiàn)「近景」、「遠(yuǎn)景」、「順光」、「逆光」等生成效果。
在「智能創(chuàng)作」層面,MiracleVision通過(guò)「深化創(chuàng)作」功能,可以進(jìn)一步豐富作品細(xì)節(jié)和提升表現(xiàn)力。通過(guò)「AI畫(huà)面擴(kuò)展」功能讓作品尺寸更大、細(xì)節(jié)更豐富。通過(guò)「局部修改」功能,對(duì)部分畫(huà)面進(jìn)行精準(zhǔn)修改與調(diào)整。通過(guò)「分辨率提升」功能生成高清大圖,讓細(xì)節(jié)表現(xiàn)、色彩展示、物體辨識(shí)更加的精準(zhǔn)和生動(dòng)。
MiracleVision將落地電商、廣告、游戲、動(dòng)漫、影視五大行業(yè),希望能幫助五大行業(yè)「工作流提效」。
算力和數(shù)據(jù)、算法是大模型行業(yè)的三駕馬車(chē)。
盡管老生常談,但是這三個(gè)方面的基本功,卻決定著大模型能否走得扎實(shí)且長(zhǎng)遠(yuǎn)。
美圖2015年成立了美圖影像研究院(MT Lab),從那時(shí)起,便致力于影像技術(shù)的研發(fā)與探索。在算法方面,美圖影像實(shí)驗(yàn)室擁有在近十年的經(jīng)驗(yàn)積累。
在算力方面,美圖聯(lián)合廠商合作,擁有雄厚的算力資源。在數(shù)據(jù)方面,美圖有專(zhuān)業(yè)的設(shè)計(jì)師標(biāo)準(zhǔn)的數(shù)據(jù),數(shù)據(jù)集比較高質(zhì)量。其次是有標(biāo)注,除了設(shè)計(jì)師還有一些美院合作的專(zhuān)業(yè)人士幫我們標(biāo)注,還有藝術(shù)家們幫助審核。
在三個(gè)月前,MiracleVision繪畫(huà)水平在前三個(gè)月其實(shí)還停留在一個(gè)初級(jí)階段,如今的3.0版本已經(jīng)能描繪出真實(shí)細(xì)膩的畫(huà)面細(xì)節(jié)。
而從6月份美圖視覺(jué)大模型1.0發(fā)布到如今3.0上新,中間的每一步,美圖都有著自己的考量。
從0到1階段,美圖考慮更多的是如何搭建這個(gè)平臺(tái),而在1.0版本發(fā)布后。高質(zhì)量的數(shù)據(jù)集變成了美圖的關(guān)注重點(diǎn)。數(shù)據(jù)怎么來(lái),質(zhì)量怎么保證?
美圖的做法是,既然針對(duì)的是美學(xué)領(lǐng)域的視覺(jué)大模型,那集思廣益,采集最專(zhuān)業(yè)的數(shù)據(jù),邀請(qǐng)外部設(shè)計(jì)師包括藝術(shù)院校的老師和學(xué)生一起去構(gòu)建比較高質(zhì)量的數(shù)據(jù)集,從而使得美圖在美學(xué)上達(dá)到比較好的狀態(tài)。
如今美圖視覺(jué)大模型3.0發(fā)布,如何保證效果的卓越?
第一點(diǎn)便是模型的可控性。不管是在細(xì)節(jié)的控制還是在局部的編輯都能達(dá)到用戶想要的效果,在模型的技術(shù)層面能達(dá)到一個(gè)很好的實(shí)現(xiàn)。
通用領(lǐng)域可控,那么一些十分專(zhuān)業(yè)的垂直領(lǐng)域,是否也同樣可控呢?
這一點(diǎn)也是美圖花費(fèi)了大量心力去完善的地方,美圖視覺(jué)大模型3.0十分注重垂直領(lǐng)域的效果精致度。
美圖在發(fā)布會(huì)上坦言,如果做通用視覺(jué)大模型,把全網(wǎng)的各種圖片進(jìn)行訓(xùn)練,然后生成圖片,這個(gè)事情很好做。
但難的是細(xì)分到各個(gè)場(chǎng)景里,這些圖片不一定能用,比如電商細(xì)分下去分為特別多的品類(lèi),鞋子分運(yùn)動(dòng)鞋、帆布鞋、拖鞋。美圖技術(shù)團(tuán)隊(duì)對(duì)各個(gè)垂直領(lǐng)域效果進(jìn)行訓(xùn)練、生成、調(diào)試,最后才得以在各個(gè)領(lǐng)域產(chǎn)生生產(chǎn)力。
擁有深厚美學(xué)功底的美圖呈現(xiàn)給大家的是非常文藝的文科生形象,但對(duì)產(chǎn)品精雕細(xì)琢,不斷內(nèi)省的理科生思維,夯實(shí)了美圖的技術(shù)底座,也讓美圖的視覺(jué)大模型之路走得更加長(zhǎng)遠(yuǎn)。
視覺(jué)模型新一輪增長(zhǎng)飛輪背后
新一輪AI大模型浪潮中,每個(gè)公司都想分一份羹,但對(duì)于視覺(jué)這個(gè)專(zhuān)精深領(lǐng)域,卻并不是所有公司都可以hold得住 。
什么樣的公司做視覺(jué)大模型會(huì)有優(yōu)勢(shì)?
對(duì)于這個(gè)問(wèn)題的答案,很多人第一反應(yīng)很可能是擁有深厚學(xué)術(shù)背景的技術(shù)團(tuán)隊(duì)。
但在美圖發(fā)布會(huì)現(xiàn)場(chǎng),我們得到了一個(gè)全新的答案。
最懂視覺(jué),與用戶打交道的公司做視覺(jué)大模型的優(yōu)勢(shì)不可忽視。
大模型創(chuàng)業(yè)九死一生,巨大的成本投入是一方面,另一方面,沒(méi)有實(shí)際的應(yīng)用場(chǎng)景也是創(chuàng)業(yè)成功道路上的攔路虎。再好的技術(shù)也得先活下來(lái)才有話語(yǔ)權(quán)。
大半年過(guò)去了,大模型浪潮大浪淘沙之下,存活下來(lái)的模型創(chuàng)意公司非常之少。最后只剩下比較成熟或者中型的公司存在,因?yàn)閯?chuàng)業(yè)很關(guān)鍵的一點(diǎn)是做模型給誰(shuí)用,給別人用的前提是中間要有一個(gè)應(yīng)用層作為輔助和支撐。沒(méi)有這些,那么創(chuàng)業(yè)團(tuán)隊(duì)需要從0開(kāi)始推廣應(yīng)用,如果無(wú)法短時(shí)間獲得成效,風(fēng)險(xiǎn)巨大。
而對(duì)于美圖而言,這個(gè)問(wèn)題并不存在。
擁有強(qiáng)大用戶規(guī)模的美圖已經(jīng)擁有了現(xiàn)成的應(yīng)用場(chǎng)景。模型研發(fā)-發(fā)布-應(yīng)用-用戶反饋-調(diào)整,閉環(huán)已經(jīng)形成。
「我們所謂的增長(zhǎng)飛輪,能夠越推越好,這個(gè)是非常關(guān)鍵的,也是美圖過(guò)去15年的厚積薄發(fā)在大模型時(shí)代的體現(xiàn)。」
對(duì)于美圖視覺(jué)大模型3.0,美圖團(tuán)隊(duì)給予它的期待是在可控性上持續(xù)發(fā)力。
而看向更長(zhǎng)遠(yuǎn)的未來(lái),在吳欣鴻看來(lái),視覺(jué)大模型應(yīng)用普及將經(jīng)歷三個(gè)階段:2024年之前為探索期,2024-2025年為高速發(fā)展期,2026-2030年為成熟期,隨著視覺(jué)大模型在生產(chǎn)端的應(yīng)用走向成熟,視覺(jué)大模型將助力千萬(wàn)設(shè)計(jì)場(chǎng)景,引領(lǐng)美學(xué)的升級(jí)與社會(huì)經(jīng)濟(jì)增長(zhǎng)。
在這股競(jìng)爭(zhēng)之潮中,當(dāng)被問(wèn)及深耕視覺(jué)領(lǐng)域的美圖對(duì)自己的角色定位是什么時(shí),吳欣鴻面帶微笑,目光一如15年創(chuàng)立美圖之初那般堅(jiān)定,緩緩答道:
「相比起在同業(yè)競(jìng)爭(zhēng)里面獲得多大的地位,我們更加注重用戶體驗(yàn),以及自身能力的不斷提升,即使是對(duì)標(biāo)也是去對(duì)標(biāo)我們認(rèn)為全球最領(lǐng)先的產(chǎn)品,我們要一點(diǎn)點(diǎn)去接近乃至超越,因?yàn)閷?duì)我們來(lái)說(shuō),視覺(jué)大模型的競(jìng)爭(zhēng)才剛開(kāi)始,做,是第一要義?!?/p>
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)) 雷峰網(wǎng) 雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。