字節(jié)的大模型野心，藏在一艘「方舟」里

本文作者：陳彩嫻

2023-06-30 11:50

導(dǎo)語(yǔ)：火山引擎的 To B 新解法是建一座「大模型商城」。

一個(gè)企業(yè)家，會(huì)在智能時(shí)代追求什么？雷峰網(wǎng)

不久前，一位傳統(tǒng)行業(yè)的技術(shù)管理層向雷峰網(wǎng)給出了一個(gè)簡(jiǎn)潔而有趣的回答：

「從企業(yè)經(jīng)營(yíng)的角度來(lái)看，我們會(huì)希望將流程、人才、方法論等標(biāo)準(zhǔn)化，將個(gè)體的能力變成企業(yè)的通用能力。所以，企業(yè)對(duì)技術(shù)的追求主要體現(xiàn)在兩點(diǎn)：一是將人才的能力數(shù)字化，二是將不同領(lǐng)域的知識(shí)數(shù)字化?！?span style="color: #FFFFFF;">雷峰網(wǎng)

以常見的資源調(diào)度為例。中國(guó)地大物博，受當(dāng)?shù)厣鐣?huì)、經(jīng)濟(jì)、地理等等不同環(huán)境變量的影響，不同地區(qū)的電力調(diào)度與能源管理有所差異，如東北地區(qū)的電力分配方法往往不適用于西北、西南、華南等地，因此每個(gè)地方都有各自的專家團(tuán)隊(duì)。當(dāng)一個(gè)企業(yè)追求降本增效，通常訴諸一套通用的方法論，但受技術(shù)瓶頸的限制，所謂的「通用智能」難以實(shí)現(xiàn)，直到大模型出現(xiàn)。

技術(shù)上，大模型使通用人工智能（AGI）成為一種可能，越來(lái)越多的傳統(tǒng)行業(yè)也從 ChatGPT 「一才多能」的產(chǎn)品形態(tài)中看到他們?cè)瓉?lái)想做、但做不到的事情，即將人才與領(lǐng)域的知識(shí)數(shù)字化，將聰明的大腦從舊有的知識(shí)體系中釋放出來(lái)，激發(fā)社會(huì)生產(chǎn)力。

用大模型改造傳統(tǒng)行業(yè)，是一個(gè)共識(shí)，但如何改造卻是一個(gè)開放答問(wèn)。

從今年3月起，國(guó)產(chǎn)大模型陸續(xù)推出面向行業(yè)的解決方案，最激烈的競(jìng)爭(zhēng)發(fā)生在云廠商間。有兩類做法：一類做法是面向企業(yè)客戶開放 API 插件，企業(yè)在通用大模型的基礎(chǔ)上「煉」自有大模型；另一類做法是與不同行業(yè)的頭部玩家建立深度共創(chuàng)，用行業(yè)數(shù)據(jù)開發(fā)行業(yè)大模型，然后賣給中小廠，按模型升級(jí)來(lái)收費(fèi)。

一位大模型從業(yè)者曾對(duì)雷峰網(wǎng)預(yù)測(cè)，大模型的 To B 戰(zhàn)爭(zhēng)將在今年下半年進(jìn)入價(jià)格戰(zhàn)。但在各家的爭(zhēng)相追逐下，大模型的市場(chǎng)化被加速。6月28日，字節(jié)跳動(dòng)旗下的云平臺(tái)「火山引擎」也發(fā)布了一個(gè) To B 的大模型服務(wù)平臺(tái)——火山方舟。

字節(jié)的大模型野心，藏在一艘「方舟」里

在一眾云廠商中，火山引擎的模式獨(dú)樹一幟：他們不是主打自家的通用大模型，而是與國(guó)內(nèi)現(xiàn)有的大模型初創(chuàng)公司合作，接入了智譜、MiniMax 等 7 家當(dāng)紅大模型提供方的基礎(chǔ)模型，為千行百業(yè)打造一座「大模型商城」。

01 高墻之外：進(jìn)不來(lái)的 B 端用戶

眾所周知，大模型的研發(fā)門檻高，但極少人指出：隨著越來(lái)越多的大模型發(fā)布，大模型的商業(yè)落地開始凸顯出上一代 AI 「有門檻、沒壁壘」的局限性。

在產(chǎn)品普遍缺乏想象力的背景下，這一事實(shí)變得愈發(fā)嚴(yán)峻。雷峰網(wǎng)

通用大模型占據(jù)主流，以致現(xiàn)有大模型應(yīng)用開發(fā)以 To C 的通用產(chǎn)品為主，在解決專業(yè)領(lǐng)域的問(wèn)題上表現(xiàn)不足，與希望將大模型能力私有部署、嵌入到生產(chǎn)業(yè)務(wù)流中的行業(yè)需求脫節(jié)。在模型落地的討論上，一味強(qiáng)調(diào)大模型的技術(shù)門檻不再是有力說(shuō)辭，如何讓大模型產(chǎn)生行業(yè)影響力成為更大的焦點(diǎn)。

然而，盡管呼聲高漲，但當(dāng)前國(guó)內(nèi)的大模型與行業(yè)之間卻猶如隔著一道高墻，墻一邊的大模型能力無(wú)法得到釋放，另一邊的行業(yè)數(shù)字化訴求無(wú)法得到滿足；基于開放數(shù)據(jù)集訓(xùn)練的大模型不擅長(zhǎng)專業(yè)知識(shí)，掌握行業(yè)數(shù)據(jù)的企業(yè)用戶無(wú)法參與大模型的建設(shè)。

更關(guān)鍵的是，企業(yè)面臨選擇大模型的難題。這主要?dú)w因于兩方面的因素：

一方面，由于大模型技術(shù)的日新月異，各家模型的能力迭代飛快，目前尚無(wú)法確定哪一家的通用大模型能力會(huì)最終成為 AI 時(shí)代的「智能運(yùn)營(yíng)商」（類似「電力運(yùn)營(yíng)商」）；

另一方面，當(dāng)前國(guó)內(nèi)已發(fā)布超過(guò) 70 個(gè)大模型成果，每一家的模型參數(shù)、側(cè)重能力、配套設(shè)施等均不相同，同時(shí)不同行業(yè)的應(yīng)用場(chǎng)景也五花八門，企業(yè)用戶對(duì)大模型的落地訴求不一。

根據(jù)火山引擎的市場(chǎng)調(diào)研，大多數(shù)企業(yè)由于場(chǎng)景的變化，甚至希望能夠同時(shí)調(diào)用多家大模型的能力，因此未來(lái)大模型的落地很可能呈現(xiàn)「1+N」的趨勢(shì)。這一事實(shí)也與當(dāng)前的主流觀點(diǎn)有所沖突：上半年，一個(gè)能力足夠強(qiáng)的通用大模型將一家獨(dú)大，并建立上層的行業(yè)大模型與應(yīng)用服務(wù)；但碎片化的行業(yè)需求往往要求組合不同模型的能力，并通過(guò)市場(chǎng)競(jìng)爭(zhēng)的方式選擇成本最優(yōu)的采購(gòu)方案。

To B 的探索并非現(xiàn)在才開始。自 ChatGPT 開放 API 插件以來(lái)，國(guó)內(nèi)的多家云廠商在推出通用大模型時(shí)，也往往同步其對(duì)行業(yè)賦能的意愿。但大模型 To B 探索至今仍沒有打破高墻，簡(jiǎn)單來(lái)說(shuō)有三個(gè)維度的阻礙：

一是基于通用大模型研發(fā)行業(yè)大模型的難度。

從技術(shù)上來(lái)看，專業(yè)領(lǐng)域（如金融、醫(yī)療、法律）的行業(yè)大模型并非通過(guò)將數(shù)據(jù)喂給通用大模型進(jìn)行精調(diào)就能輕松獲得。例如，摩根大通 AI 研究院的一項(xiàng)研究已用實(shí)驗(yàn)證明，在金融領(lǐng)域，擁有行業(yè)私有數(shù)據(jù)的 BloombergGPT 在多個(gè)任務(wù)上的表現(xiàn)并沒有比通用大模型更好：

字節(jié)的大模型野心，藏在一艘「方舟」里

這表明，當(dāng)前行業(yè)大模型的技術(shù)瓶頸仍待突破。

過(guò)去十年的 AI 商業(yè)落地又告訴我們，定制化的項(xiàng)目落地模式難逃勞動(dòng)密集型的「堆人力」結(jié)局，造成商業(yè)變現(xiàn)上的高投入、低回報(bào)局面，行業(yè)內(nèi)不同企業(yè)之間又存在競(jìng)爭(zhēng)關(guān)系，因此大多數(shù)人都認(rèn)為：解決特定領(lǐng)域問(wèn)題的行業(yè)大模型必須建立在通用大模型的基礎(chǔ)上，即「基于標(biāo)準(zhǔn)化的定制化」、而非「徹頭徹尾的定制化」。

也就是說(shuō)，行業(yè)大模型的研發(fā)離不開通用大模型的能力。同時(shí)，還要有能為企業(yè)提供模型精調(diào)與訓(xùn)練的平臺(tái)、穩(wěn)定運(yùn)行模型推理與應(yīng)用的基礎(chǔ)設(shè)施等。雖然行業(yè)模型的最終落地大概率是本地私有部署，但大多數(shù)應(yīng)用的使用者也是廣泛 C 端用戶，因此長(zhǎng)久穩(wěn)定、充足可靠的系統(tǒng)資源也至關(guān)重要。

二是私有數(shù)據(jù)的安全隱患。

To B 場(chǎng)景中，大模型的買方與賣方間存在天然的信任障礙。一方面，企業(yè)擔(dān)心自己的數(shù)據(jù)（如對(duì)話數(shù)據(jù)、內(nèi)部代碼、文檔等）在接入公有大模型后泄露，通常要求私有化部署；但這種情況下，另一方面，大模型的提供方又擔(dān)心技術(shù)機(jī)密泄漏。

市場(chǎng)上現(xiàn)有第三方公司提供模型微調(diào)訓(xùn)練的服務(wù)，可以幫助企業(yè)在開源模型的基礎(chǔ)上訓(xùn)練企業(yè)自己所需的行業(yè)大模型，然后部署到企業(yè)本地的平臺(tái)上。這類第三方公司不是大模型提供方，沒有技術(shù)輸出的憂慮，收費(fèi)價(jià)格也不高，但企業(yè)與其合作仍需要出讓自有的數(shù)據(jù)，且無(wú)法保證自家的數(shù)據(jù)不會(huì)被泄露給同行的競(jìng)對(duì)。

更值得注意的是，當(dāng)前許多開源的大模型規(guī)定，基于其開源的應(yīng)用不能用在商業(yè)用途，如 Meta 的 LLaMa。目前國(guó)內(nèi)外只有極少數(shù)的大模型開放商用開源，百川智能最新推出的 baichuan-7B 是國(guó)內(nèi)首家。因此，解決正規(guī)大模型提供方與企業(yè)用戶在合作上的數(shù)據(jù)安全問(wèn)題是首當(dāng)其沖。

三是落地成本的可控性。

通常來(lái)說(shuō)，企業(yè)調(diào)用大模型的成本有兩塊，一是模型訓(xùn)練的費(fèi)用，二是模型推理（即模型應(yīng)用與調(diào)優(yōu)）的費(fèi)用。

火山引擎智能算法負(fù)責(zé)人吳迪將這兩塊分別形容為大模型時(shí)代在算力上的「第一增長(zhǎng)曲線」與「第二增長(zhǎng)曲線」，其中第一增長(zhǎng)曲線的結(jié)果已經(jīng)得到驗(yàn)證，并預(yù)言兩條曲線大約在 2024 年相遇（如下圖）。而在第二增長(zhǎng)曲線中，企業(yè)將扮演重要角色，大模型在行業(yè)的落地成本也主要體現(xiàn)在應(yīng)用與調(diào)優(yōu)上。

字節(jié)的大模型野心，藏在一艘「方舟」里

在《大模型時(shí)代的三道鴻溝》一文中，我們指出了企業(yè)應(yīng)用大模型的一個(gè)「悖論」：企業(yè)希望在性能最好的大模型上做微調(diào)訓(xùn)練，然后再進(jìn)行私有化部署。但在實(shí)際調(diào)用 API 的過(guò)程中，許多開源的大模型版本都是相對(duì)固定的，所以企業(yè)無(wú)法基于最新的模型版本進(jìn)行微調(diào)。

國(guó)內(nèi)大模型成果雖多，但企業(yè)在選定一家模型的過(guò)程中需要一一驗(yàn)證，時(shí)間與人力成本均難以把控。即使經(jīng)過(guò)驗(yàn)證作出選擇，也無(wú)法使用最新模型，這就降低了傳統(tǒng)行業(yè)在大模型時(shí)代崛起早期的參與意愿，尤其降低付費(fèi)意愿。

大模型的微調(diào)成本并不低。以 GPT-3.5 為例，未經(jīng)調(diào)優(yōu)的 API 價(jià)格是 0.02 美元，微調(diào)后的價(jià)格則變成了原來(lái)的 6 倍，即 0.12 美元。大模型的訓(xùn)練成本低，上線部署的價(jià)格才會(huì)降低。隨著市場(chǎng)化的深入，大模型必將進(jìn)入價(jià)格戰(zhàn)，底層技術(shù)的比拼將成為模型賣方爭(zhēng)取 B 端客戶的終極殺手锏。

02 「商城」模式的 To B 解法

將行業(yè)人士納入大模型的生態(tài)建設(shè)中，是迎接 AI 時(shí)代的關(guān)鍵構(gòu)成。而在大模型的起步階段，如何站在未來(lái)的角度設(shè)計(jì)一套靈活的商業(yè)機(jī)制，也同樣考驗(yàn)大模型提供方的商業(yè)能力。

如前所述，盡管 AIGC 與大模型已表現(xiàn)出人工智能技術(shù)落地從「定制」走向「標(biāo)準(zhǔn)」的可能，但距離 AI 走進(jìn)企業(yè)的業(yè)務(wù)流仍有一段距離?；鹕揭嬖谶@個(gè)背景下，設(shè)計(jì)出 MaaS 平臺(tái)「火山方舟」，正是為了加速大模型走進(jìn)千行百業(yè)的步伐。

針對(duì)上述的三大問(wèn)題，火山引擎的底層路徑非同凡想。火山方舟的突出之處在于其建立在降本增效上「開放」、「共贏」同時(shí)「競(jìng)爭(zhēng)」的設(shè)計(jì)思路。

字節(jié)的大模型野心，藏在一艘「方舟」里

這體現(xiàn)出字節(jié)看待大模型的視角：在他們看來(lái)，大模型不是一次曇花一現(xiàn)的技術(shù)風(fēng)潮，而是一個(gè)新的技術(shù)時(shí)代窗口。這個(gè)時(shí)代剛起步，未來(lái)必將走進(jìn)千行百業(yè)，大模型在不確定性中迎接市場(chǎng)化競(jìng)爭(zhēng)是必然趨勢(shì)。

在雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))看來(lái)，火山引擎做對(duì)了三件事：

一是用商城的思路設(shè)計(jì)了火山方舟，通過(guò)「招商引資」式的方法吸引各家大模型的入駐，彌補(bǔ)字節(jié)通用大模型缺位的同時(shí)，又為需求各異的行業(yè)客戶提供了靈活選擇、透明比價(jià)的大模型采購(gòu)模式。

二是與飛書一體同源，從工作流上設(shè)計(jì)創(chuàng)新大模型 To B 的企業(yè)服務(wù)。在火山方舟上，一方面，企業(yè)可以根據(jù)自己不同的場(chǎng)景需求組合匹配不同的模型能力，既有成熟的通用模型為其入門大模型保駕護(hù)航，又有專煉大模型的機(jī)器學(xué)習(xí)平臺(tái)供企業(yè)自行精調(diào)模型能力；另一方面，商城模式能與大模型的技術(shù)發(fā)展與時(shí)俱進(jìn)，目前在技術(shù)起飛的階段能整合各家的底座大模型，未來(lái)也能在應(yīng)用爆發(fā)的階段吸引應(yīng)用入駐，甚至在此基礎(chǔ)上建立一個(gè)更大的「大模型應(yīng)用商城」。

三是首創(chuàng)大模型安全互信機(jī)制?；诨鹕揭婊A(chǔ)能力的安全沙箱、硬件的可信計(jì)算環(huán)境與聯(lián)邦學(xué)習(xí)技術(shù)，火山方舟在解決大模型提供方與需求方之間的數(shù)據(jù)安全問(wèn)題上提供了可信解法。據(jù)吳迪介紹，安全沙箱與可信計(jì)算的核心是將兩方數(shù)據(jù)資產(chǎn)交疊的部分進(jìn)行層層加固，聯(lián)邦學(xué)習(xí)技術(shù)則幫助進(jìn)行數(shù)據(jù)資產(chǎn)的安全拆分。

這套系統(tǒng)得到了國(guó)內(nèi)多家權(quán)威大模型研發(fā)團(tuán)隊(duì)的認(rèn)可。據(jù)火山引擎官方披露，火山方舟已經(jīng)接入 MiniMax、智譜AI、百川智能、瀾舟科技、出門問(wèn)問(wèn)、復(fù)旦大學(xué)、IDEA研究院等多家機(jī)構(gòu)的大模型。

之前，大模型的提供方有兩種 To B 的變現(xiàn)渠道：第一種變現(xiàn)渠道是自建商城，它們有自己的平臺(tái)，然后租用火山的資源去搭建、維護(hù)；第二種是加入火山方舟。兩種途徑的區(qū)別是「自建商城」與「開放性大模型官方旗艦店」。

官方旗艦店有一個(gè)突出優(yōu)勢(shì)：對(duì)客戶來(lái)說(shuō)，工作流是統(tǒng)一的。例如，加入一家企業(yè)想一次性嘗試 10 個(gè)國(guó)產(chǎn)基座模型，有兩種選擇，一是去10個(gè)商城里選，二是選擇在火山方舟上一次性將數(shù)據(jù)輸入到 10 個(gè)模型的窗口里，自動(dòng)評(píng)估，尋找最適合自己場(chǎng)景的模型。因?yàn)楣ぷ髁魇墙y(tǒng)一的，所以企業(yè)也不用隨著更換模型而更改工作流。

而對(duì)模型提供方來(lái)說(shuō)，他們以技術(shù)見長(zhǎng)，銷售、交付、服務(wù)這些能力有限。如果是自建商城，一旦業(yè)務(wù)擴(kuò)張、很容易陷入運(yùn)維困境。而火山方舟的模式可以幫助他們更大規(guī)模地對(duì)接客戶。

字節(jié)的大模型野心，藏在一艘「方舟」里

例如，智譜的 GLM-130B 自 2022 年8 月發(fā)布以來(lái)，收到 70 多個(gè)國(guó)家 1000+ 研究機(jī)構(gòu)的使用需求，這樣體量的需求對(duì)于一家創(chuàng)業(yè)公司來(lái)說(shuō)，是一個(gè)現(xiàn)實(shí)挑戰(zhàn)。但接入火山方舟后，火山引擎能夠通過(guò)強(qiáng)大的算法團(tuán)隊(duì)、銷售網(wǎng)絡(luò)和交付團(tuán)隊(duì)去幫助模型提供方更好地?cái)U(kuò)張到千行百業(yè)，使規(guī)模化變現(xiàn)的成本降低。

上半年通用大模型占據(jù)主流，行業(yè)內(nèi)有一個(gè)常見討論：在未來(lái)，大模型領(lǐng)域是否只會(huì)存在一兩家超大型的基座模型、形成壟斷？

對(duì)于這個(gè)問(wèn)題，觀點(diǎn)紛繁，但在字節(jié)看來(lái)，即使最終真的是一兩家大模型獨(dú)大，ROI 的問(wèn)題也是恒在的。吳迪分析，「如果有一個(gè)巨通用的基座模型，那么它一定很大，但一些垂直領(lǐng)域可以用一個(gè)比它小十倍、甚至百倍的小模型，在一兩個(gè)特定任務(wù)上達(dá)到逼近于超大模型的效果，那么通用大模型所帶來(lái)的成本錨點(diǎn)永遠(yuǎn)存在，除非降價(jià)一百倍?！?/p>

火山引擎總經(jīng)理譚待判斷，未來(lái)腰部以上的客戶都是「1+N」的模式，即始終保持一個(gè)自研模型，并同時(shí)去調(diào)用 N 個(gè)外部模型。而火山方舟的訓(xùn)練與推理是一體化的，既包括模型訓(xùn)練，又包括模型應(yīng)用，企業(yè)可以在火山方舟的平臺(tái)上既訓(xùn)練、又調(diào)用，然后去對(duì)比選擇在他們的場(chǎng)景上表現(xiàn)最好的模型。

譚待分析，目前整個(gè)大模型社區(qū)的技術(shù)仍在不斷演變，實(shí)際上大家都無(wú)法準(zhǔn)確預(yù)測(cè)在明年、后年，大模型是否還是采用 GPT 的架構(gòu)，因此他們必須與時(shí)間成為朋友，幫助企業(yè)用統(tǒng)一的工作流去接觸最新、最前沿的大模型，而沒有必要馬上選定一家大模型。

火山方舟的工作流也體現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)的魅力。比如，每一次的大模型微調(diào)都會(huì)出現(xiàn)非常清晰的前后效果對(duì)比，幫助客戶準(zhǔn)確評(píng)估大模型的性能，來(lái)決定在什么樣的場(chǎng)景下使用什么樣的模型。對(duì)于大模型的能力，學(xué)術(shù)界有清晰的 Benchmark，但工業(yè)界沒有，而火山方舟自帶的評(píng)測(cè)體系解決了這一問(wèn)題。

03 火山引擎憑什么？

建立一座大模型商城的愿景很好，但并非任何平臺(tái)都能做到。大模型的訓(xùn)練與推理本身就需要海量的計(jì)算資源，還有運(yùn)維、系統(tǒng)、工程等方面的投入。

簡(jiǎn)單來(lái)說(shuō)，火山方舟在一汪池塘里寸步難行；只有在汪洋大海上，火山方舟才有施展拳腳的空間。而火山引擎能推出火山方舟，吸引到國(guó)內(nèi)多家大模型提供方的入駐，最關(guān)鍵的是要有豐富的計(jì)算資源，并能規(guī)?；档痛竽Ｐ吐涞爻杀镜呐涮自O(shè)施。

英偉達(dá)開發(fā)與技術(shù)部門亞太區(qū)總經(jīng)理李曦鵬指出，大模型訓(xùn)練跟之前的 AI 模型不同：之前 AI 訓(xùn)練以小模型為主，一般是單機(jī)或單機(jī)多卡，如果訓(xùn)練失敗只用簡(jiǎn)單重啟，而大模型的訓(xùn)練需要成千上萬(wàn)張卡，任何一臺(tái)機(jī)器出故障都可能影響整個(gè)訓(xùn)練過(guò)程。所以，大模型的算力平臺(tái)是一個(gè)大的系統(tǒng)工程，必將遇到許多挑戰(zhàn)。

在大模型的訓(xùn)練上，火山引擎的優(yōu)勢(shì)有三點(diǎn)：一，長(zhǎng)期充足且穩(wěn)定的算力；二，為不同的大模型提供正確的硬件。所謂「正確的硬件」，即跟英偉達(dá)企業(yè)合作，根據(jù)語(yǔ)言模型的大小來(lái)選擇用卡、機(jī)器密度、CPU 與 GPU 的配比設(shè)置、網(wǎng)絡(luò)等等；三，提供有效的優(yōu)化，火山引擎的 Lego 算子能夠幫助很多模型進(jìn)行透明優(yōu)化，火山還與英偉達(dá)合作了 CV CUDA，適合自動(dòng)駕駛或 Stable Diffusion 等模型的加速。

此前，據(jù)雷峰網(wǎng)調(diào)研，字節(jié)的 GPU 卡在目前國(guó)內(nèi)眾多云廠商中排名 Top 3。這主要?dú)w因于兩大原因：

一方面，抖音等業(yè)務(wù)的推薦廣告平臺(tái)在過(guò)去兩三年內(nèi)技術(shù)升級(jí)，基本都運(yùn)行在GPU上。雖然模型結(jié)構(gòu)、網(wǎng)絡(luò)結(jié)構(gòu)與大語(yǔ)言模型的訓(xùn)練不同，但也需要大算力支持；

另一方面，火山引擎使用抖音同源的機(jī)器學(xué)習(xí)平臺(tái)對(duì)外服務(wù)，在大規(guī)模穩(wěn)定訓(xùn)練上非常有競(jìng)爭(zhēng)力，過(guò)去一年在自動(dòng)駕駛、生物醫(yī)藥等AI計(jì)算領(lǐng)域拿下眾多大客戶。內(nèi)外需求帶動(dòng)了火山引擎在GPU算力上的采購(gòu)儲(chǔ)備。

經(jīng)過(guò)抖音等業(yè)務(wù)長(zhǎng)時(shí)間、大規(guī)模的機(jī)器學(xué)習(xí)實(shí)踐，火山引擎在系統(tǒng)工程優(yōu)化與超大規(guī)模分布式并行訓(xùn)練上積累了豐富的經(jīng)驗(yàn)，能夠輕松支持一個(gè)大模型在成千上萬(wàn)張 GPU 上的長(zhǎng)時(shí)間穩(wěn)定高速訓(xùn)練。

在大模型的任務(wù)工程中，各種隨機(jī)的硬件故障都有可能發(fā)生，如卡、服務(wù)器或網(wǎng)絡(luò)故障，都可能導(dǎo)致訓(xùn)練任務(wù)卡頓甚至失效。針對(duì)這個(gè)問(wèn)題，火山引擎有快速的故障遷移能力：火山引擎的集群可以在3分鐘的SLA的條件下，任何一臺(tái)主機(jī)出故障，都能實(shí)現(xiàn)調(diào)度另一臺(tái)主機(jī)，把任務(wù)無(wú)縫遷移到新的主機(jī)上，然后在分鐘級(jí)內(nèi)將任務(wù)恢復(fù)。

火山引擎有完善的調(diào)度系統(tǒng)與算法，能夠提高算卡的資源利用率。例如，大模型在訓(xùn)練中的「饑餓」常導(dǎo)致小模型排不上隊(duì)，這主要是因?yàn)榉泵θ蝿?wù)調(diào)度過(guò)程中出現(xiàn)「算力碎片」。去年7月，火山引擎就已發(fā)布過(guò)「GPU 調(diào)度 0 碎片」的成果。

此外，火山引擎的 Lego 算子優(yōu)化在訓(xùn)練加速上扮演了重要作用。據(jù)雷峰網(wǎng)了解，火山是國(guó)內(nèi)最早研究分布式加速計(jì)算的團(tuán)隊(duì)之一。在大模型中，算力不能無(wú)限堆疊，分布式計(jì)算幾乎成為大模型訓(xùn)練的標(biāo)配，而火山的加速計(jì)算研究積累為其在大模型時(shí)代積累了經(jīng)驗(yàn)。

據(jù)火山官方披露，其高性能算子庫(kù)可將 Stable Diffusion 模型在128張A100上的訓(xùn)練時(shí)間從25天減少到15天，訓(xùn)練性能提升40%。同時(shí)，由于AIGC模型在訓(xùn)練時(shí)占用GPU顯存容量非常大，未經(jīng)優(yōu)化時(shí)的模型只能運(yùn)行在高端的A100 80GB GPU卡上?；鹕揭娓咝阅芩阕訋?kù)通過(guò)大量消減中間操作，將運(yùn)行時(shí)GPU顯存占用量降低50%，使得大多數(shù)模型可從A100遷移到成本更低的V100或A30等GPU卡上運(yùn)行，擺脫特定計(jì)算卡的限制，而且不需要做額外的模型轉(zhuǎn)換工作。

最新的例子是，在火山引擎的機(jī)器學(xué)習(xí)平臺(tái)上，MiniMax 研發(fā)了超大規(guī)模的大模型訓(xùn)練平臺(tái)，能夠保證文本、視覺、聲音三種通用大模型實(shí)現(xiàn)每天千卡以上的常態(tài)化穩(wěn)定訓(xùn)練，并行訓(xùn)練的可用性超過(guò)99.9%，帶寬利用率提升了10%以上。

這或許也是眾多大模型提供方選擇入駐火山方舟平臺(tái)的原因。作為算力生態(tài)伙伴，火山引擎不僅為大模型團(tuán)隊(duì)提供高效訓(xùn)練的算力平臺(tái)，降低企業(yè)的大模型成本，而且能為大模型客戶創(chuàng)造價(jià)值。用吳迪的一句話概述，就是「不僅讓客戶在云上花錢，還要讓客戶在云上賺錢?！?/p>

B 端企業(yè)在用大模型解決自身問(wèn)題時(shí)，往往是兩種途徑：一是直接調(diào)用大模型的 API，基于一類大模型的通用能力開發(fā)特定任務(wù)應(yīng)用；二是基于一個(gè)大模型精調(diào)，訓(xùn)練自己的大模型，然后進(jìn)行私有化部署。

在對(duì)應(yīng)的服務(wù)上，前者需要的是數(shù)據(jù)安全的 API 接口，后者需要性價(jià)比高的機(jī)器學(xué)習(xí)訓(xùn)練平臺(tái)。同行對(duì)比，分別對(duì)應(yīng)百度的文心一言 API 接口與文心千帆機(jī)器學(xué)習(xí)訓(xùn)練平臺(tái)，而字節(jié)的做法更為激進(jìn)：將兩種需求集合到火山方舟 MaaS 平臺(tái)上，用商城模式解決通用大模型的 API，自有機(jī)器學(xué)習(xí)平臺(tái)解決企業(yè)訓(xùn)練、推理、評(píng)測(cè)與精調(diào)大模型的生產(chǎn)需求。

若人人都能輕松自由地購(gòu)買大模型服務(wù)與應(yīng)用，大模型時(shí)代才算真正到來(lái)。而火山方舟的自由市場(chǎng)精神，為這個(gè)目標(biāo)提供了一種可能。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

陳彩嫻

編輯

發(fā)私信

當(dāng)月熱門文章

高性能計(jì)算群星閃耀時(shí)