0
本文作者: 成妍菁 | 2024-11-25 18:28 |
前不久,馬斯克旗下的xAI122天建成十萬卡集群,也讓外界意識(shí)到算力集群對(duì)AI的重要性。(雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)))
之前坊間還流傳一句話:服務(wù)器集群的規(guī)模越大,其訓(xùn)練出來的人工智能表現(xiàn)就越出色。
在這波浪潮之下,全球科技巨頭紛紛投入巨資建設(shè)高性能AI計(jì)算集群,以提升AI算法的效率和能力。谷歌推出了其AI Platform,依托多模態(tài)生成式AI模型Gemini,大幅提升了在文本、圖像、音頻和視頻處理上的能力。微軟的Azure AI Compute Cluster整合了最新AI技術(shù),為開發(fā)者提供了從數(shù)據(jù)處理到模型訓(xùn)練的全方位支持。(添加微信Who123start,解鎖獨(dú)家科技內(nèi)幕和行業(yè)趣聞)
作為國內(nèi)最早推出大模型之一的百度,也展現(xiàn)出其強(qiáng)大的創(chuàng)新能力。11月6日,在百度智能云舉辦的百舸媒體沙龍,深入探討“十萬卡集群”的技術(shù)創(chuàng)新、實(shí)施過程及其對(duì)AI行業(yè)的推動(dòng)作用,并邀請(qǐng)百度杰出系統(tǒng)架構(gòu)師、百度AI計(jì)算部負(fù)責(zé)人王雁鵬在現(xiàn)場(chǎng)做了分享和交流。
以下是媒體與三位嘉賓在會(huì)上的對(duì)談實(shí)錄,雷峰網(wǎng)在不改變?cè)獾那闆r下做了編輯和調(diào)整:
Q:百舸的客戶群是哪些?重點(diǎn)的行業(yè)客戶是否之前有一些成功案例可以來分享?
A:我們的客戶主要分為兩類。一類是大模型創(chuàng)企,他們需要萬卡規(guī)模的計(jì)算能力,因而對(duì)快速建設(shè)和成本控制有較高的需求。這類客戶雖然數(shù)量較少,但其需求非常明確;
另一類是典型的互聯(lián)網(wǎng)客戶,他們的需求規(guī)模通常在千卡到5000卡之間。這些客戶包括教育行業(yè)的公司。
這些互聯(lián)網(wǎng)客戶的主要需求是利用他們大量的自有數(shù)據(jù)進(jìn)行后期訓(xùn)練(Post Train),以適應(yīng)各種場(chǎng)景和優(yōu)化,從而構(gòu)建他們的數(shù)據(jù)飛輪。目前,這些訓(xùn)練需求依然是我們的主要業(yè)務(wù),而推理需求相對(duì)較少。這也解釋了為什么業(yè)界對(duì)AI算力落地效果仍存疑慮。預(yù)計(jì)在今年或明年,算力需求仍將以訓(xùn)練為主,而推理和SFT(小規(guī)模微調(diào))的長(zhǎng)尾客戶將會(huì)增多,但總體資源需求仍低于頭部客戶。
Q:百舸客戶的主要需求和痛點(diǎn)是什么?我們是如何解決的?
A:各類客戶的需求其實(shí)有很多共通之處,我們可以一層層來分析。
1. 基礎(chǔ)設(shè)施層面:這些客戶首先需要一個(gè)強(qiáng)大的網(wǎng)絡(luò)硬件互聯(lián)架構(gòu)。企業(yè)在嘗試自行搭建大規(guī)模集群時(shí),常常會(huì)遇到網(wǎng)絡(luò)上的難題。我們的任務(wù)是為他們提供更好的網(wǎng)絡(luò)硬件互聯(lián)架構(gòu),使他們能夠成功搭建一個(gè)大規(guī)模的計(jì)算集群。
2. 系統(tǒng)穩(wěn)定性:沒有經(jīng)驗(yàn)的客戶在自行搭建系統(tǒng)時(shí),常會(huì)遇到有效訓(xùn)練時(shí)間過低的問題。這些穩(wěn)定性問題是客戶面臨的第二大難題,我們需要幫助他們提高系統(tǒng)的可靠性和有效訓(xùn)練時(shí)間。
3. 加速框架:在提供加速框架方面,我們幫助客戶優(yōu)化并行策略,提升性能。通過更好的框架,我們能顯著提升計(jì)算速度,解決加速問題。
4. 資源利用率:客戶購買大量資源后,需要有效利用這些資源。他們可能既有推理任務(wù)又有訓(xùn)練任務(wù),最初可能是為訓(xùn)練任務(wù)購買資源,但隨后也需要利用這些資源進(jìn)行推理。我們通過任務(wù)混合部署,提升資源利用率,確保資源能夠被高效利用。
Q:您剛才花很大篇幅講跨地域網(wǎng)絡(luò)問題,能否舉例說明實(shí)際效果?
A: 跨網(wǎng)絡(luò)問題主要涉及兩個(gè)方面:一是當(dāng)進(jìn)行十萬卡規(guī)模的部署時(shí),確實(shí)需要跨地域的支持;二是我們?cè)品?wù)的能力。舉例來說,我們可以在云上兩個(gè)機(jī)房同時(shí)部署計(jì)算任務(wù),但客戶在使用時(shí)完全感知不到差異。例如,即使客戶使用的是5000卡的規(guī)模,我們?cè)诓煌攸c(diǎn)分配資源,但使用體驗(yàn)依然一致,這是我們的一大優(yōu)勢(shì)。
Q:面對(duì)不同客戶需求,如1000到5000卡的規(guī)模,如何確保任務(wù)級(jí)別的混合調(diào)度的效率提升?
A: 混合調(diào)度我們已經(jīng)做了許多工作,實(shí)質(zhì)上是通過混合集群實(shí)現(xiàn)不同特征的工作負(fù)載的混合。
例如,推理任務(wù)有波峰波谷,波峰時(shí)使用的資源更多,波谷時(shí)使用較少;而訓(xùn)練任務(wù)則需要固定數(shù)量的計(jì)算卡(如1000卡),如果資源不足,比如僅有990卡,任務(wù)將無法運(yùn)行。
為了解決這些問題,我們提供了一個(gè)非常靈活的隊(duì)列機(jī)制,將業(yè)務(wù)視為虛擬隊(duì)列,并配置優(yōu)先級(jí)策略。這些隊(duì)列根據(jù)實(shí)際情況動(dòng)態(tài)調(diào)整資源分配,當(dāng)資源不再需要時(shí),可以被其他隊(duì)列的任務(wù)搶占,從而提高資源利用率。此外,我們的框架能夠自動(dòng)重新分配并行策略。例如,一個(gè)需要1000卡的任務(wù),在資源不足時(shí)(如僅有900卡),能夠調(diào)整并行策略以繼續(xù)運(yùn)行,從而確保任務(wù)的連續(xù)性和有效性。
Q: 請(qǐng)?jiān)敿?xì)聊一下Checkpoint環(huán)節(jié),大家有不同的策略,可能有些效果更好,有些則影響訓(xùn)練有效時(shí)間和成本,我們?cè)谶@方面是怎么做的?
A: 原來的Checkpoint策略是隔一段時(shí)間創(chuàng)建一個(gè)Checkpoint,在故障發(fā)生后恢復(fù)。但是,這種方法的缺點(diǎn)是,如果每小時(shí)創(chuàng)建一次Checkpoint,出現(xiàn)故障時(shí)通常會(huì)浪費(fèi)一半的時(shí)間,即30分鐘。因此,我們希望Checkpoint越密集越好,但這也帶來新的問題。
最初的Checkpoint策略需要停止訓(xùn)練,將數(shù)據(jù)寫入存儲(chǔ),這會(huì)耗費(fèi)大量時(shí)間,因?yàn)榇鎯?chǔ)帶寬有限。當(dāng)時(shí)停下來寫Checkpoint需要幾分鐘,這顯然無法接受,尤其在Checkpoint頻繁時(shí)。
第一階段:改進(jìn)為異步Checkpoint,訓(xùn)練過程不中斷,先將數(shù)據(jù)復(fù)制到內(nèi)存,然后異步寫入存儲(chǔ)。這樣可以縮短Checkpoint時(shí)間,從原來的兩小時(shí)一次縮短到每30分鐘一次。但依然存在瓶頸,如存儲(chǔ)帶寬限制。
第二階段:引入觸發(fā)式Checkpoint。在正常情況下不創(chuàng)建Checkpoint,只有在故障發(fā)生時(shí)才創(chuàng)建。很多GPU故障不會(huì)導(dǎo)致數(shù)據(jù)丟失,可以在故障點(diǎn)恢復(fù)數(shù)據(jù)并存儲(chǔ)。這種方法在大多數(shù)情況下有效(95%以上),僅在傳統(tǒng)Checkpoint保留的情況下無回退和浪費(fèi)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。