0
本文作者: 朱可軒 | 2025-03-31 15:50 |
作者丨朱可軒
編輯丨陳彩嫻
DeepSeek 在進一步點燃 AI Infra 可能性的同時,也帶來了新的競爭格局,在 DeepSeek 的范式上,其他廠商能否追趕甚至實現(xiàn)超越尤為關(guān)鍵,這決定了他們能否繼續(xù)留在牌桌上,當(dāng)前,AI Infra 已然進入新的洗牌期。
2025 年 3 月 22 日,雷峰網(wǎng)(公眾號:雷峰網(wǎng))、AI 科技評論 GAIR Live 品牌舉辦了一場主題為“AI Infra 變革進行時”的線上圓桌沙龍。
圓桌主持人為 3C AGI Partners 創(chuàng)始人兼 CEO 王康曼,她一直專注于投資 AI Infra 賽道,其創(chuàng)立基金成立后僅一年多就已經(jīng)成為英偉達全球 VC 聯(lián)盟成員,也投資了海外發(fā)展勢頭最猛的兩家 AI 芯片創(chuàng)業(yè)公司 Cerebras Systems 和 Groq。
同時,圓桌還邀請了魔形智能創(chuàng)始人CEO徐凌杰、探微芯聯(lián) CEO 劉學(xué)和清程極智聯(lián)合創(chuàng)始人師天麾共同開啟了一場深度對話。
交談過程中,嘉賓們圍繞成本進一步壓縮下,MaaS、一體機等 AI Infra 商業(yè)模式的前景、DeepSeek 為國產(chǎn)芯片帶來的啟示、構(gòu)建開源生態(tài)對于 Infra 的重要意義等多個方面發(fā)表了獨到見解。
當(dāng)前,國內(nèi) AI Infra 初創(chuàng)的商業(yè)模式無非云上和線下兩種,而 DeepSeek 之后有關(guān)云上 MaaS 能否盈利的討論甚囂塵上。
對此,師天麾表示,“這塊的盈利空間要看算力規(guī)模、優(yōu)化程度、客戶付費能力等多個因素,算力成本也會隨著更優(yōu)的硬件架構(gòu)和更好的硬件工藝進一步降低,模型價格未來也會持續(xù)變化,現(xiàn)在沒法一概而論能否盈利。”
線下私有化部署方面受到 DeepSeek 的影響,客戶需求也逐日走高,不過雖然 DeepSeek 確實提升了大眾對于 AI 的認(rèn)知,但許多企業(yè)還是會擔(dān)憂對實際業(yè)務(wù)是否有幫助。
針對于此,師天麾建議,“小企業(yè)沒有太多數(shù)據(jù)安全顧慮可以租機器,如果對數(shù)據(jù)安全要求比較高,也可以先花幾十萬買個性能沒有那么強的機器,也不是非要跑 DeepSeek 滿血版,先試一試對企業(yè)業(yè)務(wù)場景有沒有幫助,有幫助再花錢買更好的機器,用更好的大模型更好地支撐業(yè)務(wù)?!?/p>
線下這塊給創(chuàng)業(yè)公司帶來的機會很多,比如相較于偏愛提供標(biāo)準(zhǔn)化產(chǎn)品的大廠而言,初創(chuàng)提供的服務(wù)更為深入和定制化,而從上到下較短的決策鏈也帶來了更加快速的適配跟進速度......
而在國產(chǎn)芯片方面,大家一致認(rèn)為 DeepSeek 所帶來的機遇和提振作用多過挑戰(zhàn)。
不過,挑戰(zhàn)也是客觀存在的。徐凌杰提到,“不止兩三家企業(yè)在春節(jié)后定下了目標(biāo)做 352 卡、 384 卡大集群的部署。千卡集群分成兩部分,一個做 R1 的部署,另一個做 V3 的部署,這些都在他們的規(guī)劃中,但因為大規(guī)模分布式難度高,看起來還需要一段時間調(diào)試?!?/p>
除前述問題外,DeepSeek 也使開源的呼聲持續(xù)走高。近期,英偉達也開源了其模塊化推理框架 Dynamo,用于在分布式環(huán)境中服務(wù) AI 模型,嘉賓們對此也各抒己見。值得一提的是,和 Dynamo 同時在 GTC 上引起關(guān)注的還有 Silicon Photonic。
有關(guān) CPO 的未來,劉學(xué)認(rèn)為英偉達對此起到了推動作用,“現(xiàn)在大家統(tǒng)一認(rèn)為 26 年、27 年硅光會有小批量交付,28 年到 30 年是大規(guī)模落地的時間節(jié)點?!彼€表示,“現(xiàn)在 CPO 很重要,而且工藝廠家越早布局越好,尤其是要全面思考從做光模塊轉(zhuǎn)到 CPO 和之前是否有差異。”
以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:
DeepSeek 的影響初探
王康曼:我們討論的話題是 DeepSeek 之后 AI Infra 的變革,我是 3C AGI Partners的創(chuàng)始人兼 CEO 王康曼,我們基金在過去一年半里投了許多 AI Infra 相關(guān)的項目,今天也非常榮幸請到三位老師來共同探討,他們分別是魔形智能創(chuàng)始人徐凌杰、清程極智聯(lián)合創(chuàng)始人師天麾和探微芯聯(lián) CEO 劉學(xué),請各位老師先介紹一下各自的背景。
徐凌杰:我在 AI 領(lǐng)域深耕多年,和 GPU 有著不解之緣,十多年前我就是第一批學(xué) CUDA 的學(xué)生,然后一直在 GPU 行業(yè)里從事芯片研發(fā)、管理等工作,在芯片公司和互聯(lián)網(wǎng)公司云計算平臺都干過,去年創(chuàng)立了魔形智能(Magik Compute)這家軟硬件結(jié)合的 AI 基礎(chǔ)設(shè)施公司。
我們看到的機會是在未來相當(dāng)一段時間里,因為摩爾定律的限制,芯片里能做的空間相對比較少了,隨著模型越來越大、上下文越來越長,更多關(guān)于 AI Infra 的創(chuàng)新是在集群、數(shù)據(jù)中心層面,所以我們既會有自己的硬件集群設(shè)計,也會有能夠調(diào)出優(yōu)秀性能的軟件能力。
師天麾:清程極智是 2023 年底創(chuàng)立的 AI Infra 公司,我們主要聚焦于 AI 系統(tǒng)軟件部分,通過尋找軟硬件結(jié)合優(yōu)化來賦能國產(chǎn) AI 的發(fā)展,從底層編譯器到上層并行計算,我們擁有全棧優(yōu)化經(jīng)驗。然后我們的首席科學(xué)家,也是我的博導(dǎo),是清華計算機系高性能計算研究所所長翟季冬教授,我們在系統(tǒng)和高性能計算領(lǐng)域有十幾年積累,從小規(guī)模到萬卡、十萬卡英偉達、國產(chǎn)顯卡的集群都有經(jīng)驗。
劉學(xué):我之前在產(chǎn)業(yè)界,后來在學(xué)校從事 AI Infra 相關(guān)研發(fā),我負(fù)責(zé)過一個過億級的類腦計算集群的國家級研發(fā)。這十年間我們團隊做了個千卡類腦集群,同時實現(xiàn)了 GPU 和 GPU 之間在通信領(lǐng)域先發(fā)優(yōu)勢的迭代。
現(xiàn)在主要解決國內(nèi)GPU廠商卡脖子技術(shù),讓國內(nèi)的GPU廠商具備與英偉達競爭的網(wǎng)絡(luò)通信、并行能力,研發(fā)的 ACCLink 和 ACCSwitch 類似于英偉達的 NVLink 加 NVSwitch,是一個全自、多點、多 GPU 緩存和低延時的無損通信協(xié)議,加上自己的 Switch,再借助上層通信庫,能創(chuàng)建無縫、高帶寬、多節(jié)點集群,類似英偉達多芯片、超節(jié)點的能力。
王康曼:DeepSeek 發(fā)布 R1 后對國內(nèi) AI Infra 行業(yè)帶來的沖擊挺大的,從技術(shù)路線、成本結(jié)構(gòu)和合作模式上看,對大家有什么具體影響嗎?
徐凌杰:去年 DeepSeek 就打響了 token 價格的第一槍,從 V2、V3 到 R1 都給了我們很大啟示,他們這幾個模型在結(jié)構(gòu)上也有很大的延續(xù)性,對 AI Infra 是有挺大沖擊的,之前都會說美國的就是最好的,大家投資OpenAI,OpenAI 買微軟的云,微軟云買 Nvidia 的 GPU,這是非常正向的循環(huán)。
DeepSeek 帶來了全面沖擊,從 Infra 角度最大的啟示在于,他們在訓(xùn)練階段就想好了怎么實現(xiàn)低成本的推理,他們手上只有 2000 張卡的 H800 集群,之前也有一部分 A100 但沒有 NVLink 這種強互聯(lián)的 Scale up 集群的卡,基于手上有的算力資源他們做出了一套模型。
之前互聯(lián)網(wǎng)公司做搜索推薦時,往往會分兩個團隊,算法團隊負(fù)責(zé)提升召回率、準(zhǔn)確率和效果,工程團隊則負(fù)責(zé)降本。DeepSeek 充分考慮了算法、工程及落地效應(yīng),把整條鏈路打通了。這對于 AI Infra 公司人才培養(yǎng)提出了更高要求,現(xiàn)在算法工程師也要考慮到工程的落地,工程落地的人要考慮到在集群方面有什么樣的限制。
對于一個年輕人來說,未來不能只是一個寫算子的工程師,要了解集群互聯(lián)、文件系統(tǒng),以及到底要做什么樣的分布式,是把所有 expert 放在一臺機器上,還是每個 expert 分散放在每張卡上面達到最好的效果,側(cè)重于系統(tǒng)的吞吐和優(yōu)化每個用戶 TPS 的體驗優(yōu)化策略是不一樣的。
我認(rèn)為 DeepSeek 點燃了 AI Infra 的可能性,前幾天 GTC 上黃仁勛畫了個圖,橫軸是單個用戶的 TPS,縱軸是整個系統(tǒng)的吞吐,根據(jù)不同的要求能夠找到不同的體驗點。這對于我們不同的業(yè)務(wù)來講也是一樣的,我們通過系統(tǒng)的組合、軟件的優(yōu)化有非常多的可能性,DeepSeek 已經(jīng)做出了一個范式,其他廠商能否跟上且達到他們的效果,大方向上來講既打開了可能性,也打開了競爭格局,大家都在追隨甚至超越他們的范式,這是非常激動人心的時刻。
師天麾:今年感覺 DeepSeek 帶來最大的影響是讓大家明白了 AI 真的很強,企業(yè)內(nèi)部有機會用上,所以我們今年業(yè)務(wù)突然多了,企業(yè)要用上的話,首先他們會有買機器或租機器的算力需求,但他們更想知道 AI 有什么用,如果沒用的話,他們不想付出太多成本,所以我們今年也增加了私有化部署的相關(guān)業(yè)務(wù)。
第二點感受是大家更重視 AI Infra 了,之前可能一些大模型廠商和投資人對 AI Infra 會更重視一些,DeepSeek 開源那一周持續(xù)不斷給大家?guī)碚鸷?,大家?Infra 的重視程度更高了,現(xiàn)在也有很多幾百上千卡的集群找過來問能不能也給我們弄個專家并行的方式,然后 PD 分離把成本打下來。
然后 DeepSeek 是對 H 系列的顯卡做了很好優(yōu)化,但其他比如國產(chǎn)顯卡或者一些老的卡,他們并沒有很好地支持 FP8,所以也有很多客戶反饋說用 BF16 跑滿血版使他們不得不用兩倍的硬件成本。我們上周開源的赤兔推理引擎一大特色是計算還是用 BF16 來算,但是用 FP8 進行存儲,這樣可以讓國產(chǎn)卡和英偉達老卡舊卡跑滿血版的最低硬件成本直接砍半。
我們在 A800 上進行了一個實驗,原來六臺才能跑 BF16 滿血版,現(xiàn)在三臺就能跑,性能還提升了三倍多,所以非 H 的顯卡還是有很多機會的,存量顯卡非常多,用的人非常多,這件事還是蠻有意義的,開源之后關(guān)注的人很多,后續(xù)我們也會持續(xù)不斷去做更好的適配。
劉學(xué):我的感受第一是 Deepseek 帶來的驚喜是在 2048 個 GPU 組成集群的情況下突破了硬件的約束;第二是他們提出通信的重要性,把GPU與GPU間的通信做到了極致,首次提出將通信環(huán)節(jié)從GPU的SM核卸載出來的概念,整體從軟硬件層有一個體驗點,找到這個體驗點進行更高層級的優(yōu)化;第三是 DeepSeek 的 MLA 和 MoE 的方案使得 KVCache 在 GPU 和 GPU 之間的搬移要求更高,包括 PTX 層的計算實際上對數(shù)據(jù)傳輸和計算提出了很多要求。在高能效的計算和通信之下,包括通信和計算的堆疊并行化,是值得我們對 AI Infra 下一代硬件設(shè)計有更好思考的。
王康曼:整個行業(yè)的成本因為 DeepSeek 也壓縮得比較厲害,大家怎么看云廠商的價格戰(zhàn)?會影響初創(chuàng)公司嗎?
徐凌杰:講成本要面對特定市場,就以中國來講有兩個不同市場,一個是云上大規(guī)模、大并行,需要大集群做到極致 token per second 性價比,另一個是線下本地化部署,在預(yù)算有限的情況下,把 DeepSeek 滿血、蒸餾版用起來。
這對于我們 AI Infra 公司來講也就有兩個選擇,一是往更極致方向走,把成本打下去,壁壘相當(dāng)高,算法工程師要懂工程的東西,軟件工程師要懂硬件的東西,甚至要考慮網(wǎng)絡(luò)、計算、存儲一系列問題。
從具體數(shù)字來講, DeepSeek 售價是百萬 token 16 元,如果把所有 token 都轉(zhuǎn)換成收入的話,潛在毛利率在 500% 以上,也就是說它的成本是 2 元左右,如果只用若干臺機器在線下部署做一體機的話,單位token的成本可能是他們的幾十倍,這取決于用什么機器。
然后也要討論硬件演進,目前中美走的路徑大同小異,就是要把芯片做大,芯片不夠大的情況下,要做 Chiplet 封裝,然后在集群里有大量的 HBM,再做 Scale up、Scale out。從這個路徑上來看,大家還是在往更大的集群上走,美國大量的業(yè)務(wù)是上云的,他們看到的是云上大并發(fā)、大容量、大集群的市場,中國會有相當(dāng)一部分業(yè)務(wù)留在線下,這是中國額外的機會點。
師天麾:我非常認(rèn)同,MaaS 有很多真實需求,國內(nèi)外很多開發(fā)者都希望能用云上的 API,也確實很便宜,但 MaaS 的盈利空間整體還是要看算力規(guī)模、優(yōu)化程度、客戶付費能力等多個因素,算力成本也會隨著更優(yōu)的硬件架構(gòu)和更好的硬件工藝進一步降低,模型價格未來也會持續(xù)變化,現(xiàn)在沒法一概而論能否盈利。
中國也有很多本地化部署需求,前期可以簡單在云上嘗試,但很難真正放進業(yè)務(wù)中,因為存在太多敏感數(shù)據(jù)不好上云。所以有幾種方案,預(yù)算有限可以先租個云,或者不買可以運行 FP8 滿血版機器,而是先買幾十萬的機器跑蒸餾模型,在同樣預(yù)算的情況下,大多數(shù)客戶會做這種選擇,在自己真實的業(yè)務(wù)場景里測試,我認(rèn)為 MaaS 和本地化部署會長期共存。
王康曼:國內(nèi) DeepSeek 之后也有了挺多一體機出現(xiàn),大家認(rèn)為初創(chuàng)企業(yè)在 DeepSeek 的成本壓縮下,應(yīng)該怎樣面對或者給大家?guī)碓趺礃拥臋C遇?
劉學(xué):我們在考慮成本時要對齊到硬件的使用成本,而硬件使用成本無論是 Transformer、DeepSeek 還是原來 CNN 卷積時代,有三個方面對于降本能起到很好的示范作用。第一是設(shè)計 ASIC 或者 GPGPU 能效比的問題,比如 1W 能夠處理多少 T ops 算力,這直接決定了每單位瓦數(shù)能提供多大算力,這個算力影響到任務(wù)的 token 輸出;
第二是利用率,在能效比一定的情況下進行計算、通信、互聯(lián)等優(yōu)化,提高利用率,這樣在每瓦提供的功耗下能運算更多任務(wù);第三是云端和端側(cè)的結(jié)合,在云端和本地的推訓(xùn),國內(nèi)很多研究單位和中小型企業(yè)也和 CNN 時代一樣,考慮了自身的私有數(shù)據(jù)隱秘性和及時性,所以更多投入本地購買。
王康曼:從這些點上來看,初創(chuàng)企業(yè)是否能比大廠適配地更快?
劉學(xué):大廠的整體優(yōu)勢在于全方位構(gòu)建能力,初創(chuàng)企業(yè)聚焦更底層,要選擇自己具有優(yōu)勢的點集中突破,這也是我們選擇 GPU 和 GPU scale up 的通信點的原因,有些大廠在 AI Infra 上層沒有做調(diào)度器,我們做云側(cè)的優(yōu)化器、裝 K8S 訓(xùn)練起來,這塊是有發(fā)展空間的。
師天麾:相比于大廠,創(chuàng)業(yè)公司也有自己的優(yōu)勢,我覺得有兩點,一是反應(yīng)速度快,我前段時間做了很多對接客戶的工作,因為我們也推出了一體機,然后不斷根據(jù)用戶反饋來調(diào)整我們的產(chǎn)品細(xì)節(jié)。我們會總結(jié)之前對接客戶的經(jīng)驗,當(dāng)晚或者第二天就能開會調(diào)整策略,從上到下的決策鏈非常短。
二是我們更愿意提供定制化的端到端服務(wù)。去年我們也做了一些大模型廠商的性能優(yōu)化單子,他們當(dāng)時租的云可能是云大廠的,但沒有找那邊專門優(yōu)化,因為大廠考慮到成本更喜歡賣標(biāo)準(zhǔn)化的東西,我們愿意給客戶提供更深度的優(yōu)化、更定制化的服務(wù)。今年也有很多企業(yè)想把 AI 用起來,我們也愿意幫這些客戶從0到1將AI在自己的業(yè)務(wù)場景中使用起來。
徐凌杰:小公司要成長起來有幾個關(guān)鍵詞,一是有壁壘,要有差異化競爭優(yōu)勢;二是可落地,不能只做得高大上,商業(yè)本質(zhì)是賣貨邏輯,無論是虛擬還是實際貨品都要可落地;三是可復(fù)制,就像最近很多人討論 MaaS,我認(rèn)為無論接下來做線上生意還是結(jié)合硬件去做,甚至軟硬件一體去做,MaaS 都是非常重要的能力。
從 DeepSeek 發(fā)布 V3 到現(xiàn)在三個月左右時間,絕大部分人都還沒能在那么大的規(guī)模里復(fù)現(xiàn)他們那種極低的成本。這使 MaaS 能力變得非常核心,如果有個幾十人的團隊能實現(xiàn)媲美 DeepSeek 能力的話,在全世界范圍內(nèi)都非常值錢的,但是在沒有足夠的算力資源、優(yōu)化能力的情況下,貿(mào)然出擊往往會虧錢,因為沒有龐大的用戶、特別大的集群以及足夠的并發(fā)。對于初創(chuàng)來講,在資源有限、壁壘還在逐漸建立的過程中,落地要分不同階段去作為。
另外也要找到長期錨點,我們團隊的機會點在軟硬協(xié)同,特別是以硬件為底座,從大的機會來講,就像黃仁勛說的,未來模型變得更大、上下文變得更長,就需要先把 Scale up 做起來,集群變大后優(yōu)化的搜索空間變得更大之后,想象空間就變得非常大,這當(dāng)中不僅有軟硬結(jié)合的調(diào)優(yōu)技術(shù),還有相當(dāng)一部分是我們之前相對比較忽視,但又有非常強的工程壁壘的。
在過去一年當(dāng)中 NVL72 落地遇到了很多問題,包括穩(wěn)定性、漏液、冷量不足等,這和我們今天講的調(diào)優(yōu)沒有特別強的關(guān)系,但它是整個工業(yè)的基礎(chǔ),也就是說今天要把這樣非常強互聯(lián)的集群,幾百上千張卡集成在一起,從之前 CPU 集群的 6 千瓦到 8 千瓦的機柜,到單臺服務(wù)器 H100 12 千瓦的功耗,到 NVL72 的 120 千瓦,再到未來 Rubin 系列 800 千瓦以上,上兆瓦級別的集成度當(dāng)中有很多有挑戰(zhàn)、有價值的工作可做。
英偉達過去兩年投入了非常大的精力在做 NVL72,他們遇到了很多工程問題,但非常堅定不移地宣布了這個路線,未來還會持續(xù)投入去做得更大、更強,更加 Scale up,AMD 也收購了 ZT Systems 要往這方面追趕。這是我們作為初創(chuàng)公司看到的機會點,不僅要有軟件層 MaaS 的世界一流能力,硬件也是基礎(chǔ)。
國產(chǎn)芯片的機遇和挑戰(zhàn)
王康曼:DeepSeek R1 出來之后,最早部署在云上的大部分都是國外的廠商,國內(nèi)可能因為春節(jié)晚了幾天,但還有一個原因也是國內(nèi)底層芯片不一定用英偉達,大家怎么看 DeepSeek 給國產(chǎn)芯片帶來的挑戰(zhàn)和機遇?
師天麾:國產(chǎn)適配慢幾天肯定有一部分是春節(jié)原因,我們之前合作的硬件廠商,也有在春節(jié)期間就開始跟我們開會討論后續(xù)關(guān)于 DeepSeek 的適配和優(yōu)化合作計劃,一是春節(jié)肯定有影響,另一個 DeepSeek 開源方案是在英偉達原生跑的,自然英偉達說上立馬上了。
不過國產(chǎn)適配也沒那么復(fù)雜,這波給國產(chǎn)帶來的機會相較挑戰(zhàn)更多,因為總體上需求變大了,企業(yè)私有化部署的需求起來了,隨著這塊市場的增加國產(chǎn)芯片市場也在相應(yīng)增加,然后推理變得越來越復(fù)雜,比如要去設(shè)計更大的顯存,以及互聯(lián)技術(shù)因為現(xiàn)在需要多機推理了,需要更好的通信以及各種優(yōu)化通信的手段,這也是國產(chǎn)的機會。
DeepSeek 從 Infra 角度給大家?guī)淼恼鸷骋彩欠浅C黠@的,大家也會從軟硬結(jié)合的角度去思考,從算法設(shè)計、硬件設(shè)計以及系統(tǒng)設(shè)計三方面一起來考慮怎么跑得又快又好,成本還低,整體市場是在變得越來越好的。
王康曼:這點我想聽一下劉老師的想法,因為劉老師做的就是要把 NVLink 替代的事情。
劉學(xué):我們最近也對接了一些客戶,發(fā)現(xiàn) DeepSeek 對大家的影響在于 AI Infra 這一層級的加速。剛才徐老師也說到 NVL72 這一塊英偉達做了好幾年,我從底層去講包括散熱,我前幾天看到一篇文章通過 3D 打印實現(xiàn)散熱,現(xiàn)在也在有所改進,包括一些光纖和電纜的使用,包括 GPU 之間的互聯(lián)和 GPU 和 CPU 之間的互聯(lián),英偉達現(xiàn)在是兩條研發(fā)路線,第一條路線是 GPU、 CPU 互聯(lián)自己做,第二條路線是 GPU 自己做,通信可以用 CX7、CX8 甚至更高的網(wǎng)卡,CPU 是 AMD 和英特爾做。
在整體的過程中,解剖 AI Infra 對我們的影響,剛才我說的加速是在每個節(jié)點的加速,而從線纜、傳輸介質(zhì)、CPU 互聯(lián)一直到交換,再到 CPU 和 GPU 之間到底是 PCRE 還是 CXL 之間的選擇,也面臨著認(rèn)知的加速,最終大家會看到整個 AI Infra 的發(fā)展,Infra 的部署就是在英偉達的 CUDA 生態(tài)或者國內(nèi)自成生態(tài),或者是統(tǒng)一生態(tài)下的整個基礎(chǔ)設(shè)施一直到超節(jié)點,72 也好英偉達的 576 也好,國內(nèi)的 64 也好一個更快速 Scale up 和 Scale out 增進。
徐凌杰:DeepSeek 出來之后對國產(chǎn)芯片來講是有提振作用的,需求變大了,大家覺得都有機會了,同時挑戰(zhàn)也變得非常大,一方面大家在看線下的一體機市場,另外很多人瞄上集群化機會,有不止兩三家企業(yè)在春節(jié)之后馬上就定下了目標(biāo),要做 352 卡、 384 卡大集群部署,甚至千卡集群要分成兩部分,一個做 R1 的部署,另一個做 V3 的部署,這些都在他們的規(guī)劃中。
但事實上今天似乎都還沒有官宣,看起來還需要一段時間調(diào)試,遇到的問題可能跟剛剛的描述是類似的。這一塊壁壘很高,絕大部分國產(chǎn) GPU 公司、AI 芯片公司大家往往是在做芯片設(shè)計,比較 側(cè)重于計算核心的微架構(gòu)方面的設(shè)計,但大集群推理涉及到網(wǎng)絡(luò),從數(shù)據(jù)中心層面來考慮,需要更全面的能力。
許多人覺得有些芯片廠商和英偉達很近了,但事實上無論從硬件還是軟件來講差距都還有些遠,硬件上很大的差距在于絕大部分公司通過 PCIE 口在機內(nèi)進行直連,而沒有 NVSwitch ,然后在節(jié)點間通過網(wǎng)卡交互,這比未來國外的 NVL72 全面高速連接 72 卡、144 卡、576 卡會弱不少。
我覺得面臨雙重挑戰(zhàn),一是硬件能力的差距,算力存在現(xiàn)實的技術(shù)差距,也需要正視,如何把這塊能力建立起來,機會指向的大型集群,今天我們可能還是基于現(xiàn)有的卡,通過網(wǎng)卡的 Scale out 來做一個 384 卡、 352 卡的集群搭建,未來會有更多公司把 Scale up 集群做出來,然后通過中國的集群落地能力做出比 NVL72、144、576 密度更高的集群,這是我們的潛在出路。
之前我們說單個芯片不太行就在芯片上做 Chiplet,今天是說單個封裝的芯片性能沒那么強的情況下,要把集群能力發(fā)揮到極致,然后解決散熱、冷卻、互聯(lián)的問題,這是我看到的一條路。然而,之前的芯片設(shè)計可能并不適合像 DeepSeek 這樣的模型發(fā)展,現(xiàn)在集群的發(fā)展超出預(yù)期,所以我覺得對于 AI Infra、芯片都是新的洗牌過程,要看誰能在這個浪潮中順勢而為。
王康曼:現(xiàn)在確實是個洗牌的過程,DeepSeek 出來之后國外跑得比英偉達還快的集群是 Cerebras 做的,現(xiàn)在最快的兩家公司 Cerebras 和 Groq 他們底層用的都不是 GPGPU 的架構(gòu),大家感覺 DeepSeek 之后會不會有更多和 Infra 相關(guān)的芯片出現(xiàn),或者說國內(nèi)有沒有一些類似的玩家在這一塊做得特別突出的?
劉學(xué):第一是 Cerebras 和特斯拉的 Dojo 使用的是臺積電的 Infra 封裝,這在臺積電的工藝?yán)锸菍儆诤芟冗M的,包括良品率的提升和關(guān)注,第二我們是需要跟 GPU 廠商聯(lián)合搭建 Scale up 的方案,我僅代表個人發(fā)表一下觀點,國內(nèi)原先 14 年到 18 年之間,大家做 CNN 那時候的 ASIC 或者 NPU 概念是比較流行的,現(xiàn)在國內(nèi)一些芯片廠商除了在端側(cè)做 ASIC 外,在云側(cè)也更加期望貼近 GPGPU 的設(shè)計,一些端側(cè)或者云側(cè)廠商走向 ASIC 是一個比較好的事情。云側(cè)的 GPGPU 是比較標(biāo)準(zhǔn)的 PTX 或者說底下的 SaaS 指令執(zhí)行是比較通用的版本。
無論是 GPGPU 還是 ASIC 上,大家也看到除了 GPU 的單核、單 SM,NPU 的單核、單 cluster 外,要把 cluster 內(nèi)部的計算單元進行更多的互聯(lián),我們還是要講這個事情,無論是芯片內(nèi)的一個 Chiplet 還是芯片外的 scale up?,F(xiàn)在大家也形成了一些共識,在互聯(lián)層面應(yīng)該有一個 computing in network 的存在,這也成為了 AI Infra 的必備特性。
徐凌杰:DeepSeek 根據(jù)手上的硬件做了相應(yīng)的模型設(shè)計,也就是說模型是有一定彈性的,假設(shè)中美沒有禁運的話,他們能拿到 NVL72 這樣全球最優(yōu)秀的集群產(chǎn)品,可能設(shè)計出來的模型是不太一樣的,能更好地發(fā)揮全互聯(lián)的優(yōu)勢。在模型有大量可變化前景的情況下,硬件是要保留足夠靈活性的,同時,無論 GPU 還是 DSA 大家已經(jīng)很趨同了,因為目標(biāo)市場是一樣的,流派沒有那么大的差別。
英偉達在 Blackwell、Hopper 里都加入了一些特定的指令,來加速 AI 的 workload,也就是說他們 tensore core 設(shè)計、指令集設(shè)計也好、memory loading 方式為了 AI 的特定應(yīng)用,已經(jīng)做了相當(dāng)?shù)膬?yōu)化,也有了一定的傾斜。GPU 很多東西是為了圖形做專業(yè)化設(shè)計的,這一塊差距沒有那么大。V2 的結(jié)構(gòu)到 V3 是有一定延續(xù)性的,隨著模型變得越來越大, expert 變得越來越多,對于容量的要求也會變得更高。
現(xiàn)在像 Groq、Cerebras 因為片上存儲的容量限制,都跑不起來滿血版的 R1,之前我們也看到過有公司在純片上存儲的情況下能跑出非常優(yōu)秀的性能,但一旦有容量的硬傷之后就跑不起來了。這就涉及到后面大的趨勢的判斷,就是說模型是不是還會變得那么大,能不能通過其他的 KV Cache 進一步壓,或者通過多級存儲的方式把存儲限制去掉。
今天都是用非常貴的 HBM,而 HBM 會受到封裝、顆粒、美國禁運的限制,那么在 memory 的技術(shù)上,有沒有一些其他方式通過 3D 堆疊,能夠利用 commodity 去做更大的基于 GDDR 6、LPDDR 的芯片,我覺得會有各種各樣的方式,這也是在剛剛講的曲線里面的不同的體驗點,要解決的是并發(fā)的問題,還是解決 latency的問題,基于不同的設(shè)計來講,會有不同的答案。從這個方向上來講,未來一段時間里會有非常大的變化,也會出現(xiàn)不同的流派,我感覺會非常精彩。
王康曼:DeepSeek 給國內(nèi)外的芯片廠商都帶來了很多啟發(fā),說到硬件最近也有聲音說到美國政府要求進一步禁運英偉達芯片,首先不知道這件事是真是假,但如果真的有進一步禁運的話,假設(shè)最基礎(chǔ)的芯片都進不來,對我們影響大嗎?
師天麾:短期內(nèi)在一些供應(yīng)能力上可能會受到一些影響,然后大家的成本可能會有所提升,但是我覺得這個反而會推動大家更重視國產(chǎn)生態(tài)或國產(chǎn)硬件,怎么用得更好,這可能在一定程度上是一種助推。現(xiàn)在大家也意識到國產(chǎn)顯卡能把性能堆得不錯,但在易用性上還有一定進步空間,這其實就是軟件生態(tài)還不夠完善。
所以這也是我們在做一個事情,就是端到端把整個軟件棧做起來,完善軟件生態(tài)之后,就像我們開源赤兔推理引擎一樣,我們把技術(shù)貢獻出來,最近也有很多廠商主動提出,希望雙方一起合作適配我們赤兔引擎,希望能把國產(chǎn)顯卡、國產(chǎn)系統(tǒng)以及國產(chǎn)模型打造成一個閉環(huán),這也是我們的終極目標(biāo),無論英偉達禁不禁運,我們最終都是可以實現(xiàn)這個目標(biāo)的,只是時間問題。
劉學(xué):我覺得如果禁運的話,會讓國內(nèi)百花齊放,在這個過程中也給了大家一定的窗口期,有可能是一兩年甚至更長時間,可以去思考 GPGPU 和 ASIC 的設(shè)計特點,乃至跟上層生態(tài)的結(jié)合,國內(nèi)芯片的部署在生態(tài)上還有很大的提升空間。
徐凌杰:我想對于創(chuàng)業(yè)公司來講就是要守正創(chuàng)新,無論禁不禁運公司都要能走下去。對于做芯片來講,守正是國產(chǎn)供應(yīng)鏈要走下去,對于我們這種目前還不做芯片的公司來講,就是無論哪種情況下都要有備案,無論在海外發(fā)展業(yè)務(wù)還是在國內(nèi)通過跟國產(chǎn)芯片合作也好,通過其他方式去做拓展也好,都是必須要去考慮的。禁運會帶來大的格局上的變化。
中國包括前一波的芯片公司,雖然現(xiàn)在有一些不同的流派,但主流的幾家AI 芯片公司、 GPU 公司,其實就是誰能夠長得更像英偉達,誰就能融得到錢,而在美國 Cerebras、Groq 則是誰長得越不像英偉達誰就能融到錢,這是兩個不一樣的思考方式。
如果接下來禁運的話,從技術(shù)流派上來講,會是一個非常大的變化,現(xiàn)在中國絕大部分公司都還在走大芯片 Chiplet 集成,然后走 HBM 的大封裝方式,這是美國走過的路,也比較確定能往下走,甚至包括我們剛剛講的 Scale up 路線也是有比較強的確定性的,英偉達趟過坑了,可以用比較小的成本去 copy 它的路線圖往下走。
如果說完全禁運的情況下,路徑模仿的可能性沒有了之后,反而是會促進中國有一些其他創(chuàng)新的。我是比較期待的。就是說無論如何我們都要做好準(zhǔn)備,跟著美國走 Scale up 這條路線,我們已經(jīng)完全準(zhǔn)備好了,要做更大的集群,能夠跟各個廠商配合。如果走另外一條路線,我相信我們也是能夠和芯片公司配合起來的,也能夠有成長性、確定性。
構(gòu)建開源生態(tài)的啟示錄
王康曼:我們說了這么長時間的硬件,想換一個話題問一下,我覺得 DeepSeek 讓整個 AI 界、投資界覺得很震撼的一點,除了它是個非常高效的模型外,就是它的開源,你們覺得這對中國甚至全世界的 AI 生態(tài)會有什么影響呢?
劉學(xué):對于世界的影響,我覺得楊立昆教授說了句實話,他說美國一直在禁止對國內(nèi)的開源,結(jié)果中國的科學(xué)家和工程師們反而做出了更加驚艷的成績。
對于開源我們有兩點思考,一是 Deepseek 當(dāng)前無論是訓(xùn)練還是推理,對整個計算、互聯(lián)、通信的認(rèn)知影響能否形成大家統(tǒng)一認(rèn)可的一致標(biāo)準(zhǔn),第二是從 DeepSeek 的開源上底層如果由自己在軟件層設(shè)計,我們所說的軟件層除了DeepSpeed、vLLM 這些訓(xùn)推框架,和在通信庫層和底層運行時,也就是中間件層的開源,或者大家分別拿出一部分來在國內(nèi)做一些更統(tǒng)一、可能有優(yōu)化方向的社區(qū)和項目,這也會給我們帶來了一些思考。
王康曼:你覺得我們在業(yè)務(wù)模式上面對開源和閉源的模式,從您個人或者初創(chuàng)企業(yè)的角度會不會有些區(qū)別的對待?
劉學(xué):我們認(rèn)為應(yīng)該有區(qū)別對待的,這可能影響著在芯片層或者硬件層做標(biāo)準(zhǔn)或者做自己工作的結(jié)果,簡單來說無論做 Scale up 的解決方案還是 GPGPU、ASIC,上層都要給用戶或者工程師開放一些軟件層的東西,就像英偉達的 PTX 是開源的,但是它底層的 SaaS 層是不開源的。在國內(nèi)做計算、通信是不是在 PTX 這層開源,讓更多的使用者或者工程師在這一層級能夠有更深層次的優(yōu)化,這應(yīng)該是個值得思考的方向。
師天麾:DeepSeek 火了之后全世界科學(xué)家都會在他們的基礎(chǔ)上做研究,這一方面擴大了他們的影響力,另一方面這些研究對 DeepSeek 接下來的研究也會有所幫助,所以說開源的思路就是去結(jié)交更多朋友,然后大家一起合力做更大的事情。DeepSeek 就是做更好的模型,然后以 AGI 為目標(biāo),邀請大家做更大事情。我們的赤兔推理引擎開源也是這樣的,我們就是想邀請無論是模型廠商、芯片廠商,還是一些社區(qū)開發(fā)者、個人愛好者,都一起來把這個國產(chǎn)生態(tài)做好,助力中國 AI 產(chǎn)業(yè)的發(fā)展。
然后包括剛才劉老師有提到底層 PTX 這一層,國產(chǎn)顯卡公司能不能開源,我們這塊也會有一些具體的感受,因為我們跟挺多家國內(nèi)芯片廠商有合作,大家確實開源程度不一樣,如果對方能把某個接口開放給我們,我們對算子優(yōu)化的能力就會更強。
開源建立生態(tài)然后邀請更多朋友助力,這也許會引起更多無論是模型廠商還是硬件廠商的思考,今年我們有一些私有化部署的客戶,大家可能去年已經(jīng)買了一些閉源模型都已經(jīng)部署上去了,但今年還是要換 DeepSeek,然后他們的觀點就是說開源還是更靈活一些。
王康曼:所以師老師覺得開源會是以后的一個大方向,那這個對傳統(tǒng)廠商沖擊挺大的。
師天麾:只能說會引起更多思考,但是否要開源看自己如何選擇,包括 OpenAI 現(xiàn)在只是把價格打下來或者免費了,但他們依然選擇 close 的路線,我只能說大家各有思考,選擇最適合自己的路線。
徐凌杰:我覺得首先開源是一個展現(xiàn)團隊極強的自信心的項目,但我們也知道在 GitHub 上有很多開源項目爛尾也是比較常見的,后續(xù)沒有人再去運營了。DeepSeek 的開源是非常有影響力,全世界范圍內(nèi)甚至對股市都造成了非常大的沖擊,他們一開始其實也只是開放了權(quán)重,后面把自己的一部分能力釋放出來,讓大家覺得他們是非常扎實的團隊,對于初創(chuàng)公司來講人才吸引也好,品牌建設(shè)、吸引投融資來講這都是非常重要的事情,真開源跟假開源是不一樣的。
第二對于生態(tài)建設(shè)而言,英偉達也是相對來說比較封閉的,但是它也有一定的層次是開放的,能夠讓全世界所有的開發(fā)者建立在他們平臺上,作為工業(yè)基礎(chǔ)去做開發(fā),這樣就形成了一個合力的正向循環(huán)?,F(xiàn)在國內(nèi)很多國產(chǎn)芯片公司,一方面還沒形成氣候,另一方面開源出來東西可能也不 solid,發(fā)出來別人也沒辦法用起來,還是有一段路要去走的,這對我們這樣的初創(chuàng)公司有帶來了啟示,回到商業(yè)模式來講,你靠什么賺錢,今天模型如果做閉源,那么跟 DeepSeek 比有什么優(yōu)勢,到底是數(shù)據(jù)上的,還是客戶關(guān)系上的,而對于我們做優(yōu)化來講非常重要的是能夠持續(xù)迭代的能力。
現(xiàn)在開源社區(qū)里有 vLLM、SGLang,英偉達也開始在推 Dynamo 框架,業(yè)界知識平權(quán)會變得非常快,很快就會沒有秘密,很多東西都是會流通的,也就是說今天你認(rèn)為你發(fā)現(xiàn)了一個非常厲害的東西,三個月之后可能沒有那么厲害了。那對于初創(chuàng)公司而言護城河在哪,這是我一直以來的思考,再回到 MaaS 是不是好生意,我認(rèn)為它是一個非常重要的能力,能夠有這么一個團隊持續(xù)迭代至關(guān)重要,但僅憑這點做生意可能非常容易被顛覆,投資人也不太放心,所以還是要有一個比較長久的護城河,要可落地、可復(fù)制。我覺得開源對商業(yè)模式?jīng)_擊是比較大的,很多人已經(jīng)被顛覆了,還有一些人在被顛覆中,如果不想被顛覆還是要找到錨點。
王康曼:楊立昆也說開源是以后的大趨勢,不開源的公司在這當(dāng)中要思考的東西還是比較多的,剛才徐老師也提到了 Dynamo,英偉達剛開完 GTC 大會,里面的亮點還是挺多的,其中我覺得有一點我有點小驚訝,就是關(guān)于 Silicon Photonic 這塊,用 Silicon Photonic 把 NVLink 做得更完善還是挺早的,老黃說了這么一句,所以我也想聽聽各位老師的想法,這個事情是可以很快商業(yè)化落地的嗎?還是他只在說一個故事?
徐凌杰:已經(jīng)是一個馬上要在今年下半年發(fā)布的產(chǎn)品,那肯定是真實的東西,在這個交換機里實現(xiàn)是過去這一兩年大家都已經(jīng)比較確定的路線,發(fā)展到一定程度之后一定要通過光去做,通過共封裝的方式把光模塊省掉,把功耗降下來,這是對的趨勢。Silicon valley 在過去這五六年里,如果大家參加 Hot Chips 也能看到了很多關(guān)于共封裝、CPO 的提案。
這幾年的重點是說怎么能夠把 CPO 和芯片相結(jié)合,也就是說現(xiàn)在在網(wǎng)絡(luò)上我們已經(jīng)比較確信了,已經(jīng)產(chǎn)品化了,那在計算芯片上去做共封裝什么時候能夠?qū)崿F(xiàn),我想隨著 Scale up 的要求越來越高,后面 Chiplet 加上 CPO 是比較明確方向。我也有一些老同事出來做 CPO,CPO 是中國未來的發(fā)展機會,因光不需要特別先進的制程,通過高速互聯(lián)弱一點的芯片也能連起來,我非常認(rèn)同這個方向。
這里面還要解決生產(chǎn)關(guān)系的問題,因為但凡是大型芯片都是同一家公司做不同的 Chiplet,然后不同的代際、不同的排列組合做在一起??科渌镜?Chiplet 去封裝幾乎在大型芯片里面幾乎是沒有的,那這個生產(chǎn)關(guān)系怎么解決,特別是在標(biāo)準(zhǔn)接口沒有充分定義的情況下,是蠻難的。
剛剛劉老師講的 CXL 還不是芯片級別的,是一個服務(wù)器級別的接口,CXL 在過去五六年的發(fā)展一直也有討論,但沒有大量落地,包括 UCIE 接口大家也都在討論,大型芯片解決生產(chǎn)關(guān)系和生產(chǎn)力同樣重要,這一塊技術(shù)上是比較確定的,是值得芯片公司往前走一步的方向。
劉學(xué):我先順著講一下生產(chǎn)關(guān)系的問題,這個生產(chǎn)關(guān)系是做 UCIE IP 的提供者、做硅光的提供者、工藝的提供者、做 Scale up 像我們互聯(lián)通信協(xié)議的提供者以及 GPGPU 和 ASIC 的生產(chǎn)關(guān)系。
關(guān)于 CPO 這塊,昨天我和國內(nèi)做光通信的一家公司交流過,我們當(dāng)時也規(guī)劃過到后邊幾代做 CPO,英偉達起到了推動作用,現(xiàn)在大家統(tǒng)一認(rèn)為 26 年、27 年硅光會有小批量交付,28 年到 30 年是大規(guī)模落地的時間節(jié)點。
現(xiàn)在做硅光工藝、設(shè)備以及解決方案的廠家都在正視起來的問題,當(dāng)中也有一些需要改進的點,像硅光和芯片結(jié)合之后形成 Scale up,中間的通信協(xié)議在這一層起到了什么作用,這當(dāng)中有對于角色的思考?,F(xiàn)在 CPO 很重要,而且工藝廠家越早布局越好,尤其是大家要全面思考從做光模塊轉(zhuǎn)到 CPO 和之前是否有差異。
王康曼:那關(guān)于 GTC 的另外一個話題就是 Dynamo,我想問一下師老師怎么看最新發(fā)布的可以大幅提高推理效率的開源 AI 處理服務(wù)庫 Dynamo?
師天麾:英偉達確實積累了很多東西,放出來挺震撼的,但是我感覺他們很多底層?xùn)|西的接口還是沒有給開發(fā)者,所以他們可以做更激進的優(yōu)化,包括大家應(yīng)該也知道一些庫在大部分場景上確實很難寫得比英偉達更快。但這個開放出來英偉達也能鞏固軟件生態(tài)的護城河,這也值得我們學(xué)習(xí)。
一是看他們技術(shù)設(shè)計上是怎樣的,然后就是學(xué)習(xí)一些相關(guān)思路,看能不能用來構(gòu)筑國產(chǎn)軟件生態(tài),我們在做的事情還是幫大家更好地用起來國產(chǎn)顯卡。我們相信未來算力國產(chǎn)化肯定是大趨勢,這個確定性是比較強的,所以我們會從別人的思路里學(xué)習(xí),結(jié)合我們自己的技術(shù)和經(jīng)驗以及國產(chǎn)顯卡的特色做一些自己的東西。
徐凌杰:我覺得 Dynamo 非常好,我和我的聯(lián)創(chuàng)都在推動團隊要迅速把優(yōu)秀的開源項目集成到我們的產(chǎn)品中去,這個非常好,這也意味著英偉達不僅是個芯片公司,他們一直說自己是算法、軟件公司,今天他們變成了一個基礎(chǔ)設(shè)施公司,基礎(chǔ)設(shè)施公司就是要提供一系列工具,讓大家把基礎(chǔ)設(shè)施用好,這塊代表了英偉達非常大的野心,包括從集群層面他們會有非常大的投入,Dynamo 不是一個小的基于單個芯片的項目,而是基于集群的調(diào)優(yōu)。這一塊還是回到商業(yè)的本質(zhì),就是英偉達越做越多的情況下,其他跟它同類競爭的公司要怎么跟上,另外做英偉達的上下游哪些東西比較有護城河,這是很有意思的話題。
劉學(xué):我們也會持續(xù)學(xué)習(xí)和吸收,從整個系統(tǒng)來講,我們會進行拆解,然后看一下在國產(chǎn)芯片和整個 Scale up 互聯(lián)方面的啟發(fā),實現(xiàn)更快速地落地,然后在商業(yè)模式方面,當(dāng)前無論是硅光還是 Dynamo,英偉達都在給大家不停地講述要系統(tǒng)級設(shè)計更底層的芯片和互聯(lián),這也是我們樂意看到的。
王康曼:英偉達的鏈確實越來越長了。圓桌快結(jié)束了,我們現(xiàn)在來回答一下觀眾提問。有觀眾問到如何解決中小企業(yè)在私有化部署的成本門檻的問題?看看誰想先來回答。
師天麾:我覺得小企業(yè)的低成本部署如果對數(shù)據(jù)安全的要求沒有太多顧慮的話,確實可以去租機器甚至用 MaaS,如果數(shù)據(jù)安全這塊要求比較多,可以先花幾十萬買個性能沒有那么強的機器,也不是非要跑 DeepSeek 滿血版,其他模型并非不能用,挺多小模型、量化、蒸餾模型也都還不錯,先試一試對企業(yè)業(yè)務(wù)場景有沒有幫助,有了幫助以后再花錢買更好的機器,用更好的大模型更好支撐業(yè)務(wù),就是說前期不一定非要最好,要先判斷對企業(yè)業(yè)務(wù)是否有幫助。
徐凌杰:我非常同意,首先模型一定要對客戶有用,我們今天講 AI Infra 是圍繞算力來講的,要把算力轉(zhuǎn)換成生產(chǎn)力的話,還是有蠻多事情要做的。去年模型還沒有像 DeepSeek 那么強,需要做各種各樣數(shù)據(jù)方面的準(zhǔn)備,包括像 RA、Post-training,今年 DeepSeek R1 其實大部分情況下也不能直接用到業(yè)務(wù)場景里去,要能夠去做結(jié)合。
回到我們現(xiàn)在的商業(yè)模式來講,一是我們會往硬件方向投入更多精力,軟件要作為入口給硬件帶貨,因此做端到端的解決方案也非常關(guān)鍵。我們從去年開始投入,也產(chǎn)生了一部分的營收,能夠跟客戶把它的場景打磨出來,第一步就是保證場景可用,這塊跟性能沒有任何關(guān)系,是模型的效果或者基于模型做二次開發(fā)能不能給業(yè)務(wù)帶來產(chǎn)生力,我們算法工程師,也進行了落地。
第二步是根據(jù)具體情況,基于現(xiàn)有的硬件做調(diào)優(yōu),達到更好的效率和性價比。第三,如果客戶對標(biāo)準(zhǔn)的硬件不滿意,部署量也比較大,我們能夠通過差異化的軟硬件相結(jié)合的產(chǎn)品有層次地提供。所以說是從算法效果到純軟件的調(diào)優(yōu)效果,再到軟硬結(jié)合三步走的策略,去給客戶提供不同層級的方案,這和客戶體量、業(yè)務(wù)屬性都有關(guān)系。
劉學(xué):徐老師是從算力轉(zhuǎn)化至生產(chǎn)力,我們是反過來從生產(chǎn)力轉(zhuǎn)化為算力,我們作為一家互聯(lián)通信公司,是想為國產(chǎn) GPU 或者 ASIC 提供 Scale up 的整體解決方案,包括 Switch 芯片,DeepSeek V3 對 NVLink 的Switch 做了很大篇幅的描述,我們的重點是告訴大家,如果中小企業(yè)想提高性能,我們可以提供一些可定制的超節(jié)點。因為我們在和 GPU 廠商交流時, 他們也會問 256 個節(jié)點怎么連,在互聯(lián)的拓?fù)湎略趺礉M足當(dāng)前 DeepSeek 這種 MoE 架構(gòu)的訓(xùn)練和推理,這個其實也是我們正在做的事情,我們專門有一個組拆解算法,拆解到具體的 GPU 和互聯(lián)上,看哪個互聯(lián)拓?fù)湫纬墒裁礃拥臉湫位蛘攮h(huán)形結(jié)構(gòu)來加速訓(xùn)推。
王康曼:另外一個觀眾提問光子芯片會是未來的發(fā)展趨勢嗎?光在芯片的未來技術(shù)中,包括量子芯片等不同的路徑中占什么地位?會是過渡技術(shù)還是長期存在呢?
劉學(xué):除了光子計算、量子計算還有類腦計算,我本身也是從事類腦計算的,有幾個說法,第一是國際上有說法稱類腦計算和量子計算是后摩爾時代的兩大解決方案,第二國內(nèi)我們也聽到一些消息說在 GPU 或者 ASIC 路線之外還會開辟出其他路線,像類腦計算、光子計算和量子計算。從這幾點我們可以看到,無論是從 GPU、ASIC 還是光子計算和量子計算,當(dāng)前離最終實現(xiàn)都有需要提升的地方,對此我想說兩點,一是當(dāng)前的這些光子計算、量子計算相比以前的設(shè)計是否有后發(fā)優(yōu)勢,二是在整體的設(shè)計過程中,一些周邊域的工程和科學(xué)問題是否得到解決了,這是值得關(guān)注的。
王康曼:我也分享一下,我前幾天去 GTC 約了英偉達做量子計算的專家交流,他們內(nèi)部覺得這塊不會很快實現(xiàn)商業(yè)化落地,他們也沒有時間表,但這塊做出來和 GPU 芯片是不違背的,可以用量子芯片去做很多模擬,然后用 GPU 做訓(xùn)練,這是他們現(xiàn)在的框架。最后快結(jié)束我想請問三位老師說一說對于 AI Infra 這個行業(yè)的愿景。
師天麾:愿景或者公司做到哪個程度從商業(yè)化角度來說,可能有點不太合適,因為整個行業(yè)變化很快,但是我們始終想做的就是做最有價值的事情,優(yōu)先看有沒有給中國的 AI 生態(tài)帶來價值,要推進整個產(chǎn)業(yè)發(fā)展,這是我們愿意去做的。我們也會在開源和國產(chǎn)生態(tài)上持續(xù)投入,邀請更多朋友一起做更有價值、更有意義的事情,這是我們的愿景。
徐凌杰:對于做公司來講既要仰望星空,又要腳踏實地。
仰望星空就是從數(shù)據(jù)上來看,美國 2% ~ 3% 的電力用在數(shù)據(jù)中心,五年后可能是 7% ~ 9% 的電力用在數(shù)據(jù)中心,當(dāng)中很大的增量來自人工智能,這是未來非常大的機會,數(shù)據(jù)中心是承載人類智慧精華的載體。數(shù)據(jù)中心未來可能占 10%、 20% 發(fā)電量,當(dāng)中每一點計算效率、軟硬件、散熱效率、集群化能力的提升、成本下降都蘊藏著非常大機會,也是能給人類創(chuàng)造價值的。
腳踏實地的話,未來三五年風(fēng)高浪急的局勢變化情況下,小船能夠不被打翻就是一個小愿望,能夠進一步擴張團隊,把我們心中無論軟硬件產(chǎn)品還是解決方案的愿景都踏踏實實做下來,也希望得到投資人的支持。我們在上海、北京、深圳、海外都有辦公室,也在招人,歡迎大家聯(lián)系我們交流合作。
劉學(xué):我從歷史、現(xiàn)在和未來做一個闡述,第一過去 12 年到 22 年是芯片設(shè)計也就是體系結(jié)構(gòu)設(shè)計的黃金時間,從 22 年開始是 Transformer 以及 AI Infra 的一些提升,實際上夾雜著歷史的年輪,是夾雜著整個算力、數(shù)據(jù)和基礎(chǔ)設(shè)施體系結(jié)構(gòu)的時代,這是非常好的時代,我們做互聯(lián)、通信、GPU、ASIC、軟件以及算法都在這個舞臺上有很精彩的表現(xiàn),但這是個有競爭的時代,因為在任何一個點都能看到大家在搶占賽道。這也是集成電路于國內(nèi)而言比較利好、開放的時代。未來則面臨著三個問題,一是算法如何引進,二是訓(xùn)練效率如何提升,三是規(guī)模如何擴展,這個過程中我們也看到了整個 Scale up 和 Scale out 通信集群的重要性,所以我們總結(jié)就是專注通信、聚焦集群。雷峰網(wǎng)雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。