0
1958年,德州儀器的杰克.基爾比(Jack Kilby)設(shè)計出了帶有單個晶體管的硅芯片。1965年,仙童半導(dǎo)體已經(jīng)掌握了如何制造一塊擁有50個晶體管的硅片。正如仙童半導(dǎo)體的聯(lián)合創(chuàng)始人戈登.摩爾(Gordon Moore)當年觀察到的那樣,一塊硅片上可容納的晶體管數(shù)量幾乎每年翻一番。
2023年,蘋果發(fā)布了iPhone 15 Pro,由A17仿生芯片驅(qū)動,這款芯片擁有190億個晶體管。56年來,晶體管的密度增加了34倍。這種指數(shù)級的進步,被粗略地稱為摩爾定律,一直是計算機革命的引擎之一。隨著晶體管變得越來越小、越來越便宜以及速度越來越快,今天實現(xiàn)了手握“超級計算機”的奇跡。但人工智能時代需要處理的數(shù)據(jù)數(shù)量之多,已經(jīng)將摩爾定律推向了極限。
幾乎所有現(xiàn)代人工智能中的神經(jīng)網(wǎng)絡(luò)都需要經(jīng)過訓(xùn)練,以確定正確的權(quán)重(權(quán)重用來衡量輸入信號對于神經(jīng)元的影響程度,即不同輸入的重要性權(quán)重),從而為其數(shù)十億,有時甚至數(shù)萬億的內(nèi)部連接賦予正確的權(quán)重。這些權(quán)重以矩陣的形式存儲,而訓(xùn)練模型則需要使用數(shù)學(xué)方法對這些矩陣進行操作。
單層神經(jīng)網(wǎng)絡(luò)的本質(zhì)是矩陣相乘,兩個按行和列排列的數(shù)字矩陣集合被用來生成第三個這樣的集合,第三個集合中的每個數(shù)字都是通過將第一個集合中某一行的所有數(shù)字與第二個集合中某一列的所有數(shù)字相乘,然后相加而得到的。如果矩陣很大,有幾千或幾萬行幾萬列,而且需要隨著訓(xùn)練的進行反復(fù)相乘,那么單個數(shù)字相乘和相加的次數(shù)就會變得非常多,這就是人工智能的“思考方式”,通過對輸入數(shù)據(jù)的處理得出答案。
然而,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并不是唯一一種需要高效處理矩陣乘法運算的技術(shù)。游戲產(chǎn)業(yè)高質(zhì)量的視覺呈現(xiàn)同樣需要這一技術(shù),在25年前,這是一個巨大的市場。為了滿足這一需求,英偉達率先設(shè)計了一種新型芯片,即圖形處理器(GPU),在這種芯片上布置并連接晶體管,使其能夠同時進行大量矩陣乘法運算。與大多數(shù)中央處理器(CPU)相比,GPU可以更大批量地處理數(shù)據(jù),而且能耗更低。
2012年,訓(xùn)練AlexNet(開創(chuàng) “深度學(xué)習(xí) ”時代的模型)需要為6000萬個內(nèi)部連接分配權(quán)重。這需要4.7x10^17次浮點運算(flop,算力最基本的計量單位),每次浮點運算大致相當于兩個數(shù)字的相加或相乘。此前,這么多的計算量是不可能完成的,但當時兩個GPU就完成了AlexNet系統(tǒng)的訓(xùn)練。相比之下,如果使用當時最先進的CPU仍需要耗費大量的時間和算力。
喬治城大學(xué)安全與新興技術(shù)中心最近發(fā)布的一份報告稱,在用于訓(xùn)練模型時,GPU的成本效益比CPU高出10-100 倍,速度提升1000倍。正是因為有了GPU,深度學(xué)習(xí)才得以蓬勃發(fā)展。不過,大型語言模型(LLM)進一步推動了對計算的需求。
「Scaling Laws」打破「Moore's Law」
2018年,OpenAI的研究人員亞歷克.拉德福德(Alec Radford)利用谷歌研究人員在“Attention Is All You Need”中提出的Transformers(采用注意力機制的深度學(xué)習(xí)模型),開發(fā)了一種生成式預(yù)訓(xùn)練變換器,簡稱GPT。他和同事們發(fā)現(xiàn),通過增加訓(xùn)練數(shù)據(jù)或算力,可以提高大模型的生成能力,這個定律被稱為“Scaling Laws”。
由于行業(yè)遵從Scaling Laws定律,大語言模型的訓(xùn)練規(guī)模越來越大。據(jù)研究機構(gòu)Epoch ai估計,2022年訓(xùn)練GPT-4 需要2x10^25個 flop,是十年前訓(xùn)練AlexNet所用算力的4000萬倍,花費約1億美元。Gemini-Ultra是谷歌在2024年發(fā)布的大的模型,其成本是GPT-4的兩倍,Epoch ai估計它可能需要5x10^25個flop。這些總數(shù)大得難以置信,堪比可觀測宇宙中所有星系的恒星總數(shù),或太平洋中的水滴合集。
過去,解決算力不足的辦法就是耐心等待,因為摩爾定律還在生效,只需要等上一段時間,新一代的芯片就會集成更多更快的晶體管。但摩爾定律已經(jīng)逐漸失效,因為現(xiàn)在單個晶體管的寬度只有幾十納米(十億分之一米),要想實現(xiàn)性能的定期躍升已變得非常困難。芯片制造商仍在努力將晶體管做得更小,甚至將它們垂直堆疊起來,以便在芯片上擠出更多的晶體管。但是,性能穩(wěn)步提升而功耗下降的時代已經(jīng)過去。
隨著摩爾定律放緩,想要建立更大的模型,答案不是生產(chǎn)更快的芯片,而是打造更大的芯片集群。OpenAI內(nèi)部透露,GPT-4是在25000個英偉達的A100上訓(xùn)練的,這些GPU集群在一起,以減少在芯片間移動數(shù)據(jù)時造成的時間和能量損失。
Alphabet、亞馬遜、Meta和微軟計劃在2024年投資2000億美元用于人工智能相關(guān)的領(lǐng)域,比去年增長45%,其中大部分將用于打造大規(guī)模的芯片集群。據(jù)報道,微軟和OpenAI正計劃在威斯康星州建立一個價值1000億美元的集群,名為 “星際之門”(Stargate)。硅谷的一些人則認為,十年內(nèi)將出現(xiàn)一個價值1萬億美元的集群。這種超大規(guī)?;A(chǔ)設(shè)施建設(shè)需要消耗大量能源,今年3月,亞馬遜在一座核電站隔壁購買了一個數(shù)據(jù)中心,該核電站可為其提供千兆瓦的電力。
對人工智能領(lǐng)域的投資并不全是在GPU及其功耗上,因為模型一旦訓(xùn)練完成,就必須投入使用。使用人工智能系統(tǒng)所需要消耗的算力,通常約為訓(xùn)練所需算力的平方根,這樣的算力需求仍然很大。例如,GPT-3需要3x10^23flop的算力來訓(xùn)練,則推理需要3x10^11flop算力。FPGA和ASIC芯片是專為推理量身定制的,在運行人工智能模型方面,比使用GPU更高效。
不過,在這股熱潮中表現(xiàn)最好的還是英偉達。英偉達的主導(dǎo)地位不僅來自其在GPU制造方面積累的技術(shù)和投入大量的資金(黃仁勛稱,Blackwell的開發(fā)成本高達100億美元)。此外,英偉達還擁有用于芯片編程的軟件框架,即近乎已成為行業(yè)標準的CUDA。
競爭對手都在尋找英偉達的弱點。AI芯片獨角獸企業(yè)SambaNova Systems的CEO Rodrigo Liang稱,英偉達的芯片有幾個缺點,這可以追溯到它們最初在游戲中的用途。其中一個特別大的問題是,在數(shù)據(jù)存取方面的能力有限(因為一個GPU無法容納整個模型)。
另一家AI芯片初創(chuàng)公司Cerebras則推出了21.5厘米寬的“晶圓級”處理器。目前的大部分GPU包含大概成千上萬個獨立內(nèi)核,可以進行并行計算過,而Cerebras開發(fā)的芯片包含近100萬個。Cerebras聲稱,其另外一個優(yōu)勢是,它的能耗僅為英偉達最好芯片的一半。谷歌則推出了自己的張量處理單元(TPU),可用于訓(xùn)練和推理。其Gemini 1.5 ai模型一次攝取的數(shù)據(jù)量是GPT-4的八倍,部分原因就是采用了定制芯片。
尖端GPU的巨大價值與日俱增,使其成為地緣政治的籌碼。雖然芯片產(chǎn)業(yè)是全球性的,但只有少數(shù)幾個國家的技術(shù)控制著進入芯片產(chǎn)業(yè)高地的通道。英偉達的芯片在美國設(shè)計,世界上最先進的光刻機由荷蘭公司ASML制造,而只有臺積電和英特爾等尖端代工廠才能使用最頂級的光刻機。對于許多其他設(shè)備來說,地緣政治因素同樣暗流涌動,日本是其中的另一個主要國家。
發(fā)展芯片和人工智能技術(shù)帶來的政治博弈,使各國在這兩個技術(shù)領(lǐng)域的投入不斷增加,美國政府對向中國出口先進芯片實施嚴厲的管控,而中國正在投資數(shù)千億美元來建立自己的芯片供應(yīng)鏈。大多數(shù)分析人士認為,中國在這方面與美國仍存在較大的差距,但由于華為等公司的大筆投資,中國應(yīng)對出口管制的能力比美國預(yù)期的要好得多。
美國也在加大投資力度,臺積電在亞利桑那州投資約650億美元建立晶圓廠,并獲得約66億美元的補貼。其他國家同樣積極參與到這場競爭中,印度投入100億美元、德國160億美元以及日本260億美元,未來,通過壟斷人工智能芯片以阻礙其他國家人工智能產(chǎn)業(yè)技術(shù)發(fā)展的方式或許將會失效。
本文由雷峰網(wǎng)(公眾號:雷峰網(wǎng))編譯自:https://www.economist.com/schools-brief/2024/07/30/the-race-is-on-to-control-the-global-supply-chain-for-ai-chips
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。