0
大約 1 個月前,馬斯克所創(chuàng)辦的 xAI 團隊宣布開源 Grok-1——一個參數量為 3140 億的 MoE 大模型。從參數量來看,Grok-1 超越了 70B 的 LLaMA 2,是當前開源模型中最大的一個,被調侃為「龐然大物」。
然而,有研究人員測試卻發(fā)現,參數規(guī)模量如此巨大的 Grok-1 ,效果竟然只與 Mistral AI 的 8x7B MoE 模型相當。也因此,業(yè)內人士評價,「Grok-1 在這么大的參數量規(guī)模上只實現了這么小的效果,實際是失敗的?!?/p>
在大模型中,參數量大、不等于模型性能好。早在 2021 年 6 月,面壁智能初始團隊就發(fā)布了千億 MoE 大模型 CPM-2 ,是最早關注到這一問題的 AI 團隊之一。
面壁智能 CTO 曾國洋告訴 AI 科技評論,他們從 2020 年 GPT-3 出來后開始訓練大模型,也是走過一些彎路后才逐漸認識到,“提升模型效果是大模型訓練的根本目標,但這并不意味著一定要通過擴大參數量規(guī)模和燃燒高昂的算力成本來實現?!?/p>
相反,“讓每一個參數發(fā)揮最大的作用”,在同等參數量上實現更好的性能,才是解決大模型“高效”訓練的核心。這一塊也還有很大的探索空間,值得研究人員不斷挖掘。
2024 年 2 月,面壁發(fā)布 MiniCPM 2B,在更小參數量的基礎上實現可以媲美 Mistral-7B 的性能,初步驗證了其“低參數、高性能”的方法論。據了解,面壁的千億大模型訓練成本也由此大幅下降,這也是面壁自天使輪融資、拿了知乎數千萬后仍能擴大團隊規(guī)模并不斷迭代千億模型的根本原因。
在 MiniCPM 2B 基礎上,2024 年 4 月 11 日,面壁又推出了新一代端側旗艦大模型系列:顯著增強OCR能力、甚至部分能力比肩Gemini-Pro的2.8B多模態(tài)模型MiniCPM-V 2.0;僅1.2B,卻強過llama2-13B、推理速度達到人類語速近25倍的 MiniCPM-1.2B 模型;最小的 128K 長文本模型MiniCPM-2B-128K ;還有性能增強的MoE架構模型。
了解 MiniCPM 2B 詳情信息可點擊:https://github.com/OpenBMB/MiniCPM
更需要格外注意的是:面壁訓練小模型,并不單單是為了“訓練小模型”、放棄角逐 AGI;恰恰相反,他們訓練 MiniCPM 等小模型,就是為了訓練能實現 AGI 的通用基座大模型?;?Scaling Law 的科學方法論,通過小模型驗證大模型的訓練投入產出比,是面壁在 2023 年低調研究一年所探索出的一條獨特路線。
也是由于這一獨特路線,過去一年面壁在融資市場上并不“著急”。在已公開披露的天使輪消息中,面壁智能只拿了知乎數千萬元,但在 2023 年,面壁不僅將團隊從十人規(guī)模拓展到百人規(guī)模,而且還在 8 月發(fā)布了稠密(區(qū)分于稀疏)的千億參數大模型。
近日,面壁智能也完成了新一輪數億元融資,由春華創(chuàng)投、華為哈勃領投,北京市人工智能產業(yè)投資基金等跟投,知乎作為戰(zhàn)略股東持續(xù)跟投支持。
按照這樣的“燒錢”速度估算,假設面壁的千億基座模型訓練成本只有其他大模型的 1/10,面壁融資 5000 萬實際相當于其他在訓練上較為粗放的大模型團隊融資 5 個億。也就是說,在同等量級的金錢、算力與人才資源下,面壁能比其他團隊走得更遠。
面壁智能被低估了。
一、面壁的第一性原理:「高效」
2024 年 1 月 ICLR 會議論文結果公布,面壁智能團隊的論文“Predicting Emergent Abilities with Infinite Resolution Evaluation”被接收,引起了海內外多個關注“Scaling Law”的團隊討論,包括 OpenAI。
因為這篇論文是除了 OpenAI 第一個實現了用 Scaling Prediction 在下游任務上做預測的工作。
論文鏈接:https://arxiv.org/pdf/2310.03262.pdf
Scaling Prediction 多次出現在 OpenAI 2023 年 3 月發(fā)布的 GPT-4 技術報告中。當時,這個技術話題還鮮少為人關注,由于微軟也同步強調其支撐 GPT-4 訓練的云基礎設施,大家的討論更多被轉移到 OpenAI 與微軟云的捆綁、大模型離不開大算力等話題上。
但面壁團隊關注的卻是 GPT-4 的兩個創(chuàng)新點:一是 GPT-4 的輸入文本達到了 32k 的長度,而當時國內的大模型能處理的文本長度只有 512,之后“長文本”也成為國內外大模型研究的重點對象;二是 Scaling Law 與 Scaling Prediction,即 OpenAI 淺淺提到了 GPT-4 可以預測大模型的能力,但沒有公布預測曲線。對于第二點,面壁團隊尤其震撼。
在此之前,面壁研究大模型的第一性原理就是“高效訓練”。
雖然面壁成立于 2022 年 8 月,但在此之前,面壁團隊作為北京智源人工智能研究院“悟道”項目的重要組成成員,從 2020 年就開始訓練語言大模型。在研究“文源”時,面壁團隊就是在資源受限的條件下展開一系列從 0 到 1 的探索,因此很早使用了分布式加速、參數微調等方法來降低模型訓練的成本。2022 年,面壁團隊在參數高效微調的工作還發(fā)表在 Nature 子刊。
論文鏈接:https://www.nature.com/articles/s42256-023-00626-4
也是由于面壁在高效訓練上開發(fā)了許多好用的工具,面壁一度被認為是一家做“大模型 Infra”的公司。但實際上,高效訓練工具的開發(fā)也是為了大模型訓練所服務;面壁也是國內極少數兼具大模型算法與 infra 能力的團隊。換言之,從做大模型的第一天起,面壁就把「高效」刻在了基因里。
在 Scaling Prediction 出來后,面壁團隊就認為這項技術“非同尋?!?,因為如果 Scaling Prediction 能夠在一個大模型還未訓練出來時、就能預測它的性能大約在什么水平,那么研究人員就可以先通過小模型做實驗、調參數,如果失敗就不斷嘗試、如果成功就按照相同的數據配比、參數調整等方法訓練一個大模型,那么訓練時間與訓練成本都會大幅縮減。這很符合面壁團隊追求“高效”的第一性原理。
所以,從 2023 年開始,面壁團隊開始探索高效的 Scaling Law、用小十倍參數模型預測大十倍參數模型的性能。
此外,圍繞“高效訓練”,面壁不僅僅在模型的訓練層發(fā)力,在底層計算和數據層也有深入思考,全面系統(tǒng)地推進大模型上下游工程。在國內的諸多大模型團隊中,面壁同時從算力、數據與算法切入的做法也不多見,但卻符合大模型作為“系統(tǒng)工程”的本質要求。
面壁智能團隊的核心創(chuàng)始成員認為,從人工智能和社會發(fā)展的關系來看,如果大模型作為實現 AGI 的關鍵路徑,但成本卻無比高昂,那么即使實現 AGI,但AGI 比人還貴、那也沒意義?!改P偷膮挡豢赡軣o休止地堆下去,依賴顯卡的做法也不能無限重復,尤其在當前計算資源匱乏的情況下,思考如何可持續(xù)訓練大模型成為關鍵?!?/p>
「我們追求的是,在同樣的時間、同等參數量的條件下,實現更優(yōu)的 Scaling Law。當模型的效率優(yōu)化到一定程度的時候,如果要繼續(xù)精進下去,就需要數據、算力與算法多者結合?!乖鴩蟾嬖V AI 科技評論。
以數據工程為例。在悟道“文源”時,面壁成員就發(fā)現,數據的清洗是一個非常重要的環(huán)節(jié)。比如,最開始他們收集了幾個 T 的數據,他們將數據清洗到只剩 200G 后,訓練出來的模型效果反而比幾個 T 的時候還要優(yōu)秀。2023 年,盡管市場上出現了“百模大戰(zhàn)”,面壁團隊也沒有忽視數據這一基礎層的重要性。
據面壁首席研究員韓旭介紹,數據工程是一項非常復雜且需要大量體力勞動的事情。
「處理數據的整個過程,沒有很多技術性的難度,而是“血與淚”的積累,因為數據量極大,動輒幾十個P,根本無法人工處理,只能從海量數據里不斷抽樣,根據樣本寫出那種非常聰明的代碼去處理,然后批量化地一遍又一遍地重復這個過程。」韓旭告訴 AI 科技評論。最后,他們想了辦法,讓大模型像人一樣去觀察數據、寫數據、清洗代碼,近日也發(fā)表了論文,但這也只是面壁在數據工程上投入的“冰山一角”。
目前,面壁所發(fā)表的Ultra系列對齊數據集(UltraChat、UltraFeedback等)在國際上也廣受歡迎,全球有接近 200 個大模型都在用面壁的數據集做對齊。
在算力端,面壁團隊也很早開始將大模型與國產芯片做適配,自研搭建了可以在大部分主流國產芯片上運行大模型的框架,不再受限于英偉達的芯片限制。在國產化適配上,結合自研的推理工具,面壁可以做到“量化不掉點”,進一步降低大模型成本。
除了算力和數據,曾國洋還透露,面壁大模型的高效訓練還體現在模型超參選擇、架構選擇上,這些都已經在 MiniCPM 的結果上得到了很好的驗證。
回到大模型的算法訓練,實際上 GPT-4 的技術報告并沒有披露太多關于 Scaling Law 的要點,面壁在 2023 年從“高效訓練”角度出發(fā)探索 Scaling Law,也是從頭開始開展研究。但被 ICLR 2024 接收的論文證明了他們通過小模型預測大模型性能的猜想得到了學術界與業(yè)界的認可。
二、Scaling Law 的點睛之筆
現任面壁 CEO 的李大海曾向身邊人回憶過他加入面壁前的“小調研”。2023 年 ChatGPT 火爆之后,所有人都在談論 AGI,李大海于是跟面壁所有的核心成員都聊了一遍,為的是確認一件事:這家公司是不是在追求 AGI。聊完后,他發(fā)現這是每個人的信仰,爾后才果斷加入。
從計算機的角度來看,AI 發(fā)展起來的目標就是為了讓計算機更智能,將人從部分機械的勞動中解脫出來。因此,“解放人類”不僅要求 AI 模型的智能水平足夠高,還要更高效。而面壁研究大模型的重要出發(fā)點,與李大海的思考不謀而合。
面壁發(fā)布 MiniCPM 后,被外界評價為“對端側大模型的一大貢獻”,而李大海則認為,MiniCPM 恰恰體現了團隊對科學的 Scaling Law 的理解。雖然 MiniCPM 的模型參數只有 2.4B,卻能達到參數規(guī)模為 13B 的 LLaMA-2 的水平,與谷歌的 Gemma 7B 相當,大幅超過 Gemma 2B。
「如果 2B 模型的性能比 7B 的要好,那么以此類推,在同一套訓練方法論下,參數規(guī)模才 7B、70B 的模型也可能會比 100B 更好。再結合 MoE 方法,在特定任務上參數量比 GPT-4 少的模型或許也能逼近 GPT-4 的水平?!估畲蠛1硎尽?/p>
2023 年,面壁一直在探索如何采用更為科學化的方法去做模型預測。
基于高效 Scaling Law 的技術路線,面壁有兩條產品技術線:一條是基座大模型,另一條是給大模型做端側版本。如此一來,一方面可以提升大模型的效率,讓每個參數發(fā)揮更好的效果;另一方面也能在與應用場景相匹配的成本下做出最好的模型。
「這兩條產品線,其實是一條路,就是面壁通往 AGI 的道路。」曾國洋說道。
以飛機的發(fā)展舉例。萊特兄弟打造出了飛機的范式,但早期的飛機并不能承載太多的乘客,直到空氣動力學等基礎理論被廣泛發(fā)展后,人們基于空氣動力學才最終設計出能耗更低、容納乘客數量更多、安全系數更高的飛機。在面壁看來,大模型也是如此。
OpenAI 的 GPT-3 開創(chuàng)了千億大模型的范式,但從“大模型普惠”的終極目標來看,過于強調“大力出奇跡”的 GPT 系列不一定是最優(yōu)解。大模型的技術普惠要找到自己的「空氣動力學」,而 Scaling Prediction 提供了一種可能。這也側面表明 OpenAI 在自我優(yōu)化。
面壁團隊胡聲鼎告訴 AI 科技評論,在“Predicting Emergent Abilities with Infinite Resolution Evaluation”一文中,他們初步驗證了通過小模型預測大模型性能的可行性。這是他們探索 Scaling Prediction 征程中的一個小里程碑,而非終點。
在這個工作中,胡聲鼎在參數量規(guī)模為 0.009B 到 0.03B 的模型上做訓練,然后將訓練的模型外插到 2.4B 的模型上預測性能,通過觀察 0.009B 到 0.03B 在特定任務上的表現,來預測 2.4B 模型在同類任務上的泛化情況。最后,他們再訓練一個 2.4B 的模型,發(fā)現該模型的性能確實在預測范圍附近。
用參數規(guī)模小十倍的模型去預測大十倍模型的性能的意義是:如果發(fā)現模型的性能不夠理想,就可以在小模型上做實驗、調參數,然后重新畫一條線,降低訓練成本——如同“數字孿生”一般,訓練了一個虛擬的大模型,無需等到實際的大模型出來,就已經能知道它的性能好不好。這個訓練的方法有一套體系規(guī)范的數據配比、參數調整等配置,形成了一套科學化的理論。
基于此,面壁團隊核心成員表示,在目前這套方法論的指導下,未來他們有信心訓練出一個性能對標 GPT-4 甚至更強的模型,找到更陡峭的模型能力成長線,“而這才是 AGI 的可持續(xù)發(fā)展方案”。
這個方法也能解決當前市場上大多數模型即使提升參數規(guī)模、算力資源也無法增長模型性能的困局。
而 MiniCPM 則是科學的 Scaling Law 的啟示與產物。這也符合大模型還在變化演進中、AI 創(chuàng)業(yè)公司要一邊孵化產品一邊迭代技術的現實情況。
一方面,是對 Scaling Prediction 的印證,是在小模型上驗證大模型的技術極限:2.4B 表明在 scaling 上能找到一個更陡峭的路線去靠近最優(yōu)解,這是一個路徑啟示,能用更小的模型參數得到更好的模型能力,也就是科學化的體現。
另一方面,也可以同步孵化端側產品:
韓旭告訴 AI 科技評論,端側是一個非常重要且有潛力的市場,如果一個 13B 模型的能力可以用一個 2B 模型達到且2B模型可以在端側流暢運行,那就沒必要去用笨重的13B 模型。從可持續(xù)發(fā)展、實際落地的角度講,端側大模型的潛力沒有被完全釋放,因此 MiniCPM 呈現的效果極有可能就是未來方向。
面壁未來會在端側有較多動作,團隊已經在嘗試用 iPhone 15 Pro 去跑 僅有1.2B參數的 MiniCPM-1.2B模型,一秒能吐 25 個 token,即人的語速的15~25倍,未來在端側就能完成的任務就能與云側解耦,這可以極大降低成本。
韓旭預測,端側大模型在手機上跑出 GPT 3.5 的效果是一件可預期的事情,隨著模型能力與芯片性能迭代的雙向奔赴,最快可能一年左右就能實現。兩年左右,也可以把 GPT-4 放到端側。
MiniCPM 之后,面壁已經將 Scaling prediction 預測百億甚至千億大模型的計劃提上日程,并將技術報告的細節(jié)開源。
雖然這套方法目前還沒有十分完善,即使是 OpenAI 的技術報告也只公布了其應用 Scaling Prediction 在一個任務上的預測結果。原因可能是出于技術保密,也可能是因為許多任務還無法預測,面壁也一樣。
胡聲鼎告訴 AI 科技評論,目前面壁的 Scaling Law 路線只能預測一部分以生成為主、推理需求沒那么高的任務;由于下游任務的一些性能有時是憑空“涌現”的,波動大、不如 Loss 穩(wěn)定,所以面壁的預測準確率也只有 95% 左右?,F在,面壁的團隊還在不斷改進。
由于 OpenAI 沒有公布自己的預測系數與參數量等技術細節(jié),所以目前面壁團隊無法將自己的實驗結果與 OpenAI 的 Scaling Law 曲線進行對比。但對面壁來說,追趕 OpenAI 已經沒有那么重要,他們初步的實驗證明,在提升基座模型的訓練效率上,Scaling Prediction 能成為其實現高效大模型的手段。
換言之,面壁每在小模型上前進一步,就意味著它離通用大模型更近一步、離 AGI 更近一步。
三、辯證思考 AGI
大模型出圈一年左右,國內外各家大模型團隊都在競相發(fā)布新產品、“秀肌肉”。作為最早入局大模型的中國團隊之一,盡管 2023 年 8 月就已發(fā)布稠密型千億大模型,但無論是資本端還是用戶端,面壁的存在感并不高,甚至被外界認為“融資與發(fā)展有點慢”。
但據 AI 科技評論與面壁團隊核心成員的交流,面壁內部認為,他們在過去的 2023 年不僅不慢,而且已經非?!翱臁?。
在過去的一年,他們解決了很多問題,如:成功探索 Scaling Law,把整個沙盒實驗機制給建立起來;從 0 到 1 訓練了多模態(tài)大模型;文本能力達到了 GPT-3.5 的水平;把模型訓練迭代的流程跑通,找到了正確的方向。
韓旭形容,面壁團隊在技術上更喜歡“打先手”,一直在追求前沿的、引領性的方法。面壁的核心團隊從在清華大學自然語言處理實驗室(THUNLP)探索大模型開始,就探索過許多開創(chuàng)性的工作,如:早在2021年就開始將大模型與底層系統(tǒng)優(yōu)化的技術結合,探索稀疏激活與 MoE 模型架構;早在2022 年就開始基于 CPM 大模型探索如今火爆的 AI Agent,其代碼生成助手 ChatDev 被吳恩達多次公開引用……
曾國洋也告訴 AI 科技評論,追平技術差距不能著急,因為模型研發(fā)是一件需要長期投入的事。接下來,達到 GPT-4 只是一個參考,內部也認為跟隨 OpenAI 并不一定最正確?!该姹谟凶约旱南敕?,如果要想實現 AGI,要有自己的路線?!?/p>
面向未來,面壁的布局是更大的。
一位核心團隊人員透露,雖然現在 Scaling Prediction 很重要、也很 work,但并不會把技術路線局限于此,更不會把某一問題當做 everything。即使是按照 OpenAI 的規(guī)劃,5 年要實現 Super Intelligence(超級智能),有太多關鍵問題要解決,而 Scaling Prediction 只是諸多要解決的關鍵問題之一。
還有一些關鍵問題,比如當大模型在某個任務上已經超越人類,是否有辦法能讓它繼續(xù)提升,即 OpenAI 提的 Super Alignment;也包括長文本 Transformer 是否仍是下一代的架構等問題。
韓旭更具體地說到,今年團隊的第一個目標就是把 GPT-3.5 塞到PC這些計算性能相對較好的端側設備上,然后到年底掏出一個具備 GPT-4 能力的大號模型,這是非常明確的。未來兩年讓模型生出“眼睛”、“手臂”,形成智能體社群,這些都是目前在發(fā)力的技術方向。
很多人認為,面壁做 MiniCPM 的小模型是在妥協。「但其實不是,只是想通過小鋼炮證明我們有絕對的實力用小幾倍的參數量、成本做到和其他家大參數量模型相同的結果。」
同為成立一年左右的時間,其他大模型公司融資 5 億跟面壁融資 5000 萬達到的效果不相上下,因為經過科學的 Scaling Law ,面壁訓練的成本只需要 1/10。如果將資源拉到同一基準線上,面壁反而是在大模型技術上跑得靠前的那個。
漫漫 AGI 之路,面壁并不慢。相反,它每一步都走得很穩(wěn),長跑的優(yōu)勢才初步顯現。
本文作者長期關注大模型、 AIGC 落地應用、數字人領域,歡迎添加微信:s1060788086,交流認知,互通有無。雷峰網雷峰網雷峰網(公眾號:雷峰網)
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。