丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給王悅
發(fā)送

0

被低估的面壁:打造出不輸 OpenAI 的 Scaling Law 曲線

本文作者: 王悅 2024-04-16 14:28
導(dǎo)語:領(lǐng)先 Mistral,對標 Mistral,超越 Mistral。


大約 1 個月前,馬斯克所創(chuàng)辦的 xAI 團隊宣布開源 Grok-1——一個參數(shù)量為 3140 億的 MoE 大模型。從參數(shù)量來看,Grok-1 超越了 70B 的 LLaMA 2,是當前開源模型中最大的一個,被調(diào)侃為「龐然大物」。

然而,有研究人員測試卻發(fā)現(xiàn),參數(shù)規(guī)模量如此巨大的 Grok-1 ,效果竟然只與 Mistral AI 的 8x7B MoE 模型相當。也因此,業(yè)內(nèi)人士評價,「Grok-1 在這么大的參數(shù)量規(guī)模上只實現(xiàn)了這么小的效果,實際是失敗的?!?/p>

在大模型中,參數(shù)量大、不等于模型性能好。早在 2021 年 6 月,面壁智能初始團隊就發(fā)布了千億 MoE 大模型 CPM-2 ,是最早關(guān)注到這一問題的 AI 團隊之一。

面壁智能 CTO 曾國洋告訴 AI 科技評論,他們從 2020 年 GPT-3 出來后開始訓(xùn)練大模型,也是走過一些彎路后才逐漸認識到,“提升模型效果是大模型訓(xùn)練的根本目標,但這并不意味著一定要通過擴大參數(shù)量規(guī)模和燃燒高昂的算力成本來實現(xiàn)?!?/p>

相反,“讓每一個參數(shù)發(fā)揮最大的作用”,在同等參數(shù)量上實現(xiàn)更好的性能,才是解決大模型“高效”訓(xùn)練的核心。這一塊也還有很大的探索空間,值得研究人員不斷挖掘。

2024 年 2 月,面壁發(fā)布 MiniCPM 2B,在更小參數(shù)量的基礎(chǔ)上實現(xiàn)可以媲美 Mistral-7B 的性能,初步驗證了其“低參數(shù)、高性能”的方法論。據(jù)了解,面壁的千億大模型訓(xùn)練成本也由此大幅下降,這也是面壁自天使輪融資、拿了知乎數(shù)千萬后仍能擴大團隊規(guī)模并不斷迭代千億模型的根本原因。

在 MiniCPM 2B 基礎(chǔ)上,2024 年 4 月 11 日,面壁又推出了新一代端側(cè)旗艦大模型系列:顯著增強OCR能力、甚至部分能力比肩Gemini-Pro的2.8B多模態(tài)模型MiniCPM-V 2.0;僅1.2B,卻強過llama2-13B、推理速度達到人類語速近25倍的 MiniCPM-1.2B 模型;最小的 128K 長文本模型MiniCPM-2B-128K ;還有性能增強的MoE架構(gòu)模型。

了解 MiniCPM 2B 詳情信息可點擊:https://github.com/OpenBMB/MiniCPM

更需要格外注意的是:面壁訓(xùn)練小模型,并不單單是為了“訓(xùn)練小模型”、放棄角逐 AGI;恰恰相反,他們訓(xùn)練 MiniCPM 等小模型,就是為了訓(xùn)練能實現(xiàn) AGI 的通用基座大模型?;?Scaling Law 的科學(xué)方法論,通過小模型驗證大模型的訓(xùn)練投入產(chǎn)出比,是面壁在 2023 年低調(diào)研究一年所探索出的一條獨特路線。

也是由于這一獨特路線,過去一年面壁在融資市場上并不“著急”。在已公開披露的天使輪消息中,面壁智能只拿了知乎數(shù)千萬元,但在 2023 年,面壁不僅將團隊從十人規(guī)模拓展到百人規(guī)模,而且還在 8 月發(fā)布了稠密(區(qū)分于稀疏)的千億參數(shù)大模型。

近日,面壁智能也完成了新一輪數(shù)億元融資,由春華創(chuàng)投、華為哈勃領(lǐng)投,北京市人工智能產(chǎn)業(yè)投資基金等跟投,知乎作為戰(zhàn)略股東持續(xù)跟投支持。

按照這樣的“燒錢”速度估算,假設(shè)面壁的千億基座模型訓(xùn)練成本只有其他大模型的 1/10,面壁融資 5000 萬實際相當于其他在訓(xùn)練上較為粗放的大模型團隊融資 5 個億。也就是說,在同等量級的金錢、算力與人才資源下,面壁能比其他團隊走得更遠。

面壁智能被低估了。


一、面壁的第一性原理:「高效」

2024 年 1 月 ICLR 會議論文結(jié)果公布,面壁智能團隊的論文“Predicting Emergent Abilities with Infinite Resolution Evaluation”被接收,引起了海內(nèi)外多個關(guān)注“Scaling Law”的團隊討論,包括 OpenAI。

因為這篇論文是除了 OpenAI 第一個實現(xiàn)了用 Scaling Prediction 在下游任務(wù)上做預(yù)測的工作。

論文鏈接:https://arxiv.org/pdf/2310.03262.pdf

Scaling Prediction 多次出現(xiàn)在 OpenAI 2023 年 3 月發(fā)布的 GPT-4 技術(shù)報告中。當時,這個技術(shù)話題還鮮少為人關(guān)注,由于微軟也同步強調(diào)其支撐 GPT-4 訓(xùn)練的云基礎(chǔ)設(shè)施,大家的討論更多被轉(zhuǎn)移到 OpenAI 與微軟云的捆綁、大模型離不開大算力等話題上。

但面壁團隊關(guān)注的卻是 GPT-4 的兩個創(chuàng)新點:一是 GPT-4 的輸入文本達到了 32k 的長度,而當時國內(nèi)的大模型能處理的文本長度只有 512,之后“長文本”也成為國內(nèi)外大模型研究的重點對象;二是 Scaling Law 與 Scaling Prediction,即 OpenAI 淺淺提到了 GPT-4 可以預(yù)測大模型的能力,但沒有公布預(yù)測曲線。對于第二點,面壁團隊尤其震撼。

在此之前,面壁研究大模型的第一性原理就是“高效訓(xùn)練”。

雖然面壁成立于 2022 年 8 月,但在此之前,面壁團隊作為北京智源人工智能研究院“悟道”項目的重要組成成員,從 2020 年就開始訓(xùn)練語言大模型。在研究“文源”時,面壁團隊就是在資源受限的條件下展開一系列從 0 到 1 的探索,因此很早使用了分布式加速、參數(shù)微調(diào)等方法來降低模型訓(xùn)練的成本。2022 年,面壁團隊在參數(shù)高效微調(diào)的工作還發(fā)表在 Nature 子刊。

論文鏈接:https://www.nature.com/articles/s42256-023-00626-4

也是由于面壁在高效訓(xùn)練上開發(fā)了許多好用的工具,面壁一度被認為是一家做“大模型 Infra”的公司。但實際上,高效訓(xùn)練工具的開發(fā)也是為了大模型訓(xùn)練所服務(wù);面壁也是國內(nèi)極少數(shù)兼具大模型算法與 infra 能力的團隊。換言之,從做大模型的第一天起,面壁就把「高效」刻在了基因里。

在 Scaling Prediction 出來后,面壁團隊就認為這項技術(shù)“非同尋常”,因為如果 Scaling Prediction 能夠在一個大模型還未訓(xùn)練出來時、就能預(yù)測它的性能大約在什么水平,那么研究人員就可以先通過小模型做實驗、調(diào)參數(shù),如果失敗就不斷嘗試、如果成功就按照相同的數(shù)據(jù)配比、參數(shù)調(diào)整等方法訓(xùn)練一個大模型,那么訓(xùn)練時間與訓(xùn)練成本都會大幅縮減。這很符合面壁團隊追求“高效”的第一性原理。

所以,從 2023 年開始,面壁團隊開始探索高效的 Scaling Law、用小十倍參數(shù)模型預(yù)測大十倍參數(shù)模型的性能。

此外,圍繞“高效訓(xùn)練”,面壁不僅僅在模型的訓(xùn)練層發(fā)力,在底層計算和數(shù)據(jù)層也有深入思考,全面系統(tǒng)地推進大模型上下游工程。在國內(nèi)的諸多大模型團隊中,面壁同時從算力、數(shù)據(jù)與算法切入的做法也不多見,但卻符合大模型作為“系統(tǒng)工程”的本質(zhì)要求。

面壁智能團隊的核心創(chuàng)始成員認為,從人工智能和社會發(fā)展的關(guān)系來看,如果大模型作為實現(xiàn) AGI 的關(guān)鍵路徑,但成本卻無比高昂,那么即使實現(xiàn) AGI,但AGI 比人還貴、那也沒意義?!改P偷膮?shù)不可能無休止地堆下去,依賴顯卡的做法也不能無限重復(fù),尤其在當前計算資源匱乏的情況下,思考如何可持續(xù)訓(xùn)練大模型成為關(guān)鍵?!?/p>

「我們追求的是,在同樣的時間、同等參數(shù)量的條件下,實現(xiàn)更優(yōu)的 Scaling Law。當模型的效率優(yōu)化到一定程度的時候,如果要繼續(xù)精進下去,就需要數(shù)據(jù)、算力與算法多者結(jié)合?!乖鴩蟾嬖V AI 科技評論。

以數(shù)據(jù)工程為例。在悟道“文源”時,面壁成員就發(fā)現(xiàn),數(shù)據(jù)的清洗是一個非常重要的環(huán)節(jié)。比如,最開始他們收集了幾個 T 的數(shù)據(jù),他們將數(shù)據(jù)清洗到只剩 200G 后,訓(xùn)練出來的模型效果反而比幾個 T 的時候還要優(yōu)秀。2023 年,盡管市場上出現(xiàn)了“百模大戰(zhàn)”,面壁團隊也沒有忽視數(shù)據(jù)這一基礎(chǔ)層的重要性。

據(jù)面壁首席研究員韓旭介紹,數(shù)據(jù)工程是一項非常復(fù)雜且需要大量體力勞動的事情。

「處理數(shù)據(jù)的整個過程,沒有很多技術(shù)性的難度,而是“血與淚”的積累,因為數(shù)據(jù)量極大,動輒幾十個P,根本無法人工處理,只能從海量數(shù)據(jù)里不斷抽樣,根據(jù)樣本寫出那種非常聰明的代碼去處理,然后批量化地一遍又一遍地重復(fù)這個過程?!鬼n旭告訴 AI 科技評論。最后,他們想了辦法,讓大模型像人一樣去觀察數(shù)據(jù)、寫數(shù)據(jù)、清洗代碼,近日也發(fā)表了論文,但這也只是面壁在數(shù)據(jù)工程上投入的“冰山一角”。

目前,面壁所發(fā)表的Ultra系列對齊數(shù)據(jù)集(UltraChat、UltraFeedback等)在國際上也廣受歡迎,全球有接近 200 個大模型都在用面壁的數(shù)據(jù)集做對齊。

在算力端,面壁團隊也很早開始將大模型與國產(chǎn)芯片做適配,自研搭建了可以在大部分主流國產(chǎn)芯片上運行大模型的框架,不再受限于英偉達的芯片限制。在國產(chǎn)化適配上,結(jié)合自研的推理工具,面壁可以做到“量化不掉點”,進一步降低大模型成本。

除了算力和數(shù)據(jù),曾國洋還透露,面壁大模型的高效訓(xùn)練還體現(xiàn)在模型超參選擇、架構(gòu)選擇上,這些都已經(jīng)在 MiniCPM 的結(jié)果上得到了很好的驗證。

回到大模型的算法訓(xùn)練,實際上 GPT-4 的技術(shù)報告并沒有披露太多關(guān)于 Scaling Law 的要點,面壁在 2023 年從“高效訓(xùn)練”角度出發(fā)探索 Scaling Law,也是從頭開始開展研究。但被 ICLR 2024 接收的論文證明了他們通過小模型預(yù)測大模型性能的猜想得到了學(xué)術(shù)界與業(yè)界的認可。


二、Scaling Law 的點睛之筆

現(xiàn)任面壁 CEO 的李大海曾向身邊人回憶過他加入面壁前的“小調(diào)研”。2023 年 ChatGPT 火爆之后,所有人都在談?wù)?AGI,李大海于是跟面壁所有的核心成員都聊了一遍,為的是確認一件事:這家公司是不是在追求 AGI。聊完后,他發(fā)現(xiàn)這是每個人的信仰,爾后才果斷加入。

從計算機的角度來看,AI 發(fā)展起來的目標就是為了讓計算機更智能,將人從部分機械的勞動中解脫出來。因此,“解放人類”不僅要求 AI 模型的智能水平足夠高,還要更高效。而面壁研究大模型的重要出發(fā)點,與李大海的思考不謀而合。

面壁發(fā)布 MiniCPM 后,被外界評價為“對端側(cè)大模型的一大貢獻”,而李大海則認為,MiniCPM 恰恰體現(xiàn)了團隊對科學(xué)的 Scaling Law 的理解。雖然 MiniCPM 的模型參數(shù)只有 2.4B,卻能達到參數(shù)規(guī)模為 13B 的 LLaMA-2 的水平,與谷歌的 Gemma 7B 相當,大幅超過 Gemma 2B。

「如果 2B 模型的性能比 7B 的要好,那么以此類推,在同一套訓(xùn)練方法論下,參數(shù)規(guī)模才 7B、70B 的模型也可能會比 100B 更好。再結(jié)合 MoE 方法,在特定任務(wù)上參數(shù)量比 GPT-4 少的模型或許也能逼近 GPT-4 的水平?!估畲蠛1硎?。

2023 年,面壁一直在探索如何采用更為科學(xué)化的方法去做模型預(yù)測。

基于高效 Scaling Law 的技術(shù)路線,面壁有兩條產(chǎn)品技術(shù)線:一條是基座大模型,另一條是給大模型做端側(cè)版本。如此一來,一方面可以提升大模型的效率,讓每個參數(shù)發(fā)揮更好的效果;另一方面也能在與應(yīng)用場景相匹配的成本下做出最好的模型。

「這兩條產(chǎn)品線,其實是一條路,就是面壁通往 AGI 的道路?!乖鴩笳f道。

以飛機的發(fā)展舉例。萊特兄弟打造出了飛機的范式,但早期的飛機并不能承載太多的乘客,直到空氣動力學(xué)等基礎(chǔ)理論被廣泛發(fā)展后,人們基于空氣動力學(xué)才最終設(shè)計出能耗更低、容納乘客數(shù)量更多、安全系數(shù)更高的飛機。在面壁看來,大模型也是如此。

OpenAI 的 GPT-3 開創(chuàng)了千億大模型的范式,但從“大模型普惠”的終極目標來看,過于強調(diào)“大力出奇跡”的 GPT 系列不一定是最優(yōu)解。大模型的技術(shù)普惠要找到自己的「空氣動力學(xué)」,而 Scaling Prediction 提供了一種可能。這也側(cè)面表明 OpenAI 在自我優(yōu)化。

面壁團隊胡聲鼎告訴 AI 科技評論,在“Predicting Emergent Abilities with Infinite Resolution Evaluation”一文中,他們初步驗證了通過小模型預(yù)測大模型性能的可行性。這是他們探索 Scaling Prediction 征程中的一個小里程碑,而非終點。

在這個工作中,胡聲鼎在參數(shù)量規(guī)模為 0.009B 到 0.03B 的模型上做訓(xùn)練,然后將訓(xùn)練的模型外插到 2.4B 的模型上預(yù)測性能,通過觀察 0.009B 到 0.03B 在特定任務(wù)上的表現(xiàn),來預(yù)測 2.4B 模型在同類任務(wù)上的泛化情況。最后,他們再訓(xùn)練一個 2.4B 的模型,發(fā)現(xiàn)該模型的性能確實在預(yù)測范圍附近。

用參數(shù)規(guī)模小十倍的模型去預(yù)測大十倍模型的性能的意義是:如果發(fā)現(xiàn)模型的性能不夠理想,就可以在小模型上做實驗、調(diào)參數(shù),然后重新畫一條線,降低訓(xùn)練成本——如同“數(shù)字孿生”一般,訓(xùn)練了一個虛擬的大模型,無需等到實際的大模型出來,就已經(jīng)能知道它的性能好不好。這個訓(xùn)練的方法有一套體系規(guī)范的數(shù)據(jù)配比、參數(shù)調(diào)整等配置,形成了一套科學(xué)化的理論。

基于此,面壁團隊核心成員表示,在目前這套方法論的指導(dǎo)下,未來他們有信心訓(xùn)練出一個性能對標 GPT-4 甚至更強的模型,找到更陡峭的模型能力成長線,“而這才是 AGI 的可持續(xù)發(fā)展方案”。

這個方法也能解決當前市場上大多數(shù)模型即使提升參數(shù)規(guī)模、算力資源也無法增長模型性能的困局。

而 MiniCPM 則是科學(xué)的 Scaling Law 的啟示與產(chǎn)物。這也符合大模型還在變化演進中、AI 創(chuàng)業(yè)公司要一邊孵化產(chǎn)品一邊迭代技術(shù)的現(xiàn)實情況。

一方面,是對 Scaling Prediction 的印證,是在小模型上驗證大模型的技術(shù)極限:2.4B 表明在 scaling 上能找到一個更陡峭的路線去靠近最優(yōu)解,這是一個路徑啟示,能用更小的模型參數(shù)得到更好的模型能力,也就是科學(xué)化的體現(xiàn)。

另一方面,也可以同步孵化端側(cè)產(chǎn)品:

韓旭告訴 AI 科技評論,端側(cè)是一個非常重要且有潛力的市場,如果一個 13B 模型的能力可以用一個 2B 模型達到且2B模型可以在端側(cè)流暢運行,那就沒必要去用笨重的13B 模型。從可持續(xù)發(fā)展、實際落地的角度講,端側(cè)大模型的潛力沒有被完全釋放,因此 MiniCPM 呈現(xiàn)的效果極有可能就是未來方向。

面壁未來會在端側(cè)有較多動作,團隊已經(jīng)在嘗試用 iPhone 15 Pro 去跑 僅有1.2B參數(shù)的 MiniCPM-1.2B模型,一秒能吐 25 個 token,即人的語速的15~25倍,未來在端側(cè)就能完成的任務(wù)就能與云側(cè)解耦,這可以極大降低成本。

韓旭預(yù)測,端側(cè)大模型在手機上跑出 GPT 3.5 的效果是一件可預(yù)期的事情,隨著模型能力與芯片性能迭代的雙向奔赴,最快可能一年左右就能實現(xiàn)。兩年左右,也可以把 GPT-4 放到端側(cè)。

MiniCPM 之后,面壁已經(jīng)將 Scaling prediction 預(yù)測百億甚至千億大模型的計劃提上日程,并將技術(shù)報告的細節(jié)開源。

雖然這套方法目前還沒有十分完善,即使是 OpenAI 的技術(shù)報告也只公布了其應(yīng)用 Scaling Prediction 在一個任務(wù)上的預(yù)測結(jié)果。原因可能是出于技術(shù)保密,也可能是因為許多任務(wù)還無法預(yù)測,面壁也一樣。

胡聲鼎告訴 AI 科技評論,目前面壁的 Scaling Law 路線只能預(yù)測一部分以生成為主、推理需求沒那么高的任務(wù);由于下游任務(wù)的一些性能有時是憑空“涌現(xiàn)”的,波動大、不如 Loss 穩(wěn)定,所以面壁的預(yù)測準確率也只有 95% 左右。現(xiàn)在,面壁的團隊還在不斷改進。

由于 OpenAI 沒有公布自己的預(yù)測系數(shù)與參數(shù)量等技術(shù)細節(jié),所以目前面壁團隊無法將自己的實驗結(jié)果與 OpenAI 的 Scaling Law 曲線進行對比。但對面壁來說,追趕 OpenAI 已經(jīng)沒有那么重要,他們初步的實驗證明,在提升基座模型的訓(xùn)練效率上,Scaling Prediction 能成為其實現(xiàn)高效大模型的手段。

換言之,面壁每在小模型上前進一步,就意味著它離通用大模型更近一步、離 AGI 更近一步。


三、辯證思考 AGI

大模型出圈一年左右,國內(nèi)外各家大模型團隊都在競相發(fā)布新產(chǎn)品、“秀肌肉”。作為最早入局大模型的中國團隊之一,盡管 2023 年 8 月就已發(fā)布稠密型千億大模型,但無論是資本端還是用戶端,面壁的存在感并不高,甚至被外界認為“融資與發(fā)展有點慢”。

但據(jù) AI 科技評論與面壁團隊核心成員的交流,面壁內(nèi)部認為,他們在過去的 2023 年不僅不慢,而且已經(jīng)非?!翱臁?。

在過去的一年,他們解決了很多問題,如:成功探索 Scaling Law,把整個沙盒實驗機制給建立起來;從 0 到 1 訓(xùn)練了多模態(tài)大模型;文本能力達到了 GPT-3.5 的水平;把模型訓(xùn)練迭代的流程跑通,找到了正確的方向。

韓旭形容,面壁團隊在技術(shù)上更喜歡“打先手”,一直在追求前沿的、引領(lǐng)性的方法。面壁的核心團隊從在清華大學(xué)自然語言處理實驗室(THUNLP)探索大模型開始,就探索過許多開創(chuàng)性的工作,如:早在2021年就開始將大模型與底層系統(tǒng)優(yōu)化的技術(shù)結(jié)合,探索稀疏激活與 MoE 模型架構(gòu);早在2022 年就開始基于 CPM 大模型探索如今火爆的 AI Agent,其代碼生成助手 ChatDev 被吳恩達多次公開引用……

曾國洋也告訴 AI 科技評論,追平技術(shù)差距不能著急,因為模型研發(fā)是一件需要長期投入的事。接下來,達到 GPT-4 只是一個參考,內(nèi)部也認為跟隨 OpenAI 并不一定最正確。「面壁有自己的想法,如果要想實現(xiàn) AGI,要有自己的路線?!?/p>

面向未來,面壁的布局是更大的。

一位核心團隊人員透露,雖然現(xiàn)在 Scaling Prediction 很重要、也很 work,但并不會把技術(shù)路線局限于此,更不會把某一問題當做 everything。即使是按照 OpenAI 的規(guī)劃,5 年要實現(xiàn) Super Intelligence(超級智能),有太多關(guān)鍵問題要解決,而 Scaling Prediction 只是諸多要解決的關(guān)鍵問題之一。

還有一些關(guān)鍵問題,比如當大模型在某個任務(wù)上已經(jīng)超越人類,是否有辦法能讓它繼續(xù)提升,即 OpenAI 提的 Super Alignment;也包括長文本 Transformer 是否仍是下一代的架構(gòu)等問題。

韓旭更具體地說到,今年團隊的第一個目標就是把 GPT-3.5 塞到PC這些計算性能相對較好的端側(cè)設(shè)備上,然后到年底掏出一個具備 GPT-4 能力的大號模型,這是非常明確的。未來兩年讓模型生出“眼睛”、“手臂”,形成智能體社群,這些都是目前在發(fā)力的技術(shù)方向。

很多人認為,面壁做 MiniCPM 的小模型是在妥協(xié)?!傅鋵嵅皇?,只是想通過小鋼炮證明我們有絕對的實力用小幾倍的參數(shù)量、成本做到和其他家大參數(shù)量模型相同的結(jié)果。」

同為成立一年左右的時間,其他大模型公司融資 5 億跟面壁融資 5000 萬達到的效果不相上下,因為經(jīng)過科學(xué)的 Scaling Law ,面壁訓(xùn)練的成本只需要 1/10。如果將資源拉到同一基準線上,面壁反而是在大模型技術(shù)上跑得靠前的那個。

漫漫 AGI 之路,面壁并不慢。相反,它每一步都走得很穩(wěn),長跑的優(yōu)勢才初步顯現(xiàn)。

本文作者長期關(guān)注大模型、 AIGC 落地應(yīng)用、數(shù)字人領(lǐng)域,歡迎添加微信:s1060788086,交流認知,互通有無。雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

被低估的面壁:打造出不輸 OpenAI 的 Scaling Law 曲線

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說