0
本文作者: 洪雨欣 | 2025-04-11 16:26 |
近日,斯坦福大學(xué)人工智能研究所發(fā)布了最新一期《2025年人工智能指數(shù)報(bào)告》。研究報(bào)告顯示,在2024年度全球重要大模型中,中國貢獻(xiàn)15項(xiàng)。從具體機(jī)構(gòu)分布來看,谷歌與OpenAI各占7席并列榜首,阿里巴巴以6個(gè)入選模型緊隨其后,排名第三。
這份連續(xù)發(fā)布八年的年度報(bào)告由斯坦福人工智能實(shí)驗(yàn)室主任李飛飛教授領(lǐng)銜編制,自2017年首度發(fā)布以來,其多維度的評(píng)估框架和跨年度的數(shù)據(jù)追蹤,已成為全球?qū)W術(shù)界和產(chǎn)業(yè)界觀察AI技術(shù)演進(jìn)的重要參照。
2025年的斯坦福報(bào)告指出,中國和美國是全球AI最具影響力的兩大國家,且中美模型的性能差距顯著縮小,性能表現(xiàn)由2023年的17.5%驟降至0.3%,差距接近抹平。
而阿里作為入選重要大模型最多的中國科技公司,其入選的6款模型分別為:Qwen-72B、Qwen1.5-72B、Qwen2-72B、Qwen2.5-72B、Qwen2.5-32B、QwQ-32B,是中國 AI 力量在全球影響力崛起的最大推手。
至今,阿里通義實(shí)驗(yàn)室已開源200多款模型。目前千問在全世界的衍生模型數(shù)破10萬,超越美國Llama成為世界第一開源大模型。
中美差距縮小,阿里通義千問功不可沒
美國歷來是人工智能研究和模型開發(fā)的主導(dǎo)。然而,最近的證據(jù)表明,中國模型的性能正在逐步逼近美國。
2024年1月,在LMSYS聊天機(jī)器人競(jìng)技場(chǎng)上,美國頂級(jí)模型的表現(xiàn)優(yōu)于中國最佳模型9.26%。到了2025年2月,這一差距縮小至僅1.70%。
2023年底,美國領(lǐng)先模型的表現(xiàn)顯著優(yōu)于中國同類模型。在MMLU、MMMU、MATH和HumanEval等基準(zhǔn)測(cè)試中,中美性能差距分別為17.5、13.5、24.3和31.6個(gè)百分點(diǎn)。2024年底,這些差異顯著縮小至僅0.3、8.1、1.6和3.7個(gè)百分點(diǎn)。
這一重要轉(zhuǎn)變的背后是阿里和DeepSeek的持續(xù)努力和爆發(fā)。2024年5月24日,阿里巴巴發(fā)布開源Qwen2.5,性能超越Llama 405B。2025年1月20日,DeepSeek發(fā)布DeepSeek-R1,同步開源模型權(quán)重。前有阿里開荒拓土,后有DeepSeek持續(xù)發(fā)力。如今,阿里和DeepSeek已經(jīng)成為了中國AI在世界舞臺(tái)中激烈角逐的兩股領(lǐng)先力量。
根據(jù)斯坦福的報(bào)告,阿里是唯一進(jìn)入全球大模型貢獻(xiàn)前三的中國公司。統(tǒng)計(jì)數(shù)據(jù)顯示,在備受關(guān)注的全球重大模型榜單中,谷歌與OpenAI分別上榜7個(gè),并列第一。阿里則以6個(gè)上榜模型位居全球第三、中國第一。在業(yè)內(nèi)頂級(jí)專家評(píng)選出的32項(xiàng)“2024年AI領(lǐng)域重要發(fā)布”中,阿里Qwen2、Qwen2.5及DeepSeek-V3三大發(fā)布上榜。
報(bào)告顯示,Qwen2.5-72B的訓(xùn)練數(shù)據(jù)量要略高于Llama-405B和DeepSeek-V3,成為截至2024年訓(xùn)練數(shù)據(jù)量最大的模型。Qwen2.5全系列模型訓(xùn)練數(shù)據(jù)量為18 萬億 tokens,而Llama-405B僅僅只有15 萬億tokens的數(shù)據(jù)量。這意味著Qwen2.5擁有更多的知識(shí)、更強(qiáng)的編程和數(shù)學(xué)能力。
報(bào)告中對(duì)比了中美兩國知名機(jī)器學(xué)習(xí)模型的訓(xùn)練算力,揭示出一個(gè)關(guān)鍵趨勢(shì):美國頂級(jí)AI模型的算力需求普遍遠(yuǎn)超中國同類產(chǎn)品。這說明,在實(shí)現(xiàn)頂尖性能的同時(shí),中國模型所需計(jì)算資源顯著低于多數(shù)主流大語言模型。下圖顯示,Qwen2.5和DeepSeek-V3的訓(xùn)練算力低于10B,而以Claude 3.5 Sonnet和Grok-2為代表的頂尖模型,算力需求遠(yuǎn)超于此。
除此之外,閉源與開源LLM之間顯著的性能差距也進(jìn)一步縮小。2024年1月初,領(lǐng)先的閉源模型性能超出頂級(jí)開源模型8.0%。而截至2025年2月,這一差距已縮小至1.7%。2024年,Qwen系列模型已超越Llama,成為當(dāng)前全球最大的開源模型。阿里和DeepSeek作為行業(yè)領(lǐng)頭羊,有望繼續(xù)強(qiáng)勢(shì)扭轉(zhuǎn)開源落后的局面。
在對(duì)AI的投入決心方面,阿里在中國是最激進(jìn)的。就在今年年初,阿里CEO吳泳銘宣布未來三年,阿里預(yù)計(jì)在AI和云計(jì)算領(lǐng)域投入3800億元人民幣,加速云和AI硬件基礎(chǔ)設(shè)施建設(shè)、提升AI基礎(chǔ)模型的研發(fā)、推動(dòng)AI應(yīng)用的轉(zhuǎn)型升級(jí)。
阿里 AI,當(dāng)之無愧
事實(shí)上,2025 年斯坦福 AI 指數(shù)報(bào)告中阿里大模型的亮眼成績(jī)并非橫空出世,而是積步千里。
早在ChatGPT之前,阿里就開啟了大模型的研究探索。
2023年4月,“通義千問”大模型正式發(fā)布,之后以平均每?jī)蓚€(gè)月的速度迭代一次。同年8月Qwen-7B宣布開源,阿里首次加入自研大模型開源行列。
2024,是通義千問爆發(fā)的一年。阿里分別在5月、6月、9月、12月推出開源模型Qwen2.5、Qwen2-72B、Qwen2.5-72B、QVQ-72B-Preview。
今年2月,視覺生成基座模型通義萬相(Wan)開源,在 VBench中以總分86.22%的成績(jī)穩(wěn)居榜首。3月,首個(gè)端到端全模態(tài)大模型Qwen2.5-Omni-7B發(fā)布,并于4月登頂Hugging Face開源大模型榜單。
具備強(qiáng)大的、不斷迭代的基礎(chǔ)模型后,阿里不是“閉關(guān)鎖國”,而是從 2022 年開始就采取開源措施,將自家的基礎(chǔ)模型開放給 AI 社區(qū),繼而構(gòu)建了強(qiáng)大的開源生態(tài)。
最新數(shù)據(jù)顯示,通義已接入29萬家企業(yè),包括90%互聯(lián)網(wǎng)公司,90%上市商業(yè)銀行,90%汽車品牌等。
Qwen開源模型在國內(nèi)備受青睞,Manus通過Qwen在國產(chǎn)模型和算力平臺(tái)上實(shí)現(xiàn)全部功能,迅速走紅于各大社交平臺(tái)。DeepSeek使用R1蒸餾出6個(gè)開源模型,其中有4個(gè)來自Qwen。
目前,海內(nèi)外開源社區(qū)中千問Qwen的衍生模型數(shù)量已突破10萬,穩(wěn)居世界最大AI大模型族群。根據(jù)Huggingface2025年2月10日最新的全球開源大模型榜單,排名前十的開源大模型全部是基于通義千問Qwen開源模型二次開發(fā)的衍生模型。
甚至李飛飛等斯坦福大學(xué)研究人員也基于阿里通義千問Qwen2.5-32B-Instruct開源模型為底座,僅用不到50美元,便打造出了性能卓越比肩OpenAI的O1和DeepSeek的R1等尖端推理模型的s1-32B模型。
從2023年至今,阿里通義團(tuán)隊(duì)已開源200多款模型,囊括文本生成、語音理解、文生圖及視頻模型等全模態(tài)模型,覆蓋全尺寸參數(shù),支持29種語言。
通義千問促進(jìn)中國大模型生態(tài)繁榮的背后,是阿里云打下的算力基礎(chǔ)。2023年7月7日,阿里云宣布,將把促進(jìn)中國大模型生態(tài)的繁榮作為首要目標(biāo),向大模型創(chuàng)業(yè)公司提供全方位的服務(wù),包括最強(qiáng)大的智能算力和開發(fā)工具,并在資金和商業(yè)化探索方面提供充分支持。
2022年,阿里云在業(yè)界首提MaaS(Model as a Service,模型即服務(wù))理念,提出了一種全新的、以AI模型為核心的開發(fā)范式。阿里云據(jù)此搭建了一套以AI模型為核心的云計(jì)算技術(shù)和服務(wù)架構(gòu),并將這套能力將全部向大模型初創(chuàng)企業(yè)和開發(fā)者開放,提供包括模型訓(xùn)練、推理、部署、精調(diào)、測(cè)評(píng)、產(chǎn)品化落地等在內(nèi)的全方位服務(wù)。
截至目前,中國眾多頭部主流大模型都已通過阿里云對(duì)外提供API服務(wù),包括通義系列、Baichuan系列、智譜AI ChatGLM系列等。百川智能創(chuàng)始人兼CEO王小川也曾表示,“百川成立僅半年便發(fā)布了7款大模型,快速迭代背后離不開云計(jì)算的支持?!?/p>
一些科研機(jī)構(gòu)和創(chuàng)業(yè)公司還基于 千問開發(fā)了自己的模型和產(chǎn)品。中國科學(xué)院國家天文臺(tái)人工智能工作組基于Qwen開源模型發(fā)布了新一代天文大模型“星語3.0”。中國科學(xué)院地球化學(xué)研究所與阿里云基于Qwen開發(fā)了國際首個(gè)“月球科學(xué)多模態(tài)專業(yè)大模型”。千問QwQ-32B也成為AI for Science科研領(lǐng)域最受歡迎的大模型之一,已服務(wù)300多家科研院所和高校。
2025 年,大模型技術(shù)圈依然熱鬧非凡。繼 DeepSeek席卷全球后,AI Agent 又開啟新的大模型產(chǎn)品形態(tài)競(jìng)爭(zhēng)。AI 智能體的進(jìn)一步發(fā)展正在肉眼可見地加深模型應(yīng)用與基礎(chǔ)模型的關(guān)聯(lián),同時(shí)加大推理側(cè)的需求增長(zhǎng)。而阿里同時(shí)坐擁基礎(chǔ)模型與云平臺(tái)基礎(chǔ)設(shè)施的兩大“護(hù)法”,在新一輪的 AGI 競(jìng)爭(zhēng)中仍有極大優(yōu)勢(shì),拭目以待。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。