阿里 AI 實(shí)力獲斯坦福權(quán)威報(bào)告蓋章！通義千問貢獻(xiàn)排名全球第三、中國第一

本文作者：洪雨欣

2025-04-11 16:26

導(dǎo)語：中美 AI 競(jìng)爭(zhēng)差距縮小，阿里 Qwen 成最大推手之一。

近日，斯坦福大學(xué)人工智能研究所發(fā)布了最新一期《2025年人工智能指數(shù)報(bào)告》。研究報(bào)告顯示，在2024年度全球重要大模型中，中國貢獻(xiàn)15項(xiàng)。從具體機(jī)構(gòu)分布來看，谷歌與OpenAI各占7席并列榜首，阿里巴巴以6個(gè)入選模型緊隨其后，排名第三。

這份連續(xù)發(fā)布八年的年度報(bào)告由斯坦福人工智能實(shí)驗(yàn)室主任李飛飛教授領(lǐng)銜編制，自2017年首度發(fā)布以來，其多維度的評(píng)估框架和跨年度的數(shù)據(jù)追蹤，已成為全球?qū)W術(shù)界和產(chǎn)業(yè)界觀察AI技術(shù)演進(jìn)的重要參照。

2025年的斯坦福報(bào)告指出，中國和美國是全球AI最具影響力的兩大國家，且中美模型的性能差距顯著縮小，性能表現(xiàn)由2023年的17.5%驟降至0.3%，差距接近抹平。

而阿里作為入選重要大模型最多的中國科技公司，其入選的6款模型分別為：Qwen-72B、Qwen1.5-72B、Qwen2-72B、Qwen2.5-72B、Qwen2.5-32B、QwQ-32B，是中國 AI 力量在全球影響力崛起的最大推手。

至今，阿里通義實(shí)驗(yàn)室已開源200多款模型。目前千問在全世界的衍生模型數(shù)破10萬，超越美國Llama成為世界第一開源大模型。

中美差距縮小，阿里通義千問功不可沒

美國歷來是人工智能研究和模型開發(fā)的主導(dǎo)。然而，最近的證據(jù)表明，中國模型的性能正在逐步逼近美國。

2024年1月，在LMSYS聊天機(jī)器人競(jìng)技場(chǎng)上，美國頂級(jí)模型的表現(xiàn)優(yōu)于中國最佳模型9.26%。到了2025年2月，這一差距縮小至僅1.70%。

2023年底，美國領(lǐng)先模型的表現(xiàn)顯著優(yōu)于中國同類模型。在MMLU、MMMU、MATH和HumanEval等基準(zhǔn)測(cè)試中，中美性能差距分別為17.5、13.5、24.3和31.6個(gè)百分點(diǎn)。2024年底，這些差異顯著縮小至僅0.3、8.1、1.6和3.7個(gè)百分點(diǎn)。

這一重要轉(zhuǎn)變的背后是阿里和DeepSeek的持續(xù)努力和爆發(fā)。2024年5月24日，阿里巴巴發(fā)布開源Qwen2.5，性能超越Llama 405B。2025年1月20日，DeepSeek發(fā)布DeepSeek-R1，同步開源模型權(quán)重。前有阿里開荒拓土，后有DeepSeek持續(xù)發(fā)力。如今，阿里和DeepSeek已經(jīng)成為了中國AI在世界舞臺(tái)中激烈角逐的兩股領(lǐng)先力量。

根據(jù)斯坦福的報(bào)告，阿里是唯一進(jìn)入全球大模型貢獻(xiàn)前三的中國公司。統(tǒng)計(jì)數(shù)據(jù)顯示，在備受關(guān)注的全球重大模型榜單中，谷歌與OpenAI分別上榜7個(gè)，并列第一。阿里則以6個(gè)上榜模型位居全球第三、中國第一。在業(yè)內(nèi)頂級(jí)專家評(píng)選出的32項(xiàng)“2024年AI領(lǐng)域重要發(fā)布”中，阿里Qwen2、Qwen2.5及DeepSeek-V3三大發(fā)布上榜。

報(bào)告顯示，Qwen2.5-72B的訓(xùn)練數(shù)據(jù)量要略高于Llama-405B和DeepSeek-V3，成為截至2024年訓(xùn)練數(shù)據(jù)量最大的模型。Qwen2.5全系列模型訓(xùn)練數(shù)據(jù)量為18 萬億 tokens，而Llama-405B僅僅只有15 萬億tokens的數(shù)據(jù)量。這意味著Qwen2.5擁有更多的知識(shí)、更強(qiáng)的編程和數(shù)學(xué)能力。

報(bào)告中對(duì)比了中美兩國知名機(jī)器學(xué)習(xí)模型的訓(xùn)練算力，揭示出一個(gè)關(guān)鍵趨勢(shì)：美國頂級(jí)AI模型的算力需求普遍遠(yuǎn)超中國同類產(chǎn)品。這說明，在實(shí)現(xiàn)頂尖性能的同時(shí)，中國模型所需計(jì)算資源顯著低于多數(shù)主流大語言模型。下圖顯示，Qwen2.5和DeepSeek-V3的訓(xùn)練算力低于10B，而以Claude 3.5 Sonnet和Grok-2為代表的頂尖模型，算力需求遠(yuǎn)超于此。

除此之外，閉源與開源LLM之間顯著的性能差距也進(jìn)一步縮小。2024年1月初，領(lǐng)先的閉源模型性能超出頂級(jí)開源模型8.0%。而截至2025年2月，這一差距已縮小至1.7%。2024年，Qwen系列模型已超越Llama，成為當(dāng)前全球最大的開源模型。阿里和DeepSeek作為行業(yè)領(lǐng)頭羊，有望繼續(xù)強(qiáng)勢(shì)扭轉(zhuǎn)開源落后的局面。

在對(duì)AI的投入決心方面，阿里在中國是最激進(jìn)的。就在今年年初，阿里CEO吳泳銘宣布未來三年，阿里預(yù)計(jì)在AI和云計(jì)算領(lǐng)域投入3800億元人民幣，加速云和AI硬件基礎(chǔ)設(shè)施建設(shè)、提升AI基礎(chǔ)模型的研發(fā)、推動(dòng)AI應(yīng)用的轉(zhuǎn)型升級(jí)。

阿里 AI，當(dāng)之無愧

事實(shí)上，2025 年斯坦福 AI 指數(shù)報(bào)告中阿里大模型的亮眼成績(jī)并非橫空出世，而是積步千里。

早在ChatGPT之前，阿里就開啟了大模型的研究探索。

2023年4月，“通義千問”大模型正式發(fā)布，之后以平均每?jī)蓚€(gè)月的速度迭代一次。同年8月Qwen-7B宣布開源，阿里首次加入自研大模型開源行列。

2024，是通義千問爆發(fā)的一年。阿里分別在5月、6月、9月、12月推出開源模型Qwen2.5、Qwen2-72B、Qwen2.5-72B、QVQ-72B-Preview。

今年2月，視覺生成基座模型通義萬相（Wan）開源，在 VBench中以總分86.22%的成績(jī)穩(wěn)居榜首。3月，首個(gè)端到端全模態(tài)大模型Qwen2.5-Omni-7B發(fā)布，并于4月登頂Hugging Face開源大模型榜單。

具備強(qiáng)大的、不斷迭代的基礎(chǔ)模型后，阿里不是“閉關(guān)鎖國”，而是從 2022 年開始就采取開源措施，將自家的基礎(chǔ)模型開放給 AI 社區(qū)，繼而構(gòu)建了強(qiáng)大的開源生態(tài)。

最新數(shù)據(jù)顯示，通義已接入29萬家企業(yè)，包括90%互聯(lián)網(wǎng)公司，90%上市商業(yè)銀行，90%汽車品牌等。

Qwen開源模型在國內(nèi)備受青睞，Manus通過Qwen在國產(chǎn)模型和算力平臺(tái)上實(shí)現(xiàn)全部功能，迅速走紅于各大社交平臺(tái)。DeepSeek使用R1蒸餾出6個(gè)開源模型，其中有4個(gè)來自Qwen。

目前，海內(nèi)外開源社區(qū)中千問Qwen的衍生模型數(shù)量已突破10萬，穩(wěn)居世界最大AI大模型族群。根據(jù)Huggingface2025年2月10日最新的全球開源大模型榜單，排名前十的開源大模型全部是基于通義千問Qwen開源模型二次開發(fā)的衍生模型。

甚至李飛飛等斯坦福大學(xué)研究人員也基于阿里通義千問Qwen2.5-32B-Instruct開源模型為底座，僅用不到50美元，便打造出了性能卓越比肩OpenAI的O1和DeepSeek的R1等尖端推理模型的s1-32B模型。

從2023年至今，阿里通義團(tuán)隊(duì)已開源200多款模型，囊括文本生成、語音理解、文生圖及視頻模型等全模態(tài)模型，覆蓋全尺寸參數(shù)，支持29種語言。

通義千問促進(jìn)中國大模型生態(tài)繁榮的背后，是阿里云打下的算力基礎(chǔ)。2023年7月7日，阿里云宣布，將把促進(jìn)中國大模型生態(tài)的繁榮作為首要目標(biāo)，向大模型創(chuàng)業(yè)公司提供全方位的服務(wù)，包括最強(qiáng)大的智能算力和開發(fā)工具，并在資金和商業(yè)化探索方面提供充分支持。

2022年，阿里云在業(yè)界首提MaaS（Model as a Service，模型即服務(wù)）理念，提出了一種全新的、以AI模型為核心的開發(fā)范式。阿里云據(jù)此搭建了一套以AI模型為核心的云計(jì)算技術(shù)和服務(wù)架構(gòu)，并將這套能力將全部向大模型初創(chuàng)企業(yè)和開發(fā)者開放，提供包括模型訓(xùn)練、推理、部署、精調(diào)、測(cè)評(píng)、產(chǎn)品化落地等在內(nèi)的全方位服務(wù)。

截至目前，中國眾多頭部主流大模型都已通過阿里云對(duì)外提供API服務(wù)，包括通義系列、Baichuan系列、智譜AI ChatGLM系列等。百川智能創(chuàng)始人兼CEO王小川也曾表示，“百川成立僅半年便發(fā)布了7款大模型，快速迭代背后離不開云計(jì)算的支持?！?/p>

一些科研機(jī)構(gòu)和創(chuàng)業(yè)公司還基于千問開發(fā)了自己的模型和產(chǎn)品。中國科學(xué)院國家天文臺(tái)人工智能工作組基于Qwen開源模型發(fā)布了新一代天文大模型“星語3.0”。中國科學(xué)院地球化學(xué)研究所與阿里云基于Qwen開發(fā)了國際首個(gè)“月球科學(xué)多模態(tài)專業(yè)大模型”。千問QwQ-32B也成為AI for Science科研領(lǐng)域最受歡迎的大模型之一，已服務(wù)300多家科研院所和高校。

2025 年，大模型技術(shù)圈依然熱鬧非凡。繼 DeepSeek席卷全球后，AI Agent 又開啟新的大模型產(chǎn)品形態(tài)競(jìng)爭(zhēng)。AI 智能體的進(jìn)一步發(fā)展正在肉眼可見地加深模型應(yīng)用與基礎(chǔ)模型的關(guān)聯(lián)，同時(shí)加大推理側(cè)的需求增長(zhǎng)。而阿里同時(shí)坐擁基礎(chǔ)模型與云平臺(tái)基礎(chǔ)設(shè)施的兩大“護(hù)法”，在新一輪的 AGI 競(jìng)爭(zhēng)中仍有極大優(yōu)勢(shì)，拭目以待。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

洪雨欣

編輯

發(fā)私信

當(dāng)月熱門文章

阿里 AI 實(shí)力獲斯坦福權(quán)威報(bào)告蓋章！通義千問貢獻(xiàn)排名全球第三、中國第一

阿里 AI 實(shí)力獲斯坦福權(quán)威報(bào)告蓋章！通義千問貢獻(xiàn)排名全球第三、中國第一