丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給徐咪
發(fā)送

0

中國唯一!阿里千問斬獲全球AI頂會最佳論文

本文作者: 徐咪   2025-11-28 17:23
導(dǎo)語:據(jù)悉,目前阿里千問已開源300多款模型,涵蓋全模態(tài)、全尺寸,全球下載量突破7億次,衍生模型超過18萬個,位居全球第一。

11月28日消息,人工智能領(lǐng)域頂級會議NeurIPS 2025公布了論文獎,阿里通義千問團(tuán)隊(duì)最新研究成果從全球2萬多篇投稿論文中脫穎而出,被評為最佳論文,是唯一獲得該獎項(xiàng)的中國團(tuán)隊(duì)。該論文首次在業(yè)內(nèi)揭秘了注意力門控機(jī)制對大模型性能和訓(xùn)練的影響,業(yè)內(nèi)人士普遍認(rèn)為該研究是突破當(dāng)下大模型訓(xùn)練瓶頸的重要一步,將有力推動AI大模型技術(shù)的發(fā)展。

中國唯一!阿里千問斬獲全球AI頂會最佳論文

阿里通義千問研究成果被評為NeurIPS 2025最佳論文

NeurIPS是人工智能領(lǐng)域影響力最大的頂會之一,該會議誕生了Transformer、AlexNet等里程碑式研究成果。今年,谷歌、微軟、OpenAI、阿里巴巴及麻省理工學(xué)院等全球頂尖科技公司和機(jī)構(gòu)共有2萬多篇論文投稿,僅有約25%的論文被接收,而最佳論文僅有4篇,入選概率不及萬分之二,代表了目前全球人工智能領(lǐng)域最有價值和影響力的研究。

2017年,谷歌在NeurIPS發(fā)表的論文首次提出Transformer模型架構(gòu)和?自注意力機(jī)制,這一研究讓AI像人類一樣具備有選擇性地關(guān)注關(guān)鍵信息的能力,是當(dāng)下大模型研究的基礎(chǔ)。盡管現(xiàn)在大模型在很多領(lǐng)域已經(jīng)取得接近甚至超越人類的表現(xiàn),但現(xiàn)有注意力機(jī)制仍存在諸多局限,例如當(dāng)下大模型會因?yàn)檫^度關(guān)注特定信息而導(dǎo)致對其它重要信息的忽略或處理偏差,這些局限性極大地影響了模型性能和訓(xùn)練穩(wěn)定性,為此業(yè)界開始探索對注意力進(jìn)行優(yōu)化的新方案。

門控機(jī)制被認(rèn)為是模型的“智能閥門”,可以幫助模型過濾無效信息并提升模型性能。近年來,AlphaFold2、Forgetting Transformer等學(xué)術(shù)界和工業(yè)界模型開始嘗試將門控和注意力機(jī)制結(jié)合。但業(yè)界尚未破解門控在注意力中發(fā)揮作用的內(nèi)在原因,也缺少大規(guī)模實(shí)踐的經(jīng)驗(yàn)。

此次,通義千問研究團(tuán)隊(duì)通過在1.7B稠密模型(Dense)與15B混合專家模型(MoE)上進(jìn)行了數(shù)十組實(shí)驗(yàn),單組實(shí)驗(yàn)訓(xùn)練最多超過 3.5 萬億 tokens,首次清晰揭秘了門控注意力背后的作用原理,并全面展示使用該方案的最佳方式。

實(shí)驗(yàn)結(jié)果顯示,對各注意力頭的輸出進(jìn)行門控,是提升模型性能最有效的方式。使用該方式,在引入額外1%參數(shù)的情況下,可實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評測2個點(diǎn)的提升。研究還發(fā)現(xiàn),該技術(shù)還能在更大規(guī)模的模型訓(xùn)練上實(shí)現(xiàn)更好的性能。

中國唯一!阿里千問斬獲全球AI頂會最佳論文

使用論文方法,在引入額外1%參數(shù)的情況下,可以實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評測2個點(diǎn)的提升

目前,該研究成果已應(yīng)用于Qwen3-Next模型,并顯著提升模型的性能與魯棒性,相關(guān)技術(shù)方案、實(shí)驗(yàn)?zāi)P图爱a(chǎn)品級模型均已開源。NeurIPS評審委員會指出:“這項(xiàng)工作將被廣泛應(yīng)用,并極大推動AI研究人員對大語言模型中注意力機(jī)制的理解。”

通義千問團(tuán)隊(duì)表示:“對門控注意力機(jī)制的深入理解,不僅為大語言模型架構(gòu)設(shè)計(jì)提供了新思路,也為構(gòu)建更穩(wěn)定、更高效、更可控的大模型奠定了基礎(chǔ)?!睋?jù)悉,目前阿里千問已開源300多款模型,涵蓋全模態(tài)、全尺寸,全球下載量突破7億次,衍生模型超過18萬個,位居全球第一。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說