丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給朱可軒
發(fā)送

0

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

本文作者: 朱可軒 2024-09-13 11:58
導(dǎo)語(yǔ):元象XVERSE發(fā)布中國(guó)最大MoE開源模型。

元象XVERSE發(fā)布中國(guó)最大MoE開源模型:XVERSE-MoE-A36B,加速AI應(yīng)用低成本部署,將國(guó)產(chǎn)開源提升至國(guó)際領(lǐng)先水平。該模型總參數(shù)255B,激活參數(shù)36B,達(dá)到100B模型性能的「跨級(jí)」躍升,同時(shí)訓(xùn)練時(shí)間減少30%,推理性能提升100%,使每token成本大幅下降。

元象「高性能全家桶」系列全部開源,無條件免費(fèi)商用,讓海量中小企業(yè)、研究者和開發(fā)者能按需選擇。

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜 MoE(Mixture of Experts)是業(yè)界最前沿的混合專家模型架構(gòu) ,將多個(gè)細(xì)分領(lǐng)域的專家模型組合成一個(gè)超級(jí)模型,打破了傳統(tǒng)擴(kuò)展定律(Scaling Law)的局限,可在擴(kuò)大模型規(guī)模時(shí),不顯著增加訓(xùn)練和推理的計(jì)算成本,保持模型性能最大化。出于這個(gè)原因,行業(yè)前沿模型包括谷歌Gemini-1.5、OpenAI的GPT-4 、馬斯克旗下xAI公司的Grok等大模型都使用了 MoE。

在多個(gè)權(quán)威評(píng)測(cè)中,元象MoE效果大幅超越多個(gè)同類模型,包括國(guó)內(nèi)千億MoE模型 Skywork-MoE、傳統(tǒng)MoE霸主Mixtral-8x22B 以及3140億參數(shù)的MoE開源模型Grok-1-A86B等。 

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜 

免費(fèi)下載大模型

Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B

魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

Github:https://github.com/xverse-ai/XVERSE-MoE-A36B

官網(wǎng):chat.xverse.cn

 

落地應(yīng)用好且省 登頂港臺(tái)娛樂應(yīng)用榜


元象此次開源,不僅填補(bǔ)國(guó)內(nèi)空白,也在商業(yè)應(yīng)用上更進(jìn)一步。

元象基于MoE模型自主研發(fā)的AI角色扮演與互動(dòng)網(wǎng)文APP Saylo,通過逼真的AI角色扮演和有趣的開放劇情,火遍港臺(tái),下載量在中國(guó)臺(tái)灣和香港娛樂榜分別位列第一和第三。

MoE訓(xùn)練范式具有「更高性能、更低成本」優(yōu)勢(shì),元象在通用預(yù)訓(xùn)練基礎(chǔ)上,使用海量劇本數(shù)據(jù)「繼續(xù)預(yù)訓(xùn)練」(Continue Pre-training),并與傳統(tǒng)SFT(監(jiān)督微調(diào))或RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))不同,采用了大規(guī)模語(yǔ)料知識(shí)注入,讓模型既保持了強(qiáng)大的通用語(yǔ)言理解能力,又大幅提升「劇本」這一特定應(yīng)用領(lǐng)域的表現(xiàn)。  元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜


高性能「開源標(biāo)桿」

 

元象是國(guó)內(nèi)領(lǐng)先的AI與3D公司,秉持「通用人工智能 AGI」信仰,持續(xù)打造「高性能開源全家桶」,不僅填補(bǔ)國(guó)產(chǎn)開源空白,更將其推向了國(guó)際領(lǐng)先水平。

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

2023年11月,此前國(guó)內(nèi)大部分開源參數(shù)多在7B到13B,而行業(yè)共識(shí)是模型達(dá)到50到60B參數(shù)門檻,大模型才能“智能涌現(xiàn)”,生態(tài)亟需“大”模型時(shí),元象率先開源了XVERSE-65B,是當(dāng)時(shí)中國(guó)最大參數(shù)開源。 

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

2024年1月,元象又開源全球最長(zhǎng)上下文窗口大模型,支持輸入25萬(wàn)漢字,還附手把手訓(xùn)練教程,讓大模型應(yīng)用一舉進(jìn)入“長(zhǎng)文本時(shí)代”。 

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

此次國(guó)內(nèi)最大參數(shù)MoE開源,又是給生態(tài)貢獻(xiàn)了一個(gè)助推低成本AI應(yīng)用利器。

 

引領(lǐng)文娛應(yīng)用

 

借助在AI和3D領(lǐng)域的客戶積累,元象也迅速將大模型推向商用。

2023年11月,元象成為全國(guó)最早一批、廣東省前五獲得《生成式人工智能服務(wù)管理暫行辦法》國(guó)家備案的大模型,具備向全社會(huì)開放的產(chǎn)品能力。 

而在更早的10月,元象與騰訊音樂聯(lián)合推出lyraXVERSE加速大模型,并借助該技術(shù)全面升級(jí)音樂助手“AI小琴”的問答、聊天與創(chuàng)作能力,讓她情商與智商雙高,為用戶提供個(gè)性化、更深入、陪伴感十足的音樂互動(dòng)體驗(yàn)。 

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

元象大模型陸續(xù)與QQ音樂、虎牙直播、全民K歌、騰訊云等深度合作與應(yīng)用探索,為文化、娛樂、旅游、金融領(lǐng)域打造創(chuàng)新領(lǐng)先的用戶體驗(yàn)。  元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜


MoE技術(shù)自研與創(chuàng)新

 

MoE是目前業(yè)界最前沿的模型框架,由于技術(shù)較新,國(guó)內(nèi)開源模型或?qū)W術(shù)研究尚未普及。元象自研MoE的高效訓(xùn)練和推理框架,并持續(xù)推動(dòng)技術(shù)創(chuàng)新。

2024年4月推出的XVERSE-MoE-A4.2B中,元象推動(dòng)MoE專家架構(gòu)革新。與傳統(tǒng)MoE(如Mixtral 8x7B)將每個(gè)專家大小等同于標(biāo)準(zhǔn)FFN不同,元象采用更細(xì)粒度的專家設(shè)計(jì),每個(gè)專家大小僅為標(biāo)準(zhǔn)FFN的四分之一,提高了模型靈活性與性能;還將專家分為共享專家(Shared Expert)和非共享專家(Non-shared Expert)兩類。共享專家在計(jì)算過程中始終保持激活狀態(tài),而非共享專家則根據(jù)需要選擇性激活。這種設(shè)計(jì)有利于將通用知識(shí)壓縮至共享專家參數(shù)中,減少非共享專家參數(shù)間的知識(shí)冗余。 

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

此次推出XVERSE-MoE-A36B,繼續(xù)在MoE效率和效果方面進(jìn)行技術(shù)創(chuàng)新。

(1)效率方面

MoE架構(gòu)與4D拓?fù)湓O(shè)計(jì):MoE架構(gòu)的關(guān)鍵特性是由多個(gè)專家組成。由于專家之間需要大量的信息交換,通信負(fù)擔(dān)極重。為了解決這個(gè)問題,我們采用了4D拓?fù)浼軜?gòu),平衡了通信、顯存和計(jì)算資源的分配。這種設(shè)計(jì)優(yōu)化了計(jì)算節(jié)點(diǎn)之間的通信路徑,提高了整體計(jì)算效率。

專家路由與預(yù)丟棄策略:MoE的另一個(gè)特點(diǎn)是“專家路由機(jī)制”,即需要對(duì)不同的輸入進(jìn)行分配,并丟棄一些超出專家計(jì)算容量的冗余數(shù)據(jù)。為此團(tuán)隊(duì)設(shè)計(jì)一套預(yù)丟棄策略,減少不必要的計(jì)算和傳輸。同時(shí)在計(jì)算流程中實(shí)現(xiàn)了高效的算子融合,進(jìn)一步提升模型的訓(xùn)練性能。

通信與計(jì)算重疊:由于MoE架構(gòu)的專家之間需要大量通信,會(huì)影響整體計(jì)算效率。為此團(tuán)隊(duì)設(shè)計(jì)了“多維度的通信與計(jì)算重疊”機(jī)制,即在進(jìn)行參數(shù)通信的同時(shí),最大比例并行地執(zhí)行計(jì)算任務(wù),從而減少通信等待時(shí)間。

(2)效果方面

專家權(quán)重:MoE 中的專家總數(shù)為 N ,每個(gè) token 會(huì)選擇 topK 個(gè)專家參與后續(xù)的計(jì)算,由于專家容量的限制,每個(gè) token 實(shí)際選擇到的專家數(shù)為 M,M<=K<N。被選擇到的專家計(jì)算完之后,會(huì)通過加權(quán)平均的方式匯總得到每個(gè) token 的計(jì)算結(jié)果。這里專家的權(quán)重如何設(shè)置是一個(gè)問題,我們通過對(duì)比實(shí)驗(yàn)的方式來進(jìn)行選擇。根據(jù)對(duì)比實(shí)驗(yàn)的效果,我們選擇實(shí)驗(yàn)2的設(shè)置進(jìn)行正式實(shí)驗(yàn)。

實(shí)驗(yàn)1:權(quán)重在 topM 范圍內(nèi)歸一化

實(shí)驗(yàn)2:權(quán)重在 topK 范圍內(nèi)歸一化

實(shí)驗(yàn)3:權(quán)重在 topN 范圍內(nèi)歸一化

實(shí)驗(yàn)4:權(quán)重都為 1 

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

對(duì)比實(shí)驗(yàn)結(jié)果

舉例說明,假設(shè)N=8,K=4,M=3(2號(hào)專家上token被丟棄),不同專家權(quán)重的計(jì)算方式所得的權(quán)重如下圖: 

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

數(shù)據(jù)動(dòng)態(tài)切換:元象以往開源的模型,往往在訓(xùn)練前就鎖定了訓(xùn)練數(shù)據(jù)集,并在整個(gè)訓(xùn)練過程中保持不變。這種做法雖然簡(jiǎn)單,但會(huì)受制于初始數(shù)據(jù)的質(zhì)量和覆蓋面。此次MoE模型的訓(xùn)練借鑒了"課程學(xué)習(xí)"理念,在訓(xùn)練過程中實(shí)現(xiàn)了動(dòng)態(tài)數(shù)據(jù)切換,在不同階段多次引入新處理的高質(zhì)量數(shù)據(jù),并動(dòng)態(tài)調(diào)整數(shù)據(jù)采樣比例。

這讓模型不再被初始語(yǔ)料集所限制,而是能夠持續(xù)學(xué)習(xí)新引入的高質(zhì)量數(shù)據(jù),提升了語(yǔ)料覆蓋面和泛化能力。同時(shí)通過調(diào)整采樣比例,也有助于平衡不同數(shù)據(jù)源對(duì)模型性能的影響。 

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

不同數(shù)據(jù)版本的效果曲線圖

學(xué)習(xí)率調(diào)度策略(LR Scheduler):在訓(xùn)練過程中動(dòng)態(tài)切換數(shù)據(jù)集,雖有助于持續(xù)引入新知識(shí),但也給模型帶來了新的適應(yīng)挑戰(zhàn)。為了確保模型能快速且充分地學(xué)習(xí)新進(jìn)數(shù)據(jù),團(tuán)隊(duì)對(duì)學(xué)習(xí)率調(diào)度器進(jìn)行了優(yōu)化調(diào)整,在每次數(shù)據(jù)切換時(shí)會(huì)根據(jù)模型收斂狀態(tài),相應(yīng)調(diào)整學(xué)習(xí)率。實(shí)驗(yàn)表明,這一策略有效提升了模型在數(shù)據(jù)切換后的學(xué)習(xí)速度和整體訓(xùn)練效果。

下圖是整個(gè)訓(xùn)練過程中 MMLU、HumanEval 兩個(gè)評(píng)測(cè)數(shù)據(jù)集的效果曲線圖。

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

訓(xùn)練過程中MMLU、HumanEval的性能曲線持續(xù)拔高

通過設(shè)計(jì)與優(yōu)化,元象MoE模型與其Dense模型XVERSE-65B-2相比,訓(xùn)練時(shí)間減少30%、推理性能提升100%,模型效果更佳。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))




雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

元象發(fā)布中國(guó)最大MoE開源大模型 落地應(yīng)用登頂港臺(tái)榜

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說