丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

國產(chǎn)大模型全陣容,中文大模型競技場推出!

本文作者: nebula 2024-05-31 14:16
導(dǎo)語:LMSYS Org推出的大模型競技場Chatbot Arena,已成為海外最具公信力的大模型榜單之一,但該榜單中文化程度相對不足。

LMSYS Org推出的大模型競技場Chatbot Arena,已成為海外最具公信力的大模型榜單之一,但該榜單中文化程度相對不足。近日,上海人工智能實驗室聯(lián)合魔搭社區(qū)推出中國大語言模型評測競技場Compass Arena,首度集齊國內(nèi)主流大模型全陣容,阿里通義千問、百度文心一言、騰訊混元、訊飛星火、字節(jié)跳動豆包、智譜AI、百川智能、零一萬物、月之暗面、Minimax、深度求索、書生·浦語等20款國產(chǎn)大模型出戰(zhàn),角逐中國大模型“最強王者”。

相比考題固定的傳統(tǒng)測評,大模型競技場采用盲測、開放的測評模式,可以更全面地檢驗?zāi)P蛯嵙?。Compass Arena設(shè)置了隨機、匿名對戰(zhàn),大模型選手們成為“蒙面唱將”,模型信息隱去后,由系統(tǒng)隨機匹配進行PK,用戶可以天馬行空自由出題,并作為評委主觀評判和投票。如果大模型不小心“自報家門”,則對話被過濾,不計入成績。通過成千上萬輪PK挑戰(zhàn)和用戶投票,系統(tǒng)將對大模型進行自動排名。

國產(chǎn)大模型全陣容,中文大模型競技場推出!

 魔搭社區(qū)直播時,網(wǎng)友腦洞大開在線出題 

Compass Arena由上海人工智能實驗室OpenCompass司南評測體系與魔搭社區(qū)聯(lián)合建設(shè),前者負責(zé)組織評測,后者負責(zé)開源模型引入及社區(qū)打造。據(jù)上海人工智能實驗室OpenCompass團隊介紹,Compass Arena力求體現(xiàn)社區(qū)用戶的真實反饋,評測機制借鑒Chatbot Arena,采用Elo評分系統(tǒng),即國際象棋等對弈活動評估的權(quán)威標準。在這種模式下,大模型競技類似“在游戲中打排位”,勝率成為評估模型水平的關(guān)鍵指標,同時隨著排位變高,系統(tǒng)也會自動匹配高段位選手進行對戰(zhàn)。

與Chatbot Arena相比,Compass Arena更聚焦中文大模型,主流國產(chǎn)大模型全覆蓋,同時評測用戶大多使用中文,可以充分評估國產(chǎn)大模型的性能。

目前,Compass Arena已匯聚超20款商業(yè)及社區(qū)模型,包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等國內(nèi)頭部廠商的旗艦款大模型,并引入了Llama3、Mixtral等海外標桿模型進行參照。更多模型及廠商還在不斷加入中。

上線不到一周,已有上萬人訪問魔搭Compass Arena頁面。魔搭社區(qū)表示,歡迎廣大開發(fā)者和網(wǎng)友參與大模型排位賽的投票,共同促進國產(chǎn)大模型的進步和趕超。后續(xù),Compass Arena首期排行榜將揭曉,并將定期公布更新。

魔搭社區(qū)Compass Arena鏈接:https://www.modelscope.cn/studios/opencompass/CompassArena

Compass Arena首批大模型名單:

Abab6.5-Chat (MiniMax)

Baichuan 4 (百川智能)

C4AI Command R+ (Cohere)

DBRX-Instruct (DataBricks)

Deepseek-LLM-67B-Chat(深度求索)

Deepseek-MoE-16B-Chat(深度求索)

Doubao-Pro-4K (字節(jié)豆包)

ERNIE-4.0-8K (百度文心一言)

GLM4 (智譜AI)

Hunyuan-Pro (騰訊混元)

InternLM2系列(上海AILab書生·浦語)

Llama3系列(Meta)

Mixtral 8x22B Instruct (Mistral)

MoonShot-V1-32K (月之暗面)

Qwen1.5系列 (阿里通義千問)

Qwen-Max (阿里通義千問)

Spark3.5-Max (訊飛星火)

Yi-34B-Chat (零一萬物)

Yi-Large (零一萬物)

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說