丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給張進
發(fā)送

0

通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

本文作者: 張進 2023-12-14 16:16
導(dǎo)語:國產(chǎn)開源大模型,有戲!

【雷峰網(wǎng)(公眾號:雷峰網(wǎng))消息】上周五,全球最大的開源大模型社區(qū)Hugging Face公布了最新的開源大模型排行榜,阿里云通義千問Qwen-72B表現(xiàn)搶眼,以73.6的綜合得分在所有預(yù)訓(xùn)練模型中排名第一,超越Llama2登頂榜首。

 

Hugging Face的開源大模型排行榜(Open LLM Leaderboard)是目前大模型領(lǐng)域最具權(quán)威性的榜單,收錄了全球上百個開源大模型,測試維度涵蓋閱讀理解、邏輯推理、數(shù)學(xué)計算、事實問答等六大測評。 

通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2 

通義千問(Qwen-72B)是基于3Ttokens數(shù)據(jù)訓(xùn)練而成,同時也在10個權(quán)威基準(zhǔn)測評中奪得開源模型最優(yōu)成績,在部分測評中超越閉源的GPT-3.5和GPT-4。

 

這是一個激動人心的時刻,從Llama2開源可商用,迄今5個月,國產(chǎn)大模型開源終于有一個能追上Llama2,大模型開源領(lǐng)域終于不再是Llama2獨領(lǐng)風(fēng)騷的時代,國產(chǎn)大模型開源也由此進入新時代。

 

多個單項成績斷層領(lǐng)先其他開源模型

 

從Hugging Face官網(wǎng)公布的開源大模型排行榜(Open LLM Leaderboard)來看,他們是從ARC、HellaSwag、MMLU、TruthfulQA、Winogrande、GSM8K來對當(dāng)前的開源大模型進行測試評估。

 

從上述截圖我們可以看到通義千問Qwen-72B在多個測評中斷層領(lǐng)先其他開源模型,其中MMLU、TruthfulQA、GSM8K三個維度的得分遠超Llama-2-70B,分別得分為77.37、60.19、70.43,而Llama-2-70B的得分分別是69.83、44.94、54.06。

 

Qwen-72B得分最高的三大測評:MMLU考察模型的世界知識和語言能力,綜合評測LLM的英文綜合能力和知識能力;GSM8K考察的是模型的數(shù)學(xué)推理和計算關(guān)系大模型的數(shù)學(xué)推理能力;TruthfulQA考察模型的常識問答關(guān)系模型的常識能力、抗幻覺能力、問答能力等。

 

而在其他測評ARC、HellaSwag、Winogrande中,通義千問Qwen-72B與Llama-2-70B的差距僅有1、2分之差。

 

ARC考察模型閱讀理解,這個能力關(guān)系大模型的語言理解、文檔問答、工具調(diào)用能力;WinoGrande考察模型的語言推理、指代理解關(guān)系大模型的語言理解、語言推理、指代消歧等能力;Hellaswag考察模型的常識和語言推理關(guān)系模型的常識和語言推理能力。

 

最終Qwen-72B以73.6的綜合得分在所有預(yù)訓(xùn)練模型中排名第一,在這之前,該榜單長期被Meta的Llama2占領(lǐng)。同時,除了阿里云開的通義千問、Meta的Llama2,榜單上還出現(xiàn)了幻方量化的deepseek-67B、零一萬物的Yi-34B、百川的baichuan2-13B等中國開源大模型。

 

國產(chǎn)開源大模型勢頭正猛。

 

在評分之外,我們用一道高考數(shù)學(xué)題來粗略測試下Qwen-72B的表現(xiàn),發(fā)現(xiàn)Qwen-72B解題思路清晰,計算結(jié)果準(zhǔn)確:

通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

同時,還問了它一道外國人看了頭大、極具中國語言特色的復(fù)雜語義理解題,沒想到Qwen-72B居然深刻理解了中國式的職場“拉扯”:

通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

在復(fù)雜邏輯推理上,表現(xiàn)同樣不錯:

通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

不僅如此,通義千問一經(jīng)發(fā)布,在國外引起了廣泛討論,不少國內(nèi)外開發(fā)者進行了測試和應(yīng)用,實際使用體驗在某些領(lǐng)域還超過了GPT-4:

通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

為什么Qwen-72B能有這么出色的性能表現(xiàn)?

 

眾所周知,一個優(yōu)質(zhì)的模型首先離不開團隊強大的研發(fā)能力,通義千問團隊在國內(nèi)互聯(lián)網(wǎng)公司中最早探索大模型,據(jù)稱是阿里全力投入打造的團隊;其次,通義千問背靠阿里云,在AI算力基礎(chǔ)設(shè)施上擁有充足補給;還很重要的是,通義千問一直在奮力發(fā)展自己的開源生態(tài),來自應(yīng)用場景和開源社區(qū)的反饋能幫助研發(fā)團隊不斷優(yōu)化基礎(chǔ)模型。


具體到Qwen-72B模型的訓(xùn)練,通義千問利用多達43T的高質(zhì)量數(shù)據(jù)進行訓(xùn)練,折合7Ttokens(目前訓(xùn)練完成3Ttokens,還在持續(xù)進行),涵蓋近20種語言,覆蓋網(wǎng)頁、新聞、書籍、數(shù)學(xué)、代碼及各個垂類領(lǐng)域,如金融、法律、醫(yī)療等等。


綜合利用了dp、tp、pp、sp等方法進行大規(guī)模分布式并行訓(xùn)練,引入flashattentionv2等高效算子提升訓(xùn)練速度。借助阿里云人工智能平臺PAI的拓?fù)涓兄{(diào)度機制,有效降低了大規(guī)模訓(xùn)練時通信成本,將訓(xùn)練速度提高30%。

 

在訓(xùn)練穩(wěn)定性方面,模型訓(xùn)練過程中,通義千問團隊通過PAI平臺AiMaster管理組件監(jiān)控作業(yè)的日志/報錯/metric等信息,區(qū)分用戶錯誤和系統(tǒng)錯誤,根據(jù)作業(yè)類型和容錯場景提供管理能力和全鏈路自動化運維能力,自動剔除故障機器重啟任務(wù),使訓(xùn)練過程中人工干預(yù)重啟頻率由日降低到周。


Qwen-72B上場,Llama2走下神壇

 

從今年7月Meta宣布Llama2開源可商用以來,Llama2便一直站在全球大模型開源的神壇上,它更是國產(chǎn)大模型早期蓬勃發(fā)展的救星,元象唯思的創(chuàng)始人姚星曾對AI科技評論吐露真言,國內(nèi)大部分大模型都是基于Llama開源來做的訓(xùn)練,他認(rèn)為沒有 Llama 開源,中國的大模型探索可能還要走很長一段路。

 

但這背后也要國內(nèi)開發(fā)者承擔(dān)許多“屈辱”,一位大模型公司的CEO曾無奈地告訴AI科技評論,Llama2的中文能力很差。

 

由于此,一些基于Llama2做垂直行業(yè)模型的廠商曾告訴我們,他們要用Llama2必須得先跟國內(nèi)做Llama2中文化的公司合作,不能直接用Llama2去做訓(xùn)練。

 

而且Llama2對中國很不友好,在Llama2的開源協(xié)議里強調(diào)了English tended,其他地區(qū)illegal,意思就是中國拿它來做中文的大模型和應(yīng)用是不合法的,但國內(nèi)又必須得用。

 

因為在通義千問Qwen-72B發(fā)布之前,我們并沒有能跟Llama2比肩的開源大模型,很長一段時間Llama2無與爭鋒。

 

由于各大模型廠商選擇了“小參數(shù)用來開源,大參數(shù)拿來商業(yè)化”的策略,導(dǎo)致國內(nèi)大模型開源一直停留在14B,所以國產(chǎn)開源大模型看似越來越卷,實則中國大模型市場還沒有出現(xiàn)足以對標(biāo)Llama-2-70B的優(yōu)質(zhì)開源模型。

 

但很多開發(fā)者曾對AI科技評論表示,雖然大模型開源非常豐富,但他們能真正用起來的不多。在一些領(lǐng)域,例如金融行業(yè)、醫(yī)療行業(yè),以及一些科研機構(gòu),14B其實是遠遠不夠的。

 

直到11月、12月,開源大模型Yi-34B、元象XVERSE-65B、Qwen-72B陸續(xù)拋出,國產(chǎn)開源似乎有了新進展,真正跨入了“追趕Llama2”的時代。

 

而Qwen-72B登頂Hugging Face榜首,超過Llama2這一事件,意味著國產(chǎn)大模型開源開始參與全球競爭,同時,Qwen-72B的出現(xiàn)填補了中國大模型開源長期被Llama2所占據(jù)的空白領(lǐng)域。

 

個人開發(fā)者、中國能源建設(shè)集團浙江省電力設(shè)計院有限公司系統(tǒng)室專工陶佳,他在想要做大模型應(yīng)用時遇到的困境應(yīng)該是國內(nèi)大多數(shù)開發(fā)者都會遇到的:國外的模型,如閉源的如OpenAI能力是很強,但是API調(diào)用不便,而且我們這種B端用戶更喜歡自己上手定制,API能做的事還是太少;開源的比如Llama2,但是中文能力一般。

 

他試了幾款,試下來通義千問是最好的?!皽?zhǔn)確,而且‘手感’很好,沒有那些稀奇古怪的 bug”,他說。

 

有鹿機器人公司正在研發(fā)第二代具身智能技術(shù)LPLM大模型,LPLM是融合了LLM大語言模型和物理世界大模型。在創(chuàng)始人、CEO陳俊波看來,LLM本身是一個偏慢速的、邏輯推理的、有比較完整的結(jié)構(gòu)性思考的智能系統(tǒng),而物理世界大模型是一個更偏實時響應(yīng)、偏直覺的一套思維過程,比方說人類怎么去感知這個世界,怎么去對這個世界做預(yù)判,以及怎么去規(guī)劃我們整個動作思維。LPLM融合了這兩個系統(tǒng),使它們能夠很好地配合跟協(xié)作,能夠從人類的高層的指令理解、到拆解、再到底層對物理世界進行理解和規(guī)劃。

 

他們把市面上能找到的大模型都做過實驗,最后選擇了通義千問,創(chuàng)始人、CEO陳俊波認(rèn)為原因主要有以下幾點:

第一,它是目前至少在中文領(lǐng)域能找到的智能性表現(xiàn)最好的開源大模型之一。

第二,它提供了非常方便的工具鏈,可以在他們自己的數(shù)據(jù)上快速地去做finetune和各種各樣的實驗。

第三,它提供了一個特式量化的模型,量化前跟量化后基本上沒有掉點,這對我們來說非常有吸引力,因為我們需要把它部署在一個嵌入式的設(shè)備上。

 

不僅如此,國外一些網(wǎng)友也對Qwen-72B等國產(chǎn)大模型表達了驚嘆:

通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2


后記

 

通義千問還開源了18億參數(shù)模型Qwen-1.8B和音頻大模型Qwen-Audio,至此,通義千問共開源了18億、70億、140億、720億參數(shù)的4款大語言模型,以及視覺理解、音頻理解兩款多模態(tài),是業(yè)界首個“全尺寸、全模態(tài)”開源大模型。

 

阿里云CTO周靖人表示,開源生態(tài)對促進中國大模型的技術(shù)進步與應(yīng)用落地至關(guān)重要,通義千問將持續(xù)投入開源,希望成為“AI時代最開放的大模型”,與伙伴們共同促進大模型生態(tài)建設(shè)。

 

開源、開放成為阿里在大模型領(lǐng)域頻頻提到的關(guān)鍵詞,開源Qwen-72B就是其最好的態(tài)度展示。

 

Meta全球事務(wù)主管Nick Clegg曾這樣評價開源:開源是消除AI相關(guān)恐懼的最佳解藥,開源有助于Meta追趕競爭對手。

 

正如業(yè)內(nèi)人普遍認(rèn)同的,未來90%的企業(yè)會傾向于基于開源大模型發(fā)展,依托于開源生態(tài)。

 

如今,有了Qwen-72B的開源,國內(nèi)大模型也能接上Llama2的步伐,允許各種規(guī)模的公司在Qwen-72B上改進這項技術(shù),并在其上構(gòu)建應(yīng)用程序。

 

7月,Llama2開源蓬勃了全球大模型發(fā)展,12月,通義千問Qwen-72B開源,使得國產(chǎn)開發(fā)者不再“求外”。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說