0
本文作者: 張進(jìn) | 2024-04-29 19:54 |
【雷峰網(wǎng)(公眾號:雷峰網(wǎng))】近日,千呼萬喚之下,Meta終于發(fā)布了開源大模型Llama 3的 8B 和 70B 版本,再次震動 AI 圈。
Meta 表示,Llama 3 已經(jīng)在多種行業(yè)基準(zhǔn)測試上展現(xiàn)了最先進(jìn)的性能,提供了包括改進(jìn)的推理能力在內(nèi)的新功能,是目前市場上最好的開源大模型。
根據(jù)Meta的測試結(jié)果,Llama 3 8B模型在語言(MMLU)、知識(GPQA)、編程(HumanEval)等多項(xiàng)性能基準(zhǔn)上均超過了Gemma 7B和Mistral 7B Instruct,70B 模型則超越了名聲在外的閉源模型 Claude 3的中間版本 Sonnet,和谷歌的 Gemini Pro 1.5 相比三勝兩負(fù)。Meta還透露,Llama 3的 400B+ 模型仍在訓(xùn)練中。
Meta 順利地保住了它在開源大模型領(lǐng)域的王座。
開源 Llama 3 的發(fā)布對整個(gè)大模型行業(yè)都是影響很大的事情,再次引發(fā)了對“開源與閉源之爭”的熱烈討論。但大洋彼岸,回到國內(nèi),畫風(fēng)突變,有一種刺耳的聲音在網(wǎng)絡(luò)上蔓延——“Llama 3 發(fā)布,國內(nèi)大模型又能有新突破了”。
甚至在 Llama 3 還未發(fā)布時(shí),就能聽到“國內(nèi)要想趕超GPT-4,就等著 Llama 3 開源吧”的聲音。
開源本身是一件致力于打破技術(shù)壟斷、有利于促進(jìn)整個(gè)行業(yè)不斷進(jìn)步、帶來創(chuàng)新的事情,但每次Meta一開源,從Llama 到 Llama 3,國產(chǎn)大模型都要經(jīng)歷一次來自國人的嘲諷和貶低。
其實(shí)不止大模型,從云計(jì)算到自動駕駛,相似的論調(diào)經(jīng)久不衰,究其原因,長久以來中國的技術(shù)一直跟在國外后面發(fā)展,長期被壓一頭、引發(fā)了國人的技術(shù)不自信,即便是在某些領(lǐng)域?qū)崿F(xiàn)了領(lǐng)先,也會出現(xiàn)不信任、喝倒彩的聲音。
但其實(shí),經(jīng)過一年的辛苦磨練和積累,如 Llama 這樣的國外大模型一直很強(qiáng)的同時(shí),國產(chǎn)大模型也可以后來者居上,變得很強(qiáng),甚至在 Llama 3 發(fā)布之前,國產(chǎn)大模型就已經(jīng)進(jìn)化到 Llama 3 的效果,甚至強(qiáng)過 Llama 3 :
近日,清華大學(xué) SuperBench 團(tuán)隊(duì)在前不久發(fā)布的《SuperBench大模型綜合能力評測報(bào)告》基礎(chǔ)上加測了 Llama 3 新發(fā)布的兩個(gè)模型,測試了 Llama 3 在語義(ExtremeGLUE)、代碼(NaturalCodeBench)、對齊(AlignBench)、智能體(AgentBench)和安全(SafetyBench)五個(gè)評測集中的表現(xiàn)。
SuperBench 團(tuán)隊(duì)共選取了如下列表模型,將Llama 3 放置到全球內(nèi)的大模型行列中進(jìn)行對比,除了國外主流的開源和閉源模型,也將 Llama 3 跟國內(nèi)的主流模型進(jìn)行對比。
對于閉源模型,SuperBench 團(tuán)隊(duì)選取 API 和網(wǎng)頁兩種調(diào)用模式中得分較高的一種進(jìn)行評測。
根據(jù)他們發(fā)布的測評結(jié)果,可以得出以下結(jié)論:
(1)Llama 3-70B 版本在各個(gè)評測集上均差于 GPT-4 系列模型以及 Claude-3 Opus 等國際一流模型,在語義、代碼兩項(xiàng)評測中距離榜首差距最大,智能體評測中表現(xiàn)最好,排名第5;但考慮到模型參數(shù)量的差異,Llama 3-70B 整體表現(xiàn)還是不錯(cuò)的。
(2)和國內(nèi)大模型對比,Llama 3-70B 在五項(xiàng)評測中超過了大多數(shù)國內(nèi)模型,只落敗于 GLM-4 和文心一言。
根據(jù) SuperBench 標(biāo)準(zhǔn)測試結(jié)果可以發(fā)現(xiàn),國產(chǎn)大模型早已有能強(qiáng)過 Llama 3 的大模型,國產(chǎn)大模型 GLM-4 和文心一言早就達(dá)到了 Llama 3 的實(shí)力,屬于全球大模型競爭第一梯隊(duì)。經(jīng)過一年的追趕,國產(chǎn)大模型跟 GPT-4 的差距在不斷縮小。
而這也讓諸如“Llama 3 發(fā)布,國內(nèi)大模型又能有新突破了”“國內(nèi)要想趕超GPT-4,就等著 Llama 3 開源吧”的技術(shù)不自信論調(diào),不攻自破。
SuperBench大模型綜合能力評測框架,是清華大學(xué)基礎(chǔ)模型研究中心聯(lián)合中關(guān)村實(shí)驗(yàn)室于2023年12月共同發(fā)布,其研發(fā)背景是基于過去一年里大模型領(lǐng)域的評測亂象——通過刷榜,各家大模型紛紛名列各大榜單第一,趕超GPT-4。
SuperBench 目的是提供客觀、科學(xué)的評測標(biāo)準(zhǔn),撥開迷霧,從而讓外界對國產(chǎn)大模型的真正實(shí)力有更清晰的認(rèn)知,讓國產(chǎn)大模型從掩耳盜鈴的虛幻中走出來,正視與國外的差距,腳踏實(shí)地。
目前,國內(nèi)外均有一系列測試大模型能力的榜單,但時(shí)至今日,因?yàn)閿?shù)據(jù)污染和基準(zhǔn)泄露,大模型領(lǐng)域頗受關(guān)注的基準(zhǔn)測試排名,其公平性和可靠性正在受到質(zhì)疑,很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜來宣傳、標(biāo)榜自己已經(jīng)成為基操,國內(nèi)外都出現(xiàn)了一種詭異的現(xiàn)象——每每一個(gè)大模型推出,每一家都刷新了重要 Benchmark 榜單,各個(gè)都有重大突破,要么排名第一,要么超過GPT-4。
短短時(shí)間里,似乎大家都“遙遙領(lǐng)先”,實(shí)力不相上下了。但落到實(shí)踐中,大多模型的性能表現(xiàn)往往差強(qiáng)人意,很多模型的性能表現(xiàn)和 GPT4 的差距還很大。
這種掩耳盜鈴的行為,在過去一年里持續(xù)著,國內(nèi)大模型陷入刷榜狂歡,但大家都心知肚明至今還沒有模型能真正跟 GPT-4 比肩。畢竟,羅馬不是一天建成的,擺在所有人面前的一道道鴻溝——技術(shù)上的突破和算力、資本的投入,讓我們認(rèn)清現(xiàn)實(shí)——我們與 OpenAI 的差距并不是一年半載就能填補(bǔ)的。
而刷榜風(fēng)盛行引發(fā)的一大惡果是,外界對國產(chǎn)大模型的實(shí)力難以分辨,魚目混珠中,一些真正有實(shí)力的大模型創(chuàng)業(yè)公司,應(yīng)該融到的錢、吸引的人才卻被那些擅長宣傳、造勢的給搶走了,引發(fā)劣幣驅(qū)逐良幣,影響了整個(gè)國產(chǎn)大模型的發(fā)展。
甚至如引言所述,一提到國產(chǎn)大模型,有部分人覺得反正都是刷榜刷出來的,有什么值得關(guān)注的?反正都比不上國外,妄自菲薄之下,給國產(chǎn)大模型喝倒彩的很多。
所以在評測大模型時(shí),業(yè)界提出應(yīng)該使用更多不同來源的基準(zhǔn),而SuperBench 團(tuán)隊(duì)來自國內(nèi)頂尖學(xué)府清華大學(xué),該團(tuán)隊(duì)具有多年的大模型研究經(jīng)驗(yàn),設(shè)計(jì)的 SuperBench 大模型綜合能力評測框架具備開放性、動態(tài)性、科學(xué)性以及權(quán)威性等特點(diǎn),其中最重要的是測評方法要具有公平性。
按照大模型能力重點(diǎn)的遷移過程——從語義、對其、代碼、智能體到安全,SuperBench評測數(shù)據(jù)集包含ExtremeGLUE(語義)、NaturalCodeBench(代碼)、AlignBench(對齊)、AgentBench(智能體)和SafetyBench(安全)五個(gè)基準(zhǔn)數(shù)據(jù)集。
下面我們來看看詳細(xì)測評結(jié)果,GLM-4 、文心一言在哪些能力上超過 Llama 3-70B:
(1)在語義測評中,整體表現(xiàn):
在語義理解能力評測中,Llama 3-70B排名第6,落后Claude-3、GPT-4系列模型以及國內(nèi)大模型GLM-4和文心一言4.0,距離榜首Claude-3仍有一定差距(相差8.7分),但是領(lǐng)先國內(nèi)其他模型,整體處于第二梯隊(duì)的榜首位置。
分類表現(xiàn):
Llama 3-70B在語義理解的分類評測中表現(xiàn)最好的是數(shù)學(xué),分?jǐn)?shù)超過GPT-4系列模型,排名第4;在閱讀理解和知識-科學(xué)兩項(xiàng)評測中均表現(xiàn)也不錯(cuò),均排名第6,其中閱讀理解和榜首差距最小,只有4.3分差距;但是在知識-常識評測分?jǐn)?shù)較低,獲得60.9分,與榜首Claude-3有18.9分差距。
(2)在代碼評測中,整體表現(xiàn):
在代碼編寫能力評測中,Llama 3-70B排名第7,得37.1分,差于GPT-4系列模型和Claude-3等國際一流模型,以及GLM-4、文心一言4.0和訊飛星火3.5等國內(nèi)模型;和GPT-4 Turbo差距較大,分差達(dá)到了13.7分。值得一提的是,Llama 3-8B的代碼通過率超過了KimiChat網(wǎng)頁版、云雀大模型等國內(nèi)大模型。
分類表現(xiàn):
Llama 3-70B在代碼編寫能力的分類評測中均表現(xiàn)一般,排名6-8位,和GPT-4系列模型以及Claude-3有較大差距,其中在英文代碼指令-python評測中,Llama 3-70B和榜首的GPT-4 Turbo差距更是達(dá)到了20.3分;另外從本次評測中來看,Llama 3-70B并未表現(xiàn)出明顯的中英文差距。
(3)在中文對齊評測中,整體表現(xiàn):
在人類對齊能力評測中,Llama 3-70B排名第7,依然差于GPT-4系列模型和Claude-3;國內(nèi)模型中,除文心一言4.0和GLM-4之外,通義千問2.1也在對齊評測中略超過Llama 3-70B;但是Llama 3-70B和排在前面的各家模型差距不大,距離榜首的GPT-4網(wǎng)頁版僅有0.35分差距。
分類表現(xiàn):
Llama 3-70B在中文推理評測中排名第7,和第一梯隊(duì)的GPT-4系列模型以及文心一言4.0相差約0.6分;在中文語言評測中排名第8,但是和GPT-4系列模型、Claude-3分差較小,處于同一梯隊(duì),和榜首的KimiChat網(wǎng)頁版也只有0.23分的差距。
(4)在智能體測評中,整理表現(xiàn):
在作為智能體能力評測中,國內(nèi)外大模型在本能力下均表現(xiàn)欠佳,Llama 3-70B在橫向?qū)Ρ戎斜憩F(xiàn)不錯(cuò),僅差于Claude-3、GPT-4系列模型以及國內(nèi)模型GLM-4,排名第5。
分類表現(xiàn):
Llama 3-70B在數(shù)據(jù)庫(DB)、知識圖譜(KG)、網(wǎng)上購物(Webshop)三個(gè)評測項(xiàng)中均進(jìn)入了top3,但是距離榜首仍有一定差距;在操作系統(tǒng)(OS)、網(wǎng)頁瀏覽(M2W)中也表現(xiàn)不錯(cuò) ,排名第4和第5;情境猜謎(LTP)表現(xiàn)得0.5分,表現(xiàn)相對最差。
(5)在安全測評中,整體表現(xiàn):
在安全能力評測中,Llama 3-70B得86.1分,排名第7,和排在前面的文心一言4.0、GPT-4系列、GLM-4等模型分?jǐn)?shù)差距不大。
分類表現(xiàn):
Llama 3-70B在安全能力的各分類評測中,偏見歧視(UB)在橫向?qū)Ρ戎斜憩F(xiàn)相對最好,排名第4,其他評測排名在第7位及以后,但是和排在前面的模型分差不大,心理健康(MH)、隱私財(cái)產(chǎn)(PP)、身體健康(PH)均和榜首差距在3分之內(nèi)。
從上述 SuperBench 測評結(jié)果上看,和國內(nèi)大模型對比,Llama 3-70B 在五項(xiàng)評測中超過了大多數(shù)國內(nèi)模型,只落敗于 GLM-4 和文心一言,而打敗 Llama 3-70B 因此躋身第一梯隊(duì)的智譜 GLM-4,在最關(guān)鍵的語義理解、智能體能力上,排名國內(nèi)第一,力壓一眾選手。
而智譜在過去一年里也是國內(nèi)表現(xiàn)最為突出的大模型創(chuàng)業(yè)公司——技術(shù)突破和商業(yè)化都取得了領(lǐng)先的成績。
過去一年里,中國誕生了多個(gè)大模型獨(dú)角獸,而智譜是國內(nèi)估值最快超過百億人民幣的公司之一。
其贏得大量資本青睞主要是因?yàn)樗?ChatGLM 模型——過去一年里,智譜以平均三個(gè)月的速度發(fā)布了三代基座大模型ChatGLM、ChatGLM2、ChatGLM3,2024年初智譜又發(fā)布了新一代基座大模型 GLM-4,性能緊逼 GPT-4。
而這也跟它的戰(zhàn)略定位一致——全面對標(biāo)OpenAI。
而上述 SuperBench 的測評結(jié)果再一次量化了 GLM-4 模型的能力,超過 Llama 3-70B ,逼近 GPT-4,躋身全球模型第一梯隊(duì)。
分析智譜的發(fā)展歷史和現(xiàn)狀可以發(fā)現(xiàn),智譜是一家將產(chǎn)學(xué)研結(jié)合地不錯(cuò)的公司。
在學(xué)術(shù)上,自推出新一代基座模型 GLM-4 之后,智譜已陸續(xù)發(fā)布了不少研究成果,涉及 LLM、多模態(tài)、長文本、對齊、評測、推理加速、Agent 等大模型產(chǎn)業(yè)的各個(gè)層面:
例如,評估大模型涌現(xiàn)能力的新視角——在大語言模型的研究和開發(fā)中,一個(gè)關(guān)鍵的探索點(diǎn)是如何理解和提升模型的“涌現(xiàn)能力”,傳統(tǒng)觀點(diǎn)認(rèn)為,模型的大小和訓(xùn)練數(shù)據(jù)量是提升這種能力的決定性因素。而智譜發(fā)布的論文《Understanding Emergent Abilities of Language Models from the Loss Perspective》提出了一個(gè)新的視角:Loss 才是涌現(xiàn)的關(guān)鍵,而非模型參數(shù)。
智譜AI通過分析多個(gè)不同規(guī)模和數(shù)據(jù)量的語言模型,在多個(gè)英文和中文數(shù)據(jù)集上的表現(xiàn),發(fā)現(xiàn)低預(yù)訓(xùn)練損失與模型在實(shí)際任務(wù)中的高性能呈負(fù)相關(guān)。這一發(fā)現(xiàn)不僅挑戰(zhàn)了以往的常識,還為未來模型的優(yōu)化提供了新的方向,即通過降低預(yù)訓(xùn)練損失來激發(fā)和提升模型的涌現(xiàn)能力。這種洞見為AI研究者和開發(fā)者在模型設(shè)計(jì)和評估中引入新的評價(jià)指標(biāo)和方法提供了理論依據(jù)。
還有,將GLM-4 的 RLHF 技術(shù)公開,大語言模型對齊是關(guān)涉AI控制與AI安全的重要問題,只有確保模型的行為和輸出與人類價(jià)值觀和意圖一致,才能讓AI系統(tǒng)更安全、負(fù)責(zé)任且有效地服務(wù)于社會。對此,智譜AI開發(fā)了名為ChatGLM-RLHF的技術(shù),通過整合人類的偏好來訓(xùn)練語言模型,使其產(chǎn)生更受歡迎的回答。
最后,智譜的大模型技術(shù)和學(xué)術(shù)研究都轉(zhuǎn)化成了商業(yè)化成果。
今年3月,在 ChatGLM 的一周年期,智譜對外發(fā)布了一批商業(yè)化案例,并公布了其在商業(yè)化上取得了遠(yuǎn)超預(yù)期的成績,包括圈定了超過 2000 家生態(tài)合作伙伴,1000 家規(guī)?;瘧?yīng)用,與超過 200 家客戶進(jìn)行了深度共創(chuàng)。
而對比其他模型廠商,據(jù)了解,至今很多大模型公司依然沒有找到合適的商業(yè)化路徑,對比之下,智譜的商業(yè)化至少領(lǐng)先國內(nèi)半年。
智譜CEO張鵬曾多次表達(dá)過這樣一種觀點(diǎn):大模型商業(yè)化最大的攔路虎還是在技術(shù),如果智譜真已經(jīng)做到了 GPT-4 或者 GPT-5 的水平,很多商業(yè)化上的問題,如效果不好、價(jià)格高昂,甚至連商業(yè)模型都不用再考慮,只提供 API 就行。
這個(gè)說法同樣適合整個(gè)大模型行業(yè),智譜能在商業(yè)化上做到領(lǐng)先半年,其中一個(gè)最重要的因素就是其 ChatGLM 模型所表現(xiàn)出來的領(lǐng)先性。
學(xué)術(shù)研究、模型迭代不斷賦能商業(yè)化,智譜今天的成績也告訴行業(yè),大模型行業(yè)產(chǎn)學(xué)研的性質(zhì),決定了那些在模型、商業(yè)、學(xué)術(shù)上多條腿走路的公司,勢必將會走得更穩(wěn)固。
2023年 ChatGPT 引爆中文互聯(lián)網(wǎng),由此引發(fā)了國內(nèi)外大模型創(chuàng)業(yè)潮。但中國的大模型并非無根之木,無源之水,只會跟隨國外。
早在2021年,五道口智源人工智能研究院誕生了中國第一個(gè)萬億大模型“悟道”,由此開啟了國產(chǎn)大模型的研究之路。
同樣,經(jīng)過過去一年的奮力追趕和學(xué)習(xí),如GLM-4、文心一言這樣的國產(chǎn)大模型打敗了最強(qiáng)開源模型Llama 3,躋身全球競爭第一梯隊(duì),為只會跟隨、模仿的國產(chǎn)技術(shù)正名。
過去一直強(qiáng)調(diào)要睜開眼看世界,學(xué)習(xí)國外,但大模型時(shí)代,看看國產(chǎn)大模型過去一年的變化,我們更多缺少的是正視國產(chǎn)技術(shù)的進(jìn)步。
一位業(yè)內(nèi)資深人士曾發(fā)出過如此感嘆:明明國內(nèi)的大模型公司也有很多技術(shù)創(chuàng)新,為什么大家只愿意關(guān)注國外,最后就變成了國外火了、國內(nèi)才被注意到?
例如大模型初創(chuàng)公司智子引擎于2023年5月發(fā)表在arXiv上的論文研究VDT,跟2024年OpenAI發(fā)布的Sora“大撞車”——Sora背后的架構(gòu),與這支團(tuán)隊(duì)快1年前發(fā)表的論文提出的基于Transformer的Video統(tǒng)一生成框架,“可以說是幾乎一模一樣”。
Sora出世前,他們拿著這篇如今被ICLR 2024接收的論文VDT,十分費(fèi)勁地為投資人、求知者講了大半年,卻處處碰壁。
春節(jié)后,Sora成為新晉頂流,打電話來約見團(tuán)隊(duì)的投資人排起了長隊(duì),都是要學(xué)習(xí)Sora、學(xué)習(xí)團(tuán)隊(duì)論文成果。
隨著Sora 爆火,DiT架構(gòu)大受關(guān)注,而國產(chǎn)多模態(tài)初創(chuàng)公司深數(shù)科技在2022年9月,便研發(fā)出了全球首個(gè) Diffusion Transformer 架構(gòu) U-ViT 網(wǎng)絡(luò)架構(gòu);
國產(chǎn)大模型創(chuàng)業(yè)公司面壁智能的Scaling Prediction,在世界范圍內(nèi)都能排在前列,能夠和OpenAI比肩,甚至不輸OpenAI;
國產(chǎn)大模型技術(shù)的創(chuàng)新性和領(lǐng)先性并不輸國外,這樣的例子還有很多。
所謂士別三日,當(dāng)刮目相看。希望我們能多關(guān)注國產(chǎn)技術(shù)的創(chuàng)新,多多擁護(hù)國產(chǎn)技術(shù)。
本文作者(vx:zzjj752254)長期關(guān)注AI大模型領(lǐng)域的人、公司與行業(yè)動態(tài),歡迎交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。