0
開源與閉源之爭早已非新奇的話題,但毋庸置疑的是,開源極大地促進了大模型技術(shù)發(fā)展和生態(tài)繁榮。
大模型被認為是最燒錢的技術(shù),訓練一個大模型往往需要大量的數(shù)據(jù)、計算資源,導致訓練成本巨大,眾所周知GPT-3的訓練費用據(jù)說超過 4600萬美元,在大模型開源之前,大模型一直是那些有大量資金加持的大廠和明星創(chuàng)業(yè)公司才有資格碰的事情。
隨著如 llama、Mistral、Falcon 這些開源先鋒攪動了整個大模型競爭浪潮,那些沒有AI積累的企業(yè)、大量中小公司團隊,今天個人開發(fā)者,都能基于開源底座模型,用很低的成本訓練、部署自己的專屬模型,llama 這樣的開源先鋒也因此擁有一眾擁躉。
回到國內(nèi),在 llama、Mistral 這樣的開源先鋒影響下,國產(chǎn)開源也經(jīng)歷了百家爭鳴階段,如ChatGLM、Baichuan、DeepSeek、Qwen也曾掀起一陣陣開源浪潮。
“百模大戰(zhàn)”至今不過一年多,全球開源格局已幾經(jīng)變換,最出人意料的一件事,莫過于國產(chǎn)開源大模型先發(fā)后至,有了比肩全球頂尖開源模型的影響力。通義千問開源模型,就是“國模開源”的代表角色。
據(jù)AI科技評論了解,根據(jù) Hugging Face的數(shù)據(jù),Qwen系列血緣模型已經(jīng)高達5萬多個,也就是說,全世界的開發(fā)者,基于Qwen系列底座,已經(jīng)二次訓練出5萬多個衍生模型,僅次于Llama系列的7萬左右。這個數(shù)據(jù),是判斷一個模型生態(tài)影響力最有說服力的指標。
金沙江創(chuàng)投主管合伙人朱嘯虎就曾在多個場合表示,國內(nèi)開源模型已經(jīng)不比閉源模型差,尤其是阿里的通義千問,很多創(chuàng)業(yè)公司都拿通義開源模型來訓練自己的垂直模型。
據(jù)AI科技評論了解,Qwen系列的衍生模型中,不乏出自面壁等明星大模型公司的微調(diào)模型,根據(jù)GitHub的介紹,面壁的MiniCPM-V2.6多模態(tài)模型就是基于SigLip-400M和Qwen2-7B作為基座。
在今天于杭州舉辦的2024 云棲大會上,通義大模型再推全新開源系列 Qwen2.5,旗艦模型又秀出了屠榜式的強勁性能。在這之前,海內(nèi)外開發(fā)者和開源社區(qū)早已躍躍欲試、反復催更。
如此場景,距離通義去年首次開源不過一年多。通義是怎么做到的?
2023 年 3 月15 日,OpenAI 發(fā)布了里程碑模型 GPT-4,同時智譜AI開源了ChatGLM模型,自此拉開了中國大模型開源序幕,緊跟著 6 月百川智能開源了Baichuan,8 月通義千問宣布開源,“百模大戰(zhàn)”進入白熱化……23 年整個行業(yè)經(jīng)歷了一場開源盛宴。
阿里通義千問開源相對晚,但勝在后勁足。23年12月,通義千問第一款開源旗艦模型Qwen-72B 問世,成為當時性能最強的開源模型,一舉超越了開源標桿 llama 2-70B,在此之前,中國大模型市場還沒有出現(xiàn)一個足以對抗 llama 2-70B的開源模型。
自此,通義千問在“全尺寸、全模態(tài)”開源路上狂飆。2024年2月開源Qwen1.5系列、2024年6月開源Qwen2系列,三個月之后的今天又火速放出Qwen2.5系列,開源模型橫貫大語言、多模態(tài)、數(shù)學、代碼多個類別、模型尺寸包含0.5B到110B的完整譜系。幾乎可以說,只要開發(fā)者想要,Qwen都能提供。
這種開源力度在國產(chǎn)模型中前所未有,阿里通義千問在大模型賽道的開源「人設」逐漸穩(wěn)固,吸引了大波擁躉。
今天云棲大會發(fā)布的全新開源系列 Qwen2.5,模型性能一如既往火力全開。
Qwen2.5 有兩大特點,一是性能全球領先,穩(wěn)居全球開源第一。根據(jù)阿里官方數(shù)據(jù)顯示,開源旗艦模型Qwen2.5-72B 在多個權(quán)威測評集中全面超越同尺寸開源模型,甚至“跨數(shù)量級”超越Llama3.1-405B 模型,以不到1/5的參數(shù)規(guī)模,創(chuàng)下超越Llama 4050 億參數(shù)的整體表現(xiàn)。
根據(jù)上圖,Qwen2.5-72B 在14 個關(guān)鍵基準測試中,8 項擊敗了 llama3.1-405B 指微調(diào)模型,11 項擊敗了Mistral最新開源的 Large-V2 指令微調(diào)模型,成為目前最強開源模型。
今年 7 月 Meta 發(fā)布了最新開源模型 llama3.1-405B 后,llama3.1-405B 便一舉成為地表最強開源模型,甚至代表開源模型首次超越閉源模型。從基準測試結(jié)果來看,超大杯 Llama 3.1 405B 全方位碾壓了 GPT-3.5 Turbo、大部分基準測試得分超過了 GPT-4 0125,面對 OpenAI 此前最強閉源大模型GPT-4o和第一梯隊的 Claude 3.5 Sonnet,Llama 3.1 405B 依然有能力一戰(zhàn)。
只是,405B雖然強大,但模型參數(shù)實在太大、部署使用的硬件要求高出天際。對個人開發(fā)者和預算有限的中小企業(yè)來說,可望不可及。
Qwen2.5-72B 對 llama3.1-405B的超越,不僅是國產(chǎn)開源模型與美國最強開源模型的一次硬剛,也狠狠削平了“天花板性能”模型的使用成本。
Qwen2.5的第二個特點,開源模型數(shù)量史無前例,目的是為充分適配開發(fā)者和中小企業(yè)的需求。
Qwen2.5延續(xù)了“全尺寸、多模態(tài)”路線,同步開源了多個尺寸的大語言模型、多模態(tài)模型、數(shù)學模型和代碼模型,涵蓋基礎版本、指令跟隨版本、量化版本,總計上架超過 100 個開源模型,刷新業(yè)界新紀錄。
大語言模型共有 0.5B、1.5B、3B、7B、14B、32B、72B 七個尺寸,在等規(guī)模賽道全都創(chuàng)造了業(yè)界 SOTA,從這幾個型號尺寸,我們可以看到通義團隊應該是充分考慮了下游應用的不同場景需求、從而做出上述開源策略,大致對應了當下最火的三個場景:端側(cè)模型、小模型、大模型。
比如,3B 是適配手機等端側(cè)設備的黃金尺寸,業(yè)界認為 3B-4B這個大小,意味著模型量化之后可以做到 2G 的體積,非常適合放在手機里面。端側(cè)則也一直是英偉達、微軟和各類手機廠商都非常看重的領域。
32B是最受開發(fā)者期待的“性價比之王”,可在性能和功耗之間獲得最佳平衡。最讓開發(fā)者驚喜的,則是 140 億和320億兩種參數(shù)模型的重新回歸,14B 和 32B 是最適合本地單卡部署的模型大小。上一代Qwen2系列沒有這兩個尺寸,一直是開發(fā)者心中遺憾。
這還沒結(jié)束,下一個類別是多模態(tài)模型。上個月通義團隊開源了 2B 和 7B 版本的視覺理解模型Qwen2-VL,這次直接把720億參數(shù)的Qwen2-VL-72B 也開源了,Qwen2-VL 能識別不同分辨率和長寬比的圖片,能夠理解20分鐘以上長視頻,還具備自主操作手機和機器人的視覺智能體能力。
Qwen2-VL基于Qwen2打造,在多個視覺理解基準測試中取得了全球領先的表現(xiàn),其中包括但不限于考察數(shù)學推理能力的MathVista、考察文檔圖像理解能力的DocVQA、考察真實世界空間理解能力的RealWorldQA、考察多語言理解能力的MTVQA。
通義千問從 6 個方面來評估 Qwen2-VL 分別在72B、7B、2B三種規(guī)模上的視覺能力,包括復雜的大學水平問題解決、數(shù)學能力、文檔和表格的理解、多語言文本圖像的理解、通用場景問答、視頻理解、視覺智能代理(Visual AI Agent)能力。
整體來看,Qwen2-VL-72B在大部分指標上都達到了最優(yōu),甚至超過了GPT-4o和Claude 3.5 Sonnet等閉源模型。
最后是主攻數(shù)學和代碼賽道的兩組專項模型,數(shù)學開源模型Qwen2.5-Math包含1.5B、7B、72B,全部支持中文。Qwen2.5-Math在精心設計的數(shù)學語料庫上進行了預訓練,可以處理大學和競賽級別的數(shù)學問題。
代碼開源模型Qwen2.5-Coder 是為編程特別設計的模型,包含1.5B、7B兩個版本,通義團隊還預告了Qwen2.5-Coder -32B也在開源的路上。這組模型最多支持 128K tokens 上下文,支持 92 種編程語言, 7B 版本打敗了更大尺寸的 DeepSeek-Coder-V2-Lite 和 Codestral-20B,成為當前最強大的基礎代碼模型之一。
與此同時,一直免費對外提供服務的通義千問旗艦模型 Qwen-Max也實現(xiàn)了全面升級,整體性能比前代有明顯提升。通義千問官網(wǎng)和通義APP的后臺模型均已切換為Qwen-Max,繼續(xù)免費為所有用戶提供服務。
自 2023 年 8 月開源以來,通義千問不斷在基座模型上發(fā)力,并將所有模型能力全部開放出來供業(yè)界使用。這背后是阿里云在 AI 大模型時代的開源開放策略在支撐。開源能夠推動大模型的研發(fā)和應用,最終,作為AI基礎設施的云計算廠商將是整個行業(yè)算力需求的最重要承接方。
路徑純粹、目標清晰,輕裝上陣、方得致遠。
不過,開源概念雖然美好,行動卻毫無捷徑可言。在所有模型都免費可用、所有用戶都來去自如的開源社區(qū),開發(fā)者的選擇太多了。模型好,開發(fā)者會駐足,模型不行,開發(fā)者可以毫不猶豫選用別家。
通義團隊總結(jié)了他們的開源經(jīng)驗,道理之樸素,幾乎沒有任何驚喜:性能上日拱一卒,不斷訓練和迭代模型,不斷提升數(shù)據(jù)處理、模型訓練方面的技能,始終跑在模型技術(shù)第一線。生態(tài)上從零起步、開疆拓土,與海內(nèi)外的開源社區(qū)、生態(tài)伙伴、開發(fā)者共建生態(tài)網(wǎng)絡,融入基模核心競技場。
生態(tài)建設方面,通義團隊做了幾方面的“細活”:
一,努力實現(xiàn)生態(tài)兼容。自Qwen1.5發(fā)布以來,通義團隊就與Hugging Face合作,把模型代碼合并到HuggingFace transformers代碼庫,方便開發(fā)者直接使用 transformers原生代碼;通義團隊還積極溝通生態(tài)伙伴,獲得各類開源框架、開源工具對Qwen系列的兼容和支持,包括vLLM、SGLang、AutoAWQ、AutoGPTQ、Axolotl、LLaMA-Factory、llama.cpp、 Ollama 、LMStudio 等等。
二,做好開發(fā)者服務。模型開源并不是把模型放到社區(qū)就行,Qwen團隊注重從細節(jié)處提升開發(fā)者體驗。準備模型文檔(model card)時,除了主流的英文文檔,還會準備中文甚至其他語種的文檔;優(yōu)化文檔質(zhì)量,讓開發(fā)者一眼讀懂模型的亮點、效果、demo;準備代碼片段,幫助開發(fā)者快速部署和使用模型。Qwen團隊還非常重視與開發(fā)者的互動,積極處理開發(fā)者提交的問題和建議。
三、積極吸納研究界和開源社區(qū)的創(chuàng)意。比如為了回應開發(fā)者對 14B 和 32B 模型的需求,本次Qwen2.5增加了14B、32B 尺寸的開源模型。
今天我們可以看到通義大模型在開源屆已經(jīng)成功躋身一流之列,比肩國際最強開源模型Llama,多次登頂Hugging Face全球大模型榜單。
通義千問開源模型Qwen的衍生模型數(shù)量已經(jīng)超過5萬,僅次于Llama,數(shù)據(jù)來自全球最大的開源社區(qū)Hugging Face
兩個數(shù)據(jù)最能體現(xiàn)通義作為中國開源大模型的影響力,一是模型下載量,根據(jù)通義官方數(shù)據(jù),截至 2024 年 9 月初,通義千問開源模型累計下載量已經(jīng)突破4000萬,這是開發(fā)者和中小企業(yè)用腳投票的結(jié)果;二是衍生模型數(shù)量,截至9月初,通義原生模型和衍生模型總數(shù)超過5萬個,成為僅次于Llama的世界級模型群。
除了開源模型,通義也提供 API 服務。據(jù)官方透露,通過阿里云,通義大模型已經(jīng)服務了30多萬客戶,他們涉及千行百業(yè)。盡管消費者市場的超級大模型應用還未出現(xiàn),但在很多垂直領域,大模型正在人們看不見的地方,逐漸生根發(fā)芽。阿里巴巴最新季度業(yè)績報告顯示,阿里云的AI相關(guān)產(chǎn)品收入實現(xiàn)三位數(shù)增長。
從去年百模大戰(zhàn)中的普通一員,到如今擁有“萬模同源”的模型族群,通義大模型的開源之路,也是中國大模型追趕世界一線水平的縮影。
回顧世界技術(shù)史,在每一次技術(shù)浪潮中,開源對一項新技術(shù)的推動和創(chuàng)新早已經(jīng)過多次驗證,開源的價值和意義毋庸置疑,站在大模型技術(shù)發(fā)展的角度可以說,在過去一年里通義大模型極大地推動了中國大模型的生態(tài)繁榮?!咐追寰W(wǎng)」「雷峰網(wǎng)(公眾號:雷峰網(wǎng))」
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。