李開復(fù)說話算數(shù)：零一萬物大模型首次發(fā)布，AI 2.0 正在路上

本文作者：王悅

2023-11-07 15:59

導(dǎo)語：零一萬物大模型成果首次發(fā)布。

作者 | 王悅

編輯 | 陳彩嫻

11月6日，李開復(fù)帶隊(duì)創(chuàng)辦的 AI 2.0 公司零一萬物，開源發(fā)布了Yi系列模型，包含 34B 和 6B 兩個(gè)版本。

令人驚艷的是，從參數(shù)量和性能上來看，Yi-34B 相當(dāng)于只用了不及 LLaMA2-70B一半、Falcon-180B五分之一的參數(shù)量，碾壓了LLaMA2-70B 和 Falcon-180B 等眾多大尺寸模型。憑借這一表現(xiàn)，躋身目前世界范圍內(nèi)開源最強(qiáng)基礎(chǔ)模型之列。

根據(jù) Hugging Face 英文開源社區(qū)平臺(tái)和 C-Eval 中文評(píng)測(cè)的最新榜單，Yi-34B 預(yù)訓(xùn)練模取得了多項(xiàng) SOTA 國際最佳性能指標(biāo)認(rèn)可，成為全球開源大模型「雙料冠軍」。這也是迄今為止唯一成功登頂 Hugging Face 全球開源模型排行榜的國產(chǎn)模型。

李開復(fù)說話算數(shù)：零一萬物大模型首次發(fā)布，AI 2.0 正在路上 Hugging Face Open LLM Leaderboard (pretrained) 大模型排行榜（2023年11月5日）

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))獲悉，「Yi 」系列大模型，命名來自「一」的拼音?！竃i 」中的「Y」上下顛倒，巧妙形同漢字的「人」，結(jié)合 AI 里的 i ，代表Human + AI ，強(qiáng)調(diào)以人為本的精神，為人類創(chuàng)造巨大的價(jià)值。

零一萬物創(chuàng)始人及CEO李開復(fù)博士表示：「零一萬物堅(jiān)定進(jìn)軍全球第一梯隊(duì)目標(biāo)，從招的第一個(gè)人，寫的第一行kl代碼，設(shè)計(jì)的第一個(gè)模型開始，就一直抱著成為‘World's No.1’的初衷和決心?！?/p>

從「AI 1.0」邁向「AI 2.0」，李開復(fù)說話算數(shù)，一步步向目前邁進(jìn)。

一、零一萬物大模型 Yi 首次曝光

作為國產(chǎn)大模型， Yi-34B 不得不說的的優(yōu)勢(shì)之一就是更「懂」中文。對(duì)比大模型標(biāo)桿GPT-4，在CMMLU、E-Eval、Gaokao 三個(gè)主要的中文指標(biāo)上，Yi-34B 也具有絕對(duì)優(yōu)勢(shì)，能夠更好地適配國內(nèi)市場(chǎng)需求。

從更為全面的評(píng)估看，在全球大模型各項(xiàng)評(píng)測(cè)中最關(guān)鍵的「MMLU」（Massive Multitask Language Understanding 大規(guī)模多任務(wù)語言理解）、BBH等反映模型綜合能力的評(píng)測(cè)集上，Yi-34B 同樣表現(xiàn)突出，在通用能力、知識(shí)推理、閱讀理解等多項(xiàng)指標(biāo)評(píng)比中全部勝出，與 Hugging Face 評(píng)測(cè)高度一致。

李開復(fù)說話算數(shù)：零一萬物大模型首次發(fā)布，AI 2.0 正在路上

各評(píng)測(cè)集得分：Yi 模型 v.s. 其他開源模型

在語言模型中，上下文窗口是大模型綜合運(yùn)算能力的關(guān)鍵指標(biāo)之一，對(duì)于理解和生成與特定上下文相關(guān)的文本至關(guān)重要，擁有更長(zhǎng)窗口的語言模型可以處理更豐富的知識(shí)庫信息，生成更連貫、準(zhǔn)確的文本。

據(jù)雷峰網(wǎng)了解，此次開源的 Yi-34B 模型，將發(fā)布全球最長(zhǎng)、可支持 200K 超長(zhǎng)上下文窗口（context window）版本，可以處理約40萬漢字超長(zhǎng)文本輸入。理解超過 1000 頁的 PDF 文檔，讓很多依賴于向量數(shù)據(jù)庫構(gòu)建外部知識(shí)庫的場(chǎng)景，都可以用上下文窗口來進(jìn)行替代。

相比之下，OpenAI 的 GPT-4 上下文窗口只有 32K，文字處理量約 2.5 萬字。今年三月，硅谷知名 AI 2.0 創(chuàng)業(yè)公司Anthropic 的 Claude2-100K 將上下文窗口擴(kuò)展到了 100K 規(guī)模，零一萬物直接加倍，并且是第一家將超長(zhǎng)上下文窗口在開源社區(qū)開放的大模型公司。

上下文窗口規(guī)模擴(kuò)充從計(jì)算、內(nèi)存和通信的角度存在各種挑戰(zhàn)，零一萬物能做到這個(gè)程度也并非一蹴而就。受限于計(jì)算復(fù)雜度、數(shù)據(jù)完備度等問題，大多數(shù)發(fā)布的大型語言模型僅支持幾千 tokens 的上下文長(zhǎng)度。

為了解決這個(gè)限制，零一萬物技術(shù)團(tuán)隊(duì)實(shí)施了一系列優(yōu)化，包括：計(jì)算通信重疊、序列并行、通信壓縮等。通過這些能力增強(qiáng)，實(shí)現(xiàn)了在大規(guī)模模型訓(xùn)練中近 100 倍的能力提升。

其實(shí)，Yi 系列模型之所以能取得如此亮眼的成績(jī)，背后的 AI Infra 是功不可沒的，其通過「高精度」系統(tǒng)、彈性訓(xùn)和接力訓(xùn)等全棧式解決方案，確保訓(xùn)練高效、安全地進(jìn)行。

憑借強(qiáng)大的 AI Infra 支撐，零一萬物團(tuán)隊(duì)能實(shí)現(xiàn)超越行業(yè)水平的訓(xùn)練效果，Yi-34B 模型訓(xùn)練成本實(shí)測(cè)下降40%，實(shí)際訓(xùn)練完成達(dá)標(biāo)時(shí)間與預(yù)測(cè)的時(shí)間誤差不到一小時(shí)，進(jìn)一步模擬上到千億規(guī)模訓(xùn)練成本可下降多達(dá) 50%。

截至目前，零一萬物 Infra 能力實(shí)現(xiàn)故障預(yù)測(cè)準(zhǔn)確率超過90%，故障提前發(fā)現(xiàn)率達(dá)到 99.9%，不需要人工參與的故障自愈率超過 95%，

無論是人前耀眼的成績(jī)還是背后基礎(chǔ)能力的攻堅(jiān)，也都離不開零一萬物潛心數(shù)月練就的大模型「科學(xué)訓(xùn)?！狗椒ㄕ?。

大模型效果依賴于更多、更高質(zhì)量的數(shù)據(jù)，零一萬物在數(shù)據(jù)處理管線上可謂「不惜成本」。

數(shù)據(jù)處理管線和加大規(guī)模預(yù)測(cè)的訓(xùn)練能力建設(shè)，把以往的大模型訓(xùn)練碰運(yùn)氣的「煉丹」過程變得極度細(xì)致和科學(xué)化，不僅保證了目前發(fā)布 Yi-34B、Yi-6B 模型的高性能，也為未來更大規(guī)模模型的訓(xùn)練壓縮了時(shí)間和成本，

經(jīng)過幾個(gè)月大量的建模和實(shí)驗(yàn)，零一萬物自研出一套「規(guī)模化訓(xùn)練實(shí)驗(yàn)平臺(tái)」，用來指導(dǎo)模型的設(shè)計(jì)和優(yōu)化。數(shù)據(jù)配比、超參搜索、模型結(jié)構(gòu)實(shí)驗(yàn)都可以在小規(guī)模實(shí)驗(yàn)平臺(tái)上進(jìn)行，對(duì) 34B 模型每個(gè)節(jié)點(diǎn)的預(yù)測(cè)誤差都可以控制在0.5%以內(nèi)。

在 Yi 開源模型的全球首發(fā)日，零一萬物 CEO 李開復(fù)也宣布，在完成 Yi-34B 預(yù)訓(xùn)練的同時(shí)，已經(jīng)旋即啟動(dòng)下一個(gè)千億參數(shù)模型的訓(xùn)練?！噶阋蝗f物的數(shù)據(jù)處理管線、算法研究、實(shí)驗(yàn)平臺(tái)、GPU 資源和 AI Infra 都已經(jīng)準(zhǔn)備好，我們的動(dòng)作會(huì)越來越快」。

二、從「AI 1.0」到「AI 2.0」

零一萬物的首次成果公布，體現(xiàn)的不僅是技術(shù)的進(jìn)步，還有商業(yè)的可能性。

今年 3 月，李開復(fù)作了一場(chǎng)關(guān)于 AI 從 1.0 時(shí)代跨到 2.0 時(shí)代的演講。隨后，零一萬物在李開復(fù)所設(shè)想的 AI 2.0 框架下成立，招攬了前百度安全副總裁馬杰、前微軟副總裁祁瑞峰等等技術(shù)大咖，陣容豪華，引起業(yè)內(nèi)的廣泛關(guān)注。

過去十年，深度學(xué)習(xí)催生了一批優(yōu)秀的 AI 公司，隨后經(jīng)過多年的發(fā)展，在過去兩年曾進(jìn)入短暫的低谷期，一度傳出 AI 泡沫、AI 寒冬的說法。其中的根源就在于：上一代 AI 公司盡管基于嶄新的技術(shù)立足，但在商業(yè)化上的步伐卻比預(yù)期慢。

而從去年 8 月 Stable Diffusion 掀起 AIGC 熱潮以來，加上去年11月底 ChatGPT 發(fā)布，全球 AI 突然看到了新的機(jī)會(huì)。這個(gè)新的機(jī)遇，被李開復(fù)稱為「AI 2.0」。

ChatGPT 之后，AI 時(shí)代的進(jìn)步在技術(shù)上體現(xiàn)為通用人工智能（AGI）雛形初顯，在商業(yè)應(yīng)用上則被李開復(fù)形容為平臺(tái)級(jí)的趨勢(shì)爆發(fā)。

所謂「平臺(tái)」，包含一個(gè)大的目標(biāo)，即要大幅降低開發(fā) AI 應(yīng)用的成本。如同電與電網(wǎng)的區(qū)別，電是一項(xiàng)偉大的發(fā)明，但如果沒有電網(wǎng)，就不會(huì)出現(xiàn)微波爐、電烤箱、電動(dòng)車等新的發(fā)明。換言之，AI 2.0 之于 AI 1.0 的區(qū)別，就在于將 AI 技術(shù)變成平臺(tái)，將定制變成通用，將點(diǎn)變成面。

過去十年的商業(yè)實(shí)踐驗(yàn)證了 AI 1.0 時(shí)代的瓶頸。在 AI 1.0 時(shí)代，數(shù)據(jù)越多、結(jié)果越好，但同時(shí)也因?yàn)樾枰罅康臉?biāo)注數(shù)據(jù)，成本巨大。此外，AI 1.0 時(shí)代的應(yīng)用在各個(gè)領(lǐng)域是相互割裂的，誕生了一連串的「孤島應(yīng)用」，無法形成有效的平臺(tái)。

但 AI 2.0 時(shí)代的技術(shù)基石是自監(jiān)督，可以讓 AI 模型不進(jìn)行數(shù)據(jù)標(biāo)注也能學(xué)習(xí)。雖然同樣需要將大量的、跨領(lǐng)域的數(shù)據(jù)拿來學(xué)習(xí)，但學(xué)習(xí)后形成一個(gè)基礎(chǔ)模型（即大模型）后再去做知識(shí)的遷移，AI 即相當(dāng)于一個(gè)世界模型。經(jīng)過多年的訓(xùn)練與積累，基礎(chǔ)模型更成熟，基于基礎(chǔ)模型再做平臺(tái)應(yīng)用，即可打破 AI 應(yīng)用的孤島現(xiàn)象，邊際效益與日俱增。

換言之，AI 2.0 時(shí)代有三大優(yōu)勢(shì)：一是減少人工標(biāo)注；二是模型規(guī)模大，具備世界知識(shí)；三是能夠以極低的成本對(duì)基礎(chǔ)模型進(jìn)行微調(diào)訓(xùn)練，即可適應(yīng)不同領(lǐng)域的任務(wù)。所以，在 AI 2.0 時(shí)代，每個(gè)領(lǐng)域都有機(jī)會(huì)將原有的應(yīng)用重構(gòu)一遍，用更短的時(shí)間生產(chǎn)出更高質(zhì)量的數(shù)字內(nèi)容，而且千人千面、精準(zhǔn)優(yōu)化信息流，做出更偉大的商業(yè)模式。

一方面，降低訓(xùn)練成本是減少 AI 應(yīng)用開發(fā)成本、催生一系列爆款應(yīng)用的前提；另一方面，長(zhǎng)文本處理是商業(yè)應(yīng)用的一道攔路虎。如果長(zhǎng)文本處理的技術(shù)瓶頸能突破，許多更高難度的應(yīng)用也會(huì)被一一破解，如處理超長(zhǎng)篇幅的法務(wù)合同、交叉對(duì)比多篇學(xué)術(shù)論文、基于長(zhǎng)篇?jiǎng)”具M(jìn)行角色扮演、通過多篇財(cái)報(bào)進(jìn)行市場(chǎng)分析等等。

因此，「長(zhǎng)文本處理」在下半年成為大模型賽道的兵家必爭(zhēng)之地。從 Anthropic AI 對(duì) OpenAI 發(fā)起挑戰(zhàn)后，國內(nèi)多家大模型廠商也陸續(xù)推出長(zhǎng)文本處理里程碑。如月之暗面的 Kimi Chat 支持 20 萬字輸入，百川智能的 Baichuan2-192k 支持 35 萬字輸入，零一萬物的 Yi-34B 迅速擴(kuò)展到 40 萬字。

此次零一萬物團(tuán)隊(duì)開源大模型 Yi-34B 與 Yi-6B，在長(zhǎng)文本領(lǐng)域可以做到最長(zhǎng) 200k 上下文窗口、40 萬字的文本處理，也與李開復(fù)此前談的 AI 2.0 思想相一致。同時(shí)，據(jù)零一萬物介紹，他們還依托基礎(chǔ)的計(jì)算設(shè)施與算法優(yōu)化等 Infra 能力，將訓(xùn)練成本下降了 40%。

上傳到 Hugging Face 不過兩天后，Yi-34B 的下載量就超過了 1000 次，獲得了接近 150 個(gè)點(diǎn)贊。

李開復(fù)說話算數(shù)：零一萬物大模型首次發(fā)布，AI 2.0 正在路上

長(zhǎng)文本處理的技術(shù)突破，不僅是表面上關(guān)于 Token 數(shù)的數(shù)據(jù)變更，更重要的是其體現(xiàn)了人工智能領(lǐng)域整體對(duì) AI 2.0 時(shí)代所蘊(yùn)含的商業(yè)潛力的認(rèn)同與樂觀。正是因?yàn)閷?duì)大模型為代表的新一代 AI 技術(shù)的信心，才有如此多優(yōu)秀的技術(shù)人才涌入該賽道，在極短的時(shí)間內(nèi)快速突破了長(zhǎng)文本等技術(shù)問題的局限。

據(jù)雷峰網(wǎng)了解，如今長(zhǎng)文本處理已逐漸被熱情的 AI 技術(shù)人才攻破，目前業(yè)內(nèi)流行的技術(shù)方法包括：最簡(jiǎn)單粗暴的堆顯存，或滑動(dòng)窗口、降采樣等，或在 Attention-mask 中做動(dòng)態(tài)內(nèi)插。這些方法的效果很好，缺點(diǎn)是計(jì)算開銷大。但在各大云計(jì)算廠商的加持下，算力壁壘也被逐漸打了下來。

可以看見，AI 進(jìn)入一個(gè)新的時(shí)代毫無疑問已是行業(yè)共識(shí)。AI 2.0 代表一個(gè)新的商業(yè)愿景，道阻路長(zhǎng)，玩家眾多，但后來者零一萬物也已成為其中最有潛力的團(tuán)隊(duì)之一，期待零一萬物接下來的表現(xiàn)。

OpenAI 首屆開發(fā)者大會(huì)召開在即，AI 科技評(píng)論持續(xù)關(guān)注，歡迎同樣關(guān)注的朋友添加作者微信 s1060788086 一起交流。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

王悅

主筆

發(fā)私信

當(dāng)月熱門文章