王小川大模型的第一個里程碑：baichuan-7B 6月15正式開源發(fā)布

本文作者：董子博

2023-06-30 15:44

導語：二“王”之中，開出第一“槍”的是王小川。

千呼萬喚始出來，王小川的百川智能，終于發(fā)布了他們的第一個大模型成果：baichuan-7B。

4月第一次與媒體見面時，王小川對于百川大模型顯得相當自信，而“年底爭取發(fā)布國內(nèi)最好的大模型”的豪言壯語，一時甚至有些刺耳。

而短短2個半月過去，百川所發(fā)布的 baichuan-7B，卻足以讓不少質(zhì)疑的人為之“噤聲”。

一、大幅領(lǐng)先，最強7B

評判大模型孰優(yōu)孰劣，盡管當下仍然是個“非共識”，但榜單跑分仍然是印證 AI 能力相當重要的一個路子。而 baichuan-7B 在榜單上的表現(xiàn)，的確令人印象深刻。

在三個最具影響力的中文評估基準中，baichuan-7B 在同等參數(shù)量級大模型中的綜合評分十分亮眼：

在由微軟研究院發(fā)起的評測標準 AGI Eval 中，baichua 7B 綜合評分34.4，在中國高考、司法考試、SAT、LSAT、GRE 等考試中發(fā)揮很好，領(lǐng)先于LLaMa-7B、Falcon-7B、Bloom-7B 以及 ChatGLM-6B 等不少競爭對手；

而在 C-Eval——由上交、清華、愛丁堡大學三個頂級院校聯(lián)合創(chuàng)建的評測標準中，baichuan-7B 發(fā)揮同樣出色。在覆蓋了52個學科的測評中，baichuan-7B 獲評34.4分，在同量級產(chǎn)品中排名第一。

在這次跑分中，baichuan-7B 的表現(xiàn)甚至比起一些參數(shù)量級更大的模型更優(yōu)秀，其中有些參數(shù)甚至是 baichuan-7B 的四倍以上。榜單上，比起130億參數(shù)的 GLM-130B 一個月前的測試結(jié)果， baichuan-7B 的綜合評分也僅相差1.2分。

而在復(fù)旦大學研究團隊所創(chuàng)建的 GAOKAO 評測框架中，baichuan-7B 在高考題目上的表現(xiàn)同樣驚艷，不僅評分在同參數(shù)量級的模型中拔得頭籌，并且領(lǐng)先第二名近8分。

中文評測在三個榜單拿到第一，而 baichuan-7B 卻并不“偏科”，在由美國諸多名校聯(lián)合劃定的 MMLU 英文評估基準上，評分也超過了包括 ChatGLM-6B，LLaMA-7B等開源模型，在英文跨學科專業(yè)能力上同樣令人信任。

就如同一個“高考狀元，baichuan-7B 成績斐然的背后，百川智能有幾個“獨門秘籍”

首先，是大規(guī)模、高質(zhì)量訓練語料庫的構(gòu)建。如果把面對評測的大模型，比作即將面臨考試的應(yīng)考生，那訓練語料就是他們的學習資料和課程——如果沒有足夠好的課程，學生頭腦再聰明也是枉然。

在構(gòu)建數(shù)據(jù)集的時候，百川在中英文兩方面的數(shù)據(jù)篩選都采用了獨特的手段：

為了保證語料質(zhì)量，百川使用了質(zhì)量模型對數(shù)據(jù)打分，以完成對原始數(shù)據(jù)集“篇章級”和“句子級”的精確篩選；

而在預(yù)料多樣性方面，百川為此專研了超大規(guī)模局部敏感哈希聚類系統(tǒng)和語義聚類系統(tǒng)，以完成對數(shù)據(jù)的多層次多粒度聚類。

在這兩招之下，baichuan-7B 70億參數(shù)量級的大模型，背后有了一個包含1.2萬億 Token 的高質(zhì)量與訓練數(shù)據(jù)，內(nèi)功相當深厚。

其次，是訓練效率的提升。資料和課程到位，這位“考生”就要對這些知識進行高效率的學習和消化。就如同學習方法之于考生，訓練效率至于大模型也同等重要——掌握了正確的方法，往往事半功倍。

寥寥數(shù)月，100天左右的時間，baichuan-7B 能夠迅速“出彩”的一個重要原因，就是高效率的訓練過程。

為了做到這一點，baichuan-7B深度整合了模型算子來加快計算流程，并針對任務(wù)負載和集群配置，自適應(yīng)優(yōu)化了模型并行策略以及重計算策略。

通過高效的訓練過程調(diào)度通信，baichuan-7B成功地實現(xiàn)了計算與通信的高效重疊，進而達到了超線性的訓練加速，在千卡集群上，訓練吞吐達到 180+ Tflops。

同時，通過更優(yōu)的訓練流程設(shè)計和超參數(shù)選擇，baichuan-7B 的收斂速度獲得了重大的提升，也就讓其在困惑度（PPL）和訓練損失（Training loss）的表現(xiàn)上更加優(yōu)秀。

最后，是更好的算法優(yōu)化。有好的復(fù)習材料，也有足夠高效的學習方法，單有這兩點，還不足以產(chǎn)生一個“狀元”。類比考生的天資，算法的實力也同等重要。

這一點，在 baichuan-7B 上，主要體現(xiàn)在更大的窗口長度。

為了能讓大模型在訓練和推理階段，捕捉更多的上下文信息，以更好的完成一些長文本建模任務(wù)，窗口長度對于大模型能力的制約相當明顯。

基于高效的attention算子優(yōu)化，百川智能實現(xiàn)了萬級別超長動態(tài)窗口的擴張能力。2倍于已有開源模型的窗口長度，baichuan-7B 把這個參數(shù)做到了4k，理解能力相比過去獲得了巨大的提升，也能夠諸如搜索增強、知識嵌入的下游應(yīng)用場景完成拓展。

更優(yōu)、更多樣、更大的數(shù)據(jù)，加上更高效、更收斂的訓練，再配上更強的上下文理解能力，baichuan-7B 的斐然成績并不是偶然。

二、開源免費商用，海納百川的“百川戰(zhàn)略”

海納百川，從百川智能官宣的第一天起，就是王小川創(chuàng)業(yè)的關(guān)鍵精神。

從這個角度看，baichuan-7B 選擇開源，就稱不上是“意料之外”。

代碼采用 Apache-2.0 協(xié)議，模型權(quán)重采用免費商用協(xié)議，堪稱“最強7B”的 baichuan-7B，如同一本打開的書，開放給社會各界——包括商用——來使用。

這次開源，baichuan-7B 開放了推理代碼、INT4量化實現(xiàn)、微調(diào)代碼，以及預(yù)訓練模型的權(quán)重。對用戶的模型調(diào)優(yōu)優(yōu)化、低成本應(yīng)用部署，乃至于其他研究者利用 baichuan-7B 完成研究，都有很大的助力。

開放的開源精神，也讓 baichuan-7B獲得了清華和北大，兩所中國頂級高校的青睞。

在清華互聯(lián)網(wǎng)司法研究院，計算機系教授劉奕群看中了 baichuan-7B 在中文上的效果表現(xiàn)，并計劃在此基礎(chǔ)上，開展司法人工智能領(lǐng)域的相關(guān)研究。

而在北大，人工智能研究所的助理教授楊耀東則表示，在 baichuan-7B 的開源之下，中文基礎(chǔ)語言模型的生態(tài)建設(shè)和學術(shù)研究，都將獲得裨益。

據(jù)披露，清北兩所高校表示，己計劃在未來與百川智能深入合作，來一起推動 baichuan-7B 的應(yīng)用和發(fā)展。

結(jié)語：

看著 baichuan-7B 一路“過關(guān)斬將”，不由得讓人開始相信，王小川“年底爭取做國內(nèi)最好大模型”的發(fā)言，似乎并不只是豪言壯語。

而這次成功的首發(fā)，也讓百川——乃至整個大模型創(chuàng)業(yè)界——看到了更大的動力和希望。

在接受雷峰網(wǎng)采訪時，百川智能的技術(shù)團隊表示：

“這次開源一個7B的模型，并且在公開評測集上有著優(yōu)異表現(xiàn)，就足以證明百川的產(chǎn)品與技術(shù)理念，以及我們在大模型領(lǐng)域的競爭力，也為我們后續(xù)的研發(fā)提供了更多信心?！?/p>

對于百川來說，盡管結(jié)結(jié)實實地“秀”了一次肌肉，但 7B 規(guī)模參數(shù)的模型絕不是終點。小試牛刀之后，王小川下一步的動作，在當下相當令人期待。

4月與媒體見面，王小川曾說過，“我們都是第一批邁入新時代的人類”，都有焦慮和好奇。

2個月過去，百川到達了自己的第一個里程碑。而大模型舞臺的幕布，也正被徐徐地揭開。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

董子博

編輯

發(fā)私信

當月熱門文章

王小川大模型的第一個里程碑：baichuan-7B 6月15正式開源發(fā)布

一、大幅領(lǐng)先，最強7B

二、開源免費商用，海納百川的“百川戰(zhàn)略”

結(jié)語：

一、大幅領(lǐng)先，最強7B

二、開源免費商用，海納百川的“百川戰(zhàn)略”