0
「預(yù)見未來最好的方式就是親手創(chuàng)造未來?!?br/>
01 「范式」革命
故事的開頭發(fā)生在 2018 年的秋天,北京海淀區(qū)。
那一天,10 月 11 日,一個(gè)尋常的周四,劉知遠(yuǎn)像往常一樣習(xí)慣性地打開 arXiv 的網(wǎng)頁,瀏覽來自全球各地學(xué)者上傳的人工智能(AI)領(lǐng)域最新工作。大多時(shí)候,arXiv 上的論文質(zhì)量參差不齊,劉知遠(yuǎn)只粗略瀏覽來獲取大致信息;但這一天,他卻被谷歌語言小組所冠名的一篇論文所深深吸引了。
原本只是點(diǎn)進(jìn)去瞄一眼,結(jié)果越看越著迷、越看越吃驚,關(guān)上電腦后仍久久不能回神,為其中的思想所傾倒。果不其然,他很快發(fā)現(xiàn),這篇論文也引起了國內(nèi)其他人工智能學(xué)者的廣泛關(guān)注,清華、北大、人大與復(fù)旦等高校的教師與學(xué)生也在熱烈討論該工作。
大家都隱約覺得:「這可能是人工智能領(lǐng)域的又一次技術(shù)范式革命?!?/p>
這個(gè)工作,就是后來大名鼎鼎、如今在谷歌學(xué)術(shù)上已被引用超過七萬次的 BERT 論文——「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」。
論文鏈接:https://arxiv.org/pdf/1810.04805.pdf
在中文的語境中,「范式」并不是一個(gè)常見詞匯。但在雷峰網(wǎng)走訪大模型的過程中,這個(gè)詞被反復(fù)多次提及,一次是形容 2012 年的深度學(xué)習(xí),一次是 2018 年的 BERT,另一次則是 2022 年 ChatGPT 出來前的中國大模型創(chuàng)業(yè)方向:「那時(shí)大家沒有朝通用人工智能(AGI)的方向去想,但覺得可以將大模型做成一個(gè)通用的人工智能范式?!惯@是后話。
回到 BERT。
「范式」一詞源于英文單詞「paradigm」,意指一個(gè)領(lǐng)域的基礎(chǔ)體系與架構(gòu),如西服、漢服分別是服裝領(lǐng)域的兩個(gè)不同范式,在這兩個(gè)范式的基礎(chǔ)上,服裝師可以設(shè)計(jì)出各式各樣、款式不一的服裝。簡(jiǎn)而言之,范式代表了底層思路的變革,劃分過去與未來。
而 BERT 的「雙向預(yù)訓(xùn)練」思路體現(xiàn)了這一潛力。
AI 有三大方向:計(jì)算機(jī)視覺(CV)、自然語言處理(NLP)與機(jī)器學(xué)習(xí)(ML),其中 NLP 的終極目標(biāo)是讓計(jì)算機(jī)理解人類語言。那么,如何判斷計(jì)算機(jī)已經(jīng)理解人類語言?BERT 之前的很長(zhǎng)一段時(shí)間里,NLP 的研究思路都是將語言理解拆分成細(xì)小的任務(wù)方向,如機(jī)器翻譯、文本對(duì)比、語義分析等等,再針對(duì)每項(xiàng)任務(wù)分別進(jìn)行 AI 算法的設(shè)計(jì)與訓(xùn)練。比如,劉知遠(yuǎn)在讀博期間(2006-2011)的研究方向就是 NLP 的一項(xiàng)基礎(chǔ)任務(wù),叫「關(guān)鍵詞抽取」。
而 BERT 與傳統(tǒng)方法的區(qū)別在于:傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)或深度學(xué)習(xí)是讓 AI 算法直接學(xué)習(xí)某個(gè)任務(wù)(如文本對(duì)比)的數(shù)據(jù),在學(xué)習(xí)這些數(shù)據(jù)前,AI 就像一張白紙,沒有任何基礎(chǔ)能力,訓(xùn)練出來的算法也只能執(zhí)行一項(xiàng)任務(wù);而 BERT 的預(yù)訓(xùn)練方法是在學(xué)習(xí)任務(wù)數(shù)據(jù)前,先讓 AI 背誦海量的標(biāo)注數(shù)據(jù),相當(dāng)于考試前先做了一遍卷子,因此訓(xùn)練出來的算法在之后的「考試」實(shí)戰(zhàn)中表現(xiàn)更加出色。
BERT 不是第一個(gè)采用預(yù)訓(xùn)練方法的語言模型;此前數(shù)月,OpenAI 發(fā)布的 GPT-1 也是預(yù)訓(xùn)練語言模型。但 BERT 的革新之處在于,它用雙向訓(xùn)練的思路打破了原先預(yù)訓(xùn)練方法對(duì)指定任務(wù)框架的依賴。
GPT-1 是單向結(jié)構(gòu),只能從左往右、或從右往左地來學(xué)習(xí)文本信息,因此訓(xùn)練出來的算法只能執(zhí)行一項(xiàng)語言任務(wù),如 GPT-1 擅長(zhǎng)文本生成,但不擅長(zhǎng)理解;而 BERT 是雙向結(jié)構(gòu),能夠同時(shí)從左邊和右邊學(xué)習(xí)語言表征,并在多個(gè)任務(wù)的海量未標(biāo)注數(shù)據(jù)上學(xué)習(xí),因此能同時(shí)執(zhí)行知識(shí)問答、上下文填空、文本理解等多種語言任務(wù),且在各項(xiàng)任務(wù)上的表現(xiàn)都超越了當(dāng)時(shí)的所有模型,很快在語言理解權(quán)威榜單 GLUE 上霸榜第一。
大家都對(duì) BERT 的效果感到震撼,就像回到了 2012 年深度學(xué)習(xí)初顯威力時(shí):
那一年,加拿大多倫多大學(xué)教授 Geoffrey Hinton 帶領(lǐng)兩個(gè)學(xué)生,Alex Krizhevsky 與 Ilya Sutskever(現(xiàn) OpenAI 首席科學(xué)家),用深度學(xué)習(xí)方法訓(xùn)練出的 AlexNet 橫掃世界計(jì)算機(jī)視覺大賽 ImageNet,將第二名開外的所有統(tǒng)計(jì)學(xué)習(xí)算法遠(yuǎn)遠(yuǎn)甩在后面,「深度學(xué)習(xí)」一戰(zhàn)成名,連研究 NLP 的學(xué)者也在不斷討論。
相比深度學(xué)習(xí),BERT 當(dāng)時(shí)的水花要小得多,但國內(nèi)的一眾 NLP 學(xué)者也感到了時(shí)不我待的急迫。
雖然沒有精確統(tǒng)計(jì),但多位學(xué)者告訴雷峰網(wǎng),2012 年深度學(xué)習(xí)崛起后,無論是研究還是落地,視覺都是國內(nèi) AI 圈中研究人數(shù)最多、研究熱度最高的方向;從 2012 年到 2018 年,語言領(lǐng)域的變化不如視覺領(lǐng)域那么大,在擁抱深度學(xué)習(xí)的浪潮中也不是特別突出。
劉知遠(yuǎn)隸屬于清華大學(xué)自然語言處理實(shí)驗(yàn)室(THUNLP),孫茂松是該實(shí)驗(yàn)室的主任。2012 年,孫茂松正好牽頭申請(qǐng)國家科技部的 973 計(jì)劃項(xiàng)目,為了更好地 NLP 的未來技術(shù)路線,組織了北大、哈工大、中科大自動(dòng)化所、百度在內(nèi)的幾個(gè)單位一起討論。大家一致看好深度學(xué)習(xí),于是項(xiàng)目成功申請(qǐng)后,THUNLP 也從 2013 年開始轉(zhuǎn)向深度學(xué)習(xí)。后來,深度學(xué)習(xí)果然席卷全球。
自此,「敢于自我革命」就成為 THUNLP 的研究精神。BERT 出來后,劉知遠(yuǎn)也很快決定轉(zhuǎn)向預(yù)訓(xùn)練方法。他們的思路是用知識(shí)圖譜的方法抽取出一條條抽象的知識(shí),再注入預(yù)訓(xùn)練語言模型中,以此讓模型變得更智能。他們與華為諾亞方舟實(shí)驗(yàn)室的劉群、蔣欣合作,很快研發(fā)出一個(gè)預(yù)訓(xùn)練語言模型,起名「ERNIE」,并投稿到 NLP 頂級(jí)學(xué)術(shù)會(huì)議 ACL 2019 上。
孫茂松(左)、劉知遠(yuǎn)(右)
巧合的是,2018 年百度的 NLP 團(tuán)隊(duì)也為 BERT 所震撼,并幾乎同時(shí)完成了一個(gè)預(yù)訓(xùn)練語言模型,率先發(fā)表在 arXiv 上,且同樣起名「ERNIE」。兩個(gè)團(tuán)隊(duì)都是按美國動(dòng)漫片《芝麻街》的角色命名,因?yàn)榇饲暗念A(yù)訓(xùn)練模型如 ELMO、BERT 都是《芝麻街》里的角色。谷歌用了 BERT,他們的目標(biāo)都是對(duì)標(biāo)谷歌,就想到了一塊去。
兩個(gè)「ERNIE」在部分任務(wù)上的性能都超越了 BERT。百度在 arXiv 上的發(fā)布在先,THUNLP 與華為合作的論文被接收在后。為了與百度區(qū)分開,劉知遠(yuǎn)等人便將模型的名字修改了,百度則一直沿用該稱謂。后來,百度煉大模型,中文名叫「文心」,英文名則一直叫「ERNIE」。
不出所料,預(yù)訓(xùn)練迅速成為 NLP 領(lǐng)域的主流方法。同期,部分國際團(tuán)隊(duì)也有敏銳嗅覺,迅速跟上 BERT 的雙向預(yù)訓(xùn)練方法。2019 年 2 月,OpenAI 發(fā)布了 GPT-2。雖然 GPT-2 比 GPT-1 的生成效果更好,但在許多語言任務(wù)上仍比不過 BERT,因此當(dāng)時(shí) OpenAI 的聲量完全被谷歌壓了下去。
但一年半后,歷史再一次被刷新:
2020 年 6 月,OpenAI 突然發(fā)布了一個(gè)超乎所有人想象的研究成果——參數(shù)規(guī)模高達(dá) 1750 億的 GPT-3。同是預(yù)訓(xùn)練語言模型,但 GPT-3 的參數(shù)量是 BERT 的 500 倍,不僅能做語言生成,而且在各項(xiàng)語言理解類的任務(wù)上也超過了 BERT。
所有人的研究世界觀都被顛覆了。
02 GPT-3 點(diǎn)火
沒有人想到,預(yù)訓(xùn)練語言模型的參數(shù)量被放大后會(huì)出現(xiàn)所謂的「智能涌現(xiàn)」。谷歌對(duì)于該現(xiàn)象的佐證論文也是一年后才發(fā)表。
BERT 的參數(shù)量是 3.4 億,與 2018 年的所有語言模型相比都是當(dāng)之無愧的「大模型」,但大家的關(guān)注點(diǎn)更多在它的預(yù)訓(xùn)練方法上,根本沒有想過像 OpenAI 一樣直接「堆量」。GPT-3 堆量的行為就像讓 AI 模型將整個(gè)圖書館直接死記硬背下來一樣。
結(jié)果,死記硬背的 GPT-3 不僅理解能力變得非常強(qiáng),還具備一定的推理能力。乃至在一些未標(biāo)注的數(shù)據(jù)與任務(wù)上,GPT-3 也能現(xiàn)學(xué)現(xiàn)賣,取得不錯(cuò)的結(jié)果。
之前的語言小模型在注入知識(shí)后,智能水平也會(huì)隨之提升,這是大家所能理解的。但 OpenAI 省略了從文本數(shù)據(jù)中抽取知識(shí)的環(huán)節(jié),而是完全靠堆參數(shù)、讓 GPT-3 硬學(xué)的「暴力美學(xué)」則讓所有人都大跌眼鏡。甚至有說法稱,GPT-3 實(shí)際上已經(jīng)通過了圖靈測(cè)試。
圖靈測(cè)試由「人工智能之父」艾倫·圖靈在 1950 年提出,全球的人工智能發(fā)展歷經(jīng) 70 年才首次通過,因此對(duì) AI 圈的沖擊非常大。GPT-3 不僅是自然語言處理領(lǐng)域的重大突破,更是 AI 領(lǐng)域的一個(gè)里程碑。一時(shí)間,語言智能的討論達(dá)到了空前高度。不止劉知遠(yuǎn)等 NLP 學(xué)者,信息檢索方向的相關(guān)人員也在不斷討論。
更夸張的是,OpenAI 號(hào)稱在訓(xùn)練 GPT-3 時(shí)用了一萬張顯卡。
通常來說,高校科研中,算力設(shè)備的成本大約只占一個(gè)老師整體科研經(jīng)費(fèi)的 20%,擁有超過 500 張卡就是學(xué)術(shù)界的土豪級(jí)玩家。先前,國內(nèi)外的 AI 科學(xué)家在研究 NLP 時(shí)大多是用單卡,或單機(jī)多卡,但 GPT-3 的訓(xùn)練一共用了一萬張卡,折算下來大約 1200 萬美金,超過 8000 萬人民幣。
從工程搭建的角度看,訓(xùn)練 GPT-3 的工程難度也是前無古人。以 BERT 為例,3.4 億參數(shù)的 BERT 訓(xùn)練工程量與 1750 億參數(shù)的 GPT-3 訓(xùn)練工程量相比,就像造玩具車與造飛機(jī)的區(qū)別。玩具車的工程量不適用于航空飛機(jī),同樣,過去語言小模型的訓(xùn)練知識(shí)也不適用于大模型。
GPT-3 對(duì) BERT 的碾壓,本質(zhì)上是「大規(guī)模預(yù)訓(xùn)練語言模型」對(duì)「預(yù)訓(xùn)練語言模型」的碾壓。
一方面,大家為 GPT-3 沸騰;另一方面,內(nèi)心又感到極大的落差。在此之前,國內(nèi)的一眾學(xué)者大多自我感覺良好,覺得國內(nèi)團(tuán)隊(duì)發(fā)表的論文水平與美國高校不相上下;GPT-3 出來后,他們才知道原來自己與國際頂尖水平還有如此大的差距。
2020 年夏天的北京五道口,清華、北大、人大、中科院等高校的計(jì)算機(jī)與人工智能學(xué)者都在關(guān)注 GPT-3。盡管當(dāng)時(shí)沒有人能說清 GPT-3 強(qiáng)大的機(jī)理,但直覺告訴大家,這是 AI 領(lǐng)域的一個(gè)重要分水嶺。GPT-3 產(chǎn)生的沖擊如此之大,以至于一些學(xué)者決定,無論如何都要研究大規(guī)模預(yù)訓(xùn)練語言模型,簡(jiǎn)稱「大模型」。
劉知遠(yuǎn)就是其中的一員。當(dāng)時(shí),研究大模型最突出的阻礙是算力,劉知遠(yuǎn)就一邊去找清華高性能計(jì)算方向的陳文光、韓文弢等老師合作研究,想用分布式加速計(jì)算來降低大模型的訓(xùn)練成本,同時(shí)也將目光投向 THUNLP 之外,尋求外界的幫助。
那時(shí),孫茂松在距離清華東門不到一百米的一家新型人工智能研發(fā)機(jī)構(gòu)里擔(dān)任自然語言處理方向的首席科學(xué)家,劉知遠(yuǎn)也在其中擔(dān)任青年科學(xué)家。很自然地,劉知遠(yuǎn)便想到了去該機(jī)構(gòu)談合作。
這個(gè)機(jī)構(gòu),就是如今大名鼎鼎的北京智源人工智能研究院(BAAI)。
智源大樓外觀
但當(dāng)時(shí),智源只是一個(gè)成立不過一年半、正在發(fā)展建設(shè)中的研究單位。
智源的成立是北京國際創(chuàng)新中心建設(shè)藍(lán)圖中的一角,由科技部與北京市共同指導(dǎo)成立,肩負(fù)人工智能前沿探索的使命。通過「智源學(xué)者」、「智源大會(huì)」與「青源會(huì)」等項(xiàng)目,智源鏈接了北京地區(qū)約一百位出色的 AI 科學(xué)家,與大家建立了緊密聯(lián)系的同時(shí),也注重與智源學(xué)者共同尋找 AI 領(lǐng)域的「下一個(gè)大事件」。
智源研究院院長(zhǎng)黃鐵軍告訴雷峰網(wǎng),智源學(xué)者的評(píng)選本身就很嚴(yán)格,所以在評(píng)選出對(duì)應(yīng)的學(xué)者后,智源會(huì)向智源學(xué)者提供對(duì)應(yīng)的經(jīng)費(fèi)支持,且不要求提交研究成果;相反,智源更在意大家能一起探索出值得投入的重大 AI 方向。
2019 年 4 月,智源確立了幾個(gè)重大方向,包括自然語言處理、機(jī)器學(xué)習(xí)、信息檢索等,每個(gè)方向都有 5 到 10 位知名學(xué)者聚集討論。自然語言處理方向有孫茂松、何曉冬、劉知遠(yuǎn)等等,智能信息檢索方向有文繼榮、唐杰等等。GPT-3 出來后,幾大方向的學(xué)者都在討論 GPT-3,討論要如何研究中國的大模型。
在最終達(dá)成共識(shí)之前,智源內(nèi)部經(jīng)過了幾輪重要討論。
前兩次在北京的雁棲湖:2020 年 7 月是機(jī)器學(xué)習(xí)方向的會(huì),該方向的智源學(xué)者認(rèn)為 GPT-3 是一個(gè)大方向,如今語言大模型已經(jīng)出來,應(yīng)該研究視覺大模型,但討論后覺得視覺大模型消耗的算力更大,所以沒有付諸行動(dòng);8月是信息檢索與挖掘方向,文繼榮與唐杰等人在會(huì)上討論語言大模型。到 9 月,在智源的院辦公會(huì)上,劉知遠(yuǎn)提出想研究通用語言模型。
國慶結(jié)束后,10 月 10 日,智源在雁棲湖又召開了一次討論,邀請(qǐng)不同方向的學(xué)者參會(huì),最終在會(huì)上達(dá)成共識(shí),要組成一個(gè)攻關(guān)團(tuán)隊(duì),在大模型方向上開展合作。
立項(xiàng)后,智源在各個(gè)渠道發(fā)出「英雄帖」,邀請(qǐng)對(duì)大模型感興趣的學(xué)者一同研究,并稱「英雄不問出處」。召集令一出,與眾學(xué)者的想法不謀而合,大家紛紛報(bào)名。
最先舉手的是清華與人大的老師,有劉知遠(yuǎn)、文繼榮、唐杰、黃民烈等人。隨后,北大與中科院等高校的學(xué)者也表示感興趣,一些智源外部的成員也參與了進(jìn)來,如當(dāng)時(shí)在阿里巴巴達(dá)摩院任職的楊紅霞。到最后,智源的大模型項(xiàng)目聚集了約一百人,時(shí)任智源副院長(zhǎng)的唐杰被委任為項(xiàng)目總負(fù)責(zé)人。
唐杰
那年 10 月,智源研究院向時(shí)任北京市市長(zhǎng)陳吉寧報(bào)告了這個(gè)「百人大模型計(jì)劃」,陳市長(zhǎng)很興奮地表示:「這(大模型)是人工智能未來的核爆點(diǎn),會(huì)帶來整個(gè)產(chǎn)生生態(tài)的蓬勃發(fā)展。」北京市決定大力支持,并為智源批準(zhǔn)專項(xiàng)經(jīng)費(fèi)購買算力。
事實(shí)上,當(dāng)時(shí)很多人還看不清大模型是什么,且大模型的研發(fā)需要高昂經(jīng)費(fèi)。但在 2020 年 10 月,從學(xué)者到智源,從北京市到科技部,大家都達(dá)成了一個(gè)共識(shí),就是全力推進(jìn)中國大模型的研發(fā)。事后,多位學(xué)者都向雷峰網(wǎng)表達(dá)驚嘆:「很奇怪,當(dāng)時(shí)大家都沒有猶豫?!?/p>
大家認(rèn)為,大模型可以做成一件更大的事情。除了語言大模型,「數(shù)量引起質(zhì)變」的思想或許也能在其他領(lǐng)域產(chǎn)生突破,于是,經(jīng)過討論,大家決定「兵分四路」,從四個(gè)方向開拓中國的大模型:中文大模型、多模態(tài)大模型、認(rèn)知大模型與蛋白質(zhì)大模型,依次由劉知遠(yuǎn)、文繼榮與唐杰帶領(lǐng),其中唐杰負(fù)責(zé)后兩塊,相當(dāng)于「三個(gè)團(tuán)隊(duì)做四件事」。
文繼榮
2020 年 11 月,小組討論命名。在順義春暉園的自然語言處理年會(huì)上,孫茂松說,大家都是研究語言相關(guān)的,建議統(tǒng)一用「文」字開頭。討論后,四個(gè)小組共同以清代珍藏《四庫全書》的七座皇家藏書樓中的四座進(jìn)行了命名,依次為「文源」、「文瀾」、「文匯」與「文溯」。
為了表示大家是一個(gè)整體,智源建議起一個(gè)統(tǒng)一代號(hào),就邀請(qǐng)大家到智源當(dāng)時(shí)位于五道口的賽爾大廈開會(huì)。會(huì)上,唐杰提議命名與五道口有關(guān),因?yàn)榇蠹叶荚谖宓揽?、?duì)五道口都有很深的感情,于是眾人一起想了幾個(gè)名字。一場(chǎng)頭腦風(fēng)暴后,人大的宋睿華提議叫「悟道」,與「五道」諧音,大家都說好。
「悟道」就是這樣來的。
03 悟道群星閃耀時(shí)
悟道的初衷很純粹:追趕 GPT-3,研究中國的大模型。
那么,什么是「中國的大模型」?
如今國內(nèi)的大模型數(shù)量眾多、種類紛繁,以至于大模型的定義被模糊化。但在 2020 年,悟道成員的認(rèn)知很聚焦:歸根結(jié)底,GPT-3 是一個(gè)以英文為主的語言大模型,而當(dāng)時(shí)中國沒有,因此,「中國的大模型」首先應(yīng)該是一個(gè)參數(shù)量達(dá)到 1750 億或以上、以中文為主的大規(guī)模預(yù)訓(xùn)練語言模型。
盡管后來有研究表明,單一語種的語言大模型也具備一定的其他語種能力,但在中文的語境上,大家發(fā)現(xiàn),用 GPT-3 來解決許多中文的語言任務(wù)時(shí)常會(huì)出現(xiàn)語義分歧、邏輯錯(cuò)誤等等問題。一是因?yàn)?GPT-3 的訓(xùn)練語料以英文為主,二是中國的研究團(tuán)隊(duì)無從獲知 GPT-3 的詳細(xì)訓(xùn)練參數(shù)來精調(diào)。所以,無論是出于主觀還是客觀,2020 年,自研國產(chǎn)大模型都是一個(gè)無從推拒的選項(xiàng)。
智源立項(xiàng)是在 2020 年 10 月,由于大模型需要大算力,智源也從 10 月份開始大力投入算力等資源。智源一開始是計(jì)劃用既有的科研經(jīng)費(fèi)購買 300P,陳吉寧市長(zhǎng)拍板要大力支持,又決定從專項(xiàng)經(jīng)費(fèi)中再撥款購買 700P,所以總共是 1000P。但審批與購買算力的流程持續(xù)了一年多,所以悟道啟動(dòng)初期主要靠租算力。
大家相信大模型是未來的重大方向,相關(guān)學(xué)者也自帶部分干糧來參加智源的大模型項(xiàng)目:人力上,各個(gè)老師帶著各自團(tuán)隊(duì)的碩博生加入;資源上,智源算力還未完全到位時(shí),學(xué)者們也通過各自的途徑獲取部分算力。例如,文繼榮小組一開始是在人大的機(jī)器上訓(xùn)練多模態(tài)大模型,唐杰小組是在阿里云的機(jī)器上跑。
雖然 GPT-3 的雷聲很大,但在當(dāng)時(shí),像智源這樣全力投入大模型的中國團(tuán)隊(duì)卻不多美,悟道甚至一度被唱衰。唱衰的理由主要有兩類:一是大模型的研發(fā)十分燒錢,計(jì)算成本動(dòng)輒上千萬;二是大模型非原始創(chuàng)新,只靠堆參數(shù),技術(shù)含量不高。但智源還是「一意孤行」,堅(jiān)決要探索。
而等他們真正開始研究后,才發(fā)現(xiàn):OpenAI 并非招搖過市的江湖騙子,大模型的技術(shù)門檻也并非只有「堆算力」、「堆參數(shù)」。以中文大模型與多模態(tài)大模型為例,悟道之前,全球 AI 在這兩塊的探索都是一片空白。加上他們是中國第一批訓(xùn)練大模型的人,相當(dāng)于一切從頭開始,過程十分挑戰(zhàn)。
但也正是憑借這股一往無前的勇氣,半年后,悟道大模型便取得了飛躍的進(jìn)展。
悟道立項(xiàng)兩個(gè)月后,2020 年 12 月,劉知遠(yuǎn)、黃民烈與韓文弢帶領(lǐng)的文源團(tuán)隊(duì)便發(fā)布了全球第一個(gè)中文開源大模型「CPM」。CPM 的參數(shù)量只有 26 億,與 GPT-3 相比微不足道,但勝在以中文語料為主。此外,與 2019 年的「ERNIE」相比,CPM 的參數(shù)量已經(jīng)擴(kuò)大了幾百倍,這不僅是工程量的勝利,也驗(yàn)證了文源團(tuán)隊(duì)訓(xùn)練中文大模型的思路可行。
黃民烈
文瀾與文匯也幾乎與 CPM 同一時(shí)間找到解法。文瀾算法核心成員盧志武的「雙塔」路線在 2020 年 12 月得到驗(yàn)證,文匯的百億參數(shù)大模型在 2021 年 1 月完成。2021 年 3 月,智源將文源的 CPM、文瀾基于 3000 萬圖文數(shù)據(jù)對(duì)訓(xùn)練的多模態(tài)模型 BriVL 1.0、文匯的百億參數(shù)中英雙語大模型 GLM-10B 與多模態(tài)模型 CogView 1.0 等成果匯在一起,統(tǒng)稱「悟道 1.0」在 2021 年 3 月進(jìn)行了發(fā)布。
客觀來說,「悟道 1.0」并沒有引起太大的轟動(dòng),但在中國普遍對(duì)大模型還沒有認(rèn)知的時(shí)候,悟道告訴了大家「大模型是什么」,可以寫詩、可以問答、可以圖文對(duì)齊……比之前所有的 NLP 算法都強(qiáng)大。
在「悟道 1.0」的發(fā)布會(huì)上,智源也首次提出「大模型」的概念。智源研究院院長(zhǎng)黃鐵軍創(chuàng)造了一個(gè)金句,他稱,近年來,人工智能的發(fā)展已經(jīng)從「大煉模型」逐步邁向「煉大模型」,即:2012 年深度學(xué)習(xí)起來后,全球出現(xiàn)大量的 AI 小模型,而「煉大模型」是集約化訓(xùn)練大模型,設(shè)計(jì)更先進(jìn)的算法、整合更多的數(shù)據(jù)、匯聚大量算力,一個(gè)模型能供大量企業(yè)使用。
換言之,大模型不僅參數(shù)規(guī)模大,而且智商要高。這次發(fā)布會(huì)掃清了外界對(duì)智源的質(zhì)疑,悟道大模型初露頭角。
黃鐵軍
在唐杰領(lǐng)導(dǎo)的文匯小組中,達(dá)摩院工程師楊紅霞與循環(huán)智能聯(lián)合創(chuàng)始人楊植麟是核心成員。智源沒有限制悟道成員的研究自由,楊紅霞參與阿里大模型,楊植麟帶隊(duì)循環(huán)智能與華為合作,2021 年 4 月,阿里也發(fā)布了 270 億參數(shù)的大模型「PLUG」,華為發(fā)布盤古。悟道不僅成為學(xué)者之間的橋梁,也加強(qiáng)了學(xué)術(shù)界與工業(yè)界的合作。
與文源一樣,文匯團(tuán)隊(duì)也聚集了一批來自高性能計(jì)算方向的青年科研人才,如陳文光、翟季冬,他們與韓文弢均屬于鄭緯民院士的團(tuán)隊(duì)。對(duì)于大模型來說,高性能計(jì)算領(lǐng)域的分布式加速計(jì)算方法對(duì)于提高大模型的訓(xùn)練速度、降低其訓(xùn)練成本有著至關(guān)重要的意義。在悟道項(xiàng)目中,高計(jì)算人才也被委以重任。
但對(duì)中國的大模型來說,高性能計(jì)算更大的影響力是催生了中國的第一個(gè)萬億大模型:「悟道 2.0」。
2020 年年底,在推進(jìn)悟道的同時(shí),唐杰、陳文光與楊紅霞三個(gè)人也在計(jì)劃另一件事,就是申請(qǐng)?zhí)柗Q「超級(jí)計(jì)算應(yīng)用領(lǐng)域諾貝爾獎(jiǎng)」的戈登貝爾獎(jiǎng)。
申請(qǐng)戈登貝爾獎(jiǎng)的超級(jí)計(jì)算機(jī)需要滿足幾個(gè)要求:一是申請(qǐng)的超級(jí)計(jì)算機(jī)必須是世界上最大的;二,在該機(jī)器上研究的項(xiàng)目必須把機(jī)器跑滿;第三,跑出來的項(xiàng)目結(jié)果必須有影響力。2021 年 1 月 GLM-10B 完成后,他們就決定在超算上跑大模型。
于是,他們派了 30 多個(gè)人去山東青島海洋實(shí)驗(yàn)室的「神威·海洋之光」上跑大模型。去的人中,唐杰與翟季冬的學(xué)生是主力,翟季冬因?yàn)槠湓诘讓铀阕由献霾⑿杏?xùn)練的能力突出而被唐杰與陳文光拉來結(jié)伙,此外還有幾個(gè)在線上提供支持的阿里工程師。(阿里也是國內(nèi)最早研發(fā)大模型的團(tuán)隊(duì)之一,有關(guān)阿里大模型的發(fā)展歷史,歡迎添加作者微信 Fiona190913 進(jìn)行交流)
翟季冬(左一)、韓文弢(右一)
他們將手上收集的所有數(shù)據(jù)都帶去了青島,包括中文、英文與圖片等等,混在一起訓(xùn)練。因?yàn)楦甑秦悹柂?jiǎng)的要求是將機(jī)器跑滿,所以他們將模型的參數(shù)量擴(kuò)大到了 174 萬億,沒有對(duì)數(shù)據(jù)進(jìn)行任何收斂。在超算上跑了十天后,他們訓(xùn)練出幾個(gè)版本的大模型,每個(gè)模型的參數(shù)量都達(dá)到了百萬億級(jí)別。
雖然規(guī)模大,但運(yùn)行的成本也極高,超出了幾乎所有人的承擔(dān)范圍,于是他們就訓(xùn)練了一個(gè)較為收斂的基于 MoE 的模型,參數(shù)量 1.75 萬億,比 GPT-3 還大十倍,超越了谷歌 2021 年 4 月發(fā)布的 1.6 萬億參數(shù)大模型 Switch Transformer,成為當(dāng)時(shí)全球最大的大模型,最終在 2021 年 6 月的智源大會(huì)上發(fā)布時(shí)成為全場(chǎng)焦點(diǎn),直接被視為「悟道 2.0」的全部,受到了國內(nèi)外頂尖科技團(tuán)隊(duì)的廣泛好評(píng)。
智源一時(shí)風(fēng)光無兩,躋身國際大模型頂尖行列。
除了這個(gè)萬億大模型,「悟道 2.0」實(shí)際上還包含了文源團(tuán)隊(duì)的兩個(gè)百億模型(110 億參數(shù)的中文模型、110 億參數(shù)的中英雙語模型)與一個(gè)千億模型(1980 億參數(shù)的中英雙語 MoE 模型),統(tǒng)稱為「CPM 2.0」;文瀾團(tuán)隊(duì)的 50 億參數(shù)圖文檢索大模型 BriVL 2.0——這是中國的第一個(gè)多模態(tài)大模型,也是當(dāng)時(shí)世界上參數(shù)量最大、訓(xùn)練數(shù)據(jù)最多的多模態(tài)大模型。
文瀾之前,學(xué)術(shù)界研究多模態(tài)的主流路線是「單塔」,即 Transformer 有 12 層,看上去像一座塔,同時(shí)輸入文字與圖片的 token 進(jìn)行交互,然后根據(jù)文字與圖片的相似度打分。但在參數(shù)量極大的情況下,在線逐一比對(duì)的效率會(huì)非常低。盧志武于是提出「雙塔」路線:
圖像先用圖像編碼器處理,文字也先用文字編碼器處理,兩者先不交互,等各自理解了更高層次的含義后再進(jìn)行對(duì)比學(xué)習(xí)。如果圖文的意思相近,則雙塔的距離近,反之則遠(yuǎn)。因?yàn)樗麄兪孪扔枚鄼C(jī)并行的方式將圖像編碼,變成一個(gè)個(gè)高維向量?jī)?chǔ)存起來,所以在用文字檢索時(shí),只需將文字進(jìn)行編碼,不到一秒就能在高維向量中找到匹配的結(jié)果。文瀾在 2020 年 11 月驗(yàn)證了「雙塔」路線的可行性,兩個(gè)月后 OpenAI 發(fā)布的 CLIP 架構(gòu)(DALL·E 的幕后功臣)也是同樣思路。
盧志武
事后,盧志武等人向雷峰網(wǎng)表示,他們并不認(rèn)為自己是「跟在別人的屁股后面做研究」;無論是中文大模型、多模態(tài)大模型還是萬億大模型等等,悟道的三個(gè)小組都是深入無人區(qū)才開辟了一番新天地。
為了研究多模態(tài)大模型,盧志武將自己的所有學(xué)生都投入到了文瀾中,團(tuán)隊(duì)整整一年沒有發(fā)表任何學(xué)術(shù)論文。在高校中,無論對(duì)教師還是學(xué)生來說,這都是極大的冒險(xiǎn)。
同樣,在研究中文大模型時(shí),由于缺乏高質(zhì)量的中文數(shù)據(jù),劉知遠(yuǎn)與黃民烈的許多學(xué)生被派去做數(shù)據(jù)標(biāo)注與清洗。CPM 2.0 的研究中,文源團(tuán)隊(duì)搜集的原始數(shù)據(jù)高達(dá) 50TB,清洗后也有 2.6TB,學(xué)生在其中投入了大量的時(shí)間與精力。
總的來說,智源與悟道的一百號(hào)人都是背水一戰(zhàn),「拿自己的職業(yè)生涯在賭」,只是大家沒想到自己居然賭贏了:2021 年 6 月「悟道 2.0」發(fā)布后,智源悟道成為了中國大模型一面鮮明的旗幟,悟道成員成為中國大模型的第一批開拓者。
04 ChatGPT 前夜
實(shí)際上,2021 年被稱為中國的「大模型元年」:悟道 2.0 發(fā)布后,2021 年 9 月,百度發(fā)布了百億參數(shù)模型 PLATO-X;10 月,阿里達(dá)摩院發(fā)布參數(shù)量高達(dá) 10 萬億的大模型「M6」……
隨著各大團(tuán)隊(duì)的先后驗(yàn)證,盡管大模型的訓(xùn)練成本居高不下,但在 2021 年就出現(xiàn)了一批忠實(shí)的大模型追隨者。不僅國內(nèi),海外也出現(xiàn)權(quán)威的聲音:
悟道 2.0 發(fā)布兩周后,谷歌就發(fā)表了論文,稱語言模型的參數(shù)從百億擴(kuò)大到千億后會(huì)出現(xiàn)所謂的「智能涌現(xiàn)」;2021 年 8 月,斯坦福大學(xué)的李飛飛、Percy Liang 等百位學(xué)者更是聯(lián)名發(fā)表了一篇「基礎(chǔ)模型」(即大模型)的論文綜述,在國際上引起很大轟動(dòng)。
但許多悟道成員知道,事實(shí)上,在 2021 年,真正的國產(chǎn)千億大模型還未出現(xiàn)。
悟道 2.0 的千億模型與萬億模型上層都是一個(gè)稀疏架構(gòu)。雖然模型的參數(shù)量通過稀疏化擴(kuò)大,但底座仍然是百億模型的能力。萬億大模型最終用硬盤拷下來的文件大小約為 20T,需要超過 500 張 A100 才能做推理,所以悟道團(tuán)隊(duì)將文件從山東拷回北京后自己也用不起,只能向工業(yè)界開放。有幾家公司拷走了文件,「但估計(jì)拷回去也用不了」。
此外,萬億模型包含中英雙語與圖片數(shù)據(jù),與 GPT-4 的訓(xùn)練思路一樣,理論上是一個(gè)「多模態(tài)大模型」。但當(dāng)時(shí),文匯團(tuán)隊(duì)沒有解決一個(gè)技術(shù)上的問題,即 AI 模型的「災(zāi)難性遺忘」。他們發(fā)現(xiàn),加入圖片數(shù)據(jù)后,萬億大模型會(huì)出現(xiàn)「災(zāi)難性遺忘」,文本的能力被削弱,以至于萬億大模型的文本能力還比不上百億模型 GLM-10B。近期關(guān)于 GPT-4 的泄漏信息也顯示,GPT-4 與悟道 2.0 的萬億模型一樣,是一個(gè)基于 MoE 的模型,參數(shù)量大約為 1.8 萬億。
相比模型能力的突破,萬億模型的更大貢獻(xiàn)是培養(yǎng)了一批真正懂得如何訓(xùn)練大模型的青年人才。那時(shí),大模型對(duì)超算也是新鮮課題,海洋之光上只有簡(jiǎn)單的操作系統(tǒng),為了訓(xùn)練大模型,當(dāng)初被派去青島的 30 多個(gè)人經(jīng)歷了從零到一的開拓過程,從底層算子改起,重寫了上層的訓(xùn)練框架與算法等。
所以,悟道 2.0 發(fā)布后,悟道的成員更加執(zhí)著地要訓(xùn)練千億大模型。
2021 年年底,在悟道的內(nèi)部會(huì)上,唐杰提了幾個(gè)建議:一是訓(xùn)練一個(gè)千億模型,二是開發(fā)一個(gè)文本-視頻模型和一個(gè)代碼生成模型。但每個(gè)模型的參數(shù)規(guī)模都很大,他們算了一筆賬,發(fā)現(xiàn)完成這些目標(biāo)要 1000 張卡不出錯(cuò)地連續(xù)跑兩個(gè)月,訓(xùn)練成本極高。
當(dāng)時(shí),智源只有 480 塊 A100,把 400 塊給了唐杰團(tuán)隊(duì)。在這 400 張卡上,唐杰小組研發(fā)了 10 億參數(shù)的視頻大模型(后升級(jí)到 60 億),還向外界借資源訓(xùn)練了代碼大模型。
悟道 2.0 受到廣泛關(guān)注,智源算力不足,鵬城實(shí)驗(yàn)室高文院士便邀請(qǐng)?zhí)平軋F(tuán)隊(duì)在鵬城實(shí)驗(yàn)室的 910A 機(jī)器上跑,陳文光也向唐杰支援了將近 2000 張華為的 920 顯卡。那時(shí),在大模型的訓(xùn)練上,華為 920 的算子效率只有 A100 的 18%,唐杰團(tuán)隊(duì)幫忙修改后將算子的效率提升到了 40% 左右,并訓(xùn)練出一個(gè) 130 億參數(shù)的 CodeGeeX 代碼模型,之后華為與唐杰團(tuán)隊(duì)的關(guān)系十分緊密。
這期間,唐杰小組適配了市面上的各種卡,發(fā)現(xiàn) 2000 張 910A 卡不可能短時(shí)間跑出收斂的千億大模型,而 DCU 也需要上萬張卡跑兩個(gè)月才能跑完。最后,唐杰以其創(chuàng)立的智譜 AI 的名義從濟(jì)南超算上租了 1000 張卡,從底層重構(gòu)算子,投入 20 多人訓(xùn)練了 8 個(gè)月,才終于在 2022 年 7 月訓(xùn)練出了千億大模型——GLM-130B 橫空出世。
在唐杰煉千億模型與代碼生成模型時(shí),黃民烈轉(zhuǎn)去煉對(duì)話大模型,后來發(fā)布的 EVA 與百度 PLATO 是國內(nèi)最早的對(duì)話大模型;劉知遠(yuǎn)在中文大模型的基礎(chǔ)上探索可控生成的語言模型,搭建大模型開源框架 OpenBMB……
而在唐杰完成從實(shí)驗(yàn)室到大模型創(chuàng)業(yè)的同時(shí),中國第一批大模型公司陸續(xù)誕生:
2021 年6 月,盧志武成立了「智子引擎」,探索多模態(tài)大模型的落地;2021 年 11 月,黃民烈創(chuàng)立了「聆心智能」,做有情感的超擬人大模型;2022 年 3 月,孫茂松的博士生、文源核心成員豈凡超創(chuàng)立了深言科技;2022 年 8 月,劉知遠(yuǎn)創(chuàng)立了「面壁智能」,探索高效訓(xùn)練的「平民版大模型」……
2023 年,悟道的影響力越來越大:楊植麟離開循環(huán)智能,創(chuàng)立了「月之暗面」;楊紅霞離開阿里達(dá)摩院,加入字節(jié)跳動(dòng)帶隊(duì)大模型,是字節(jié)大模型的核心成員……
楊紅霞(左)、楊植麟(右)
可以說,智源是當(dāng)之無愧的「中國大模型黃埔軍?!?。
智源的成立背景是北京 2018 年開始建設(shè)新型研究機(jī)構(gòu),推動(dòng)科研機(jī)制體制改革,用靈活的科研方式促進(jìn)北京人工智能的創(chuàng)新。此前,科研管理流程復(fù)雜,從立項(xiàng)建議到指南發(fā)布再到經(jīng)費(fèi)申請(qǐng)、評(píng)審?fù)ㄟ^,周期漫長(zhǎng),難以適應(yīng)強(qiáng)競(jìng)爭(zhēng)環(huán)境下日新月異的科研需求。按照這種體制,2020 年 10 月提出立項(xiàng)建議,最快也要 2022 年才能正式展開大模型研究。
但在智源的平臺(tái)上,悟道團(tuán)隊(duì)當(dāng)即立項(xiàng),只用了不到五個(gè)月就推出了 1.0 版,八個(gè)月就完成了 2.0,取得了卓越成果,這無疑得益于其靈活創(chuàng)新的科研體系。在大模型的推進(jìn)過程中,智源立項(xiàng)迅速,學(xué)者一邊建議,智源一邊支持。多位學(xué)者告訴雷峰網(wǎng),他們向智源匯報(bào)需要多少機(jī)器后,通常幾天就能拿到資源,所以項(xiàng)目推進(jìn)地很快。雷峰網(wǎng)
大模型的技術(shù)特質(zhì)決定了其訓(xùn)練需要海量的計(jì)算資源,而實(shí)際資源總是有限的,多個(gè)團(tuán)隊(duì)競(jìng)爭(zhēng)資源,智源算力已經(jīng)捉襟見肘。在悟道 1.0 與 2.0 的過程中,各小組都需要不同程度地向外「討」資源、「借」算力。與此同時(shí),大模型也讓大家看到新一代 AI 的商用落地前景。為了更好地探索大模型,一些學(xué)者就選擇了離開智源,自主創(chuàng)業(yè)。
悟道各團(tuán)隊(duì)基于大模型開發(fā)了許多前所未有的應(yīng)用。比如,劉知遠(yuǎn)的學(xué)生秦禹嘉寫了一套程序,用中文大模型調(diào)用 Bing 的搜索引擎來回答知乎問題,累計(jì)收獲了數(shù)千個(gè)贊;盧志武團(tuán)隊(duì)用多模態(tài)大模型剪輯短視頻,用宮崎駿的電影給歌曲配 MV 畫面,在抖音上收獲了 150 萬的觀看量……
那時(shí)候,盡管大眾對(duì)大模型的關(guān)注度不高,但悟道的成員都對(duì)這項(xiàng)新的技術(shù)感到無比興奮。宋睿華每次出去演講,給大家介紹多模態(tài)大模型,都十分高興,稱大模型是一只強(qiáng)壯的大象,「不要把大象關(guān)在冰箱里」。
但可惜,2022 年之前,中國的市場(chǎng)并不愿意為大模型買單。
2022 年,中國的 AI 全面進(jìn)入資本寒冬。成立大模型公司后,他們都曾信心滿滿地出去融資,結(jié)果沒有一個(gè)投資人愿意掏錢。
智源悟道的所有大模型成果都是開源的。但據(jù)宋睿華透露,即使文瀾發(fā)布后有上千萬次的調(diào)用,一些感興趣的大企業(yè)也不愿意付費(fèi)使用。
2022 年,國內(nèi)對(duì)大模型的認(rèn)知仍普遍不足。GLM-130B 完成后,智譜 AI 將其放到 GitHub 上開源,結(jié)果許多開發(fā)者都不會(huì)用,提出各種各樣的問題,以至于他們開源幾個(gè)月才積累了 1000 顆星。
所有人都知道大模型很強(qiáng),所有人也都知道需要一個(gè)「爆款產(chǎn)品」來呈現(xiàn)大模型的能力,但所有人都沒有解法。技術(shù)上,他們成為了巨人;但在產(chǎn)品上,他們?nèi)匀皇前印?/p>
直到 ChatGPT 的出現(xiàn)。雷峰網(wǎng)
05 什么是語言智能?
宋睿華在 2020 年 9 月入職人大,10 月參與悟道文瀾研究。此前,她在微軟小冰擔(dān)任首席科學(xué)家,研究文本生成,是「小冰寫詩」的項(xiàng)目負(fù)責(zé)人。
2018 年從微軟到小冰后,宋睿華開始對(duì)認(rèn)知智能產(chǎn)生興趣,想探索 AI 是如何理解人類語言的。那年夏天,她讀了美國加州大學(xué)圣地亞哥分校認(rèn)知科學(xué)教授本杰明·伯根寫的一本書,Louder Than Words: The Science of How The Mind Makes Meaning(后譯作《我們賴以生存的意義》),深受啟發(fā)。
宋睿華
該書指出,當(dāng)人類在閱讀一本好的作品時(shí),常常會(huì)讀到停不下來,腦海中浮現(xiàn)出與文字相對(duì)應(yīng)的畫面;而如果一段文字塑造地好,圖畫還會(huì)在讀者的腦海里活靈活現(xiàn)。所以,當(dāng)人類真正理解一段文字時(shí),一個(gè)重要的表現(xiàn)應(yīng)該是可以想象出一個(gè)場(chǎng)景,甚至補(bǔ)充文字里沒有的內(nèi)容。
此外,理解語言不是為了用文字來做任務(wù),正如很多時(shí)候看書不是為了第二天要考試一樣。但在過去,計(jì)算機(jī)領(lǐng)域的科學(xué)家往往是通過設(shè)定一個(gè)個(gè)細(xì)分的任務(wù)來考量 AI 是否理解了人類語言,如將體育類的文章與財(cái)經(jīng)類的文章放在一起進(jìn)行對(duì)比,看 AI 是否能正確分辨。
ChatGPT 之前,國內(nèi)研究 AI 對(duì)話的技術(shù)人員多來自論壇時(shí)代。他們的研究思路主要是源于論壇時(shí)代的聊天「對(duì)」,如論壇上 A 發(fā)一個(gè)帖子、B 與 C 在下面回復(fù),一樓一樓地疊起來。在這樣的模式下,模型進(jìn)行開放式對(duì)話時(shí),就會(huì)暴露缺少知識(shí)的短板,因?yàn)橹R(shí)不會(huì)在這些「對(duì)」中。宋睿華的一個(gè)同事在拜訪客戶的過程中,客戶問是否能做一個(gè)美妝類的對(duì)話機(jī)器人,但大家發(fā)現(xiàn)當(dāng)時(shí)的 AI 對(duì)話做不好,因?yàn)樗鼈冚敵龅膬?nèi)容以閑聊為主。
那時(shí),宋睿華就不斷思考問題的所在。她想來想去,想到了當(dāng)時(shí) AI 對(duì)話缺少知識(shí)的癥結(jié)所在:聊天「對(duì)」缺乏世界知識(shí),要是能利用互聯(lián)網(wǎng)上的所有文本就好了。在小冰時(shí),她想到的解法是利用公眾號(hào)的文章,因?yàn)楣娞?hào)的博主會(huì)有意識(shí)地追熱點(diǎn),并從各個(gè)角度分析,信息都藏在文字里了,問題只在于如何將公眾號(hào)的文章變成對(duì)話能用的文字。
但棋差一招。宋睿華想得很復(fù)雜,認(rèn)為要先把文字抽象成圖譜,然后再影響對(duì)話。比如,輸入「鹿晗」,圖譜中會(huì)出現(xiàn)一個(gè)郵筒成為提示 AI 的線索,因?yàn)?2016 年鹿晗在上海外灘的一只郵筒旁拍了張照片,之后他的粉絲都到那個(gè)郵筒旁邊打卡,該事件一度成為新聞。但這個(gè)方法有弊端:當(dāng)時(shí)檢索出文章中的原句做答復(fù),有時(shí)候太過書面語,有時(shí)候帶入多余的信息,并不是合適的回復(fù)。
看到 OpenAI 推出的 ChatGPT 后,宋睿華才恍然大悟,內(nèi)心既激動(dòng)又震撼:
「Bingo!就應(yīng)該是這樣解的!」
ChatGPT 一出來,宋睿華就第一時(shí)間進(jìn)行了試用,用完后感到十分驚訝。雖然都是對(duì)話機(jī)器人,但「小冰與 ChatGPT 就像兩個(gè)物種」。ChatGPT 沒有圍繞某項(xiàng)任務(wù)來積累知識(shí),而是先將知識(shí)學(xué)到模型里。就像人類在日常閱讀中積累知識(shí),讀得越多、知識(shí)存量也會(huì)越多,遇到某個(gè)「線索」(prompt)再調(diào)用積累的知識(shí),組合應(yīng)用,而不是復(fù)述原文。
宋睿華告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)),她當(dāng)時(shí)洞察到閑聊對(duì)話機(jī)器人缺少廣泛的世界知識(shí),也想到要用互聯(lián)網(wǎng)上所有的文章去彌補(bǔ)不足,但就是沒有 Ilya Sutskever(ChatGPT 的技術(shù)負(fù)責(zé)人)那樣深厚的功力去解。
在 Ilya 的認(rèn)知里,所有語言任務(wù)的能力都可以簡(jiǎn)化為單一的「 AI 推理」能力。而 Ilya 又認(rèn)為,所有的推理都可以通過預(yù)測(cè)下一個(gè)字來完成。例如,讓 AI 看完一本偵探小說,掌握了小說里的所有人物關(guān)系與線索,然后在小說的最后一句,偵探站起來對(duì)大家說:「這個(gè)兇手就是 ____ !」這時(shí),填空的內(nèi)容就很考驗(yàn)?zāi)P偷哪芰ΑS械?AI 模型邏輯能力強(qiáng),能夠填對(duì)人名;有的模型會(huì)填一個(gè)錯(cuò)的人名,但也表現(xiàn)出了一定的邏輯能力;而有的模型填的根本不是人名。
Ilya 認(rèn)為,推理就是預(yù)測(cè)下一個(gè)字的精度有沒有提高。語言的理解很難定義,但可以用「預(yù)測(cè)」來代替理解。當(dāng) AI 不斷地學(xué)習(xí)如何預(yù)測(cè)下一個(gè)字時(shí),就已經(jīng)學(xué)會(huì)了理解與推理。因此,IIya 解釋 GPT-4 比 GPT-3.5 更強(qiáng)的地方時(shí)會(huì)強(qiáng)調(diào)「(GPT-4)預(yù)測(cè)下一個(gè)字的精度又提高了」。北師大、劍橋和微軟的學(xué)者將 GPT-3.5 與 GPT-4 在智商與心理測(cè)試題上分別實(shí)驗(yàn)后也發(fā)現(xiàn),GPT-4 的水平有明顯的提升。
這是國內(nèi)的第一批大模型學(xué)者所沒有想過的。在此之前,國內(nèi)的學(xué)者普遍認(rèn)為,人類很擅長(zhǎng)數(shù)學(xué)推理,所以要將信息符號(hào)化、知識(shí)數(shù)學(xué)化。在這樣的思路下,模型架構(gòu)往往被設(shè)計(jì)得十分復(fù)雜,能力局限。但 ChatGPT 體現(xiàn)出了「簡(jiǎn)單至上」的美學(xué),采用簡(jiǎn)單的框架再結(jié)合豐富的知識(shí),同時(shí)有創(chuàng)新的交互形態(tài),產(chǎn)品效果頓時(shí)煥然一新。
自然語言的強(qiáng)大首次被重視。今年 5 月,在 MIT 的一個(gè)演講中,Geoffrey Hinton 也指出,AI 不需要將信息符號(hào)化就能從文字中獲得知識(shí),因?yàn)槿祟愐彩强空Z言來推理的。他舉了一個(gè)例子,讓宋睿華印象特別深刻:Hinton 曾問 ChatGPT「我們家有一些房間,分別是白色、藍(lán)色與黃色,黃色油漆在一年內(nèi)會(huì)褪成白色,如果我希望兩年后我的墻都是白色,應(yīng)該怎么辦?」然后 ChatGPT 回答他說,「可以把藍(lán)色的房間刷成黃色。」Hinton 大吃一驚,因?yàn)?ChatGPT 也許沒有理解數(shù)字,但似乎理解了「褪色」是什么意思。
盡管有用戶向 ChatGPT 提問數(shù)學(xué)題來考驗(yàn)它的能力瓶頸,但在悟道的多位早期成員看來,ChatGPT 已經(jīng)解決了一些當(dāng)前 NLP 方向最難的技術(shù)問題,如長(zhǎng)文本的道理連貫與內(nèi)在邏輯。在一些專業(yè)的場(chǎng)景下,ChatGPT 生成的答案也許不如人意,「但這些問題都是可以被改進(jìn)的」。
ChatGPT 出來后,大模型一下子火了,原先不受關(guān)注的大模型公司,智譜、面壁、聆心、智子、深言……也成為了中國資本的明日之星。智子引擎原先融不到錢,ChatGPT 出來后天使輪估值一個(gè)億,投資人甚至?xí)柋R志武與其學(xué)生、智子引擎 CEO 高一釗「一個(gè)億夠不夠」。
高一釗
他們堅(jiān)信大模型是 AI 的一大未來,但沒想到未來會(huì)來得如此之快。
但拂去資本的浮華,對(duì)于求索語言智能的科學(xué)家來說,ChatGPT 更大的啟示在于其對(duì)語言大模型的本質(zhì)理解與產(chǎn)品想象力,而后者與 OpenAI 想實(shí)現(xiàn)的宏大目標(biāo)——AGI 不無關(guān)系。
ChatGPT 的產(chǎn)品幾乎是完美的:它能讀懂用戶的意圖,回答各種各樣的問題,且每個(gè)問題都能給出一個(gè)不離譜的答案,,甚至在多數(shù)回答中展示了「知識(shí)」水平,由此在問答中轉(zhuǎn)化為實(shí)際的生產(chǎn)力。這誠然離不開 Ilya 等人對(duì)神經(jīng)網(wǎng)絡(luò)與語言特征的深刻理解;但更重要的是,OpenAI 對(duì)未來有大膽的預(yù)測(cè)。
所以,從 2016 年成立以來,所有人都說 AGI 是天方夜譚時(shí),OpenAI 的團(tuán)隊(duì)就敢堅(jiān)信這是人工智能的未來;所有人都選擇 BERT 時(shí),他們就能堅(jiān)定選擇 GPT。而智源悟道在探索大模型時(shí),并沒有這么大的野心;即使文繼榮等人提出研究多模態(tài)大模型,也只是因?yàn)椤溉艘彩沁@樣學(xué)習(xí)的」,并沒有往 AGI 的方向想。
ChatGPT 出來后,五道口的各大模型團(tuán)隊(duì)由于有先前的技術(shù)積累,所以也很快推出了相似的大模型產(chǎn)品。例如,智譜 AI 不到兩個(gè)月就推出了 ChatGLM;智子引擎也在 3 月 8 日發(fā)布了 ChatImg……但他們更知道,自己距離語言智能的輸出、乃至 AGI 還有很長(zhǎng)距離。
大家深知,ChatGPT 是一個(gè)啟示,但絕非終點(diǎn)。
06 中國大模型的未來
回到智源。
2021年6月發(fā)布悟道2.0后,智源一直在思考,投入巨大的大模型,未來以什么樣的方式賦能經(jīng)濟(jì)社會(huì)發(fā)展。悟道 2.0 發(fā)布時(shí),黃鐵軍提出:大模型是「智力」的載體,以 AI 為中心的浪潮應(yīng)該是智力運(yùn)營,最底層是技術(shù)軟硬件系統(tǒng),最上層是 AI 應(yīng)用,而大模型則處于兩者中間,扮演「樹干」的角色,大模型的意義是將「智力」變成像水、電、網(wǎng)一樣的公共服務(wù),通過云向大量企業(yè)或個(gè)人提供 AI 服務(wù)。「Model as Servive」(MaaS)也最早源于悟道。
悟道走到 2.0 版,智源算力也只有 480 塊 A100 卡,支持多個(gè)團(tuán)隊(duì)早已捉襟見肘,而新采購的 960 塊 A100 還在路上,遠(yuǎn)水解不了近渴。在資源有限條件下,智源決定暫時(shí)不再追求擴(kuò)大模型規(guī)模,而是把重心放在大模型算法創(chuàng)新上,悟道 1.0 與 2.0 所取得的所有大模型成果都開源開放,支持產(chǎn)學(xué)研各界協(xié)同創(chuàng)新。
開源開放項(xiàng)目要最終成功,既要團(tuán)結(jié)最廣泛的研究開發(fā)者群體,更要有穩(wěn)定的核心技術(shù)隊(duì)伍。在與高校學(xué)者展開合作的同時(shí),智源也開始對(duì)外招聘人才,建立智源獨(dú)立的大模型團(tuán)隊(duì)。2022 年 1 月,前 IBM 中國研究院院長(zhǎng)林詠華加入智源擔(dān)任總工程師,2022 年 6 月領(lǐng)導(dǎo)建成大模型訓(xùn)練平臺(tái)「九鼎」,總算力達(dá)到了1000P,同時(shí)專職大模型團(tuán)隊(duì)也逐步到位,悟道大模型研發(fā)進(jìn)入一個(gè)新階段,林詠華主管語言大模型方向,黃鐵軍主管視覺大模型方向。
2023 年 4 月,智源被微軟總裁 Brad Smith「點(diǎn)名」為「(全球)絕對(duì)領(lǐng)先的三家機(jī)構(gòu)(three at the absolute forefront)之一」,與 OpenAI、谷歌齊名。
2023 年 6 月,在第五屆智源大會(huì)上,「悟道 3.0」發(fā)布,包括「悟道-天鷹」系列語言模型、「悟道-視界」系列視覺及多模態(tài)模型。與「悟道 1.0」、「悟道 2.0」不同的是,悟道3.0不僅僅是大模型,而是一套大模型技術(shù)體系,還包括「天秤(FlagEval)」大語言評(píng)測(cè)體系及開放平臺(tái)與 FlagOpen飛智大模型技術(shù)開源體系,體現(xiàn)了更為宏觀的大模型發(fā)展視野。
另外,「悟道 3.0」已經(jīng)超出了智源的范圍,它是新一代人工智能旗艦項(xiàng)目「人工智能基礎(chǔ)模型支撐平臺(tái)與評(píng)測(cè)技術(shù)」第一階段成果。
2021 年悟道 1.0 和 2.0 發(fā)布時(shí),「新一代人工智能重大科技項(xiàng)目」專家組就開始在討論國家應(yīng)該以什么樣的方式支持大模型。智源的悟道是一次大膽的探索,但在這個(gè)過程中也存在各自為戰(zhàn)的問題。于是專家組就提出,要探索一種開放的機(jī)制,加強(qiáng)「有組織科研」, 引導(dǎo)「大煉大模型」從「蠻力」競(jìng)爭(zhēng)回歸理性創(chuàng)新的軌道,推動(dòng)中國 AI 學(xué)者一起開發(fā)大模型,通過布局一批關(guān)聯(lián)項(xiàng)目,打造系統(tǒng)級(jí)成果,機(jī)制簡(jiǎn)稱為「1+X+Y」體制。
其中,「1」即「人工智能基礎(chǔ)模型支撐平臺(tái)與評(píng)測(cè)技術(shù)」旗艦項(xiàng)目,是引領(lǐng)大模型技術(shù)和產(chǎn)業(yè)發(fā)展的「航母」?!竂」是一批關(guān)鍵技術(shù)項(xiàng)目,支持大模型核心算法和技術(shù)研發(fā),采用「賽馬制」動(dòng)態(tài)遴選,由「1」對(duì)這些項(xiàng)目及所有愿意參加協(xié)同創(chuàng)新的技術(shù)和算法組織公開公平的評(píng)測(cè),遴選出的優(yōu)秀算法和技術(shù)進(jìn)入大模型開源體系,得到國家項(xiàng)目支持但貢獻(xiàn)小的團(tuán)隊(duì)將被淘汰,未得到國家項(xiàng)目支持但貢獻(xiàn)大的團(tuán)隊(duì)來年優(yōu)先得到支持?!竃」是一批應(yīng)用示范項(xiàng)目,針對(duì)重大應(yīng)用場(chǎng)景,采用旗艦項(xiàng)目構(gòu)建的技術(shù)體系,推進(jìn)人工智能的深度應(yīng)用。
大模型旗艦項(xiàng)目建議得到了科技部相關(guān)領(lǐng)導(dǎo)和部門的大力支持,列入國家「科技創(chuàng)新 2030」新一代人工智能重大科技項(xiàng)目 2022 年度指南,經(jīng)過評(píng)審程序,2022 年 12 月「1+8」共 9 個(gè)項(xiàng)目立項(xiàng)成功,2023 年 1 月 1 日開始執(zhí)行。
而也就在中國大模型旗艦項(xiàng)目群成功立項(xiàng)啟航時(shí),ChatGPT 橫空出世。在黃鐵軍看來,「我國在大模型方向是有前瞻性的, ChatGPT 出來前一年半,就已經(jīng)布局航母艦隊(duì)去主攻大模型。」
OpenAI 另一個(gè)為人稱道的特點(diǎn)是出色的組織能力?;仡櫸虻赖陌l(fā)展,某種程度上,智源也是將一群關(guān)系松散、沒有利益共同體的 AI 研究員組織在了一起,但與 OpenAI 相比,凝聚力仍不夠。三個(gè)團(tuán)隊(duì)各自為戰(zhàn),好處是開辟了多個(gè)大模型方向,短板也很明顯,就是「沒有集中力量辦一件大事」。
縱觀當(dāng)前的中國大模型,也是許多人都看到了大模型方向的價(jià)值,但選擇各自為戰(zhàn)。而黃鐵軍認(rèn)為,從有利于未來發(fā)展的角度看,不僅需要大膽,是否團(tuán)隊(duì)作戰(zhàn)也很重要。在科技迅速發(fā)展、日新月異的國際競(jìng)爭(zhēng)環(huán)境中,只有集中力量,相互協(xié)調(diào),才能產(chǎn)生重大的成果。
以數(shù)據(jù)標(biāo)注為例。即使這是一塊基礎(chǔ)工作,OpenAI 也給予了高度重視,給數(shù)據(jù)標(biāo)注崗的員工開出數(shù)十萬美元的年薪。據(jù)雷峰網(wǎng)了解,目前國內(nèi)的許多大廠并沒有全鏈條思維,數(shù)據(jù)標(biāo)注被劃為邊緣職能,要么選擇外包,要么不計(jì)入工作考核的 KPI,數(shù)據(jù)質(zhì)量難以保障,大模型的底座能力也難免受到影響。
圍繞 AGI,OpenAI 也并非只有 ChatGPT 一張牌;兩代 DALL·E 在文字控制圖像生成上也體現(xiàn)出 AI 推理能力的進(jìn)化。此外,OpenAI 還投資機(jī)器人智能等。在思考 AGI 這個(gè)終極目標(biāo)時(shí),OpenAI 的布局是一體的、系統(tǒng)的,而非單點(diǎn)的、局面的。(關(guān)于大模型嵌入式智能,歡迎添加作者微信 Fiona190913 討論)
ChatGPT 出來后,宋睿華與孫茂松等人探討技術(shù)之余,也開始思考如何能讓中國的學(xué)生更自信,擁有喬布斯的精神,在產(chǎn)品上敢于「Think Different」,多思考自己「想」做什么、而不是「能」做什么。有一個(gè)龐大的目標(biāo)后,再倒回來思考實(shí)現(xiàn)的手段,將大的目標(biāo)拆解成無數(shù)個(gè)小的目標(biāo),通過各種途徑將事情做成,不拘一格。
值得注意的是,智源悟道不只催生了中國第一批大模型公司,也影響了一批 90 后的 AI 碩博生:楊植麟、豈凡超、曾國洋、高一釗、霍宇琦……悟道 1.0 與 2.0 的團(tuán)隊(duì)中,超過 85% 的成員為 90 后青年學(xué)生。在經(jīng)歷大模型的墾荒后,他們又在過去的一年目睹了 Midjourney、ChatGPT 等產(chǎn)品的爆發(fā),對(duì)于大模型時(shí)代的 AI 商用也有了許多不同的思考。
他們中的許多人,都有解決語言智能、乃至通用人工智能,將 AI 轉(zhuǎn)化為社會(huì)新生產(chǎn)力的遠(yuǎn)大志向。隨著經(jīng)濟(jì)發(fā)展的頹勢(shì)漸顯,科技興國已成共識(shí);過去十年,無論是視覺 AI ,還是自動(dòng)駕駛,抑或今天的大模型,都是人們對(duì)新生產(chǎn)力構(gòu)造的活躍社會(huì)的渴望。
一個(gè)時(shí)代有一個(gè)時(shí)代的困境;一個(gè)時(shí)代也需要一個(gè)時(shí)代的自救。唯有走不同的路,才能構(gòu)造新的生存方式,而世界永遠(yuǎn)掌握在年輕人的手中。
本文作者自 2020 年開始關(guān)注大模型,歡迎對(duì)大模型、AGI、AIGC 感興趣的讀者添加作者微信(Fiona190913)交流、互通有無,添加請(qǐng)備注姓名、職位與單位。
參考鏈接:
https://www.youtube.com/watch?v=sitHS6UDMJc
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。