0
作者丨郭 思
編輯丨陳彩嫻
大模型之戰(zhàn)進入了下半場,在中國企業(yè)爭先恐后搶發(fā)“自研”的類ChatGPT之后,競爭不再是從0到1的有與無之爭。而變成落于實處,各家大模型肉搏,能否產(chǎn)生出真正的效用。
不用深度參與AI調(diào)研,大眾也可以發(fā)現(xiàn)自然語言處理(NLP)是大模型研發(fā)最活躍的領域。在這樣一個早就遍布百度、阿里以及各個研究機構(gòu)廝殺氣息的領域,長文本的競爭成為了一個可突破重點。
盡管有前驅(qū)者早已發(fā)展。普遍認知上國內(nèi)對于大模型的關(guān)注始于ChatGPT是不爭事實,近期OpenAI發(fā)布GPT-4V,使人們將目光聚焦在了多模態(tài)遷移和融合能力之上。如何對齊和超越成為一大挑戰(zhàn)。
與此同時,在與OpenAI的競爭中,7月19日,Meta 宣布Llama 2開源,并且可直接商用,AI大模型圈一夜之間變了天,同時也宣告著大模型加速商業(yè)化時代的到來。
這場對于通用人工智能(AGI)的角逐,實際上是一場無盡的長跑、而非百米沖刺。在這樣一場長跑之中,長文本與多模態(tài)的突破該如何發(fā)力,開源江湖之中,國產(chǎn)大模型如何一爭高下?落于商業(yè)場景,哪種模式才是合適的打法?
2023年10月27日,智譜AI于 2023 中國計算機大會(CNCC)上,推出了全自研的第三代基座大模型 ChatGLM3 及相關(guān)系列產(chǎn)品,主要的亮點是全面瞄向GPT-4V的技術(shù)升級、模型全自研,并國產(chǎn)芯片適配、更開放的開源生態(tài)。
自研、國產(chǎn)、開源,這幾個關(guān)鍵詞加在一起形成了智譜AI的大致方向,也回答了部分我們提出的疑問。
故事,從2020年開始。
2020 年,其實并不是普遍認知上的大模型發(fā)展元年。但現(xiàn)在回望,事實遠非如此。2020年恰是中國大模型過程中值得仔細玩味的發(fā)展元年——今日世界的涇渭分野,在彼時已伏脈千里。
這一年發(fā)生了兩件典型事件:
2020 年 6 月,OpenAI 突然發(fā)布了一個超乎所有人想象的研究成果——參數(shù)規(guī)模高達 1750 億的 GPT-3。同是預訓練語言模型,但 GPT-3 的參數(shù)量是 BERT 的 500 倍,不僅能做語言生成,而且在各項語言理解類的任務上也超過了 BERT。
同年10月,中國北京,集聚了中國頂尖科技人才的智源研究院率先發(fā)起大模型項目,在此之后,發(fā)布的“悟道 1.0”是當時中國首個超大模型,再到“悟道 2.0”發(fā)布,其成為全球最大的智能模型,模型參數(shù)規(guī)模達到 1.75 萬億,是 OpenAI 所發(fā)布的 GPT-3 的 10 倍,受到了國內(nèi)外的矚目。
中美大模型技術(shù)分割之戰(zhàn),在這個時間節(jié)點有了新的發(fā)展方向。
成立于2019年的智譜AI的故事也與這兩件事情息息相關(guān),智譜AI多數(shù)團隊成員,曾參與清華大學與智源研究院的合作項目"悟道"。
至于2020年,GPT-3的到來,帶給智譜AI的與其說是影響,不如說是焦慮。
彼時,智譜CE0張鵬既震驚于GPT-3的涌現(xiàn)能力,也在思考要不要All in超大規(guī)模參數(shù)大模型。權(quán)衡過后,智譜AI決定把OpenAI作為自己的對標對象,投入到超大規(guī)模預訓練模型的研發(fā)當中。
一個稠密的、有千億參數(shù)規(guī)模的超級大模型,或許會帶來人工智能的突破。這是張鵬堅定的信念。
但在技術(shù)路線上,智譜AI想做出的是與OpenAI不一樣的事情。
智譜AI環(huán)顧四周,當時主要存在BERT、GPT和T5幾種大模型預訓練框架。
GPT,本質(zhì)上是一個從左到右的語言模型,常用于無條件生成任務(unconditional generation);BERT則是一個自編碼模型,擅長自然語言理解任務(NLU,natural language understanding tasks),常被用來生成句子的上下文表示;T5(全稱為Transfer Text-to-Text Transformer )則是 encoder-decoder ,是一個完整的Transformer結(jié)構(gòu),包含一個編碼器和一個解碼器,常用于有條件的生成任務 (conditional generation)。
同樣一份英文試卷丟給這三個模型預訓練框架,GPT能通過預測下一個詞來做題,通過大量寫作練習來準備考試,BERT則擅長通過詞句之間關(guān)系來做題,通過理解去考試,其復習資料主要源于課本和維基百科,T5則擅長將題目形式化,比如將每個文本處理問題都看成“Text-to-Text”問題 ,所有題都在一個框架下解答,具有較為強大的遷移能力。
然而,沒有一個預訓練框架對包括自然語言理解(NLU)、無條件生成和有條件生成在內(nèi)的三個主要類別的所有任務都表現(xiàn)最好。
GLM的思想就是想要結(jié)合以上幾種模型的優(yōu)點,又不增加太多的參數(shù)量。
2021年9月,在團隊的共同努力下,智譜AI開始了GLM預訓練架構(gòu)的研發(fā),并訓練了百億參數(shù)模型GLM-10B。
技術(shù)先進,不能讓商業(yè)化路途十分坦暢。
據(jù)熟悉智譜AI的行業(yè)人士告訴AI科技評論,其實智譜AI在2021年開始融資的時候,幾乎沒人看得懂GLM框架,也沒什么人想投,智譜AI很無奈,只能開源。
如果說GLM-10B的開源是迫于無奈之舉,那在GLM-130B正式誕生之后,資本市場對智譜的追捧則充分說明了整個行業(yè)對大模型的認識在逐漸成熟。
2022年8月,智譜AI推出GLM-130B。在概念上的獨特性和工程上的努力使GLM-130B在廣泛的基準(總共112個任務)上表現(xiàn)出超過GPT-3水平的性能。
值得一提的是,在誕生之初,GLM-130B就在華為昇騰芯片進行了適配訓練。
很快,智譜AI身后聚集了一批知名VC。就在GLM-130B發(fā)布的第二個月,智譜AI拿到了由君聯(lián)資本和啟明創(chuàng)投聯(lián)合領投的1億元B輪融資。
在此之后,智譜AI的估值便一路高飛猛進。從2020年底的估值約 20 億元人民幣,到如今的 140 億元,智譜AI已經(jīng)成為中國估值最高的大模型創(chuàng)業(yè)公司。
鋼鐵與鋼鐵意志的交鋒,是人們對于二戰(zhàn)中上甘嶺一戰(zhàn)的描述,這是歷史上一場有名的硬戰(zhàn)。
在經(jīng)歷了2022年ChatGPT引爆的生成式AI熱潮以及2023年百度文心、阿里通義、華為盤古、訊飛星火、商湯日日新等30余個大模型的悉數(shù)登場之后,大模型的競爭炮火密度也到達了上甘嶺之戰(zhàn)的程度。
張鵬在多個場合引用了紅杉中國關(guān)于生成式AI的觀點,市場的性質(zhì)正在演變。炒作和閃光正在讓位于真實的價值和整體產(chǎn)品體驗。生成式AI的下半場競爭關(guān)鍵是原生應用。
讓大模型有應用價值,技術(shù)的突破點還可以往什么方向發(fā)展?長文本和多模態(tài)的融合似乎是這場戰(zhàn)爭中的長槍和大炮。
在ChatGLM 3 系列模型發(fā)布后,智譜成為了目前國內(nèi)唯一一個對標OpenAI全模型產(chǎn)品線的公司:
提及OpenAI全模型產(chǎn)品線,我們不得不提到OpenAI近期發(fā)布的GPT-4V,在視覺理解、描述、推理等諸多方面表現(xiàn)出了類似人類水平的能力。
據(jù)張鵬介紹,瞄準GPT-4V,ChatGLM3 實現(xiàn)了若干全新功能的迭代升級,包括:多模態(tài)理解能力的CogVLM-看圖識語義,在10余個國際標準圖文評測數(shù)據(jù)集上取得SOTA,CogVLM也被譽為“十四邊形戰(zhàn)士”。
在現(xiàn)場,我們也看到了ChatGLM3的看圖識語義能力,丟給他一張照片,他能立馬識別照片是在哪里拍攝的。
ChatGLM3代碼增強模塊 Code Interpreter則可以理解為讓模型具備寫代碼的能力,能根據(jù)用戶需求生成代碼并執(zhí)行,自動完成數(shù)據(jù)分析、文件處理等復雜任務;
網(wǎng)絡搜索增強WebGLM-接入搜索增強,能自動根據(jù)問題在互聯(lián)網(wǎng)上查找相關(guān)資料并在回答時提供參考相關(guān)文獻或文章鏈接。
此外,ChatGLM3此次還推出可手機部署的端測模型ChatGLM3-1.5B和ChatGLM3-3B,支持包vivo、小米、三星在內(nèi)的多種手機以及車載平臺,甚至支持移動平臺上 CPU 芯片的推理,速度可達20 tokens/s。在火熱的Agent方面,ChatGLM3 集成了自研的 AgentTuning 技術(shù),激活了模型智能代理能力。
既然是對標GPT-4V,ChatGLM3也不得不面臨輸入同一個問題,得到的答案可能是不相同的難題。因為,模型往往通過采樣的方式,決定token的產(chǎn)出結(jié)果,而不是固定取softmax算出的最大概率token。也就是說,幻覺問題極有可能在實際操作中出現(xiàn)。
CNCC大會的ChatGLM3的表現(xiàn)也有一個小插曲,生成一張心形圖片,最后變成函數(shù)圖,也正是幻覺現(xiàn)象在作怪。
除此之外,據(jù)張鵬介紹,此次ChatGLM3的語義能力與邏輯能力也大大增強。不同并發(fā)下的Token生成速度相比其他主流開源模型如vLLM,提升2-3倍。對此,張鵬介紹道,一般而言語義數(shù)與 token 之間是1:1.8的比例關(guān)系,也就是說20 token相當于30到40個漢字,其實這也是一般人的每秒平均閱讀次數(shù)。
現(xiàn)階段的ChatGLM3-1.5B-Base的性能在各個評測級上已經(jīng)相當于ChatGlm2-6B-Base的性能。參數(shù)下降,但是性能卻明顯提升,這保證了在文本處理上ChatGLM3的表現(xiàn)。
語義能力與邏輯能力其實是NLP領域老生常談的話題,只不過,如今的大模型競爭,早已從注重多輪對話能力演變成了對長文本能力的追逐之中。
近期,月之暗面發(fā)布智能助手產(chǎn)品Kimi Chat可支持輸入20萬漢字,按OpenAI的計算標準約為40萬token;港中文賈佳亞團隊聯(lián)合MIT發(fā)布的新技術(shù)LongLoRA,可將7B模型的文本長度拓展到10萬token,70B模型的文本長度拓展到3.2萬token。
在月之暗面Kimi Chat發(fā)布之際,楊植麟就告訴過AI科技評論,目前很多長上下文的模型走的是以下三種捷徑:金魚模型、蜜蜂模型、蝌蚪模型。
“蜜蜂模型”是關(guān)注局部,忽略了全局,雖然可以輸入整個上下文,但模型可能只是采樣其中的局部。比如一篇文章的關(guān)鍵在中間,那么它就無法提取到關(guān)鍵信息?!膀蝌侥P汀眲t是能力不夠,可能只有10億的參數(shù)量,并不是千億級別的,所以能力有限?!敖痿~模型”可以理解為,以滑動窗口的方式,直接主動拋棄了很多上文,雖然號稱的范圍很長,但是實際上支持的很短,這種鯨魚模型很難解決很多任務
三種模型各有利弊,暫時沒有一個合適的技術(shù)模型能完美地解決所有難題,各家大模型能做的僅僅是在參數(shù)、注意力和足夠的信息之間進行平衡與取舍,達到適合的范圍。
算法層面各有千秋,智譜AI告訴我們長文本的突破也許可以從硬件方面下手。
此次CNCC大會,張鵬也宣布開源ChatGLM3-6B-32K。
眾所周知,僅就多輪對話能力而言,開源模型和私有模型部署存在代差。目前絕大多數(shù)開源模型的上下文都只有2k,而GPT-3.5已經(jīng)升級到了16k,GPT-4目前支持8K,Claude的特殊版本極限可以支持100k。ChatGLM3-6B的上下文直接提升到了32k,達到了私有模型水平。
從2k擴展到32k,ChatGLM3主要是應用了一種叫做 FlashAttention 的技術(shù)。關(guān)于FlashAttention,“FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness”一文介紹,其實長文本能力的難點在于需要增加序列長度,注意力層是主要瓶頸,因為它的運行時間和內(nèi)存會隨序列長度的增加呈二次(平方)增加。
其實也就可以理解為一個人的閱讀文本越長,注意力越不集中,耗費的精力越多,F(xiàn)lashAttention是從精力方面下手,利用GPU非勻稱的存儲器層次結(jié)構(gòu),實現(xiàn)了顯著的內(nèi)存節(jié)?。◤钠椒皆黾愚D(zhuǎn)為線性增加)和計算加速(提速2-4倍),而且計算結(jié)果保持一致。也就是說同樣的文本,因為個人精力的提升,閱讀速度變得更快了。
開源大模型的風潮,最開始是Meta燒了一把大火。
此前,ChatGPT月活剛突破1億,Meta就立馬推出LLaMA(“羊駝”);羊駝被“非故意開源”之后,基于開源模型產(chǎn)生的GPT平替大爆發(fā)。百川智能的Baichuan、復旦的Moss、智源的天鷹等等,不一而足。
開源的意義,對于商業(yè),意味著什么?
這個問題從Meta發(fā)布Llama2之后微軟的反應可以看出端倪,在7月19日Meta正式發(fā)布首個開源商用大模型Llama2后,原本和OpenAI擁有長期、深入合作的微軟成了Llama 2的「首選合作伙伴」,該大模型將通過微軟云Azure分發(fā)。
敵人的敵人便是朋友,技術(shù)開源從某種程度上來說是撬動商業(yè)蛋糕最好的手段。
2023年,智譜AI選擇將單卡版模型ChatGLM-6B進行開源,供研究者與個人開發(fā)者們進行微調(diào)和部署。
ChatGLM-6B的受歡迎程度是意料之中的,多位開發(fā)者曾公開評價,相對于LLaMA-7B、BLOOMZ-7B1等同類模型來說,ChatGLM-6B裸測中文效果最好、模型參數(shù)量更?。?2億),國內(nèi)開發(fā),具有本土優(yōu)勢。
數(shù)據(jù)顯示,智譜AI的開源模型在全球下載量已超過1000萬次,其還針對不同應用場景,開發(fā)出了生成式AI提效助手智譜清言以及高效率代碼模型CodeGeeX等AIGC模型及產(chǎn)品。
而具體至中國的語境,開源的意義,意味著什么?
這個問題則可以用芯片領域著名的RISC-V來回答,由英特爾和ARM公司主導的芯片架構(gòu)領域,X86和ARM幾乎處于壟斷地位,架構(gòu)存在不授權(quán)或不供應等風險的大背景下。在此種情形之下,開源的RISC芯片架構(gòu)項目,其發(fā)起初衷便是可以被自由地用于任何的地方,允許任何人設計、制造和銷售RISC-V芯片和軟件。
由于具備開源開放的特性,RISC-V架構(gòu)也因此被國產(chǎn)廠商看作是國產(chǎn)芯片彎道超車的機遇。
放至大模型領域,在OpenAI閉源的情況下,大眾對于開源的需求與日俱增,而在可以選擇又必須選擇國產(chǎn)的情況下,智譜AI成為了最佳選項之一。
2023 中國計算機大會(CNCC)上,智譜CEO張鵬表示多模態(tài)CogVLM-17B已開源,它在10個多模態(tài)榜單中排名第一。
智能體AgentLM能讓開源模型達到甚至超過閉源模型的Agent 能力。
除此之外,張鵬還強調(diào)了全面適配國產(chǎn)硬件生態(tài),正如前文所提,早在130B階段,GLM-130B就適配了華為的芯片,如今用華為芯片推理速度提升超3倍。
對智譜AI而言,在大模型競爭之中,算力是一個制約發(fā)展的重要因素。情況非常復雜,變化很快,影響也很大。推進國產(chǎn)化芯片適配是很有必要的。
對于整個國內(nèi)環(huán)境而言,智譜AI 目前是國內(nèi)唯一全內(nèi)資、國產(chǎn)自研的大模型企業(yè),適配國產(chǎn)芯片,能讓智譜面對不同類型的用戶不同類型的芯片提供不同等級的認證和測試,這意味著智譜AI 的大模型是安全可控的,這也將直接反哺智譜AI 的商業(yè)化能力。
這也是為什么智譜如今融資十分快速的原因。
而在全面生態(tài)上,目前智譜 AI GLM大模型已經(jīng)應用于政務、金融、能源、制造、醫(yī)療等領域,支持昇騰、神威超算、海光DCU、海飛科、沐曦曦云、算能科技、天數(shù)智芯、寒武紀、摩爾線程、百度昆侖芯、靈汐科技、長城超云10余種國產(chǎn)硬件生態(tài),合作伙伴包括阿里、騰訊云、火山引擎、華為、美團、微軟、OPPO、海天瑞聲等數(shù)十家公司。
前段時間,在家電領域出現(xiàn)了關(guān)于國產(chǎn)吹風機的討論。最核心的聲音在于戴森之前無國產(chǎn)吹風機。這句話并不是指的對戴森這一品牌的吹捧,而是對中國家電行業(yè)的現(xiàn)狀反思。
為什么中國造不出戴森,這個命題放在中國的很多行業(yè)都可以成立。為什么中國沒有蘋果、特斯拉這樣的領頭羊企業(yè),這個疑問放到大模型領域,則變成了為什么中國沒有OpenAI?
在大家都不是OpenAI的情況下,智譜AI始終追求對標OpenAI,張鵬也表示,智譜AI只會也只能和OpenAI和過去的自己比較。
從全局視角來看待,早在19年就成立的智譜AI在自我發(fā)展的過程中碰上了OpenAI,OpenAI給所有中國企業(yè)或機構(gòu)都上了一課,如今,他卻是最有可能與OpenAI對標,走出一條獨屬于中國大模型自主之路的企業(yè)。
歷史的有趣之處在于,它并不是由單一因素推動發(fā)展,而是由各個不同要素疊加在一起,無數(shù)偶然所演變成的必然。當一個國家全力推動國產(chǎn)、一種技術(shù)源于國產(chǎn)、一家公司又能做成國產(chǎn)。
三者的命運交相輝映,一段歷史的注腳就此產(chǎn)生。
在前文,我們已經(jīng)討論過智譜AI在國產(chǎn)化上的布局,而具體至商業(yè)落地,張鵬在CNCC大會表示智譜開放平臺ChatGLM-turbo價格降低了50%,這似乎回到了故事的開端,大模型的涌現(xiàn)能力讓眾人詫異,但高居不下的成本讓人望而卻步,一個無法面向全人類的產(chǎn)品,性能再完美,商業(yè)落地也會存在瑕疵。
而這份瑕疵,卻恰恰是智譜AI與一眾國產(chǎn)廠商最應追求的完美之處。雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。