0
本文作者: 王悅 | 2024-06-20 15:49 |
2024 上半年, OpenAI 的成果從世界模擬器 Sora,到首個(gè)實(shí)現(xiàn)多模態(tài) in 到多模態(tài) out 的 GPT-4o ,仍在強(qiáng)勢(shì)推進(jìn)著邁向 AGI 的節(jié)奏。面對(duì)技術(shù)上的差距,追趕 OpenAI ——是這場(chǎng)人工智能革命浪潮發(fā)展至今, AI 界仍在追求的目標(biāo)和努力的方向。
但其實(shí),當(dāng)下的 AI 技術(shù)尚處于高速迭代的過(guò)程,依然有非常多有挑戰(zhàn)性的問(wèn)題沒(méi)有被解決,而其中的研究趨勢(shì)和范式也不一定只有 OpenAI 才能引領(lǐng)。國(guó)內(nèi)對(duì)人工智能對(duì)研究不應(yīng)是亦步亦趨,也不應(yīng)止于 OpenAI。
幾乎與 OpenAI 同期捕捉到大模型的機(jī)遇,2018 即年成立的北京智源人工智能研究院推出我國(guó)首個(gè)大模型「悟道」,并一直承擔(dān)著中國(guó)在人工智能行業(yè)原始創(chuàng)新的角色。一位悟道大模型的早期參與者告訴 AI 科技評(píng)論,「眼光和魄力」力是智源在在本次大模型浪潮中的可貴之處,甚至在最開(kāi)始國(guó)內(nèi)大模型起步階段,智源會(huì)毫不猶豫地給予經(jīng)費(fèi)和算力支持。
如今的智源已走過(guò) 6 個(gè)年頭,在第六屆北京智源大會(huì)上值得注意的是,不同于以往從悟道 1.0 到 3.0 所推出的系列模型,本次智源推出了大模型全家桶,分別是大語(yǔ)言模型系列、多模態(tài)模型系列、具身智能大模型、生物計(jì)算大模型。這背后的原因是,今年 2 月王仲遠(yuǎn)接任智源研究院院長(zhǎng),帶領(lǐng)智源團(tuán)隊(duì)基于大模型通往 AGI 的技術(shù)路徑的研判,對(duì)未來(lái)三到五年的戰(zhàn)略規(guī)劃進(jìn)行了重新的梳理和判斷。
「智源不會(huì)去做各企業(yè)已經(jīng)在做的、重復(fù)性事情,而是去做原始性的創(chuàng)新,要去攻克的是業(yè)界的關(guān)鍵痛點(diǎn)抑或是前沿技術(shù)的熱點(diǎn),真正為中國(guó)去做技術(shù)突破?!怪窃慈斯ぶ悄苎芯吭涸洪L(zhǎng)王仲遠(yuǎn)說(shuō)道。
基于這一理念,在具身智能、生物計(jì)算等十分前沿的領(lǐng)域中,智源起到提前布局的開(kāi)創(chuàng)性引領(lǐng)作用,打出了「人無(wú)我有」的先手,推出了具身大模型,在機(jī)器人泛化動(dòng)作執(zhí)行和智能大小腦決策控制等方面取得了多項(xiàng)世界級(jí)突破性成果。在國(guó)內(nèi)發(fā)展尚不成熟的生物計(jì)算大模型中,智源研發(fā)了全原子生物分子模型OpenComplex 2。
在國(guó)內(nèi)爭(zhēng)相突破萬(wàn)億語(yǔ)言模型的節(jié)奏下,智源能做到「人有我優(yōu)」,研發(fā)了全球首個(gè)低碳單體稠密萬(wàn)億語(yǔ)言模型 Tele-FLM-1T。多模態(tài)大模型層面,智源并沒(méi)有采用 DiT 架構(gòu),而是押注自回歸路線研發(fā)了原生多模態(tài)世界模型 Emu 3,同時(shí)也推出了輕量級(jí)圖文多模態(tài)模型系列 Bunny-3B/4B/8B。
正如智譜 CEO 張鵬在智源大會(huì)上所說(shuō),智源從最早被定義成為 NGO 的偏新型研發(fā)機(jī)構(gòu),發(fā)展到今天已成為國(guó)內(nèi)甚至國(guó)際人工智能領(lǐng)域的一面旗幟。智源也已經(jīng)為中國(guó)人工智能界奠定了研究基礎(chǔ),培養(yǎng)了諸多當(dāng)下業(yè)界中的頂尖人才,使得后人能夠站在巨人的肩膀上進(jìn)一步看到更廣闊的 AI 世界。
而當(dāng)下的智源亦堅(jiān)持初衷,不懈怠腳步?!噶钊梭@艷的東西不能只出現(xiàn)在大洋的彼岸。」王仲遠(yuǎn)說(shuō)道。
一、0-1 的原始性創(chuàng)新
「大模型的思潮和很多技術(shù)都是從智源發(fā)展起來(lái)的?!拱俅ㄖ悄軇?chuàng)始人王小川在 2024 智源大會(huì)上說(shuō)道。
當(dāng)下,非營(yíng)利性科研組織站位使得智源既有技術(shù)高度,又有智庫(kù)的角色,能更多的進(jìn)行0-1的原始性創(chuàng)新。
解決萬(wàn)億參數(shù)模型的收斂痛點(diǎn)
萬(wàn)億參數(shù)模型,是今年各大模型廠商的必爭(zhēng)之地。
模型規(guī)模的提升,帶來(lái)了模型精度的提升,但因?yàn)閰?shù)量規(guī)模過(guò)大,也對(duì)模型的訓(xùn)練帶來(lái)了極大的挑戰(zhàn),包括內(nèi)存需求大、網(wǎng)絡(luò)通信量大、訓(xùn)練或推理性能低等問(wèn)題,常常難以收斂。因此,今年市面上見(jiàn)到的更多為稀疏激活模型,較少有單體稠密的萬(wàn)億參數(shù)模型。
可以說(shuō),現(xiàn)在的大模型生態(tài)格局中,缺少一個(gè)單體稠密萬(wàn)億參數(shù)模型。王仲遠(yuǎn)告訴 AI 科技評(píng)論,智源在做的事是解決這一痛點(diǎn),當(dāng)某家廠商需要訓(xùn)練萬(wàn)億乃至更大規(guī)模參數(shù)模型的時(shí)候,無(wú)需從頭去解決收斂等一系列問(wèn)題,開(kāi)源社區(qū)中有一個(gè)好的初始化的版本,這時(shí)再基于更強(qiáng)的算力和數(shù)據(jù)量即可對(duì)模型進(jìn)行進(jìn)一步迭代,不再?gòu)念^造輪子。
巨大算力消耗是大參數(shù)模型無(wú)法避開(kāi)的問(wèn)題。對(duì)此,智源聯(lián)合中國(guó)電信人工智能研究院開(kāi)發(fā)了基于模型生長(zhǎng)和損失預(yù)測(cè)等關(guān)鍵技術(shù),推出全球首個(gè)低碳單體稠密萬(wàn)億語(yǔ)言模型 Tele-FLM-1T能夠提高訓(xùn)練效率,降低能耗,實(shí)現(xiàn)低碳生長(zhǎng)。該模型與百億級(jí)的 52B 版本,千億級(jí)的 102B 版本共同構(gòu)成Tele-FLM系列模型。
僅以業(yè)界普通訓(xùn)練方案9%的算力資源,基于112臺(tái)A800服務(wù)器,用4個(gè)月完成3個(gè)模型總計(jì)2.3Ttokens的訓(xùn)練,成功訓(xùn)練出萬(wàn)億稠密模型 Tele-FLM-1T。模型訓(xùn)練全程做到了零調(diào)整零重試,算力能效高且模型收斂性和穩(wěn)定性好。
目前,TeleFLM系列模型已經(jīng)全面開(kāi)源了52B版本,核心技術(shù)(生長(zhǎng)技術(shù)、最優(yōu)超參預(yù)測(cè))、訓(xùn)練細(xì)節(jié)(loss曲線、最優(yōu)超參、數(shù)據(jù)配比和Grad Norm等)均開(kāi)源,Tele-FLM-1T版本即將開(kāi)源。
Tele-FLM-52B 版本開(kāi)源地址https://huggingface.co/CofeAI/Tele-FLM
Tele-FLM-Chat 試用(純模型單輪對(duì)話版)地址https://modelscope.cn/studios/FLM/ChatFLM
并且,生長(zhǎng)策略也為大模型訓(xùn)練提供了其他可能性,王仲遠(yuǎn)透露,將會(huì)將其用于異構(gòu)芯片的異構(gòu)計(jì)算上,基于此訓(xùn)練 MoE 模型。
不走 DiT 架構(gòu)的多模態(tài)模型
今年,比萬(wàn)億參數(shù)模型更火的趨勢(shì)是多模態(tài)大模型。而其中在文生視頻這一層面上,國(guó)內(nèi)外主流的研究方式均以 Sora 的 DiT 架構(gòu)為主,而智源卻沒(méi)有跟隨 OpenAI 。
「DiT 當(dāng)然能達(dá)到一個(gè)可用的產(chǎn)品級(jí)的模型,這是毫無(wú)疑問(wèn)的。但如果瞄準(zhǔn)的目標(biāo)是真正為 AGI 而使用的多模態(tài)大模型,我們會(huì)認(rèn)為自回歸路線才是更佳的技術(shù)路線。」王仲遠(yuǎn)如是判斷。
基于此,智源研發(fā)了原生多模態(tài)世界模型 Emu 3,最開(kāi)始即是為統(tǒng)一的多模態(tài)生成和理解而設(shè)計(jì),采用智源自研的多模態(tài)自回歸技術(shù)路徑,既統(tǒng)一了視頻、圖像、文字,也統(tǒng)一了生成和理解。目前,Emu3在持續(xù)訓(xùn)練中,經(jīng)過(guò)安全評(píng)估之后將逐步開(kāi)源。
「這個(gè)技術(shù)路線真的很難,但這也恰恰是適合智源研究院來(lái)做的。但同時(shí),我們?cè)谧鲈紕?chuàng)新的時(shí)候要尊重科學(xué)規(guī)律,也接受它失敗的可能性,但即使失敗也是非常有意義的。」
同時(shí),為適應(yīng)智能端側(cè)的應(yīng)用,智源研究院推出了輕量級(jí)圖文多模態(tài)模型系列 Bunny-3B/4B/8B,該模型系列采用靈活架構(gòu),可支持多種視覺(jué)編碼器和語(yǔ)言基座模型。多個(gè)榜單的綜合結(jié)果表明,Bunny-8B 的多模態(tài)能力可達(dá)到 GPT-4o 性能的 87%。目前,Bunny 模型參數(shù)、訓(xùn)練代碼、訓(xùn)練數(shù)據(jù)已全部開(kāi)源。
開(kāi)源地址:https://github.com/BAAI-DCAI/Bunny
FlagOpen,打造大模型時(shí)代的Linux
一直以來(lái),智源的大模型開(kāi)源有兩條線同時(shí)進(jìn)行:一條線是進(jìn)行智源所研發(fā)的悟道系列大模型的開(kāi)源;第二條線是將整個(gè)大模型技術(shù)體系開(kāi)源,包括模型、工具、算法代碼的開(kāi)源等,建立了 FlagOpen。
時(shí)至今日,F(xiàn)lagOpen 的開(kāi)源更多需要滿足不斷攀升的訓(xùn)練和推理計(jì)算需求,應(yīng)對(duì)大規(guī)模AI系統(tǒng)和平臺(tái)面臨的集群內(nèi)或集群間異構(gòu)計(jì)算、高速互聯(lián)、彈性穩(wěn)定的技術(shù)挑戰(zhàn)。于是,智源研究院推出了面向大模型、支持多種異構(gòu)算力的智算集群軟件棧 FlagOS。
FlagOS 融合了智源長(zhǎng)期深耕的面向多元 AI 芯片的關(guān)鍵技術(shù),包括異構(gòu)算力智能調(diào)度管理平臺(tái)九鼎、支持多元AI異構(gòu)算力的并行訓(xùn)推框架 FlagScale、支持多種AI芯片架構(gòu)的高性能算子庫(kù) FlagAttention和 FlagGems,集群診斷工具 FlagDiagnose 和 AI 芯片評(píng)測(cè)工具FlagPerf。
FlagOS 如同“操作系統(tǒng)”一樣,集異構(gòu)算力管理、算力自動(dòng)遷移、并行訓(xùn)練優(yōu)化、高性能算子于一體。向上支撐大模型訓(xùn)練、推理、評(píng)測(cè)等重要任務(wù),向下管理底層異構(gòu)算力、高速網(wǎng)絡(luò)、分布式存儲(chǔ)。
目前,F(xiàn)lagOS已支持了超過(guò)50個(gè)團(tuán)隊(duì)的大模型研發(fā),支持8種芯片,管理超過(guò)4600個(gè)AI加速卡,穩(wěn)定運(yùn)行20個(gè)月,SLA超過(guò)99.5%,幫助用戶實(shí)現(xiàn)高效穩(wěn)定的集群管理、資源優(yōu)化、大模型研發(fā)。FlagOS的推出將為中國(guó)新一代智算中心的建設(shè)提供助力,顯著提升智算集群的能力水平,加速大模型產(chǎn)業(yè)的發(fā)展。
二、「人無(wú)我有」的先手
「大模型變化得非??欤渲写_實(shí)有部分工作是商業(yè)公司沒(méi)有動(dòng)力、也沒(méi)有資源做的事?!姑姹谥悄?CEO 李大海在 2024 智源大會(huì)上探討道。
針對(duì)萬(wàn)億參數(shù)模型、多模態(tài)模型等相對(duì)主流且有共識(shí)的項(xiàng)目,各大廠商花費(fèi)較大力氣尚可一試,但在在具身智能、生物計(jì)算等十分前沿的領(lǐng)域中,并不是任何一家都具備「想做就能做」的條件。對(duì)此,智源會(huì)打出「人無(wú)我有」的先手。
當(dāng)下,我們會(huì)將大模型視作通用人工智能的基礎(chǔ)、數(shù)字世界的智能體。未來(lái),數(shù)字世界的智能體也會(huì)逐漸進(jìn)入到物理世界,其方法有二:一是進(jìn)入到硬件設(shè)備中,也就是具身智能;二是進(jìn)入到微觀世界,即和生命分子相關(guān),是生物計(jì)算大模型。
具身智能大模型
智源研究院具身智能創(chuàng)新中心在機(jī)器人泛化動(dòng)作執(zhí)行和智能大小腦決策控制等方面取得了多項(xiàng)世界級(jí)突破性成果。
在具身智能通用抓取能力方面研發(fā)了泛化抓取技術(shù)ASGrasp,針對(duì)跨任意形狀和材質(zhì)的泛化難題,智源率先突破95%的真機(jī)實(shí)驗(yàn)成功率,從而實(shí)現(xiàn)了全球領(lǐng)先的商業(yè)級(jí)動(dòng)作執(zhí)行水平。借助這項(xiàng)技術(shù),即使在復(fù)雜光線透射、反射的情況下,機(jī)器人依然能夠準(zhǔn)確感知包括透明、高反光物體的形狀和姿態(tài),并預(yù)測(cè)出高成功率的抓取位姿。
在分級(jí)具身大模型系統(tǒng)方面,智源研發(fā)了能夠從失敗中重思考、再嘗試的鉸接物體操作大模型系統(tǒng) SAGE。該系統(tǒng)有效結(jié)合了三維視覺(jué)小模型對(duì)空間幾何的精確感知能力和通用圖文大模型的通用物體操作知識(shí),使大模型驅(qū)動(dòng)的機(jī)器人能夠在任務(wù)執(zhí)行失敗時(shí)能夠重新思考并再次嘗試新的交互方式。
并且,智源還研發(fā)了全球首個(gè)能做到開(kāi)放指令控制六自由度物體拿取放置的大模型系統(tǒng)Open6DOR。該系統(tǒng)不僅像谷歌RT系列大模型一樣按照自然語(yǔ)言指令中的要求將物體放到指定位置,還能夠進(jìn)一步對(duì)物體的姿態(tài)進(jìn)行精細(xì)化控制。
在面向技術(shù)終局的端到端具身大模型層面,智源發(fā)布了全球首個(gè)端到端基于視頻的多模態(tài)具身導(dǎo)航大模型 NaVid。該模型可直接將機(jī)器人視角的視頻和用戶的自然語(yǔ)言指令作為輸入,端到端輸出機(jī)器人的移動(dòng)控制信號(hào)。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)
針對(duì)新一輪的具身智能熱,王仲遠(yuǎn)也提出了一些冷思考,要用客觀理性的態(tài)度來(lái)看待前沿技術(shù),能夠去接受它存在周期并持續(xù)投入知道跨越周期。
生物計(jì)算大模型
此外,智源研究院,還探索了生成式人工智能應(yīng)用于分子生物學(xué)中的應(yīng)用。智源研究院研發(fā)的全原子生物分子模型OpenComplex 2,是世界領(lǐng)先的大分子結(jié)構(gòu)預(yù)測(cè)模型,能有效預(yù)測(cè)蛋白質(zhì)、RNA、DNA、糖類、小分子等復(fù)合物。在生物分子結(jié)構(gòu)預(yù)測(cè)領(lǐng)域國(guó)際競(jìng)賽CAMEO(Continous Automated Model EvaluatiOn)中,OpenComplex 連續(xù)2年穩(wěn)居賽道第一,并獲得了CASP(Critical Assessment of Techniques for Protein Structure Prediction)15 的RNA自動(dòng)化賽道預(yù)測(cè)冠軍。
OpenComplex 2 是基于全原子建模的生命分子基礎(chǔ)模型,科研人員發(fā)現(xiàn)不僅可以預(yù)測(cè)大分子的穩(wěn)定結(jié)構(gòu),還初步具備預(yù)測(cè)分子多構(gòu)型以及折疊過(guò)程的能力。基于這樣的能力,生命科學(xué)家可以進(jìn)一步探索蛋白質(zhì)的生物學(xué)功能。目前,智源已和研究伙伴在多項(xiàng)重要疾病上展開(kāi)了研究,提供成藥性和分子機(jī)理研究。
智源研究院構(gòu)建了全球首個(gè)實(shí)時(shí)孿生心臟計(jì)算模型,可實(shí)現(xiàn)高精度的前提下生物時(shí)間/仿真時(shí)間比小于1。實(shí)時(shí)心臟計(jì)算模型是虛擬心臟科學(xué)研究的開(kāi)端,是孿生心臟走向臨床應(yīng)用的基礎(chǔ)?;谶@一模型,智源將創(chuàng)新性地采用物理-數(shù)據(jù)雙驅(qū)動(dòng)模型,融合第一性原理和人工智能方法,從亞細(xì)胞級(jí)、細(xì)胞級(jí)、器官級(jí)、軀干級(jí)仿真出一個(gè)“透明心臟”,且能根據(jù)患者的臨床數(shù)據(jù),構(gòu)建出反映患者的個(gè)性化生理病理的孿生心臟,從而進(jìn)行藥物篩選、治療方案優(yōu)化、術(shù)前規(guī)劃等臨床應(yīng)用。
三、AI 研究的新范式
「要是三年前問(wèn)我還需要多長(zhǎng)時(shí)間可以實(shí)現(xiàn) AGI,我可能會(huì)回答50年,但這幾年隨著大模型的發(fā)展,我認(rèn)為這個(gè)數(shù)字可以除以 2,20年左右即可能實(shí)現(xiàn)。」在2024智源大會(huì)的現(xiàn)場(chǎng),中國(guó)工程院院士、清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)院長(zhǎng)張亞勤笑著說(shuō)道。
圖片
具體來(lái)看,信息智能領(lǐng)域 0 至 5 年內(nèi),即可在對(duì)語(yǔ)言、圖像、聲音和視頻的理解、生成等方面通過(guò)新圖靈測(cè)試;物理智能領(lǐng)域 0 至 10年內(nèi),能實(shí)現(xiàn)大模型在物理環(huán)境中的理解與操作能力;生物智能領(lǐng)域 0 至 20 年內(nèi),都會(huì)聚焦人體、腦機(jī)接口、生物體、制藥和生命科學(xué),實(shí)現(xiàn)大模型與生物體連結(jié)的生物智能。
AGI 的加速來(lái)臨,也側(cè)面要求 AI 有新范式的變動(dòng)。單純靠 Scaling Law ,做不到 AGI。
在 Sora 及Dall-E團(tuán)隊(duì)負(fù)責(zé)人阿迪蒂亞·拉梅什(Aditya Ramesh)與紐約大學(xué)助理教授謝賽寧的交流過(guò)程中,也從技術(shù)的角度傳遞出技底層技術(shù)的變化:AI 行業(yè)正在從依賴手工標(biāo)注的深度學(xué)習(xí)模型轉(zhuǎn)向能夠通過(guò)自然語(yǔ)言和描述性文本重建視覺(jué)內(nèi)容的高級(jí)模型。
快速流變的同時(shí), AI 帶來(lái)的失控風(fēng)險(xiǎn)和安全問(wèn)題也需提上日程。對(duì)此,零一萬(wàn)物創(chuàng)始人李開(kāi)復(fù)博士表示,如果我們?cè)絹?lái)越依賴Reward model ,完全讓 AI 自己找路徑的話,發(fā)生失控的概率或許會(huì)增高,但中長(zhǎng)期來(lái)看,需要嘗試用“以子之矛攻子之盾”——用更好的技術(shù)解決技術(shù)帶來(lái)的挑戰(zhàn)。
盡管到如今 AI 發(fā)展面臨諸多可能性與挑戰(zhàn),但回顧 2020 年開(kāi)始悟道模型的研發(fā),智源至少是在亞洲地區(qū)最早投入,而且真的投入去做大模型的機(jī)構(gòu)?!缸畛醭闪⒅窃?、做悟道道想法是非常難得、非常領(lǐng)先的,今后 AI 研究的視野也會(huì)更寬廣,智源也會(huì)成為促進(jìn)中國(guó) AI 生態(tài)繁榮的平臺(tái)?!?/p>
AGI 還有很長(zhǎng)的路要走。王仲遠(yuǎn)預(yù)判,GPT-4 之后的突破難度會(huì)更大,對(duì)算力資源、核心算法的要求都會(huì)更高,彼時(shí)將不是追趕的過(guò)程,而是突破的過(guò)程。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。