0
本文作者: 我在思考中 | 2023-08-21 17:06 |
2023年8月14日,由GAIR研究院、雷峰網(wǎng)(公眾號:雷峰網(wǎng))、世界科技出版社、科特勒咨詢集團聯(lián)合主辦的第七屆GAIR全球人工智能與機器人大會,在新加坡烏節(jié)大酒店拉開帷幕。
潘毅對話黃學(xué)東
圍繞大模型的討論在繼續(xù)。繼黃學(xué)東介紹完「what we are now」后,清華大學(xué)周伯文接著介紹大模型在復(fù)雜場景中的應(yīng)用。周伯文是清華大學(xué)惠妍講席教授、電子工程系長聘教授,銜遠科技創(chuàng)始人,IEEE/CAAI Fellow。
周伯文發(fā)表演講
需要注意的是,將大模型的能力遷移到產(chǎn)業(yè)應(yīng)用中,將不可避免地遇到更低頻、長尾的復(fù)雜場景和大規(guī)模協(xié)同需求。對此,京東探索研究院院長、京東科技智能服務(wù)與產(chǎn)品部總裁、IEEE Fellow 何曉冬指出,應(yīng)用于產(chǎn)業(yè)的大模型必須具備產(chǎn)業(yè)原生、價值驅(qū)動、開放協(xié)同三大特性。
Alex Ren對話邱諄
隨著大模型參數(shù)的指數(shù)級增加,如何高效訓(xùn)練模型成為大模型開發(fā)的重中之重。阿里云計算平臺首席架構(gòu)師林偉在 GAIR 2023 的演講中提出,今天 AI 工程面臨非常多挑戰(zhàn)。硬件復(fù)雜度高,芯片每半年更新一次;集群復(fù)雜,高投入未必能帶來高性能;分布式任務(wù)配置復(fù)雜;每一個問題都會大量分散算法工程師在模型訓(xùn)練上的精力。
林偉介紹了阿里云 PAI 靈駿智算平臺的基礎(chǔ)架構(gòu)。在算力底座層面,靈駿智算集群通過自研高性能網(wǎng)絡(luò)、高性能存儲、異構(gòu)資源池化、數(shù)據(jù)加載加速等優(yōu)化技術(shù),可實現(xiàn)端到端1.5微秒超低系統(tǒng)通信時延,通信效率17%優(yōu)化,異構(gòu)資源利用率3倍提升。在工程平臺層,PAI靈駿智算服務(wù)提供覆蓋AI開發(fā)全流程的平臺和分布式計算優(yōu)化能力,單個訓(xùn)練任務(wù)可達到萬卡級別規(guī)模,千卡規(guī)模的線性擴展效率達92%,為通用大型模型研發(fā)提供穩(wěn)定、高效的支撐。
阿里云林偉演講中
伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)副教授李博指出,大模型時代,機器學(xué)習(xí)無處不在,但是大模型的安全性和可信性問題一直是學(xué)術(shù)界和工業(yè)界關(guān)注的重點,Amazon、Anthropic、 Google和 OpenAI 等公司曾共同承諾將更加負責等對AI進行開發(fā);與此同時,大模型因為數(shù)據(jù)隱私等方面的問題,一旦進入物理世界,便會十分脆弱。為此,他們團隊提供了一個綜合可信度大模型評價平臺叫「DecodingTrust」,從有害內(nèi)容(toxicity)、刻板偏見(stereotype bias)、對抗魯棒性(adversarial robustness)等多個維度對 GPT 模型進行了可靠性評估,旨在評估不同可信度視角下的 GPT 模型的準確性,以及其在對抗性環(huán)境(如對抗性系統(tǒng)/用戶提示、示例樣本)中的穩(wěn)健性?!窪ecodingTrust」研究發(fā)現(xiàn),盡管 GPT-4 在標準基準測試中通常比 GPT-3.5 更可信,但在越獄系統(tǒng)或用戶提示的情況下更容易受到攻擊,背后原因可能是因為 GPT-4 更加準確地遵循(誤導(dǎo)的)指令。李博認為,AI 系統(tǒng)的安全性并沒有單一的解決方案可以解決所有問題,需要多方持續(xù)地關(guān)注。
李博遠程演講中
南洋理工大學(xué)副教授張含望帶來了以《視覺識別中的因果關(guān)系》為主題的演講。他認為,對于當前的大模型來說,如果想要真正突破一些最底層邏輯上的問題,因果關(guān)系(Causality)是一條必經(jīng)之路。
張含望表示,在多模態(tài)模型或大語言模型的研究中,偏差(bias)是常見問題。隨著模型規(guī)模的不斷擴大,它可能會越來越智能,但偏差問題依舊存在。這就意味著,若不把因果關(guān)系加上去,大模型只是在進行強行關(guān)聯(lián)。如果幸運,模型在回答問題時能夠給出正確答案,否則就會“胡說八道”。這是因為它背后的關(guān)聯(lián)本身就是錯誤的,把共生關(guān)系當成了因果關(guān)系。張含望還更進一步地指出,共生不等于因果,經(jīng)常發(fā)生的事情不一定是因果關(guān)系。
對此,他給出的建議是,做多模態(tài)模型的過程中,一方面一定要多關(guān)注“等變性”,因為“可拆解性”可以通過數(shù)據(jù)量堆疊,“等變性”不可以;另一方面,目前,多模態(tài)之間互通的瓶頸在于非語言模態(tài)(例如圖像)的spatial tokens和語言分布差的太遠。他認為,語言的本質(zhì)是可遞歸的符號系統(tǒng),這也是大語言模型可以推理的基礎(chǔ)。所以,如果想得到真正的多模態(tài)大模型,就必須找到一種“可遞歸,可拆解的”的tokenization的方法,把非語言模態(tài)轉(zhuǎn)成“可遞歸分布”的token。
張含望演講中
嚴睿在 GAIR 2023 的演講中主要介紹了大模型的發(fā)展歷程,以及大模型所對應(yīng)的新特性與背后對應(yīng)的新技術(shù)。此外,介紹了將大模型能力與對話式人工智能相結(jié)合的研究點,探討了一些現(xiàn)有的技術(shù)發(fā)展路線與可能存在的技術(shù)挑戰(zhàn)。最后介紹了一下人民大學(xué)推出的玉蘭系列大模型,包括RecAgent推薦仿真大模型,能在一定程度上解決數(shù)據(jù)匱乏與冷啟動問題,也有可能推廣到其他場景。
會后,嚴睿與現(xiàn)場觀眾對涉及到通用模型在專業(yè)領(lǐng)域應(yīng)用的話題展開討論,嚴認為將開源模型進行微調(diào)以適應(yīng)特定領(lǐng)域數(shù)據(jù)有一定效果,但研究尚處早期無確切定論。
嚴睿演講中
大會下午第二場進入“大模型時代超級基建”環(huán)節(jié)。過去數(shù)年間,AI領(lǐng)域應(yīng)用落地曾一度乏善可陳。但在剛剛過去的幾個月,ChatGPT引爆了大模型的浪潮。盡管如此,當前的大語言模型的訓(xùn)練然面臨諸多挑戰(zhàn)?;诖耍珿AIR大會首日設(shè)置“大模型時代的超級基建”,共同探討AI底層基礎(chǔ)設(shè)施相關(guān)話題。
過去數(shù)年,AI 模型的參數(shù)發(fā)生了極大變化。新加坡國立大學(xué)校長青年教授、潞晨科技創(chuàng)始人尤洋指出,從 2016 年至 2021 年 1 月,AI 模型的參數(shù)量是每 18 個月增長 40 倍;從 2018 年 1 月到 2021 年 1 月,AI 模型的參數(shù)量每 18 個月增長 340 倍。而相形之下,2016 年 1 月至 2021 年 1 月間,GPU 的計算增長速度每 18 個月僅增長了 1.7 倍。由此可見,訓(xùn)練成本高、周期長,是當前大模型發(fā)展最需要克服的難題。
針對這一問題,尤洋提出了 Colossal-AI 系統(tǒng),從高效內(nèi)存系統(tǒng)、N 維并行系統(tǒng)和大規(guī)模優(yōu)化三個層次出發(fā),以實現(xiàn)同樣的設(shè)備條件下將數(shù)據(jù)移動的最小化,將 GPU 的吞吐量擴大至最高點。
尤洋還指出,現(xiàn)階段的模型參數(shù)量以 10 萬倍擴大、但層數(shù)增加不多,這或意味著:如今的 AI 發(fā)展可能不再是深度學(xué)習(xí)、而是進入了寬度學(xué)習(xí)時代。在模型變得更寬的情況下,面對大規(guī)模、長時間的 GPU 訓(xùn)練任務(wù),大模型訓(xùn)練系統(tǒng)的核心將是如何實現(xiàn) GPU 并行計算,以實現(xiàn)大模型訓(xùn)練越快越省錢的目標。
尤洋演講中
如何用云計算支撐大模型的發(fā)展?UCloud董事長兼CEO季昕華分享了以《中立云服務(wù)助力AIGC的發(fā)展》為主題的演講。
季昕華認為,判斷一個大模型能不能做好主要有四個關(guān)鍵要素:一是資金密度;二是人才密度;三是數(shù)據(jù)密度;四是算力密度。
一家大模型公司如果沒有一個億美金,那基本上壓力就會比較大。因此,大模型被稱為是互聯(lián)網(wǎng)的重工業(yè)。除資金以外,大模型的訓(xùn)練需要大量的科學(xué)家人才、數(shù)據(jù)、算力。
而UCloud主要做的就是大模型最下面的基礎(chǔ)設(shè)施。季昕華提到,目前,國內(nèi)有139家公司在做大模型,其中五六十家都是由UCloud支撐和支持。所以,他們對整個模型過程中的技術(shù)要求非常清楚,也看到了大模型目前發(fā)展階段在技術(shù)上所遇到的挑戰(zhàn),包括功耗、存儲、網(wǎng)絡(luò)等。
季昕華演講中
匯智智能聯(lián)合創(chuàng)始人劉黃驍烈在演講中介紹了當前大模型技術(shù)的主要應(yīng)用場景。他表示,目前,大模型技術(shù)應(yīng)用場景可以分成優(yōu)化交互、輔助工作、素材制作三個方向。他還指出,這三個方向主要落在輔助用戶,幫助用戶去提效上,并不能替代人工。
在實踐過程中,他發(fā)現(xiàn)對于沒有AI專業(yè)背景的用戶使用大模型,常常會出現(xiàn)翻車現(xiàn)象。這種情況下,大模型對他們工作的提效就是負的。
在用戶眼里,現(xiàn)在的大模型就像是一套擁有超能力的鋼鐵盔甲,用戶期待穿上這套盔甲以后,立馬就能飛起來、發(fā)射激光炮……但現(xiàn)實是,現(xiàn)在大多數(shù)用戶的問題是:不知道如何去操作這套擁有超能力的鋼鐵盔甲,以及面對不同種類型的盔甲,應(yīng)該如何選擇?
劉黃驍烈把當前用戶面對的大模型時的困境,歸納總結(jié)叫做“GNOMIC困境”,六個字母分別對應(yīng)的是 Guide(指導(dǎo))、 Notarize(公正)、Operate(操作)、Measure(衡量)、Identify(區(qū)別)、 Catelog(推介)。
基于以上分析,匯智智能推出如下產(chǎn)品和服務(wù):AIGC開源社區(qū)微言大義——解決“GNOMIC困境”的一個全量的解決方案。通過智能體的概念把大語言模型封裝成一系列,用戶能夠更好地感知行業(yè)案例。
劉黃驍烈演講中
Zilliz創(chuàng)始人兼CEO星爵指出,過去十年,受限于研發(fā)成本和開發(fā)難度,全球僅有1%的人專注于AI領(lǐng)域的研發(fā)工作。但如今,有了大模型和向量數(shù)據(jù)庫作為能力基座,一個AI 應(yīng)用的開發(fā)僅僅需要兩三個工程師一個周末的時間便可完成?!昂鋈缫灰勾猴L(fēng)來,千樹萬樹梨花開?!睂τ诖竽P停蔷羧绱嗽u價道。
此外,星爵還強調(diào)了向量數(shù)據(jù)庫之于大模型的重要性。他認為,向量數(shù)據(jù)庫承擔著大模型數(shù)據(jù)片外存儲的重任,不管是圖片、視頻語言還是生物學(xué)中蛋白質(zhì)的三維結(jié)構(gòu),都可以用向量的方式表征它的語義。
針對數(shù)據(jù)實時性和私域?qū)S袛?shù)據(jù)的問題,星爵表示,學(xué)術(shù)界和工業(yè)界存在兩種解決方案,一是通過Fine tuning的方式迭代演進,讓大模型學(xué)到更多知識;二是通過Vector search方法,把最新的或私域知識存到向量數(shù)據(jù)庫中,需要時再在向量數(shù)據(jù)庫中做基于語義的向量檢索。上述兩種方法都能為大模型提供更加精準的答案。
不過,星爵也坦言,從成本角度出發(fā),向量數(shù)據(jù)庫的成本是Fine tuning的1/ 1000。所以大模型廠商都無一例外地推薦開發(fā)者使用向量檢索的方式做知識庫管理,以便和模型有一個更好交互,降低落地使用成本的同時,提升在業(yè)務(wù)中的實際效果。
星爵演講中
在演講過后的圓桌論壇環(huán)節(jié),云啟資本合伙人陳昱與尤洋、季昕華、星爵三位嘉賓共同討論了當下備受關(guān)注的熱門話題,包括大模型基礎(chǔ)設(shè)施建設(shè)面臨的挑戰(zhàn)、如何降低大模型訓(xùn)練成本等。
針對大模型基礎(chǔ)設(shè)施建設(shè)面臨的挑戰(zhàn):
尤洋認為,通信基礎(chǔ)設(shè)施非常重要。比如,英偉達收購Mellanox的目的就是為了打造高速網(wǎng)絡(luò)。過去,挖礦等一些非AI需求的GPU就沒有很好的高速互聯(lián)。
季昕華在此前演講中已經(jīng)提到大模型面臨的挑戰(zhàn)。在圓桌環(huán)節(jié),他進一步解釋強調(diào),資金方面,大模型的訓(xùn)練需要大量的資金投入;算力方面,現(xiàn)在大部分的公司都沒有足夠的卡來做支撐;工程方面,數(shù)據(jù)存儲性能問題,以及整個訓(xùn)練過程掉卡問題,都會使得整個訓(xùn)練周期會變得非常長。
星爵則強調(diào)了數(shù)據(jù)方面的問題。他表示,世界上有 80% 以上的數(shù)據(jù)都是非結(jié)構(gòu)化的數(shù)據(jù)。過去十多年,非結(jié)構(gòu)化數(shù)據(jù)的管理能力主要由谷歌、微軟等大公司掌握。星爵表示,新AI時代對數(shù)據(jù)管理的要求也會變得更大,如何更好地做好數(shù)據(jù)基建,這對大家都是很大的挑戰(zhàn)。
針對業(yè)內(nèi)非常關(guān)心的成本問題,幾位嘉賓也都給出了相應(yīng)的觀點。
尤洋表示,大模型訓(xùn)練的一個巨大負擔是訓(xùn)練計算量太大。對此,他給出了三種解決方案:一是不改變硬件條件下試試能否加速收斂;二是,針對下層軟件,在不改變模型結(jié)果前提下,能否提供更好的基礎(chǔ)設(shè)施;三是能否進行模型優(yōu)化。
季昕華表示,優(yōu)刻得主要通過五個方面幫助客戶降低成本。一是降低電費。不論做訓(xùn)練還是推理,電費大約占總成本的15%左右,優(yōu)刻得烏蘭察布數(shù)據(jù)中心能夠把電費單價從1塊錢/度降低到3毛錢/度;二是化購買為租用。由于訓(xùn)練一般分階段,因此公司可以選擇租用模式。比起購買,租用會極大降低使用者的成本;三是通過網(wǎng)絡(luò)帶寬和存儲帶寬來提高使用者的訓(xùn)練效率;四是通過壓縮模型等手段,來降低推理成本。畢竟,未來推理成本可能會遠大于訓(xùn)練成本;五是通過一體機的模式,即私有部署的模式推進私有化大模型。
星爵表示,就降低成本而言,從向量數(shù)據(jù)庫角度來看,主要包括三方面:第一,要有更好的算法;第二,要更聰明地利用個體存儲;第三,要比以往有更強的有效利用硬件的能力。
圓桌結(jié)尾,電腦報創(chuàng)始人陳宗周發(fā)表了總結(jié)感言,他對各位嘉賓的演講和工作成果都給予了盛贊。陳老師還特別提到,很多講者已經(jīng)把事業(yè)做得非常龐大,但依然非常謙遜,中間更是有不少人是年輕一代的榜樣。
陳宗周致大會總結(jié)
至此,第七屆GAIR全球人工智能與機器人大會首日日程圓滿結(jié)束。8月15日,精彩繼續(xù)!
這個世界從不缺時代的注腳,GAIR存在的意義,就是讓AI歷史上的各種機緣與巧合,交織在一起,碰撞出新的思想與故事。
8月14日-15日,一群涌動著探險家、變革者、英雄血液的創(chuàng)造者,也將讓最前沿、最奇思妙想的大模型技術(shù)突破與商業(yè)試驗,以空前肆無忌憚的方式綻放。
這次他們齊聚在新加坡烏節(jié)酒店,為第七屆GAIR全球人工智能與機器人大會,帶來最為激蕩的思想碰撞。
雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。