丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

生成式AI落地,有沒有「萬能公式」?

本文作者: 包永剛 2023-11-10 20:44
導(dǎo)語:NVIDIA和螞蟻集團(tuán)在代碼大模型研發(fā)上,給生成式AI落地打了個樣。

生成式AI落地,有沒有「萬能公式」?

年初看到ChatGPT掀起生成式AI熱潮時,螞蟻集團(tuán)百靈代碼大模型(開源名稱CodeFuse)負(fù)責(zé)人技術(shù)總監(jiān)李建國迫不及待地想找合作伙伴NVIDIA聊聊。

李建國所在的辦公樓與NVIDIA北京辦公室僅一路之隔,步行幾分鐘就能到達(dá)。

來到NVIDIA北京辦公室,接待李建國的是NVIDIA開發(fā)與技術(shù)部門亞太區(qū)總經(jīng)理李曦鵬。

兩位AI圈里的資深人士一見面,就討論起了生成式AI落地的工程化問題。更具體的說,是CodeFuse的推理加速。

與GitHub在3月份發(fā)布的代碼編寫助手Copilot X類似,CodeFuse是螞蟻集團(tuán)自研的代碼生成專屬大模型。

算法和應(yīng)用優(yōu)化是李建國團(tuán)隊擅長的。算法和應(yīng)用層優(yōu)化完成之后,CodeFuse的體驗還是不夠理想,需要擅長底層硬件和軟件的NVIDIA幫忙。

自從年初的那次見面之后,李建國的團(tuán)隊和李曦鵬的團(tuán)隊不僅有了雙周會,有時候問題很緊急,周末還會有臨時的會議,目標(biāo)就是讓CodeFuse的體驗達(dá)到理想狀態(tài)。

靠著兩個團(tuán)隊相互的信任和支持,CodeFuse突破了推理中的量化難題,在大幅節(jié)省推理的成本的同時,極大提升了使用體驗。

如今,借助CodeFuse,簡單幾條文字指令就能在線制作貪吃蛇小游戲,CodeFuse距離為程序員提供全生命周期AI輔助工具的目標(biāo)越來越近,變革也將悄然而至。

“傳統(tǒng)的軟件研發(fā)人員的思維需要做一些改變?!崩罱▏J(rèn)為這是生成式AI將帶來的變化。

這種變化未來將發(fā)生在千行百業(yè),“有了大模型,接下來就是如何把這些模型“變小”,讓它在各種環(huán)境中應(yīng)用。今年底或者明年初,會有大量AI推理的需求?!崩铌伫i判斷。

螞蟻集團(tuán)和NVIDIA一起摸索出了生成式AI落地的路徑,這兩家走在生成式AI最前列的公司同時做了一件對整個AI業(yè)界非常有價值的事情,將合作的細(xì)節(jié)和成果開源到NVIDIA TensorRT-LLM社區(qū)。

這給正在探索AI推理加速的團(tuán)隊提供了一個參考,即便這不是萬能公式,但一定能激發(fā)AI創(chuàng)新,也將加速AI無處不在的進(jìn)程。 

單打獨斗很難落地大模型 

想要占領(lǐng)生成式AI時代的先機(jī),即便是業(yè)界領(lǐng)先的公司,靠單打獨斗還不夠,和生態(tài)伙伴合作成了必選項。

“螞蟻集團(tuán)和業(yè)界一樣,對于研發(fā)效率的提升都有非常大的訴求,這是我們研發(fā)CodeFuse的初衷。”李建國對雷峰網(wǎng)說,“去年開始,我們就開始用插件的方式來提升研發(fā)效率,后來ChatGPT讓我們意識到我們不僅可以通過插件的方式提升效率,還可以借助大模型讓CodeFuse有更多的功能?!?/p>

有探索精神的螞蟻集團(tuán)去年開始自研的代碼生成專屬大模型,要實現(xiàn)根據(jù)開發(fā)者的輸入,幫助開發(fā)者自動生成代碼、自動增加注釋、自動生成測試用例、自動修復(fù)和優(yōu)化代碼、自動翻譯代碼等,達(dá)到提升研發(fā)效率的終極目標(biāo)。

簡單說,CodeFuse的目的是重新定義下一代AI研發(fā),提供全生命周期AI輔助工具。

上半年,螞蟻從0訓(xùn)練了多個十億和百億級參數(shù)的CodeFuse代碼大模型訓(xùn)練,CodeFuse又適配加訓(xùn)了一系列開源模型,比如LLaMA、LLaMA-2、StarCoder、Baichuan、Qwen、CodeLLaMA等。

生成式AI落地,有沒有「萬能公式」?

圖片來自github

訓(xùn)練好的模型到了推理落地階段,出現(xiàn)了不一樣的難題。

“模型的推理部署分很多層,有最底層的軟件優(yōu)化,往上還有算法優(yōu)化和服務(wù)優(yōu)化?!崩罱▏?,“算法和服務(wù)優(yōu)化是自己團(tuán)隊擅長的,底層的軟件優(yōu)化我們也能做,但最好的選擇還是NVIDIA。”

之所以說NVIDIA是最好的選擇,有兩方面的原因,一方面是因為李建國和他的團(tuán)隊在通過插件提升研發(fā)效率的時候,經(jīng)過綜合評估,選擇了最適合他們的NVIDIA開源項目FasterTransformer?!盀榱藢崿F(xiàn)一些定制化功能,我們?yōu)殚_源端口貢獻(xiàn)了上千行代碼?!崩罱▏鴪F(tuán)隊超前的需求沒得到完全的滿足,需要和NVIDIA有更深度的合作。

另一方面,作為GPU加速硬件提供方,NVIDIA更加擅長結(jié)合底層的硬件和軟件優(yōu)化,強(qiáng)強(qiáng)聯(lián)合能更快速探索出AI推理的路徑。

這個合作其實是典型的雙向奔赴,CodeFuse遇到落地難題的時候,NVIDIA也非常需要螞蟻集團(tuán)一起協(xié)同設(shè)計出好產(chǎn)品。

FasterTransformer是NVIDIA2018年推出的開源項目,目標(biāo)是解決生成式AI模型推理的問題,2018年之后AI技術(shù)有了很大的進(jìn)步,但FasterTransformer為了效率,很多實現(xiàn)寫得比較固定,2023年則走到了產(chǎn)品轉(zhuǎn)型的時期。

“螞蟻集團(tuán)非常有探索精神,從FasterTransformer到如今的TensorRT-LLM,螞蟻集團(tuán)都是我們最早的用戶和貢獻(xiàn)者,也最早提出了需求,TensorRT-LLM有很多我們的協(xié)同設(shè)計?!崩铌伫i深深感受到螞蟻集團(tuán)的信任。

對于NVIDIA這家數(shù)據(jù)中心級全棧AI平臺公司,面對每年各類AI國際學(xué)術(shù)會議上,成千上萬篇論文討論AI的訓(xùn)練和推理加速,要兼顧所有方向其實不太容易,只有和最終的用戶合作,才能最大化NVIDIA軟硬件的價值。

通過與客戶合作,將其正向需求結(jié)合到產(chǎn)品迭代,NVIDIA從而在今年正式推出了加速大模型推理的開源解決方案NVIDIA TensorRT-LLM,TensorRT-LLM提供了Python接口,有靈活的模塊化組件,豐富的預(yù)定義主流模型,能夠極大地方便開發(fā)者在NVIDIA平臺上部署基于大模型的服務(wù)。

生成式AI落地,有沒有「萬能公式」?

圖片來自NVIDIA官網(wǎng)

大模型推理落地的關(guān)鍵——低成本,大吞吐量

螞蟻集團(tuán)的CodeFuse從訓(xùn)練到推理,NVIDIA的AI推理加速方案從FasterTransformer到TensorRT-LLM,雙方要一起解決的是低延遲的響應(yīng),還有能回答更長的問題。

“自動生成代碼特別是在IDE里面的代碼補全對延時有很高要求,如果代碼一個字符一個字符蹦出來,程序員肯定受不了,一般來說代碼補全的響應(yīng)時間在200毫秒以下才會有好的體驗,更長的時延程序員一般受不了?!?/strong>李建國指出了CodeFuse落地的一個難題。

解決這個問題的一個好辦法是量化。模型量化,就是將使用高精度浮點數(shù)比如FP16訓(xùn)練的模型,使用量化技術(shù)后,用定點數(shù)比如INT4表達(dá)。量化的關(guān)鍵點是對齊兩個精度(FP16和INT4)的輸出,或者說讓兩個精度輸出的數(shù)據(jù)分布盡可能保持一致。量化的好處是可以有效的降低模型計算量、參數(shù)大小和內(nèi)存消耗,提高處理吞吐量。

“我們內(nèi)部做了一些評估,8比特量化損失的精度比較少,基本是無損,同時可以帶來30%左右的加速。如果是量化到4比特,一般量化方法的精度損失會達(dá)到7-8%,但如果能把精度損失做到1%以內(nèi),可以帶來2倍左右的加速?!崩罱▏f,“要實現(xiàn)量化到4比特的同時精度損失小于1%,我們需要在核心的算法層面創(chuàng)新,也同時需要NVIDIA TensorRT-LLM的軟件優(yōu)化確保推理加速?!?/p>

量化的價值顯而易見,CodeFuse-CodeLLama-34B模型在FP16和INT8精度下,至少需要4張A10 GPU做最小配置部署。量化到INT4之后,模型占用顯存從64.9G顯著減小到19G,一張A10 GPU即可部署。

從需要4張A10減少到只需要1張A10,成本的降低顯而易見,速度也讓人滿意。

使用GPTQ或者NVIDIA TensorRT-LLM early access版本量化部署,實測發(fā)現(xiàn)A10上的INT4優(yōu)化后的推理速度,已經(jīng)和A100上FP16推理速度持平。

在程序生成的HumanEval評測和幾個NLP任務(wù)(CMNLI/C-EVAL)的評測中表現(xiàn)也非常出色。

結(jié)果讓人滿意,但過程中難免出現(xiàn)意外,李建國和團(tuán)隊同事將CodeFuse量化部署到A100運行正常,但部署到A10 GPU上時,輸出出現(xiàn)了亂碼,但沒有找到問題根因,而此時恰逢周末。

“了解到我們的問題之后,NVIDIA的伙伴說可以馬上來幫我們一起解決問題?!崩罱▏∠笊羁?,“后來NVIDIA的伙伴發(fā)現(xiàn)其實問題很簡單,就是容器的一個配置錯了,物理機(jī)并沒有問題,改完容器的配置就正常了?!?/p>

李曦鵬對這件事情也印象深刻,“周末一起調(diào)試,是建立在雙方通過長期合作信任的基礎(chǔ)上。彼此愿意相信,相互協(xié)同才能更快達(dá)成目標(biāo)?!?/p>

想要達(dá)到雙方技術(shù)團(tuán)隊默契配合,必須要有充分的溝通和信任,還要有優(yōu)先級。

“為了快速響應(yīng)螞蟻集團(tuán)的需求,以前我們的軟件更新一般3個月才更新一次,現(xiàn)在不到一個月就會給他們一版。”李曦鵬感嘆這種變化,“我們的代碼拿過去也會有bug,螞蟻的伙伴給了我們包容?!?/p>

至于如何適應(yīng)客戶的快節(jié)奏,李曦鵬認(rèn)為關(guān)鍵在于要有優(yōu)先級,“NVIDIA所有產(chǎn)品,最重要的優(yōu)先級都來自于客戶的需求。”

對于AI推理來說,與量化一樣影響體驗的是推理長度。

更大的推理長度意味著用戶可以一次性輸入更長的文檔,也可以實現(xiàn)多輪對話,目前業(yè)界標(biāo)準(zhǔn)的推理輸入長度是4K、16K,并朝著1Million的長度在努力。

CodeFuse-CodeLLama-34B模型目前在A10上,4比特量化支持總長為3K+長度的輸入和輸出。

生成式AI落地,有沒有「萬能公式」?

“如果只是單純加長輸入長度,挑戰(zhàn)非常大,因為計算量需求會出現(xiàn)O(n^2)增長?!崩铌伫i介紹。

要解決客戶的問題,還要求NVIDIA有極強(qiáng)的技術(shù)敏感度和技術(shù)創(chuàng)新能力。“最近有一個Flash-Decoding的技術(shù),可以更好的加速長序列的推理。而實際上,我們早已經(jīng)在TensorRT-LLM中獨立的實現(xiàn)了這個特性,叫做multi-block mode,目前還在對更多模型進(jìn)行測試,下個版本會放出來?!崩铌伫i表示。

李建國有些驚喜,“上周末知道TensorRT-LLM已經(jīng)支持Flash-decoding時非常開心,NVIDIA有前瞻性,能夠快速支持最新的技術(shù),這對于提升CodeFuse的體驗非常重要。”

螞蟻集團(tuán)和NVIDIA依舊在繼續(xù)優(yōu)化CodeFuse的部署,目標(biāo)就是提供低成本、低時延、高吞吐量的AI大模型使用體驗。

CodeFuse正在變得越來越強(qiáng)大,這會帶來一個問題,AI會帶來怎樣的變革?

大模型落地沒有萬能公式,但很快會無處不在

就像電剛發(fā)明的時候人們會擔(dān)心會產(chǎn)生事故一樣,大模型也處于這樣的時刻。“未來五年或者十年,人工智能大模型會深入我們生活的各個角落?!边@是李建國的判斷。

就拿他在負(fù)責(zé)的CodeFuse來說,軟件研發(fā)人員的思維需要前移或者后移,前移的意思是要考慮整個APP的概念設(shè)計、創(chuàng)意,后移是考慮APP后續(xù)的運維和增長。

“當(dāng)寫重復(fù)代碼的工作被AI提效之后,軟件研發(fā)人員有更多時間需要思考更復(fù)雜、更有創(chuàng)意的東西。而不僅僅只是關(guān)心算法、數(shù)據(jù),要去兼顧更多內(nèi)容,要有技能的增長?!崩罱▏^察認(rèn)為,“前端設(shè)計比較標(biāo)準(zhǔn)化,可能會更快受到影響。”

“但現(xiàn)在看來AI依舊是提升效率的輔助工具。”李建國和李曦鵬都認(rèn)為。

這種影響會隨著AI模型的成熟逐步影響到越來越多行業(yè)和領(lǐng)域。螞蟻集團(tuán)和NVIDIA就將其在CodeFuse方面的合作進(jìn)行了非常細(xì)節(jié)的開源,這對于TensorRT-LLM開源社區(qū)來說是一個巨大的貢獻(xiàn),也將深刻影響生成式AI的落地和普及。

比如生成式AI落地部署非常關(guān)鍵的量化,有NVIDIA和螞蟻集團(tuán)實踐開源的例子,基于TensorRT-LLM量化就會更加容易。

“論文介紹了一些方法,但還需要算法工程師針對具體的場景和模型去做調(diào)整和測試的?!崩铌伫i說,“NVIDIA要做的是做好絕大部分底層的工作,讓整個業(yè)界在此基礎(chǔ)上做更多的創(chuàng)新?!?/strong>

李建國看到了開源對于AI無處不在的重要價值,“就像數(shù)學(xué)分析里有個萬能公式,它不是所有場景都能用,但開源可以讓更多的場景使用,相當(dāng)于普惠大眾?!?/strong>

李曦鵬表示,TensorRT-LLM開源兩周,就有超過200個issue,大家熱情非常高漲。

NVIDIA也在通過2023 TensorRT Hackathon生成式AI模型優(yōu)化賽這樣的賽事完善TensorRT-LLM,加速生成式AI的落地和普及。

比爾·蓋茨曾說,“我們總是高估未來兩年的變化,低估未來10 年的變革。”

以CodeFuse為例,NVIDIA和螞蟻集團(tuán)的合作和成果,將會對未來10年的變革產(chǎn)生深遠(yuǎn)影響。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄