0
本文作者: 包永剛 | 2023-11-10 17:41 |
作者|包永剛
編輯|王 川
年初在手機上用AI生成一張圖還需要15秒,半年多后的今天只需要0.6秒,0.6秒大概就是點擊一下鼠標(biāo)點時間,數(shù)碼發(fā)燒友瑞澤被手機AI進化的速度嚇到。
讓瑞澤同樣吃驚的是,10月底發(fā)布的AI PC處理器驍龍X Elite,能夠以30 tokens/s的速度運行70億參數(shù)的生成式AI模型。
這比普通人每分鐘閱讀200-300個單詞,也就是每秒處理5-7個tokens的速度,快了好幾倍,就算問AI PC數(shù)字助理一個復(fù)雜答案,馬上就能得到答案。
觸手可及的智能手機和AI PC,已經(jīng)成為了進入AI世界的任意門。
走進終端AI的任意門里,用一張自拍照,無需等待就能生成超乎想象的照片;讓手機“看”幾秒食物,就能知道是否還能食用;對著貼身數(shù)字管家說出旅行的要求,瞬間就能獲得專門定制的旅行計劃。
“生成式AI在終端上的應(yīng)用呈幾何式增長,一年前我們只能看到一兩個用例,現(xiàn)在有數(shù)百個,預(yù)計到2024年我們將會看到上千個用例,驍龍將會發(fā)揮非常核心的作用。”高通公司總裁兼CEO安蒙說,“我們見證了下一個轉(zhuǎn)型的開始,AI將無處不在?!?/strong>
每一次重大技術(shù)革命的背后,都需要底層強大的計算和連接力作支撐,高通會成為這場AI變革的主角,讓端側(cè)AI像電力一樣全面融入普通人的生活。
能跑百億參數(shù)大模型,手機變身進入AI世界的「任意門」
瑞澤最常用的手機AI功能是拍照,他沒料到,最新旗艦級第三代驍龍8具備運行100億參數(shù)的生成式AI模型的能力后,不僅能將前后攝像頭的畫面實時合成在一起,將視頻中多余的人或物體去除,大幅增強夜景視頻效果,還帶來了超越想象的全新功能。
“照片擴展”就是一個讓人眼前一亮的新功能,用戶使用任意照片進行縮放,生成式AI都能讓照片看起來具有廣角的效果。比如用一朵花的照片,縮放后馬上就能會變成一片花海的照片。
端側(cè)生成式AI還有更多用法,如果用在工作中,一個電話會議結(jié)束之后,馬上就能獲得通話中聊到的重要事項并添加待辦事項;如果想去一個目的地,手機可以基于你所在的位置給出最符合你出行習(xí)慣的路線規(guī)劃;如果你想開始徒步,簡單輸入個人信息,再掃描一下皮膚狀態(tài),就會有私教般的運動訓(xùn)練建議。
這些任務(wù)都是在手機端完成,完全不用擔(dān)心隱私問題,也不用付月費,高通和合作伙伴就像是打開了生成式AI世界的任意門。
如此讓人眼前一亮的端側(cè)AI應(yīng)用的實現(xiàn)并非一蹴而就,在AI領(lǐng)域投入超過10年的高通,2015年首次將AI技術(shù)集成到商用的產(chǎn)品用,用于增強音頻技術(shù),此后逐步將AI應(yīng)用到了影像和視頻技術(shù)中。
三年前高通啟動第三代驍龍8開發(fā)時,終端智能就被放在了首位,這也是為什么第三代驍龍8一發(fā)布,手機端AI大模型文字生成圖片的速度就能從15秒速降到0.6秒。
“0.6秒的運行時間帶來一個優(yōu)勢,可以將這一模型嵌入相機應(yīng)用?!?/strong>高通技術(shù)公司產(chǎn)品管理高級副總裁Ziad Asghar對雷峰網(wǎng)表示,“消費者通常希望拍攝之間最多間隔1-2秒,如果運行一次模型需要15秒,將無法使用?!?/p> 第三代驍龍8如何實現(xiàn)數(shù)量級的AI性能提升? 強大的硬件是基礎(chǔ),第三代驍龍8的CPU性能相比前代提升高達30%,GPU性能提升25%,Hexagon NPU性能直接翻倍,第三代驍龍8的AI性能站在了行業(yè)之巔。 “通過改進架構(gòu),提高向量加速器主頻、升級獨特的微切片推理技術(shù)等方式,來加速Transformer網(wǎng)絡(luò)推理?!备咄夹g(shù)公司產(chǎn)品管理總監(jiān)Lekha Motiwala介紹,第三代驍龍8支持業(yè)內(nèi)最新的LPDDR5-x內(nèi)存,頻率達到4.8GHz,通過更快的數(shù)據(jù)速度和更大帶寬支持用戶運行更大、更復(fù)雜的AI模型。 要讓第三代驍龍8能夠以每秒生成20個token的速度運行大語言模型(如Llama2),還需要升級高通AI軟件棧工具。 “我們先將龐大的AI模型量化到INT4,實現(xiàn)了性能、精度和能效間的絕佳平衡。再充分發(fā)揮業(yè)界最快DDR內(nèi)存的優(yōu)勢,憑借77GB/s吞吐量來支持LLM,以驚人的速度運行量化模型?!盳iad Asghar說,“Hexagon NPU能夠以閃電般的速度支持LVM。我們采用了一個100億參數(shù)模型,并使用了蒸餾等先進技術(shù)和高效的UNET模型,大大加快了擴散過程,達到了0.6秒這個如此驚人的速度?!?/p> Ziad Asghar透露,SnapFusion支持Snap以同樣快的速度生成圖像,而不會犧牲圖像質(zhì)量。SnapFusion將在2024年支持Snapchat Dreams功能,支持用戶生成超乎想象的自拍圖片。 要激發(fā)基于第三代驍龍8平臺的端側(cè)AI創(chuàng)新,少不了高通AI軟件棧的優(yōu)化。 高通AI軟件棧的核心是高通神經(jīng)網(wǎng)絡(luò)處理SDK和高通AI引擎Direct,連接芯片與所有主流AI框架,高通利用托管模型,開發(fā)者可以直接使用TensorFlow、ONNX、PyTorch,輕松訪問Hexagon NPU,這將大幅降低基于第三代驍龍8移動平臺進行AI創(chuàng)新的門檻。 除了AI圖像生成,聊天機器人也是生成式AI世界的另一類重要應(yīng)用。 為了讓能夠?qū)崿F(xiàn)聊天機器人功能的大模型在終端上流暢運行,高通使用了推測性解碼的技術(shù)?!拔曳浅Ed奮地宣布,這是預(yù)測解碼首次在邊緣終端中使用?!盳iad Asghar說。 如果要為聊天機器人加上一個虛擬形象,可以利用高通AI引擎中Adreno GPU強大的渲染能力,渲染出嘴形和聲音同步的AI虛擬形象。 出色的AI體驗還不能僅靠單一的輸入或輸出形式,視覺、文本、語音的結(jié)合更為直觀,這就是多模態(tài)AI。 第三代驍龍8支持多模態(tài)AI,還能充分利用用戶手機上的全部數(shù)據(jù),利用LoRA等端側(cè)學(xué)習(xí)技術(shù),可以在保障用戶數(shù)據(jù)隱私的同時,讓終端側(cè)的AI模型變好的同時更加個性化。 比如,詢問AI助理回家的最佳路線或推薦的餐廳時,云端AI方案給出的回復(fù)是通用答案。而基于第三代驍龍8的AI終端,發(fā)揮高通傳感器中樞與終端側(cè)大語言模型持續(xù)協(xié)作,能夠基于用戶的年齡、最喜歡的活動、當(dāng)前位置等個人信息生成定制化回復(fù)。 以搭載第三代驍龍8手機為代表的終端側(cè)AI,性能足,節(jié)省成本和時間,并且更加隱私和安全、還能提升個性化,是觸手可及的AI世界任意門。 同樣觸手可及的PC也會是進入AI世界的任意門嗎? AI性能6年提升100倍,AI PC提高效率又激發(fā)創(chuàng)意 AI PC才是進入AI世界的另一個任意門。 “回顧行業(yè)歷史,僅有兩項其他技術(shù)像如今的AI一樣具有顛覆性。二十世紀(jì)六七十年代,命令行的盛行使得個人電腦的廣泛使用成為可能。二十世紀(jì)九十年代,圖形用戶界面讓普通用戶能夠輕松、容易地使用PC?!被萜展靖呒壙偙O(jiān)Bobby Moore 在2023驍龍峰會上說,“AI正推動PC計算變革,使其變得更加個性化、更加自然、更加直觀。” 高通技術(shù)公司高級副總裁兼手機、計算和XR業(yè)務(wù)總經(jīng)理阿力克斯·卡圖贊(Alex Katouzian)也表示,“目前,我們在衡量PC性能方面處于轉(zhuǎn)折點,雖然CPU和GPU依舊至關(guān)重要,但同時我們引入了第三個衡量維度:終端側(cè)AI。” 過去很長一段時間,普通消費者選擇筆記本電腦的時候很難兼顧輕薄外形和高性能,驍龍X Elite的發(fā)布,讓筆記本電腦實現(xiàn)了輕薄外形下的超高性能和超高能效,特別是強大的AI功能。 驍龍X Elite搭載的高通自研Oryon CPU,相比蘋果M2 Max,實現(xiàn)相同單線程性能,Oryon CPU能耗減少30%。對比專門為高性能游戲終端設(shè)計的i9-13980HX CPU,Oyron實現(xiàn)相同性能功耗降低70%,成為了PC移動處理器領(lǐng)域性能和能效的新標(biāo)桿。 GPU性能也艷壓群雄,與性能領(lǐng)先的x86集成GPU相比,驍龍X Elite的性能領(lǐng)先高達80%,達到競品的最高性能功耗可以降低80%。 作為專為AI PC而生的處理器,驍龍X Elite的AI性能更加驚艷,Hexagon NPU算力可以達到45 TOPS,是競品近期發(fā)布NPU的4倍。包含CPU、GPU和NPU在內(nèi)的整個高通AI引擎,可以讓驍龍X Elite的AI性能達到75TOPS。 驍龍X Elite高達75TOPS的AI性能,是高通驍計算平臺6年AI性能提升100倍里程碑。這樣強勁的AI性能可以在沒有云端資源的情況下運行超過130億參數(shù)的AI生成式模型。 與第三代驍龍8一樣,驍龍X Elite的Hexagon NPU同樣做了大量升級,包括增加全新的供電系統(tǒng)兼顧極致性能和功耗,引入微切片推理,對張量加速器進行升級,增加共享內(nèi)存規(guī)模。 這讓驍龍X Elite這個性能猛獸應(yīng)對AI任務(wù)游刃有余。 DaVinci Resolve的付費版包含一系列在好萊塢創(chuàng)意界被廣泛使用的AI強大功能,比如MagicMask支持近乎即時的物體追蹤/輪鏡、AI賦能的自動字幕生成和剪輯,以及音軌分離和對話平衡器來實現(xiàn)卓越音質(zhì)。 對于支持AI的計算密集型Magic Mask,驍龍X Elite比采用集成GPU的高端十二核x86處理器快1.7倍。Magic Mask在驍龍X Elite的集成NPU上運行,比在同為Arm架構(gòu)的12核處理器上運行快3倍,這是讓所有創(chuàng)作者興奮的效率提升。 將于2024年發(fā)布的搭載驍龍X Elite的筆記本電腦,可以運行原生ARM64的DaVinci Resolve。 AI原生公司Uniphore用上為AI而生的驍龍X Elite,AI PC作為生產(chǎn)力工具的效率會進一步提升,Uniphore將生成式AI模型用于語音到文本轉(zhuǎn)錄、情緒分析和通話摘要,幫助企業(yè)交付更高質(zhì)量的服務(wù)的同時,降低使用云端AI的成本。 “商業(yè)筆記本電腦大約占一半的PC銷量?!备咄夹g(shù)公司產(chǎn)品管理高級總監(jiān)Nitin Kumar表示,“94%的商界領(lǐng)袖表示,AI已在工作中提高生產(chǎn)力。在IT決策者中,AI是影響購買決策的最大因素。新的研究表明,近一半的IT決策者準(zhǔn)備基于AI性能更換PC品牌。驍龍X Elite恰逢其時。” 大幅提升效率的同時,驍龍X Elite還能激發(fā)出更多AI用例,驍龍X Elite集成的高通傳感器中樞進行了升級,性能提高2倍的同時還保持超低功耗,加上率先引入的始終感知ISP,端側(cè)AI節(jié)省成本和時間,更加隱私和安全、提升個性化的優(yōu)勢,也能在AI PC上展現(xiàn)的淋漓盡致,讓PC游戲更有沉浸感,生產(chǎn)效率更高。 端側(cè)生成式AI的大門全面開啟 與AI PC和手機開啟AI無處不在時代的,還有各種形態(tài)的終端AI設(shè)備。 2023驍龍峰會上最新推出的高通S7音頻平臺的AI性能是前代平臺的100倍,強大的AI能力可以提高使用者沉浸式音頻應(yīng)用的精準(zhǔn)性。 “我們不僅設(shè)計了完全在終端上運行的AI技術(shù),這些功能還將擴展至我們的全部產(chǎn)品線。”Ziad Asghar說,“我們將從產(chǎn)品形態(tài)最小的功能開始,比如智能手表中的活動建議和AR眼鏡中的3D LVM,到電動車中的終端側(cè)助手。” 為了和生態(tài)合作伙伴一起加速AI時代的到來,高通還推出了高通AI軟件棧模型,這是一套能夠滿足開發(fā)人員需求的模型,模型經(jīng)過高通公司的全面優(yōu)化、測試和驗證,可支持第三代驍龍8和驍龍 X Elite平臺,發(fā)布之時有30多個模型,更多模型會持續(xù)推出。 谷歌也是推開端側(cè)生成式AI大門的重要力量。過去幾個月,谷歌的研發(fā)團隊致力于對其規(guī)模龐大的下一代大語言模型進行精煉,以適應(yīng)移動終端。 為了讓無處不在的AI時代有無縫的體驗,高通還準(zhǔn)備好了包含硬件和軟件框架的解決方案Snapdragon Seamless,讓用戶能夠創(chuàng)建連接智能手機、筆記本電腦、平板電腦、耳塞、智能手表和XR設(shè)備的自組織智能網(wǎng)絡(luò),終端之間能夠共享信息、情境和其他功能,即便在休眠模式下也能如此。 AI時代的革新已經(jīng)開始,高通也正在從一家通訊企業(yè)轉(zhuǎn)變?yōu)橐患揖W(wǎng)聯(lián)計算處理公司,順應(yīng)時代的變化才能總是立于時代的潮頭。雷峰網(wǎng)(公眾號:雷峰網(wǎng)) 雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。