0
本文作者: 郭思 | 2023-09-25 11:00 |
2022年底以來(lái),以ChatGPT為代表的大模型集中爆發(fā),實(shí)現(xiàn)了從無(wú)到有,從0到1的跨越。
而經(jīng)過(guò)近一年的發(fā)展,算力資源吃緊,成本居高不下,數(shù)據(jù)隱私泄露等問(wèn)題導(dǎo)致行業(yè)開(kāi)始迷茫,大模型接下來(lái)從1到10甚至到100的規(guī)模化部署似乎還很遙遠(yuǎn)。
各家普遍認(rèn)識(shí)到,AI要想走進(jìn)千家萬(wàn)戶(hù),就不能僅僅是一個(gè)停留在網(wǎng)頁(yè)里面的助手,而應(yīng)擁有改變現(xiàn)實(shí)世界的四肢。
這個(gè)四肢,便是眾多廠(chǎng)商都在紛紛發(fā)力的端側(cè)AI。(關(guān)于端側(cè)AI的進(jìn)展與觀察,歡迎添加本文作者郭思微信:lionceau2046, 互通有無(wú)。)
5月份,Google推出了可以在旗艦手機(jī)上離線(xiàn)運(yùn)行的PaLM2 輕量版Gecko,高通則在6月發(fā)布了《混合AI是AI的未來(lái)》白皮書(shū);備受矚目的meta Llama 2可通過(guò)陳天奇MLC-LLM在本地進(jìn)行部署。
針對(duì)這一現(xiàn)象,2023年9月,AI科技評(píng)論與香港理工大學(xué)講座教授、IEEE Fellow 張磊展開(kāi)了一場(chǎng)對(duì)話(huà)。
在張磊看來(lái), ChatGPT出現(xiàn)之后大語(yǔ)言模型還會(huì)繼續(xù)快速發(fā)展,通用大模型的發(fā)展更多取決于多模態(tài)的對(duì)齊研究;但大模型在端側(cè)芯片上的運(yùn)行有極大挑戰(zhàn),終端側(cè)的創(chuàng)新可能會(huì)成為未來(lái)生成式AI能否成功普及的關(guān)鍵。
2006年,張磊入職香港理工大學(xué)擔(dān)任助理教授,17年成為該校的講座教授直至如今。學(xué)術(shù)研究上,張磊長(zhǎng)期致力于計(jì)算機(jī)視覺(jué)、圖像處理、模式識(shí)別等方向的研究,是底層視覺(jué)方面的國(guó)際權(quán)威學(xué)者。他同時(shí)擔(dān)任著IEEE Trans. on Image Processing (TIP)的高級(jí)編委,IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI)、SIAM Journal of Imaging Sciences等多個(gè)國(guó)際期刊的編委。從2015年至2023年,張磊連續(xù)被評(píng)為 Clarivate Analytics Highly Cited Researcher (全球高引用學(xué)者,論文在學(xué)科領(lǐng)域引用量排名前1%)。
2018年,張磊投身產(chǎn)業(yè)界,加入達(dá)摩院(P11),2021年底他離開(kāi)達(dá)摩院。其后加入OPPO研究院,致力于以AI算法加持影像,打造更極致的手機(jī)拍照體驗(yàn)。
他經(jīng)歷了15、16年人工智能發(fā)展浪潮,是眾多投身于工業(yè)界的人工智能學(xué)者之一,也是同時(shí)感受到2022年底大模型火爆與消費(fèi)電子寒冬兩波浪潮的科學(xué)家,對(duì)于大模型的落地有著自己的思考。
以下是張磊和 AI 科技評(píng)論的對(duì)話(huà)實(shí)錄,含其主要觀點(diǎn),經(jīng) AI 科技評(píng)論節(jié)選整理如下:
AI 科技評(píng)論:您的研究主要是底層視覺(jué)相關(guān)嗎?
張磊:計(jì)算機(jī)視覺(jué)可以簡(jiǎn)單劃分為上層視覺(jué)、中層視覺(jué)和底層視覺(jué)。
上層視覺(jué)是關(guān)于「看明白」的事情,包括物體檢測(cè)、圖像識(shí)別、圖像理解等等;中層視覺(jué)是將輸入圖像轉(zhuǎn)換成中等抽象的表示,用以判斷每個(gè)像素或區(qū)域的屬性,包括圖像分割、深度圖估計(jì)等;而底層視覺(jué)則更多是關(guān)于「看清楚」的事情,包括圖像超分、去噪、去模糊、去霧、去雨、暗光增強(qiáng)等。
用個(gè)淺顯的例子便是,如果有一張狗的圖片,將一張模糊的狗的圖片細(xì)節(jié)變得更加清晰的過(guò)程是底層視覺(jué),而識(shí)別圖片里面有一只狗這件事情是上層視覺(jué),將狗和背景區(qū)域分割開(kāi)來(lái)則是中層視覺(jué)。
我本人在底層視覺(jué)的研究時(shí)間最長(zhǎng),但其實(shí)目前我團(tuán)隊(duì)的研究不限于底層視覺(jué),涵蓋了中層以及上層視覺(jué)的內(nèi)容,也包含一些神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的基礎(chǔ)研究。
AI 科技評(píng)論:深度學(xué)習(xí)的浪潮對(duì)您產(chǎn)生了哪些具體的影響?
張磊:前期我的研究方向較多關(guān)注在底層視覺(jué),相對(duì)而言,深度學(xué)習(xí)沖擊底層視覺(jué)的時(shí)間比上層視覺(jué)本來(lái)就慢了幾年。2014年,深度學(xué)習(xí)圖像超分辨率開(kāi)山之作SRCNN剛剛被提出,但并沒(méi)有體現(xiàn)出比傳統(tǒng)算法太多的優(yōu)勢(shì)。
另一方面,由于我所帶領(lǐng)的團(tuán)隊(duì)在以稀疏表示、低帙表達(dá)等技術(shù)做圖像復(fù)原方面達(dá)到一個(gè)較高的水準(zhǔn),我當(dāng)時(shí)并不認(rèn)為深度學(xué)習(xí)會(huì)超越這些方法。2014年,我的博士生顧舒航在國(guó)際計(jì)算機(jī)視覺(jué)和模式識(shí)別大會(huì)(CVPR 2014)上發(fā)表的加權(quán)核范數(shù)最小化(WNNM)的方法,將傳統(tǒng)去噪算法的效果推進(jìn)到了一個(gè)新高度,成為傳統(tǒng)非深度學(xué)習(xí)算法的一個(gè)標(biāo)桿,這讓我對(duì)更加堅(jiān)定了自己的看法,覺(jué)得至少在底層視覺(jué)領(lǐng)域,或許我們可以和深度學(xué)習(xí)抗衡。但后面,我的態(tài)度發(fā)生了轉(zhuǎn)變。
AI 科技評(píng)論:什么事情使您改變了對(duì)深度學(xué)習(xí)的看法?
張磊:對(duì)于深度學(xué)習(xí), 我經(jīng)歷了從被動(dòng)接受到主動(dòng)擁抱的過(guò)程。我此前用的方法比如稀疏表示和低帙表達(dá)等,都具備一些理論上完備的框架,也比較符合我的思維習(xí)慣,很長(zhǎng)一段時(shí)間里我認(rèn)為深度學(xué)習(xí)在做分類(lèi)、檢測(cè)等方面,確實(shí)很有效,但不一定能沖擊底層視覺(jué),但事實(shí)證明我錯(cuò)了。
16年,我的博士生張凱,十分興奮地跑過(guò)來(lái)和我說(shuō):張老師,我用殘差網(wǎng)絡(luò)做了圖像去噪,比WNNM還要好很多。我有點(diǎn)吃驚,說(shuō)實(shí)話(huà),當(dāng)時(shí)有些難以接受。
后來(lái)我進(jìn)行了反思,在深度學(xué)習(xí)的時(shí)代,確實(shí)研究的方法和形式和以往發(fā)生了深刻的變化,不管你是否情愿。就深度學(xué)習(xí)的研究而言,年輕人更有優(yōu)勢(shì),他們沒(méi)有過(guò)多條條框框,敢想、敢做,很多我認(rèn)為不可思議的事情都發(fā)生了。我們這一代,雖然還沒(méi)有成為過(guò)去式,但應(yīng)該多向年輕人學(xué)習(xí),很多時(shí)候,學(xué)生是我們的老師,他們更有創(chuàng)意。
AI 科技評(píng)論:當(dāng)時(shí)候發(fā)布的Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising是不是與此相關(guān)?
張磊:張凱的那個(gè)工作就是后來(lái)發(fā)表的“Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising”(DnCNN),目前被引用6700多次,在底層視覺(jué)領(lǐng)域算是很高的。這個(gè)工作證明了residual learning(殘差學(xué)習(xí))和batch normalization(批量歸一化)在圖像復(fù)原中相輔相成的作用,可以在較深的網(wǎng)絡(luò)的條件下,帶來(lái)快的收斂和好的性能。
雖然DnCNN主要是探討高斯去噪問(wèn)題,用單模型應(yīng)對(duì)不同強(qiáng)度的高斯噪聲;但其也可以用單模型應(yīng)對(duì)超分辨率、JPEG去塊效應(yīng)等其它底層視覺(jué)問(wèn)題,是一個(gè)較為通用的框架。
這算是我團(tuán)隊(duì)第一篇真正意義上關(guān)于深度學(xué)習(xí)的文章。
AI 科技評(píng)論:在現(xiàn)在手機(jī)的高端化之爭(zhēng)中,折疊屏與影像功能已經(jīng)成為兩大破局點(diǎn),您覺(jué)得AI加持影像功能,是否會(huì)成為智能手機(jī)下一個(gè)技術(shù)爆發(fā)點(diǎn)?
張磊:AI 拍照功能,其實(shí)在五六年之前就已經(jīng)在部分手機(jī)使用了,現(xiàn)在已經(jīng)十分普及。但用 AI 來(lái)輔助手機(jī)拍照,依然存在很多解決不了的場(chǎng)景,尤其是在一些極端情況下。
在端側(cè)用生成式模型來(lái)解決拍照的問(wèn)題,其實(shí)是我個(gè)人的一個(gè)目標(biāo),現(xiàn)在還處于一個(gè)初級(jí)階段。什么時(shí)候能夠做成功不敢說(shuō),但在拍照這個(gè)具體的方向里面,這肯定是 AI 加持手機(jī)的一個(gè)重要爆點(diǎn)。
AI 科技評(píng)論: 生成式模型拍照和普通的拍照帶給用戶(hù)最直觀的區(qū)別是什么?
張磊:生成式模型拍照和普通拍照一個(gè)比較大的區(qū)別,在于我們現(xiàn)在的普通拍照方式,有很多場(chǎng)景還是會(huì)拍糊,比如光線(xiàn)很暗的時(shí)候,背光的時(shí)候,有物體運(yùn)動(dòng)的時(shí)候,或者距離較遠(yuǎn),我們還是會(huì)出現(xiàn)畫(huà)質(zhì)不清的情況,為了得到一張效果理想的照片,我們可能會(huì)需要進(jìn)行大量的后期處理。
但是這樣的處理方式有一個(gè)上限,有些問(wèn)題可能還是無(wú)法完全解決。但是生成式模型通過(guò)大數(shù)據(jù)學(xué)習(xí)獲取到了強(qiáng)大的高質(zhì)量自然圖像的先驗(yàn),可以去拿來(lái)去補(bǔ)足這些缺陷。所以我個(gè)人感覺(jué)用生成式模型輔助拍照,可能會(huì)對(duì)拍照的畫(huà)質(zhì)以及適用泛化性,都有很大的提升。
泛化性可以理解為,無(wú)論在什么條件下,我們都能拍出一張很好的照片。簡(jiǎn)而言之,我覺(jué)得生成式AI是有這個(gè)潛力的,但能不能做得出來(lái)的話(huà),那就考驗(yàn)包括我在內(nèi)的很多同行的努力了。
AI 科技評(píng)論:您以香港理工大學(xué)講座教授的身份跨入業(yè)界,以學(xué)術(shù)研究和工業(yè)界兩種視角來(lái)看待AI的發(fā)展,有哪些異同?
張磊:16 年之后有好多高校的教授到工業(yè)界發(fā)展,后來(lái)也回來(lái)了很多,這種現(xiàn)象其實(shí)能夠反映很多的問(wèn)題。
以前在學(xué)術(shù)界做論文、做研究其實(shí)挺舒服的,去工業(yè)界未必會(huì)能夠帶來(lái)多大的收益。16 年深度學(xué)習(xí)火了以后,在計(jì)算機(jī)視覺(jué),包括最近在自然語(yǔ)言處理方面,都帶來(lái)了非常顯著的效果,比其他的方法要明顯很多,不是一個(gè)量級(jí),所以這波浪潮就給了高校的很多教授一個(gè)信心進(jìn)入工業(yè)界。我 18 年去阿里達(dá)摩院,也是受到這波浪潮的影響。
但是投入工業(yè)界不代表一定能取得成功,高校有明確的定位,屬于偏純研究性質(zhì)的機(jī)構(gòu),是以產(chǎn)生新知識(shí)為導(dǎo)向,但工業(yè)界是需要解決實(shí)際問(wèn)題,產(chǎn)生生產(chǎn)力并帶來(lái)實(shí)際價(jià)值的。如果踏入工業(yè)界是想在工業(yè)界的研究院里邊繼續(xù)做高校發(fā)論文的事情,這個(gè)心態(tài)就很容易出問(wèn)題。
有意思的是在 AI 發(fā)展到大模型的時(shí)代,往往主導(dǎo)的都不是高校,而是一些工業(yè)界頭部廠(chǎng)商的研究機(jī)構(gòu)。工業(yè)界它又有資源又有人才,并且這些人才不比學(xué)術(shù)界里面的差,這對(duì)于高校老師來(lái)說(shuō)其實(shí)也是一件很有危機(jī)感的事情。
我對(duì)學(xué)術(shù)研究有極大的興趣,絕對(duì)不會(huì)放棄這件事情,而同時(shí)跨界在工業(yè)界,我有一個(gè)強(qiáng)烈的愿望,自己做了這么多年的底層視覺(jué),要能夠?qū)⒖蒲谐晒趯?shí)際場(chǎng)景里去使用。這對(duì)我是一個(gè)很大的挑戰(zhàn),也是我的使命,這可能也是我們這批人共同的想法,只是每個(gè)人的實(shí)施路徑不一樣。
AI 科技評(píng)論: 產(chǎn)業(yè)現(xiàn)在出現(xiàn)了百模大戰(zhàn),您如何評(píng)價(jià)這個(gè)現(xiàn)象?
張磊:大模型火爆至今,行業(yè)內(nèi)出現(xiàn)了百模大戰(zhàn), 投融資消息也層出不窮。表面上好像是很多投資的錢(qián)被燒掉了,但我覺(jué)得這些投資人和投資機(jī)構(gòu)其實(shí)很偉大,雖然自己暫時(shí)耗掉了一些財(cái)富,但為整個(gè)人類(lèi)科技的發(fā)展做出了很大貢獻(xiàn),讓大家看到了AI技術(shù)發(fā)展帶來(lái)的巨大威力。即使Open AI不掙錢(qián)哪怕最后倒閉了,它對(duì)整個(gè)科技史做出的巨大貢獻(xiàn)也會(huì)永載史冊(cè)。
AI 科技評(píng)論:通用視覺(jué)大模型是共識(shí),您怎樣看待這個(gè)趨勢(shì)?
張磊:簡(jiǎn)單來(lái)講就把語(yǔ)言跟視覺(jué)信息,甚至其它模態(tài)的信息,都對(duì)齊融合了。我覺(jué)得這個(gè)路肯定還是要走一段時(shí)間,不會(huì)那么快就徹底解決。
視覺(jué)大模型相對(duì)于大語(yǔ)言模型,稍微復(fù)雜一些。但是目前分割大模型,比如SAM,也已經(jīng)是做得很不錯(cuò)了,至少給大家看到在特定的視覺(jué)任務(wù)里,能夠把很多不同的子任務(wù)統(tǒng)一到一個(gè)模型里,做到通用。在圖像生成方面,Midjourney和Stable Diffusion都給了人很驚艷的效果,大大促進(jìn)了整個(gè)行業(yè)的發(fā)展。但是他們的可控性、穩(wěn)定性各個(gè)方面其實(shí)還是改進(jìn)的空間,需要不斷的去往前迭代,當(dāng)然這其實(shí)也涉及一個(gè)多模態(tài)發(fā)展配齊的問(wèn)題。(本文作者:郭思,微信lionceau2046,長(zhǎng)期關(guān)注大模型行業(yè)動(dòng)態(tài),歡迎交個(gè)朋友、互通有無(wú)。)
AI 科技評(píng)論:怎么理解多模態(tài)發(fā)展對(duì)齊?
張磊:其實(shí)一個(gè)人從小到大的成長(zhǎng)過(guò)程里面,一直都是多模態(tài)地感知這個(gè)世界的,但凡你缺少任何一個(gè)感知器官,比如說(shuō)如果你看不見(jiàn),那你肯定無(wú)法很好地理解這個(gè)世界,聽(tīng)不見(jiàn)也是一樣的。
少一個(gè)維度,對(duì)于很多事情我們都無(wú)法做到完整的理解。現(xiàn)在大模型的發(fā)展,語(yǔ)言跟視覺(jué)是兩個(gè)最關(guān)鍵、最核心的模態(tài)。但是也不排除有其它一些模態(tài)的結(jié)合,包括觸覺(jué)和嗅覺(jué)信息等維度。即使是語(yǔ)言和視覺(jué)本身,都可以細(xì)分出很多子模態(tài)需要對(duì)齊,提升感知和理解能力。
只有等這些維度都能夠互相之間去對(duì)齊融合,才能有更大的可能性。
就比如人腦,肯定也是在做類(lèi)似的事情,你接受信息的模態(tài)越多,并都能對(duì)齊拉通的時(shí)候,你對(duì)于整個(gè)世界的理解才能更全面,這是一個(gè)很自然的事情。
但至于這個(gè)人的大腦機(jī)制到底是怎么運(yùn)轉(zhuǎn)的,就需要很多的生物學(xué)家以及心理學(xué)家去進(jìn)行研究,這些跨學(xué)科的研究對(duì)于AI的發(fā)展肯定是大有益處的,但進(jìn)展可能就沒(méi)有那么快了。
AI科技評(píng)論:2022年是消費(fèi)電子的寒冬期,如今似乎也沒(méi)有好轉(zhuǎn),大模型時(shí)代,您認(rèn)為手機(jī)廠(chǎng)商會(huì)往哪個(gè)方向發(fā)展?
張磊:因?yàn)槿蚪?jīng)濟(jì)形勢(shì)的關(guān)系,手機(jī)銷(xiāo)量下滑,并且低谷可能還需要幾年時(shí)間才能過(guò)去,但這并不是代表著說(shuō)大家不用手機(jī)了,只是換機(jī)的時(shí)候要多考慮考慮腰包的問(wèn)題。AI在手機(jī)拍照里應(yīng)用已經(jīng)五六年了,目前大模型來(lái)了以后,在手機(jī)里進(jìn)行落地應(yīng)用,也是一個(gè)必然的趨勢(shì)。
AI科技評(píng)論:能否聊聊您所看到的端側(cè)AI的進(jìn)展?
張磊:學(xué)術(shù)界的研究顯示Stable Diffusion這種文生圖的大模型在高通的平臺(tái)上,5-8 秒左右可以生成一個(gè) 512 * 512的圖片。但其實(shí)已經(jīng)有論文驗(yàn)證在蘋(píng)果的芯片上 2 秒就完成了,因?yàn)樘O(píng)果是自研芯片,內(nèi)存比較大。最近又有論文,把生成式模型的多階段采樣蒸餾為一步完成,勢(shì)必又可以加大不少生成模型端側(cè)落地的可行性。我長(zhǎng)期接觸手機(jī)拍照的研發(fā),發(fā)現(xiàn)一個(gè)學(xué)術(shù)界經(jīng)常忽略的問(wèn)題,再?gòu)?qiáng)大的算法如果遇到功耗的瓶頸,也會(huì)巧婦難為無(wú)米之炊,大模型在端側(cè)落地最大的挑戰(zhàn)還是在于功耗的把控。
AI科技評(píng)論:除此之外, 端側(cè)AI落地還有哪樣的難點(diǎn)?
張磊:我們拿大語(yǔ)言模型(LLM)做例子,LLM通常包含數(shù)十億或數(shù)百億的參數(shù),其輸入的序列長(zhǎng)度是動(dòng)態(tài)變化的,在端側(cè)我們往往只能用CPU或GPU來(lái)優(yōu)化,但CPU或GPU功耗相對(duì)較高。如果我們想使用功耗低很多的NPU來(lái)優(yōu)化,往往只能固定序列長(zhǎng)度,這就會(huì)導(dǎo)致模型效果的損失。因此,目前只能在功耗和效果之間做痛苦的權(quán)衡。
同時(shí),這些模型在運(yùn)行時(shí)需要大量的內(nèi)存來(lái)存儲(chǔ)模型參數(shù)和臨時(shí)數(shù)據(jù),而手機(jī)芯片通常具有有限的內(nèi)存資源。而一旦涉及芯片硬件平臺(tái)的升級(jí),周期就會(huì)變得漫長(zhǎng),隨隨便便就得一兩年。這也成為了大模型在手機(jī)端運(yùn)行的一個(gè)卡點(diǎn)。
AI科技評(píng)論:您覺(jué)得未來(lái)端側(cè)AI會(huì)呈現(xiàn)哪樣的發(fā)展態(tài)勢(shì)?
張磊:我覺(jué)得可能會(huì)有兩條線(xiàn)。一個(gè)就是純端側(cè),數(shù)據(jù)不出手機(jī)。如果是這個(gè)方向,就需要考慮對(duì)于芯片和算法的訴求是什么,估計(jì)可能幾年之內(nèi)就有產(chǎn)品出來(lái),說(shuō)不定比我想的還要快。第二,現(xiàn)在很多互聯(lián)網(wǎng)廠(chǎng)包括終端廠(chǎng)商,特別強(qiáng)調(diào)端云協(xié)同,發(fā)揮云端的算力,同時(shí)端側(cè)也可以做一些相應(yīng)的事情,將安全性風(fēng)險(xiǎn)降到最低,協(xié)同效應(yīng)達(dá)到大化。
AI科技評(píng)論:您怎樣看待一體機(jī)的發(fā)展?
張磊:我對(duì)于一體機(jī)沒(méi)多大感知,但是對(duì)于家庭用機(jī)器人這種產(chǎn)品形態(tài)很看好。
中國(guó)人特別重視子女教育,同時(shí)老齡化問(wèn)題又那么嚴(yán)重,這是一個(gè)值得去思考的問(wèn)題。家用機(jī)器人一旦有很強(qiáng)的通用AI能力,就可以解決一些小孩的教育以及老人的陪護(hù)問(wèn)題,成本也可以做得很低。
用戶(hù)在家里如果有各種問(wèn)題,可以用語(yǔ)音或其它方式與機(jī)器人交互,每個(gè)家庭都可以擁有一臺(tái)甚至多臺(tái)機(jī)器人,做為在家里可以移動(dòng)的助手。這個(gè)事情一定會(huì)在將來(lái)的某個(gè)時(shí)刻發(fā)生,成本也可以做得很低,用戶(hù)幾千塊錢(qián)就可以擁有,和手機(jī)價(jià)格差不多。當(dāng)然你不要讓這種機(jī)器人去做一些炒菜搬運(yùn)的工作,更多的是充當(dāng)智能助手和陪伴的角色。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)) 雷峰網(wǎng) 雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。