0
作者丨孫溥茜
編輯丨陳彩嫻
近日,在北京市石景山區(qū)人民政府、北京市經(jīng)濟(jì)和信息化局、北京市科學(xué)技術(shù)委員會中關(guān)村科技園區(qū)管理委員會聯(lián)合主辦的服貿(mào)會分論壇——“通用人工智能算力論壇”(A?GICF)上,面壁智能發(fā)布了千億多模態(tài)大模型露卡 Luca,并正式開啟了 Luca?2.0 的全民公測。
Luca 寓意地球生命始祖,The?Last?Universal?Common?Ancestor。
最在今年5月27日的2023數(shù)博會上,Luca1.0首次公開亮相。
隨后的三個月里,Luca迭代了85次,大語言模型能力整體提升39%。其中推理能力提升119%,推理、知識、生成等多項能力已媲美 ChatGPT。
這一次的 Luca 2.0 版本除了具有優(yōu)秀的大語言模型能力外,還具備強(qiáng)大的多模態(tài)處理能力。圖片理解能力已達(dá)中文全網(wǎng)最強(qiáng)。
其中多模對話、細(xì)節(jié)描述和復(fù)雜推理三項整體得分為92.5分,而行業(yè)其他模型的平均得分是78.4分,遠(yuǎn)超現(xiàn)有支持中文且具備圖片理解能力的大模型。
會后李大海接受了媒體群訪,針對行業(yè)或通用大模型、近來火熱的一體機(jī)話題、知乎數(shù)據(jù)集對 Luca 訓(xùn)練的幫助、大模型評測榜單等熱點(diǎn)問題表達(dá)了自己的看法。
以下是李大海與 AI 科技評論等媒體的對話精選:
1
堅定走向通用大模型之路
Q:目前資本圈和科技圈對大模型的態(tài)度冰火兩重天,前者冷淡后者火熱,請問您正在關(guān)注哪些問題?
李大海:現(xiàn)在大家普遍思考大模型如何落地的比較多。我的精力目前主要分配在幾個方面:
首先,我們的模型在以專項的形式封閉式開發(fā),封閉式開放效率很高,以至于我們能在三個月的時間里,成功將百億模型做到今天的千億模型,這個過程很辛苦。
另一方面是思考到底有哪些應(yīng)用可以去做,以及看應(yīng)用如何與大模型結(jié)合,這里面就有一個大模型與應(yīng)用二者關(guān)系的問題。
我會認(rèn)為我們一定要做大模型原生的應(yīng)用,將應(yīng)用建立于大模型之上,如果沒有大模型,應(yīng)用就不應(yīng)該存在。
然而,一些應(yīng)用在現(xiàn)有場景中已經(jīng)在使用大模型,盡管在使用過程中可能會帶來一些效率提升,但我認(rèn)為這種不算是典型的大模型應(yīng)用。
另一方面,我們也不認(rèn)為大模型原生應(yīng)用就是100%使用大模型,這樣就像拿著錘子找釘子,我們還是要關(guān)注用戶的真實(shí)需求,看這個需求在引入了大模型這一變量后,能否得到更好的滿足。
Q:您如何看待 B 端的大模型業(yè)務(wù),以及行業(yè)大模型發(fā)展?
李大海:B 端業(yè)務(wù)我們在同步開展,但是現(xiàn)階段我們更側(cè)重 C 端。
過去半年我們看到很多同行被需求追著走,有很多客戶非常希望使用大模型。我們有能力解決客戶的問題,但是在模型的標(biāo)準(zhǔn)化工作還沒有做的特別好的情況下,就需要花費(fèi)大量的人力填補(bǔ)服務(wù)。
我們在思考如何用更高的效率運(yùn)營 ToB 業(yè)務(wù)。
其實(shí)回歸到商業(yè)的本質(zhì),我們必須關(guān)注效率,思考 Profit and Loss 是否是健康。ToB 這件事如果純做成項目制,其實(shí)很難定位,也很難有好看的毛利。
無論怎么做,要想高效交付只有兩個選擇:或者是面向場景做出相對好的模型,然后模型在場景里面對每一家客戶進(jìn)行微調(diào);或者是做出足夠通用的大模型,面對任何場景,只要微調(diào)就可以。
我認(rèn)為未來一定是通用人工智能這個方向。
現(xiàn)階段行業(yè)大模型可以用更小規(guī)模的模型承載垂直領(lǐng)域的應(yīng)用,所以在成本上更有優(yōu)勢。并且通用大模型的能力也沒有那么強(qiáng),但是我相信未來一定會產(chǎn)生既能力強(qiáng),成本也低的通用模型,這個通用模型會把所有的行業(yè)模型的空間抹殺。
行業(yè)大模型是現(xiàn)在階段性的產(chǎn)物,我尊重現(xiàn)在的歷史階段。
Q:面壁大模型從百億躍升到千億,與悟道2.0時期從百億模型進(jìn)化到千億量級有何區(qū)別?
李大海:從技術(shù)上,我們當(dāng)時推出的 CPM2 (Chinese Pretrained Model) 千億模型是一個 MoE 的稀疏模型,和我們現(xiàn)在推的千億模型不太一樣。
我們現(xiàn)在的千億模型是 Decoder-only 網(wǎng)絡(luò)結(jié)構(gòu)的千億模型。
值得一提的是,CPM 大模型是面壁智能從零自主研發(fā)的預(yù)訓(xùn)練大語言模型,其中包括國內(nèi)首個中文大模型 CPM-1。
最新的大模型訓(xùn)練直播項目 CPM-Live的第二期百億模型CPM-Bee是國內(nèi)首個開源免費(fèi)商用基座模型,目前已授權(quán)給數(shù)百家企業(yè)合法商用。
Q:面壁發(fā)布的千億多模態(tài)大模型是否會影響大語言模型的研究進(jìn)展?
李大海:這里要說明,我們公司的重點(diǎn)資源是做大語言模型,這是基礎(chǔ),必須先做好,這也是我們的階段性戰(zhàn)略。
而我們的優(yōu)勢在于,我們是一個產(chǎn)學(xué)研結(jié)合的團(tuán)隊,大語言模型不只在用公司資源在做,而是實(shí)驗室的同學(xué)和公司合作的結(jié)果。
大語言模型作為一個基座,把多模態(tài)的東西對接進(jìn)來,對原有的模型沒有影響,所以把基座模型做的越來越好,我們才能夠更加順滑地增加不同模態(tài)的數(shù)據(jù)和學(xué)習(xí)意見。
Q:知乎提供的數(shù)據(jù)集有哪些優(yōu)勢?
李大海:我們的模型取得非常好的成績,離不開知乎里大量的高質(zhì)量圖文數(shù)據(jù)。
知乎是一個社區(qū),很多用戶在知乎在上傳圖片時會給圖片精心配上文字,這種 UGC的內(nèi)容(用戶生產(chǎn)內(nèi)容)比第三方標(biāo)注平臺提供的數(shù)據(jù)質(zhì)量要高出很多。
2
開源、獨(dú)角獸、一體機(jī)
Q:您如何看待現(xiàn)在的開源大模型在 ToB 領(lǐng)域的影響?
李大海:目前開源這件事,對于開源廠商主要訴求還在于模型影響力的提升。因為模型開源現(xiàn)在還沒有形成像安卓系統(tǒng)一樣的生態(tài),比如客戶拿自己的數(shù)據(jù)去訓(xùn)練,數(shù)據(jù)不會集中到一個中心化的場景,甚至模型好不好用,都沒有反饋的聲音。
模型影響力的提升對于做 ToB 的業(yè)務(wù)是有幫助的,但是它的鏈條比較長,比較間接。
當(dāng)競爭進(jìn)行到一定階段時候,大家的模型都差不多,客戶會更關(guān)心,服務(wù)提供商自己的存續(xù)能力有多強(qiáng),能否保障售后能力。就像電動車制造,一開始所有品牌百花齊放,早期的用戶都是嘗鮮者,但是一旦大眾涌入后,車廠的售后能力、綜合能力就會暴露出來。
Q:您認(rèn)為通用大模型會出在大公司還是創(chuàng)業(yè)公司?
李大海:其實(shí)參考美國,我們也沒有看到說頭部公司就是通用大模型的天下,這事并沒有發(fā)生。
我認(rèn)為這件事還是要看公司的創(chuàng)新。
這本身還是一個綜合的變量。一個公司能否在最新的技術(shù)浪潮中勝出,由很多因素決定,有沒有足夠好的人、資源、組織能力、創(chuàng)新力度、對創(chuàng)新的容忍度、戰(zhàn)略方向等,沒有一定之規(guī)。
Q:您怎么看待現(xiàn)在流行的一些大模型評測標(biāo)準(zhǔn) ?
李大海:我認(rèn)為在大模型領(lǐng)域,榜單就是一個悖論。
一旦出現(xiàn)大家都很認(rèn)可的榜單,就一定會出現(xiàn)刷榜,這個事很難避免,除非榜單是完全隨機(jī)的,由大模型隨機(jī)生成題目,而且權(quán)威性得到大家認(rèn)可。
未來也許可以,現(xiàn)在我覺得還是太早了。
因為大模型背題非常厲害,只要能拿到題目,喂給大模型它很快就能背會。我們現(xiàn)在觀察到,大模型一旦能夠背會,它就一定不會去理解。
Q:LUCA 現(xiàn)在收到的使用申請大概是什么情況?
李大海:我們正式發(fā)布后收到了很多申請,同事們在逐一批準(zhǔn),現(xiàn)在是一個有限的推理量,不太方便透露。但我們會基于服務(wù)量,不斷提高供給效率。
Q:傳聞面壁也即將推出一體機(jī),您對一體機(jī)持什么看法?
李大海:一體機(jī)這件事只能說我們在和合作伙伴有一些密集的推進(jìn),但是進(jìn)展還不方便透露。
我認(rèn)為一體機(jī)是一個順應(yīng)國內(nèi) ToB 市場的,特殊國情的產(chǎn)物。
但是為什么會產(chǎn)生一體機(jī),就像我剛才所說,國內(nèi)一些企業(yè)習(xí)慣于低估軟件價值,高估硬件價值。軟硬一體結(jié)合更能把產(chǎn)品的價格抬起來。
我個人還是更看好云服務(wù),將繁瑣的運(yùn)維工作丟給云廠,模型廠商才可以更專注模型研發(fā)。
歡迎添加作者微信Sunpx33,交個朋友~
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。