0
本文作者: 曉楠 | 2024-03-28 19:12 |
近期,自月之暗面宣布 Kimi 可支持 200 萬漢字的無損上下文輸入能力后,Kimi 相關(guān)熱點(diǎn)先后兩次登上微博熱搜。
第一次是“Kimi 概念股”。在 200 萬漢字上下文輸入能力正式官宣后,A 股市場(chǎng)與 Kimi 存在關(guān)聯(lián)關(guān)系的多只個(gè)股,包括掌閱科技、華策影視、超訊通信 、中廣天擇、世紀(jì)天鴻、海天瑞聲、九安醫(yī)療等等相繼漲停。
第二次是關(guān)于“Kimi 獲客成本”。報(bào)道稱,根據(jù) Kimi 投放廣告的成本、拉新后用戶問答互動(dòng)產(chǎn)生的算力成本,以及在第三方平臺(tái)的下載量估算,近一個(gè)月來 Kimi 每天的獲客成本至少達(dá)到 20 萬元。
這也使得月之暗面(Moonshot AI)成為自 2023 年 GPT 熱潮席卷以來,第一家憑借自身產(chǎn)品“破圈出道”,走進(jìn)大眾視野,在路人面前怒刷存在感的大模型獨(dú)角獸公司。甚至,由于用戶激增、大流量,Kimi 服務(wù)器一度宕機(jī)。
Kimi 是真火了。
但若細(xì)看月之暗面的崛起,除去資本的轟搶與市場(chǎng)的高度關(guān)注,在一眾中國(guó)超 20 億美元估值的大模型公司中,月之暗面的路徑實(shí)則別具一格。因?yàn)橹卧轮得娓哧P(guān)注度的兩大要素——技術(shù)進(jìn)展與商業(yè)節(jié)奏,其實(shí)在一眾競(jìng)爭(zhēng)對(duì)手中并不明顯:
首先,相比其他的大模型公司,包括智譜 AI、MiniMax、深言科技、面壁智能、百川智能,甚至光年之外(后被美團(tuán)收購)在內(nèi),月之暗面的成立時(shí)間要晚得多,團(tuán)隊(duì)磨合、技術(shù)進(jìn)展也自然相對(duì)滯后。盡管楊植麟的技術(shù)實(shí)力受到廣泛認(rèn)可,但根據(jù) SuperCLUE 的評(píng)測(cè),目前 Moonshot 的綜合能力僅超過 GPT-3.5,仍在追趕 GPT-4。
其次,月之暗面的大模型產(chǎn)品與商業(yè)化節(jié)奏并不算快。以智譜為例,智譜在去年就開始組建商業(yè)化團(tuán)隊(duì),探索基座大模型的商業(yè)服務(wù),而月之暗面主打 To C,目前推出 Kimi 智能助手,但商業(yè)色彩并不濃厚。
但月之暗面卻能在短時(shí)間內(nèi)獲得多輪投資,后來居上,一躍躋身于中國(guó)大模型初創(chuàng)企業(yè)的第一梯隊(duì)。有消息甚至稱,月之暗面的估值已經(jīng)超過智譜 AI。2023 年過去,當(dāng)大多數(shù)大模型公司都在經(jīng)歷“商業(yè)化”的靈魂拷問、被質(zhì)疑“如果再不商業(yè)化、2023 年的融資也許只能燒到 2024 年年底”時(shí),同樣聚焦基座大模型的月之暗面顯得更加突出。
對(duì)于這一差異,雷峰網(wǎng)詢問月之暗面的投資人后,得到截然不同的認(rèn)知。其中一個(gè)最具代表性的觀點(diǎn)是:“現(xiàn)在我們并不要求月之暗面追求商業(yè)化,而是希望他們首先將大模型的技術(shù)做到極致。我們希望投出的大模型不只是中國(guó)最強(qiáng),而是未來 AGI 時(shí)代全球最強(qiáng)(之一)”。
而楊植麟與月之暗面,給了他們這份信心。
被看好、短期內(nèi)資本大量累積
仔細(xì)算下來,如今頻頻活躍在熱度榜首的月之暗面距離成立還不到一年。
月之暗面正式成立是在 2023 年 4 月,同年 10 月推出首款大模型產(chǎn)品 Kimi 智能助手,最高可支持輸入 20 萬漢字,是彼時(shí)全球范圍內(nèi) AI 大模型產(chǎn)品中所能支持的最長(zhǎng)上下文輸入長(zhǎng)度。
據(jù)悉,按照 OpenAI 的計(jì)算標(biāo)準(zhǔn),一般情況下,1 個(gè)漢字約等于 2 個(gè) token,那么月之暗面的 20 萬漢字約為 40 萬 token,而同期 Anthropic 的 Claude 大模型支持的最大長(zhǎng)文本為 10萬 token。
2024 年 2 月,Kimi 對(duì)網(wǎng)站、多問題搜索能力進(jìn)行迭代升級(jí),可用性表現(xiàn)能力持續(xù)提升。
今年 3 月 18 日,月之暗面再度刷新記錄,宣布 Kimi 在大模型長(zhǎng)上下文窗口技術(shù)上取得新突破,可支持 200 萬字超長(zhǎng)無損上下文,并于即日起開啟產(chǎn)品內(nèi)測(cè)。
月之暗面宣布 Kimi 可支持 200 萬字超長(zhǎng)無損上下文
雖然成立不到一年,但據(jù)雷峰網(wǎng)獲悉,到目前為止,月之暗面已經(jīng)進(jìn)行了四輪融資。
月之暗面的首輪融資發(fā)生在2023年4月,彼時(shí)月之暗面剛從循環(huán)智能拆分出來。
循環(huán)智能( Recurrent AI )是一家專注于銷售科技的企服,2016 年楊植麟以聯(lián)合創(chuàng)始人的身份參與創(chuàng)立,主要業(yè)務(wù)是運(yùn)用 NLP、語音、多模態(tài)、大模型等 AI 技術(shù)打造“銷售科技”解決方案。資料顯示,循環(huán)智能曾獲得紅杉中國(guó)、真格基金等投資方的多輪投資。
月之暗面完成第一輪融資后,估值達(dá)到 3 億美元,投資方包括紅杉中國(guó)、真格基金、勵(lì)思資本。
2023 年 6 月,月之暗面進(jìn)行第二輪融資,投前估值 6 億美元,投后估值 7.7 億美元。這一輪的投資方包括螞蟻、阿里、美團(tuán)、FunPlus,以及部分阿里戰(zhàn)投部的成員。據(jù)悉,這一輪,由螞蟻、阿里、美團(tuán)領(lǐng)投。
月之暗面的第三輪融資的投資方包括云久資本、五源資本等,本輪融資后,估值約為10億美元。
據(jù)了解,月之暗面的第三輪融資是與第四輪融資同時(shí)期談的,也就是前不久月之暗面獲得的超10億美元這一輪。
這一輪阿里投資了 8 億美元(更準(zhǔn)確的數(shù)字是 7.9 億美元),其中有超過 40% 的金額是作為阿里與月之暗面的共管賬戶,用來作為月之暗面買云、用云的資金。
另外,礪思資本投資 1000 萬美元,其他老股東湊了 2 億多美元,總體算下來,該輪總金額超 10 億美元。
也就是在這一輪投資后,月之暗面的估值達(dá)到了25億美元。
作為一家 AI 大模型初創(chuàng)公司,月之暗面憑什么能夠吸引這么多投資者的目光?
不少投資人向雷峰網(wǎng)表示,Moonshot 身上具有兩個(gè)特點(diǎn)——長(zhǎng)文本與To C,這是月之暗面出道之初便區(qū)別于其他 AI 大模型創(chuàng)業(yè)公司的獨(dú)特之處。
長(zhǎng)文本(Long Context)是大語言模型(LLM)的基礎(chǔ)能力,但是如果上下文過長(zhǎng),模型會(huì)過多地將注意力放在文本的開頭和結(jié)尾部分,忽略中間部分的信息,從而導(dǎo)致模型難以找到并利用放在長(zhǎng)文中部的相關(guān)信息。
因此,如何在做到文本足夠長(zhǎng)的同時(shí),能夠保證“沒有損失”變得關(guān)鍵。
“Lossless long context is everything?!?/p>
楊植麟曾不止一次地公開表示過,“通往通用人工智能(AGI)的話,無損的長(zhǎng)上下文將會(huì)是一個(gè)很關(guān)鍵的基礎(chǔ)技術(shù)。歷史上所有的模型架構(gòu)演進(jìn),本質(zhì)上都是在提升有效的、無損的上下文長(zhǎng)度。上下文長(zhǎng)度可能存在摩爾定律,但需要同時(shí)優(yōu)化長(zhǎng)度和無損壓縮水平兩個(gè)指標(biāo),才是有意義的規(guī)?;??!?/p>
而這也是月之暗面從成立就聚焦在長(zhǎng)文本上的初心所在。
至于 ToC 的路線,這是 AI 大模型落地過程中,最有可能跑出來超級(jí)應(yīng)用的方向,也是楊植麟從一開始就堅(jiān)定想要做的事情。
當(dāng)然,除了技術(shù)和路線,更重要的還有楊植麟的個(gè)人能力。
一位參與月之暗面投資的投資者告訴雷峰網(wǎng),其實(shí)在早期,他觀望過智譜AI、百川智能、MiniMax、零一萬物等一眾 AI 大模型創(chuàng)業(yè)公司,最終選擇了月之暗面。
“這一波 AI 是技術(shù)驅(qū)動(dòng)的,(如果投資)首要考慮的就是去找技術(shù)上最強(qiáng)、最相關(guān)的那個(gè)人?!倍?dāng)前 AI 大模型的主流架構(gòu) Transformer 曾是楊植麟之前的研究領(lǐng)域。楊植麟曾以第一作者發(fā)表了 Transformer-XL 和 XLNet 兩篇重要論文,且學(xué)術(shù)引用量自 2019 年起已超 2 萬余次,在技術(shù)上的實(shí)力自然毋庸置疑。
而且,作為創(chuàng)業(yè)者,楊植麟的人才號(hào)召力也很強(qiáng),能夠吸引到許多年輕、優(yōu)秀的工業(yè)界人才,比如月之暗面的聯(lián)合創(chuàng)始人、在各大 AI 公司浸染歷練后選擇加入月之暗面的員工等。
另外,楊植麟做的事情很純粹,就是要做中國(guó)的 AGI。一位投資者表示,他聊過很多年輕的、資深的AI創(chuàng)業(yè)者,而楊植麟是自己見過技術(shù)上講得最清楚、最有愿景的人。
“我們聊過好幾次,現(xiàn)在每次聊幾句話就說清楚了,他就是要做中國(guó)的 AGI?!?/p>
投資者認(rèn)為,這一輪 AI 創(chuàng)業(yè)潮中,那些曾經(jīng)在互聯(lián)網(wǎng)時(shí)代乘風(fēng)破浪的大佬的經(jīng)驗(yàn),有時(shí)候未必是加分項(xiàng),甚至可能是包袱。因?yàn)樵谛碌?AI 時(shí)代,所有的東西都是新的,而新的組織、新的人來做這件事,更有機(jī)會(huì)帶來新的想象力。
而以上這些,都是月之暗面雖不具備先發(fā)優(yōu)勢(shì),卻能后來居上的原因所在,是偶然中的必然。
搶灘全球 AGI 的野心
“事實(shí)上,資本并沒有大家想象地那么急迫?!币晃煌顿Y人告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))。
近日,一微軟工程師曝出為 GPT-6 搭建 10 萬個(gè) H100 訓(xùn)練集群,卻導(dǎo)致整個(gè)電網(wǎng)崩潰的消息,再度重申了通往 AGI 之路仍需破解電力難題的困惑,卻也釋放出一個(gè)信號(hào):雖然 GPT-4.5 泄露事件紛紛揚(yáng)揚(yáng)、GPT-5 還未發(fā)布,但 GPT-6 已經(jīng)在路上。
深度學(xué)習(xí)的發(fā)展已經(jīng)過去十年,較之上一波AI浪潮,這一波大模型的投資者更懂技術(shù)。他們無比清晰地認(rèn)識(shí)到大模型是一門流動(dòng)的、仍在繼續(xù)成長(zhǎng)的技術(shù),GPT-4 不是終點(diǎn)。而“即使是 OpenAI 的路線,也并不一定是 AGI 的最終路線”。
更多閱讀見 AI 科技評(píng)論近期發(fā)布:《誰將替代 Transformer?》
尤其對(duì)知名投資機(jī)構(gòu)來說,他們想要投出的,并不只是中國(guó)范圍內(nèi)的“最強(qiáng)大模型”,而是有資格、有潛力參與競(jìng)爭(zhēng)“全球范圍內(nèi)最強(qiáng) AGI”的大模型團(tuán)隊(duì)。在一次訪談中,楊植麟也曾公開表示,“AI 不是我在接下來一兩年找到什么PMF,而是接下來十到二十年如何改變世界?!?/p>
如果跳出國(guó)內(nèi)大模型鏖戰(zhàn)的視角,站在全球視野來看, 作為典型的技術(shù)信仰派的代表,月之暗面搶灘全球 AGI 的優(yōu)勢(shì)或許是以下幾點(diǎn):
首先, 月之暗面是全球化教育下的產(chǎn)物,視野更廣闊。創(chuàng)始人楊植麟畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,后赴卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所(LTI)攻讀博士,師從蘋果AI研究負(fù)責(zé)人Ruslan Salakhutdinov、谷歌首席科學(xué)家 William Cohen,對(duì)國(guó)外技術(shù)的發(fā)展有著敏銳的意識(shí)與極高的關(guān)注。(AI 科技評(píng)論近期將推出《CMU LTI 華人成長(zhǎng)史》的群像文,感興趣的讀者可添加微信 Fiona190913 交流)
實(shí)戰(zhàn)經(jīng)驗(yàn)方面,楊植麟曾就職于 Google Brain 和 FAIR,參與過 Google Gemini、Google Bard、“盤古”“悟道”等多個(gè)大模型的研發(fā),更加了解國(guó)內(nèi)外大模型發(fā)展的技術(shù)差距與步伐節(jié)奏,更清楚該如何在國(guó)內(nèi)發(fā)展一家具有國(guó)際視野的 AI 大模型公司。
不僅是楊植麟,另外兩位聯(lián)合創(chuàng)始人周昕宇和吳育昕,也都畢業(yè)于清華大學(xué),具備 Meta、曠視科技等知名AI公司的就職經(jīng)歷。
此外,據(jù)一位月之暗面的員工描述,楊植麟對(duì)具有“硅谷范”的公司十分向往,月之暗面也想往這樣的風(fēng)格發(fā)展。
其次,月之暗面堅(jiān)定以 ToC 路線入局。一方面,AI 大模型的落地應(yīng)用過程中,相較于 ToB,似乎 ToC 更有可能“跑”出來超級(jí)應(yīng)用。其實(shí)還有更深層次的考量,即在邁向 AGI 的過程中,數(shù)據(jù)飛輪至關(guān)重要,基于此,ToC 路線就是必然選擇。
楊植麟曾提到,對(duì)于月之暗面來說,AGI 和產(chǎn)品都是追求的目的,而歷史上幾乎所有互聯(lián)網(wǎng)產(chǎn)品要“跑”出來,最終都要靠用戶數(shù)據(jù)的 Scale。
也許由于發(fā)展階段的關(guān)系,早期會(huì)依靠基礎(chǔ)模型的 Scaling law,但拉長(zhǎng)時(shí)間線,未來最終還是要轉(zhuǎn)向用戶的 Scaling law。
綜合各種維度來看,ToC 路徑是目前公認(rèn)最適合的路徑,天花板也更高。
另外,即便現(xiàn)在 GPT-4 的性能表現(xiàn)已經(jīng)讓人類驚呼,但大模型的想象空間仍舊很大。
而基于這種共識(shí),能否堅(jiān)定自己對(duì) AGI 的獨(dú)特理解,擁有長(zhǎng)遠(yuǎn)的方向規(guī)劃和清晰的邏輯就顯得尤為關(guān)鍵。
對(duì)于這一點(diǎn),楊植麟有自己的節(jié)奏。
一位投資人告訴雷峰網(wǎng),楊植麟并不在乎 GPT-5 和 GPT-6什么時(shí)候推出,但對(duì)于什么時(shí)候是 GPT-5,什么時(shí)候是 GPT-6 的時(shí)刻有自己的定義,如何做到,過程中要解決哪些問題,如何解決,以及最終模型的方向,等等。
基于此,將視野跳出國(guó)內(nèi),放眼全球來看,月之暗面角逐全球 AGI 的可能性又多了幾分,而紅杉中國(guó)等全球知名的資本選中月之暗面,或許也有這樣的考量——留給月之暗面的時(shí)間還有很多。
而將目光聚焦在國(guó)內(nèi)來看,在目前的幾家 AI 大模型初創(chuàng)公司中,月之暗面的優(yōu)勢(shì)也很明顯。
技術(shù)方面,月之暗面的技術(shù)團(tuán)隊(duì)曾參與國(guó)內(nèi)外等多個(gè)大模型的研發(fā)工作,較之 MiniMax、百川智能等估值相當(dāng)?shù)墓?,?jīng)驗(yàn)更豐富。
而技術(shù)上能與月之暗面媲美的另一家估值相當(dāng)?shù)拇竽P凸局亲V AI,其先發(fā)優(yōu)勢(shì)與成熟度或許是成立還不足一年的月之暗面所不具備的,但兩者路線的不同,也決定了雙方大概率不會(huì)在同一條賽道“狹路相逢”。在投資者看來,智譜 AI 的定位是“復(fù)刻 OpenAI”、堅(jiān)定 To B 與 To G 路線,走信創(chuàng)道路。
資本方面,最早與楊植麟同時(shí)期入局大模型的智源團(tuán)隊(duì)中,如清華 THUNLP 走出的兩家公司——深言科技與面壁智能,雖然也具備技術(shù)實(shí)力,但融資節(jié)奏遠(yuǎn)遠(yuǎn)不如月之暗面。目前深言科技的融資進(jìn)行到 A+ 輪、面壁智能則進(jìn)行到 Pre A。
人才儲(chǔ)備方面,月之暗面的人才密度高,楊植麟個(gè)人的技術(shù)號(hào)召力強(qiáng),公司仍處于快速發(fā)展、擴(kuò)張的過程中,雖然總?cè)藬?shù)仍不過百,但人才密度在大模型初創(chuàng)企業(yè)中或許僅次于智譜 AI。
綜合來看,月之暗面的重心在技術(shù)而非商業(yè)化,所以不管是月之暗面花重金招聘人才、每日接近砸 20 萬元的成本獲客、堅(jiān)定 To C 與長(zhǎng)文本路線、做超強(qiáng)基座大模型……都在情理之中,因?yàn)橥顿Y方“沒有那么著急”,不要求月之暗面此時(shí)此刻就開始思考商業(yè)化。
也許,2024 年商業(yè)化是國(guó)內(nèi)大多數(shù) AI 大模型公司的主旋律、主線任務(wù),但不是月之暗面的。
寫在最后
誠(chéng)然,在理念、技術(shù)、人才、資本的累積上,月之暗面身上的優(yōu)勢(shì)明顯,長(zhǎng)板很長(zhǎng),但也有一些短板上的隱憂。
有投資人告訴 雷峰網(wǎng),目前月之暗面身上的曠視基因較重,團(tuán)隊(duì)中來自曠視的成員較多;另一方面經(jīng)過最新一輪的融資后,阿里系重倉加持,持股比例過高。
關(guān)于第一點(diǎn),憑借楊植麟的個(gè)人能力與號(hào)召力或許能扭轉(zhuǎn)局勢(shì),但未來仍不確定;關(guān)于第二點(diǎn),目前月之暗面仍在不斷開放融資,希望可以降低阿里系在內(nèi)部的話語權(quán),而這對(duì)于其他資本力量來說也是利好。
一位接觸過月之暗面,但最終沒有投的投資人告訴雷峰網(wǎng),當(dāng)初紅杉投完之后也想邀他再投一輪,但他思考再三,認(rèn)為楊植麟在技術(shù)能力上確實(shí)強(qiáng),但他的投資觀是考量綜合能力,技術(shù)是要強(qiáng),但也考慮基礎(chǔ)架構(gòu)、算力、數(shù)據(jù)等方面,而在這些方面,楊植麟的號(hào)召人還所有欠缺。
“他能號(hào)召頂級(jí)聰明的年輕人,但能否吸引到更高級(jí)別的人才,還不確定,畢竟他年輕,而那些(AI Infra 領(lǐng)域的)都是江湖上的前輩,大家是否愿意跟著他干?”
但可以確定的是,目前月之暗面的長(zhǎng)板足夠長(zhǎng),長(zhǎng)到可以遮蓋短期的不足,讓投資方愿意買單,等待月之暗面帶來不一樣的 AGI 敘事方式。
本文作者(vx:youlinancy)長(zhǎng)期關(guān)注月之暗面等 AI 初創(chuàng)公司的大模型敘事,不止于技術(shù)發(fā)展、人物故事、行業(yè)動(dòng)態(tài),歡迎交流!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。