0
近日,關(guān)于字節(jié)跳動大語言模型研發(fā)技術(shù)專家楊紅霞離職創(chuàng)業(yè)的事情,坊間傳得沸沸揚揚。
雷峰網(wǎng)獨家獲悉,楊紅霞已于 5 月下旬正式從字節(jié)跳動離職,開始籌備 AI 創(chuàng)業(yè)項目。不過,楊紅霞不做“大”模型,而是將方向瞄準(zhǔn)端側(cè)模型,布局 AI Agent。目前,團隊正在籌備組建中,已獲得 3000 至 4000 萬美元的投資,投后估值 1.5 億美元。
此前,楊紅霞為大家所熟知的是,她曾是阿里達(dá)摩院萬億參數(shù)規(guī)模多模態(tài)預(yù)訓(xùn)練模型 M6 的技術(shù)負(fù)責(zé)人,參與過北京智源研究院主導(dǎo)的“悟道”大模型項目,而該項目是中國最早的大模型項目之一。
在字節(jié)跳動的大模型隊伍中,楊紅霞的學(xué)術(shù)氣質(zhì)較為突出。據(jù)雷峰網(wǎng)(公眾號:雷峰網(wǎng))梳理,字節(jié)大模型團隊的核心成員主要是在字節(jié)抖音、西瓜等產(chǎn)品內(nèi)部成長起來的骨干。
2007 年,楊紅霞從南開大學(xué)本科畢業(yè)后,赴杜克大學(xué)攻讀博士,師從著名統(tǒng)計學(xué)家 David Dunson,著有超過 100 篇杰出學(xué)術(shù)論文。
博士畢業(yè)后,楊紅霞入職 IBM 全球研發(fā)中心任 Watson 研究員,之后又加入雅虎公司,擔(dān)任首席數(shù)據(jù)科學(xué)家。
2016年,楊紅霞回國加入阿里達(dá)摩院,就職期間楊紅霞的職級為 P9,曾任達(dá)摩院智能計算實驗室主任,作為技術(shù)負(fù)責(zé)人,一路見證了 M6 從百億、千億進(jìn)化到萬億參數(shù)量規(guī)模。
去年年初,楊紅霞加入字節(jié)跳動 AML(Applied Machine Learning,機器學(xué)習(xí)系統(tǒng)),向團隊的負(fù)責(zé)人項亮匯報,帶領(lǐng)一支大約 40 人的團隊。
如今,楊紅霞身上又多了一層創(chuàng)業(yè)者的身份。
今年以來,通用大模型格局逐漸收縮,落地應(yīng)用成為主旋律,越來越多的目光開始瞄向行業(yè)、端側(cè)大模型。而端側(cè)模型,主要應(yīng)用在手機、電腦、智能網(wǎng)聯(lián)汽車等終端設(shè)備上,具有成本低、移動性強、數(shù)據(jù)安全等優(yōu)勢,正逐漸成為行業(yè)追逐的熱門話題。
今年 2 月,清華 THUNLP 走出的 AI 公司——面壁智能推出 20 億參數(shù)的開源端側(cè)模型 MiniCPM;
4 月,商湯推出 1.8B 參數(shù)規(guī)模的 SenseChat-Lite 版本端側(cè)?模型;
5 月,來自斯坦福大學(xué)的 NEXA AI 團隊發(fā)布了全球首個參數(shù)量小于 10 億的多模態(tài) AI Agent 模型 Octopus V3,在函數(shù)調(diào)用性能上遠(yuǎn)超同類模型,可與 GPT-4V+GPT4 相媲美,更是將端側(cè)模型卷到新高度。
據(jù)了解,NEXA AI 團隊創(chuàng)始人兼首席科學(xué)家陳偉(Alex Chen),正在攻讀斯坦福大學(xué)博士學(xué)位,擁有豐富的AI研究經(jīng)驗;聯(lián)合創(chuàng)始人兼首席技術(shù)官李志遠(yuǎn),畢業(yè)于斯坦福大學(xué),并在 Google 和 Amazon Lab 126 實驗室擁有 4 年端側(cè) AI 的研發(fā)經(jīng)驗。
不管是手機,還是電腦,或者汽車,在人們的生活中都扮演著重要角色,可見,端側(cè)大模型前景廣闊,在如何更好地訓(xùn)練出小且好用的端側(cè)模型的新行業(yè)命題下,大有可為。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。