0
本文作者: 徐咪 | 2025-07-30 11:38 |
Rock是石頭,石頭是這個(gè)世界最基本的組成元素,堅(jiān)硬、基礎(chǔ)、隨處可見(jiàn)。
RockAI希望成為智能世界的石頭。
01
離線智能
據(jù)AI科技評(píng)論了解,在發(fā)布的18個(gè)月里,已經(jīng)有量產(chǎn)設(shè)備搭載了Yan的大模型能力,這讓這個(gè)以非Transformer路線著稱的大模型建設(shè)者,一躍成為端側(cè)智能中不可忽視的重要玩家。
如果打開(kāi)官網(wǎng),你第一眼就會(huì)看見(jiàn)醒目的一行大字,那是它給自己定義的使命:“讓世界上每一臺(tái)設(shè)備擁有自己的智能”。RockAI聯(lián)合創(chuàng)始人鄒佳思對(duì)AI科技評(píng)論說(shuō),這句話里其實(shí)有兩個(gè)關(guān)鍵詞,“每一臺(tái)設(shè)備”和“自己的”。
前者意味著一個(gè)更高兼容能力、成本更友好、能力更普惠的設(shè)備,而后者則意味著一個(gè)擁有自主進(jìn)化能力、不斷生長(zhǎng)的、可以廣泛交互協(xié)作智能終端。
這不僅意味著RockAI在走一條非Transformer的智能岔路,也在走一條并不激進(jìn)推高智能上限的技術(shù)小徑。
但鄒佳思不同意這是一條小徑。
“端側(cè)是一個(gè)龐大的市場(chǎng)”,他說(shuō),“這是世界上絕大部分人都需要的智能”。這不僅是因?yàn)?,這是一個(gè)發(fā)展中國(guó)家人口主導(dǎo)的世界,它意味著也是因?yàn)槿伺c智能的關(guān)系是需要體面的。
這種體面的方式之一就是離線的智能體。離線是端側(cè)的潛臺(tái)詞,這意味著它只屬于用戶本人,不會(huì)將用戶的數(shù)據(jù)上傳到某個(gè)龐大冰冷轟鳴又陌生的服務(wù)器里,而只躺在用戶最熟悉的被卡通硅膠殼包裹的手機(jī)里,拉絲金屬制成的電腦里。
端側(cè)很難,離線很難,但只端側(cè)離線又是不夠的。
小路也是路,是路就必須走。
鄒佳思說(shuō),從1.3發(fā)布以來(lái),干的最多的一件事情:踩坑。踩技術(shù)的坑,踩場(chǎng)景的坑——Yan落地量產(chǎn)設(shè)備量是這么來(lái)的,Yan 2.0 Preview也是這么來(lái)的。
自從1.3發(fā)布以來(lái),不斷有人問(wèn):2.0什么時(shí)候來(lái)?為什么還不來(lái)?如果來(lái)了,會(huì)長(zhǎng)什么樣?
RockAI選擇在WAIC交出一個(gè)初步的答案:
Yan 2.0 Preview。
這符合RockAI一貫以來(lái)的謙遜,Yan 2.0 Preview是這家公司的第四代產(chǎn)品,在此之前是1.0、1.2、1.3。他們拒絕像Transformer社區(qū)等科技世界常見(jiàn)的那樣,將性能提升作為每一代產(chǎn)品的差異。
然而,這其實(shí)是RockAI目前最接近自己使命的一個(gè)產(chǎn)品。鄒佳思對(duì)AI科技評(píng)論說(shuō),Yan 2.0 Preview有兩個(gè)提升。
一個(gè)是視覺(jué)感知能力的躍升。
他們針對(duì)視頻模態(tài)進(jìn)行稀疏取幀,降低視覺(jué)信息的時(shí)序冗余,再通過(guò)視覺(jué)編碼器對(duì)選取的視頻幀進(jìn)行逐幀編碼,生成視覺(jué)Token。采用Token Merge(ToME)的策略來(lái)降低視覺(jué)Token之間的語(yǔ)義冗余,進(jìn)而減少視覺(jué)Token的序列長(zhǎng)度。
鄒佳思表示,這讓Yan 2.0 Preview可以擁有比1.3更加連貫的視頻理解能力,“過(guò)去只是看圖,而現(xiàn)在真的能看視頻了”。
但更加重磅的是基于訓(xùn)推同步的自主學(xué)習(xí)能力。
RockAI通過(guò)可微的記憶模塊來(lái)實(shí)現(xiàn)信息的存儲(chǔ)、檢索和遺忘。在這種架構(gòu)下,記憶可以不斷更新。尤其是通過(guò)創(chuàng)新機(jī)制實(shí)現(xiàn)了記憶強(qiáng)度的動(dòng)態(tài)調(diào)節(jié):既能通過(guò)門(mén)控式更新保留長(zhǎng)期依賴,又能基于輸入分布特性靈活整合新知識(shí)。這讓Yan 2.0 Preview可以像生物大腦一樣,不斷忘記不重要的事情,留下重要的。
過(guò)去,訓(xùn)推同步往往是與大模型一體機(jī)相伴相生的,但RockAI決定將訓(xùn)推同步的概念下放到個(gè)人的端側(cè)設(shè)備上。這種嘗試,在外界看來(lái),或許顯得有些瘋狂——因?yàn)檫@個(gè)概念之前沒(méi)人做,也沒(méi)被太多應(yīng)用端從業(yè)者認(rèn)真思考過(guò),所以即便將產(chǎn)品做出來(lái),它將如何被應(yīng)用也是個(gè)待明確的問(wèn)題。
據(jù)鄒佳思透露,RockAI在和一些玩具公司做初步的探索。比如和一些國(guó)際頭部玩具公司探討能夠自主學(xué)習(xí)的AI玩具,孩子可以對(duì)自己的玩具說(shuō)話、下指令,而玩具會(huì)自己學(xué)習(xí)成長(zhǎng),從而成為屬于孩子自己的獨(dú)一無(wú)二的精神伴侶。
“我們把Preview版本放出來(lái),也是希望看到更多上下游的需求”,鄒佳思說(shuō),“我們絕對(duì)相信它有廣闊的應(yīng)用空間。”而“廣闊的空間”,意味著它絕對(duì)不僅僅只在玩具場(chǎng)景得到使用。
如果說(shuō)1.0是文本模型,1.3是具有圖片與音頻能力的多模態(tài)能力,那么2.0將成為一個(gè)能看懂視頻、能自主學(xué)習(xí)、實(shí)現(xiàn)實(shí)時(shí)人機(jī)交互的全新智能底座。
02
場(chǎng)景、場(chǎng)景,還是場(chǎng)景
“踩技術(shù)的坑”,只是RockAI過(guò)去一年兩大“年度工作總結(jié)”中的一個(gè)。而比技術(shù)的坑更大的,則是“場(chǎng)景的坑”。
場(chǎng)景很難,鄒佳思對(duì)AI科技評(píng)論說(shuō),演示和落地之間存在鴻溝,量產(chǎn)化落地難上加難。
假如說(shuō),Yan1.2部署在樹(shù)莓派可以算得上一個(gè)寫(xiě)在公司手冊(cè)里的里程碑事件。那么Yan1.3發(fā)布后,公司拿到了出海頭部硬件公司的訂單,則又算得上是業(yè)務(wù)里程的一大步。
鄒佳思至今都記得,當(dāng)合作伙伴把搭載著Yan1.3能力的PC拿給海外經(jīng)銷(xiāo)商的時(shí)候,合作伙伴的震動(dòng)與興奮。甚至一些實(shí)力雄厚的“巨頭”友商代表,都專(zhuān)門(mén)到展臺(tái)前面詢問(wèn)離線端側(cè)功能是怎么實(shí)現(xiàn)的。
斷網(wǎng)其實(shí)是一件比很多人想象得更重要的事情。
“離線端側(cè)大模型在海外的需求是非常旺盛的”,鄒佳思對(duì)AI科技評(píng)論表示,只是其中很多需求還沒(méi)有獲得最佳的解決方案。
首先,對(duì)于出海的硬件企業(yè)來(lái)說(shuō),海外關(guān)于信息安全的政策環(huán)境是很多樣的。端側(cè)可以規(guī)避大量信息傳輸、上云帶來(lái)的政策風(fēng)險(xiǎn)與合規(guī)成本。
“海外對(duì)隱私的話題是非常敏感的”,鄒佳思表示,“不同國(guó)家對(duì)個(gè)人信息保護(hù)的法律和審查都是不同的,如果要上傳數(shù)據(jù),便意味著主機(jī)廠需要去層層過(guò)關(guān)每一個(gè)國(guó)家的法律和監(jiān)管體系?!?/p>
更不用說(shuō)海外復(fù)雜的網(wǎng)絡(luò)環(huán)境。
目前全球主要人口都是生活在第三世界國(guó)家,其中生活在農(nóng)村的人口又遠(yuǎn)多于城市的人口。一份國(guó)際電信聯(lián)盟2022年的調(diào)查數(shù)據(jù)顯示,歐洲和北美國(guó)家,80%至90%的人口使用互聯(lián)網(wǎng),而在阿拉伯國(guó)家和亞太國(guó)家這個(gè)數(shù)字降低至三分之二。而在非洲,互聯(lián)網(wǎng)人口的比例則進(jìn)一步降低至40%,而最不發(fā)達(dá)國(guó)家和內(nèi)陸發(fā)展中國(guó)家的互聯(lián)網(wǎng)覆蓋率僅為36%。城鄉(xiāng)差異也是如此,根據(jù)上述報(bào)告,即便在資源集中的城市,全球只有82%的城市居民可以在家上網(wǎng),但這一比例竟然是農(nóng)村的1.8倍。
而這份報(bào)告中涉及的只是網(wǎng)絡(luò)覆蓋率,尚沒(méi)有涉及更加復(fù)雜的網(wǎng)絡(luò)質(zhì)量和網(wǎng)絡(luò)資費(fèi)等問(wèn)題。
RockAI的愿景是“每一臺(tái)設(shè)備”,不是“每一臺(tái)歐美設(shè)備”或者“每一臺(tái)中國(guó)設(shè)備”,也不是“每一臺(tái)城市設(shè)備”,而是不加定語(yǔ)的“每一臺(tái)設(shè)備”。
“很多設(shè)備連NPU、甚至GPU都沒(méi)有,只有CPU,你要如何把大模型放進(jìn)去?目前只有RockAI能做到?!编u佳思表示。
從某種程度上來(lái)說(shuō),未來(lái)一些海外用戶接觸的第一個(gè)AI大模型產(chǎn)品,或許就會(huì)是Yan。
這也大概也是Yan 2.0 Preview合作伙伴的經(jīng)銷(xiāo)商們,會(huì)對(duì)一個(gè)AIPC產(chǎn)品驚訝的原因之一。
“他們沒(méi)見(jiàn)過(guò)這種產(chǎn)品”,鄒佳思說(shuō),“不用網(wǎng)絡(luò),直接就能在中低端CPU級(jí)設(shè)備上跑的AI產(chǎn)品,他們沒(méi)見(jiàn)過(guò)?!?/p>
為了量產(chǎn)項(xiàng)目,RockAI投入了很多的資源,或許這不能叫投入,而是一場(chǎng)技術(shù)投資,這可能源于RockAI一種另辟蹊徑的市場(chǎng)哲學(xué):
“標(biāo)桿戰(zhàn)略”。
RockAI一直都被認(rèn)為是一個(gè)不喜歡跟隨BenchMark的公司。“我們會(huì)去測(cè)一些榜單,但不會(huì)打榜”,鄒佳思說(shuō),公司并不是完全排斥榜單,只是對(duì)一些榜單的價(jià)值和意義確實(shí)有過(guò)一些懷疑。但未來(lái)團(tuán)隊(duì)會(huì)做去選擇一些嚴(yán)肅的榜單參與,讓外界更直觀看到Y(jié)AN的成果。
可即便如此,“也不會(huì)將重點(diǎn)放在這里”,鄒佳思表示,因?yàn)镽ockAI是一個(gè)著重場(chǎng)景落地的團(tuán)隊(duì),因此公司的業(yè)務(wù)邏輯是做“標(biāo)桿”。
“就像ARM與德州儀器、諾基亞的關(guān)系——德州儀器把那時(shí)名不見(jiàn)經(jīng)傳的ARM推薦給了諾基亞,說(shuō)希望在小型機(jī)上試一試。ARM花了很大的力氣去說(shuō)服諾基亞,最后諾基亞高管點(diǎn)頭了,于是成就了諾基亞當(dāng)年的手機(jī)霸主地位,也成就了今天的ARM?!编u佳思說(shuō)。
RockAI或許沒(méi)有奢望一個(gè)像諾基亞那樣性感的貴人,鄒佳思對(duì)標(biāo)桿的期待就是一個(gè)跑通的、大家都能看見(jiàn)的、能被交付到用戶手里的場(chǎng)景。
團(tuán)隊(duì)對(duì)潛在的標(biāo)桿很重視。鄒佳思回憶自己之所以能拿下頭部公司的端側(cè)設(shè)備訂單,部分因?yàn)樗麄兪俏ㄒ粠Я苏鎸?shí)樣機(jī)去客戶公司展示的團(tuán)隊(duì)。
“一個(gè)見(jiàn)面前2周臨時(shí)買(mǎi)的酷睿i5的小盒子,麥克風(fēng)和顯示器都是現(xiàn)場(chǎng)接的,折騰了十多分鐘”,鄒佳思說(shuō)那個(gè)場(chǎng)景至今在他腦海里,“其實(shí)現(xiàn)場(chǎng)挺亂的”,他說(shuō),“但是其他廠家都帶著PPT,只有我們帶了真機(jī)樣品直接開(kāi)始演示?!眻F(tuán)隊(duì)甚至沒(méi)有來(lái)得及好好介紹自己,對(duì)方已經(jīng)有合作的意向了,緩過(guò)神來(lái)才問(wèn):
“你們公司啥時(shí)候成立的?”
雖然RockAI是這家頭部公司接觸最晚的,卻是最終拿下合作的。于是才有了開(kāi)頭,那些激動(dòng)的海外經(jīng)銷(xiāo)商和刺探情報(bào)的巨頭友商。
榜單可能可以刷分,但用戶是誠(chéng)實(shí)的,商業(yè)訂單也是。設(shè)備量產(chǎn)是RockAI的起點(diǎn),也是YAN生態(tài)的一個(gè)起點(diǎn)。
03
留在牌桌上
沒(méi)有人會(huì)懷疑,RockAI是在跟巨人作戰(zhàn)。就像大衛(wèi)面對(duì)歌利亞,當(dāng)年手里也拿著這么幾塊石頭。大衛(wèi)用甩石機(jī),讓石頭在手中形成一個(gè)小而有力的“飛輪”。
當(dāng)然,YAN與Transformer社區(qū)之間并不是你死我活的關(guān)系,它們更像是一條河與大海的潮水競(jìng)速。
但對(duì)于一個(gè)閉源為主的大模型生態(tài),節(jié)奏是很關(guān)鍵的。因?yàn)樗纫龅鬃惨鰬?yīng)用;既要做上層交互,又要做底層適配。要在技術(shù)與場(chǎng)景之間反復(fù)“踩坑”。
鄒佳思說(shuō),RockAI在過(guò)去一年時(shí)間里,團(tuán)隊(duì)已經(jīng)擴(kuò)張到了近一百人,絕大部分都是研發(fā)。
對(duì)于一個(gè)商業(yè)公司來(lái)說(shuō),所謂節(jié)奏的含義,無(wú)非就是,哪些快,哪些慢;哪些抓緊,哪些放棄。
鄒佳思不愿意將自己稱為“閉源”大模型,他說(shuō)RockAI會(huì)有自己的開(kāi)源節(jié)奏,有些可能暫時(shí)沒(méi)那么快披露,但他們已經(jīng)對(duì)部分核心合作伙伴開(kāi)源。比如芯片廠商,共享代碼會(huì)大幅降低YAN落地的磨合成本。
有些事情RockAI是確實(shí)暫緩不做的,比如“生圖”。鄒佳思認(rèn)為,設(shè)備端的主體訴求在感知、決策和行動(dòng)這三個(gè)方面。
“就跟人一樣”,鄒佳思說(shuō),“人腦也不會(huì)直接輸出圖像,而只是轉(zhuǎn)而使用工具,YAN其實(shí)也一樣?!?/p>
而有些更遠(yuǎn)景的事情,暫不落地但卻是行業(yè)趨勢(shì),鄒佳思給RockAI的要求,則是要“留在牌桌上”。
在鄒佳思看來(lái),機(jī)器人就是一個(gè)場(chǎng)景在未來(lái),但YAN要爭(zhēng)取“留在牌桌上”的賽道。鄒佳思認(rèn)為,Yan天然是可以探索去跟機(jī)器人結(jié)合的架構(gòu)。因?yàn)閅an不做生成,主要做以感知和認(rèn)知為主的多模態(tài)能力。而在實(shí)驗(yàn)中,RockAI發(fā)現(xiàn),以Yan為主的架構(gòu)已經(jīng)能實(shí)現(xiàn)部分軌跡復(fù)刻的能力了。
“我們這次在展臺(tái)上放了一個(gè)靈巧手,可以玩游戲”,鄒佳思說(shuō),“也有機(jī)器狗可以學(xué)習(xí)人的動(dòng)作。”
在RockAI的構(gòu)想里,它將成為一個(gè)橫跨上至無(wú)人機(jī),下至機(jī)器人機(jī)器人、大到手機(jī)電腦這樣的核心消費(fèi)算力設(shè)備、小到智能眼鏡、陪伴玩具等探索型低算力設(shè)備,每一臺(tái)設(shè)備都成為
Yan的算力網(wǎng)絡(luò)中的一部分,共同構(gòu)成“群體智能”的未來(lái)世界途徑——
誰(shuí)說(shuō)小石頭不能成高山呢?雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。