0
| 本文作者: 劉欣 | 2025-12-16 11:37 |
周六的諾亦騰機(jī)器人(Noitom Robotics)公司樓下,陽光灑在地上,我們見到了戴若犁博士——這位諾亦騰的聯(lián)合創(chuàng)始人,現(xiàn)在的身份還多了一個:諾亦騰機(jī)器人公司的創(chuàng)始人/CEO,身上既有技術(shù)的敏銳,又有創(chuàng)業(yè)者的果敢。
回憶十多年前諾亦騰創(chuàng)立的緣起,戴若犁依舊能脫口而出 iPhone 首個陀螺儀芯片的產(chǎn)品代號——L3G4200D。
正是這顆小小的芯片,讓他嗅到了機(jī)會,成立了諾亦騰。
從影視特效,到VR交互,到數(shù)字化醫(yī)療,諾亦騰的足跡遍布多個賽道。而當(dāng)屬于機(jī)器人的浪潮翻滾之時,他又敏銳地洞察到了機(jī)器人數(shù)據(jù)。
“2024 年全年,機(jī)器人為諾亦騰帶來的營收漲了 5 倍,25 年又漲了,最終兩年漲了 40 倍。作為一個企業(yè)管理者,肯定不能忽略??!”戴若犁笑道。
于是,就在今年年初他毅然決定將機(jī)器人業(yè)務(wù)拆分出來,做一個機(jī)器人數(shù)據(jù)公司。談及這份選擇,他語氣篤定,“我就是最適合做機(jī)器人數(shù)據(jù)公司的人,諾亦騰機(jī)器人(Noitom Robotics)也是行業(yè)里面唯一清楚數(shù)據(jù)這個業(yè)務(wù)該怎么做的公司!”
值得關(guān)注的是,戴若犁博士蒞臨 2025 年 GAIR 全球人工智能與機(jī)器人大會的數(shù)據(jù)專場,帶來了《用動作捕捉技術(shù)構(gòu)建具身智能數(shù)據(jù)工廠》的主題分享。
GAIR 大會聚焦人工智能的核心技術(shù)、前沿趨勢與產(chǎn)業(yè)落地,長期吸引來自全球的技術(shù)領(lǐng)袖和科研人士。本屆大會將于 2025 年 12 月 12-13 日在深圳·博林天瑞喜來登酒店舉行,與產(chǎn)業(yè)界和學(xué)術(shù)界的嘉賓共同研討人工智能的下一步發(fā)展。
以下是 AI 科技評論與戴若犁的對話,AI 科技評論對其進(jìn)行了不改原意的編輯:
01Noitom Robotics 是家機(jī)器人的數(shù)據(jù)公司
AI科技評論:機(jī)器人公司拆分出來的契機(jī)是什么?
戴若犁:機(jī)器人公司是在非常好的市場機(jī)會下催生的,諾亦騰 14 年就開始賣產(chǎn)品,已經(jīng)賣了十來年了。在這十幾年里,其實(shí)客戶里面一直都有機(jī)器人的應(yīng)用,一些老牌的機(jī)器人企業(yè),以及 Stanford、UC berkeley、Tokyo Robotics 這些跟機(jī)器人相關(guān)的科研機(jī)構(gòu)。
但是機(jī)器人用戶在諾亦騰的整體營收里的占比一直都是個位數(shù),低于 5%。我作為企業(yè)管理者甚至在報表上都看不到有一個分類叫做機(jī)器人,只有一個分類叫做泛科研,里面有一部分是跟機(jī)器人相關(guān)的,比如科研占到百分之十幾,里頭有 3% 是跟機(jī)器人相關(guān)的,所以我根本就關(guān)注不到這個大方向。
但在 2023 年的下半年大概九、十月份,發(fā)生了一個巨大的變化,當(dāng)時美國有兩家耳熟能詳?shù)淖鰴C(jī)器人的企業(yè)跟我的美國同事提了一個采購需求,那個采購需求大概是百套動作捕捉設(shè)備。
這個需求在我們看來完全是瘋狂的、impossible 的,我認(rèn)為是一個騙局,可能想要騙底價,因?yàn)榇笥唵慰隙〞o個三折,最后可能買個三五套就算了。
從23年的奇怪詢價函開始, 24 年全年機(jī)器人在整體營收里面的訂單總金額漲了 5、6 倍; 25 年比 24 年又漲了大概 6 倍或者 7 倍,兩年最終漲了接近 40 倍,這種情況對于企業(yè)管理者來說肯定不能忽略了。
所以 24 年年初我就覺得事情不對,需求漲的太猛了,就去看他們到底拿設(shè)備在干啥?發(fā)現(xiàn)是在采數(shù)據(jù)。以前動捕的數(shù)據(jù)是以秒計的,電影行業(yè)的動捕每秒是大幾千塊錢、幾萬塊錢的。
機(jī)器人行業(yè)要的數(shù)據(jù)單位是小時,或者是萬條、百萬條數(shù)據(jù),或者是 10 小時,百小時。而且今年特別卷,今年下半年因?yàn)橛袔讉€幾十萬小時的工作突然出來了很好的結(jié)果,所以現(xiàn)在跟我們聊數(shù)據(jù)的需求都是按 10 萬小時記的,甚至還有人來聊幾十萬小時、百萬小時的一些可能性。
所以機(jī)器人行業(yè)跟以前的需求數(shù)量不一樣,以前也就幾千條、每條十幾秒的數(shù)據(jù)的需求,現(xiàn)在動不動就是千萬條。我發(fā)現(xiàn)這個事情發(fā)生了本質(zhì)的變化,需求的天花板被捅破了。商業(yè)模式也有很多有意思的創(chuàng)新點(diǎn)可以做,不光是賣硬件和賣服務(wù),還可以做自有數(shù)據(jù)集。所以在今年年初,我把機(jī)器人公司從諾亦騰里面拆出來,做了一個新公司。
AI科技評論:諾亦騰機(jī)器人(Noitom Robotics)公司的融資情況?
戴若犁:已經(jīng)完成了兩輪累積數(shù)億元的融資,一些新的信息即將公布。有可能就是下周公布吧,雷峰網(wǎng)幫我發(fā)一下?
AI科技評論:諾亦騰機(jī)器人(Noitom Robotics)公司是 to B 賽道的?
戴若犁:是的,這是一個非常典型的 to B 業(yè)務(wù)。
首先我要講清楚一點(diǎn),也是借雷峰網(wǎng)(公眾號:雷峰網(wǎng))的平臺跟大家說清楚:諾亦騰機(jī)器人(Noitom Robotics)不是一家機(jī)器人數(shù)采設(shè)備公司,也不是一家數(shù)采項(xiàng)目服務(wù)公司,諾亦騰機(jī)器人是一家機(jī)器人的數(shù)據(jù)公司,交易的界面是數(shù)據(jù)本身,我們也會賣設(shè)備,也會做服務(wù),但是賣設(shè)備跟做服務(wù)就為了四個字——交個朋友。
對我們來說,賣設(shè)備跟做服務(wù)就是為了服務(wù)將來的數(shù)據(jù)客戶,我們也不指著賣設(shè)備跟做服務(wù)去賺錢。我們希望最終能夠?yàn)槲覀兊姆?wù)對象,比如互聯(lián)網(wǎng)大廠、機(jī)器人企業(yè)、具身智能的模型公司等長期的數(shù)據(jù)業(yè)務(wù)伙伴,給他們提供的服務(wù)是數(shù)據(jù)本身。理想情況下你別跟我買設(shè)備,我來投 Capex、投前置的固定資產(chǎn),我直接給你數(shù)據(jù)就好。
我們希望在運(yùn)營層面重一點(diǎn),在交割交付的界面輕一點(diǎn)。一個以數(shù)據(jù)本身作為交割和交付的界面,對我們來說是更加好的一個商業(yè)模式,也減少了賣一大堆設(shè)備需要給客戶做上門的技術(shù)支持。希望所有繁瑣的需要拉扯的東西都能夠發(fā)生在我們自己的體內(nèi),而不是發(fā)生在客戶之間的交割界面上。
AI科技評論:有做得特別好的大型數(shù)據(jù)公司嗎?
戴若犁:美國就有最大的三家,Scale AI、Mercor 和 Surge AI。Surge AI 的 Infra 和工具鏈做得特別好,Mercor 原本是做 AI 的人力招聘,所以它在數(shù)據(jù)服務(wù)里的專長是用 AI 去篩選人,面試人,選擇最正確的人,把這人卷的非常好,管理的非常好。Scale AI 的 Benchmark 和數(shù)據(jù)的利用比如 AI 標(biāo)注等工作做得非常的好,模型能力也不錯。
這三家各有各的專長,都是十億到數(shù)十億美金收入,都非常厲害,只是沒有浮出水面,因?yàn)槭亲鳛橐粋€低調(diào)的 to B 的悶聲賺錢的數(shù)據(jù)公司,其實(shí)行內(nèi)都知道他們。
而國內(nèi)做的最好的數(shù)據(jù)公司不一定是上市公司海天瑞聲。各個大廠都有自己的數(shù)據(jù)服務(wù)公司,業(yè)務(wù)量非常的大。還有曼孚也做的蠻好的。
數(shù)據(jù)本質(zhì)上是一個 to B 的業(yè)務(wù),特別是大模型跟自動駕駛,由于甲方擁有數(shù)據(jù)的來源,生數(shù)據(jù)(raw data)獲取的能力上甲方比乙方更擅長,甲方有大量的車隊可以把數(shù)據(jù)給開回來。那么數(shù)據(jù)公司在那邊就變成了類似于一個人力外包的 BPO 服務(wù),相對苦一點(diǎn)。
在美國可以眾包到全球,它的勞動力價差大一些,如果比較講究工具鏈的 AI 能力、labor 的篩選能力,就能夠把毛利做得高一點(diǎn)??赡茉趪鴥?nèi)服務(wù),勞動力價差就沒有了,外包成本置換的毛利空間就會稍微小一點(diǎn),會做的比較辛苦一點(diǎn)。所以做出海的生意都做的不錯,做本地的 BPO 服務(wù)的生意都做的比較苦一點(diǎn)。
所以為什么之前在你印象當(dāng)中會覺得沒有什么數(shù)據(jù)公司做的好?一方面肯定是人家悶聲發(fā)大財,低調(diào),但更本質(zhì)的是因?yàn)閭鹘y(tǒng)的數(shù)據(jù)公司服務(wù)的是大模型和自動駕駛,甲方獲取數(shù)據(jù)能力相對比較強(qiáng)一點(diǎn),給到的活兒變成了招人和點(diǎn)鼠標(biāo),溢價不會特別高,但是機(jī)器人行業(yè)不一樣,甲方?jīng)]數(shù)據(jù),所以有一些新的機(jī)會。
AI科技評論:那你們會對標(biāo)這些公司嗎?
戴若犁:其實(shí)并沒有直接對標(biāo),業(yè)務(wù)邏輯和商業(yè)模式不太一樣了,機(jī)器人對于數(shù)據(jù)的需求這件事情 23 年年底才出現(xiàn), 24 年萌芽,到了 25 年才微微的上了一點(diǎn)體量,明年可能是一個非常大的發(fā)展期,所以沒有任何企業(yè)是可以對標(biāo)的。
從生意模式和能力儲備上面來講,剛才說的美國那三家可以做一些參考,但是他們也僅僅是在這個工作的后端。我們得先把數(shù)據(jù)獲取過來,之后再跟這三家公司學(xué)學(xué)強(qiáng)在哪里。這件事情還是得要新拓展,因?yàn)榧追經(jīng)]數(shù)據(jù)。
AI科技評論:和其他的一些機(jī)器人數(shù)據(jù)公司相比,你們的優(yōu)勢是什么呢?
戴若犁:首先我沒有看到什么值得我目前特別關(guān)注的機(jī)器人數(shù)據(jù)公司,我現(xiàn)在能夠看到的一些賣機(jī)器人數(shù)據(jù)采集設(shè)備和做一些機(jī)器人數(shù)據(jù)采集項(xiàng)目的公司,第一,規(guī)模都很小,第二,他們暫時還沒有積累出來值得敬畏的工程量,可能就是在這樣的行業(yè)里面做了一些還不錯的一些項(xiàng)目而已。我至少在商業(yè)實(shí)踐的前端沒有看到值得我們現(xiàn)在特別關(guān)注的挑戰(zhàn),所以我也沒有辦法比較。
核心的點(diǎn)還是要成為一個機(jī)器人的數(shù)據(jù)公司,絕不只是能夠做一些動捕的設(shè)備或者能承接一些跟機(jī)器人數(shù)據(jù)相關(guān)的項(xiàng)目,就可以認(rèn)為自己是一個機(jī)器人數(shù)據(jù)行業(yè)里面有競爭力的公司了。其實(shí)中間差著好多好多,因?yàn)檫@件事情的復(fù)雜度很高,不管各個模態(tài)的數(shù)據(jù)如何,又要保真,又要低成本,又要成體量高效的能夠獲取回來,而且還要有能力讓數(shù)據(jù)能夠跨本體,本質(zhì)上是跨客戶,如果采的一批數(shù)據(jù)只能服務(wù)一個客戶,那就是個項(xiàng)目公司。
所以我們跟其他在機(jī)器人數(shù)據(jù)行業(yè)里面做一些設(shè)備和做一些項(xiàng)目的公司比起來,第一,我們有真正的產(chǎn)品交付的能力,我在做諾亦騰的時候,慣性動捕設(shè)備在全球就能做到 70% 的市場份額,第二名到最后一名加一塊沒有我們一半多。我們做過幾千萬、千人這個級別的大項(xiàng)目,所以這方面的經(jīng)驗(yàn)和實(shí)際的產(chǎn)品交付的經(jīng)驗(yàn)、復(fù)雜工作的交付能力是絕大部分其他人不具備的。

Source:Noitom Robotics
然后還有一個特別大的優(yōu)勢是:諾亦騰機(jī)器人(Noitom Robotics)是這個行業(yè)里面唯一清楚機(jī)器人數(shù)據(jù)這個業(yè)務(wù)該怎么做的公司。這個行業(yè)太大了,所以它值得謀定而后動,值得想清楚該怎么運(yùn)作和塑造商業(yè)模式。怎么去補(bǔ)短板和加長板很重要,比做事情還重要,這也是為什么我們把這個公司分拆出來做,也是為什么有這么多特別好的投資人愿意幫助,愿意給我們多一點(diǎn)的錢去做這個事情的原因。
AI科技評論:所以在您創(chuàng)立的時候,基本上就想好了這個公司未來的規(guī)劃?您覺得能做到第一位嗎?
戴若犁:完全已經(jīng)考慮好了,獨(dú)立融資就是希望把這件事情做到更好。對于做到第一位這件事情我還是很有信心的,聯(lián)合創(chuàng)始人們的能力都非常強(qiáng),比如首席科學(xué)家之前是騰訊具身模型的一號位;CFO 做過美股的上市退市,做過港股的上市,做過A股的上市,做過很大的公司的戰(zhàn)投負(fù)責(zé)人;硬件工程的一號位,原來在字節(jié)新石實(shí)驗(yàn)室做硬件的大leader。這些伙伴們有能力、有信心。很多人的薪酬都是除以 3 后才到諾亦騰機(jī)器人(Noitom Robotics)這邊來的,所以肯定不是圖一個小的事情。
AI科技評論:目標(biāo)是做到上市嗎?
戴若犁:資本市場只是一個把事情做大的手段,不是一個目標(biāo)。所以上市不是目標(biāo),是手段,本質(zhì)上是多一種更加自由和方便的募資的手段。
我們希望能做具身智能機(jī)器人這個行業(yè)里最大的數(shù)據(jù)提供商,希望是單一最大的數(shù)據(jù)提供商,這個才是我們的目標(biāo),而且做大也不是目標(biāo),能夠給行業(yè)解決問題才是目標(biāo)。
我覺得這行業(yè)里頭沒有人比我更適合解決這個問題,我不認(rèn)為有任何人在這方面的能力積累、見識比我強(qiáng)。包括美國大家覺得很厲害的企業(yè),他們對機(jī)器人行業(yè)的理解或者對本體、合成仿真平臺的理解肯定是比我深,話語權(quán)也強(qiáng)。但是在數(shù)據(jù)、數(shù)據(jù)的利用鏈路和數(shù)據(jù)獲取的途徑,這個子賽道上面他們都得過來聽我講應(yīng)該怎么做這個事情。
02數(shù)據(jù)工廠只是一塊拼圖
AI科技評論:諾亦騰機(jī)器人(Noitom Robotics)主要是通過數(shù)據(jù)工廠采集數(shù)據(jù)嗎?
戴若犁:數(shù)據(jù)不光是從工廠來,數(shù)據(jù)的來源其實(shí)有很多種。比如機(jī)器人的遙操作數(shù)據(jù),這個數(shù)據(jù)的生產(chǎn)發(fā)生在甲方機(jī)器人廠商那邊很合適,也還有更大體量的其他類型數(shù)據(jù)值得以工廠形態(tài)或者其他形態(tài)去生產(chǎn)。
我們除了工廠形態(tài)還有其他形態(tài)的數(shù)據(jù)生產(chǎn)模式,會用各種各樣的方式方法去獲取適合這個行業(yè)的數(shù)據(jù),工廠只是其中一種方式。
AI科技評論:采集數(shù)據(jù)的操作思路是什么?
戴若犁:這一次具身智能跟機(jī)器人的發(fā)展,底層假設(shè)是仿生學(xué)的勝利。不管是模型還是本體的形態(tài),現(xiàn)在叫人形機(jī)器人或者類人機(jī)器人,多模態(tài)模型是極度的模仿人的大腦的決策和執(zhí)行的全鏈路。無論是模型還是本體結(jié)構(gòu),本質(zhì)上是非常仿人仿生的,URDF 的層面都是一個仿生學(xué),所以反過來對于數(shù)據(jù)的需求其實(shí)也是仿生的。
在思考對數(shù)據(jù)的需求該怎么提的時候,最不應(yīng)該的是做市場調(diào)研,看客戶需要什么就給他什么,因?yàn)楝F(xiàn)在技術(shù)還沒有收斂,所有的客戶也在探索途中都是半懂不懂的狀態(tài),所有人都在試錯,意見也都不統(tǒng)一。當(dāng)沒有收斂的時候去做調(diào)研,會發(fā)現(xiàn)大家是既要又要,或者客戶之間的交集小到只能給 A 做個項(xiàng)目,再給 B 做個項(xiàng)目,他們倆之間的需求是完全沒有交集的,這是極有可能發(fā)生的一件事情,所以這顯然不行。
所以思考應(yīng)該獲取什么樣的數(shù)據(jù)?或者應(yīng)該積累什么樣的數(shù)據(jù)?到底什么樣的數(shù)據(jù)、模態(tài)、體量、維度、精度、特性是必須的?我們的思路還是仿生,從人的角度去思考。比如把咖啡拿起來打量一下喝一口這個全過程,其實(shí)用到了很多模態(tài),這些信息都是我作為一個人形的本體在完成這個全過程所需要的輸入 input。
假如一個本體的大腦暫時還不具備執(zhí)行這個任務(wù)的能力的話,那至少要從仿生的角度去思考,確保所我需要數(shù)據(jù)的模態(tài)、精度、量程、范圍、幀率——這些是仿生的角度去思考的——能滿足人類本身執(zhí)行輸入信息的底線需求,至少保住了這個「底線」,就保住了未來換個本體這件事情是高概率能夠完成的。所以在做數(shù)采技術(shù)路徑選擇的時候,其實(shí)思路就是仿生。
AI科技評論:你們主要售賣的數(shù)據(jù)是真機(jī)數(shù)據(jù)?
戴若犁:不是真機(jī)數(shù)據(jù),是真實(shí)數(shù)據(jù)。真機(jī)和真實(shí)數(shù)據(jù)是有本質(zhì)區(qū)別的。真機(jī)數(shù)據(jù)指的是用遙操作或 real world 的 RL 方式在機(jī)器人身上采的數(shù)據(jù),真機(jī)數(shù)據(jù)是非常優(yōu)質(zhì)的數(shù)據(jù),一定是有很強(qiáng)的價值的。
我在 GAIR 大會上就會講,真機(jī)數(shù)據(jù)對于每一款機(jī)器人都是不可或缺的,因?yàn)橹挥姓鏅C(jī)數(shù)據(jù)當(dāng)中才有跟機(jī)器人相關(guān)的真機(jī)特性。它的傳感特性、構(gòu)型特性、制動特性、驅(qū)動特性,包括生產(chǎn)制造當(dāng)中的各種各樣的波動,這些信息都是通過其他數(shù)據(jù)得不到的,真機(jī)數(shù)據(jù)就有這些信息,所以真機(jī)數(shù)據(jù)是不可或缺的。
但是真機(jī)數(shù)據(jù)有一個特別大的問題,就是它不能跨本體。你在宇樹 G1 上面采的數(shù)據(jù),別說到小鵬的機(jī)器人上,到宇樹自家 H1 上面都用不了。因?yàn)樗膫鞲衅鳌Ⅱ?qū)動器、身材比例和構(gòu)型不一樣。有這么大的 gap,那么數(shù)據(jù)遷移到另外一個本體上面,VLA model 的訓(xùn)練收益是顯著低的,所以真機(jī)數(shù)據(jù)不行,但真實(shí)數(shù)據(jù)肯定要的,我們選擇采集的數(shù)據(jù)就是從人身上采。
AI科技評論:采集數(shù)據(jù)主要是用動作捕捉設(shè)備嗎?
戴若犁:動作捕捉只是其中的一個模態(tài),只有人的動作姿態(tài)數(shù)據(jù)是跟動作捕捉設(shè)備相關(guān)的,還有視覺、力觸覺、聽覺那些模態(tài)。所以動作捕捉的技術(shù)和設(shè)備只完成了數(shù)據(jù)采集其中的單一模態(tài),只是比較重要的一個組成部分而已。
原來我做的動作捕捉設(shè)備是給其他行業(yè)做的,比如影視行業(yè)和 VR 交互行業(yè),不是給機(jī)器人行業(yè)做的。而機(jī)器人行業(yè)比原來的行業(yè)大很多,用其他行業(yè)做出來的設(shè)備將就測一測、量一量,肯定是有問題的。
為了機(jī)器人行業(yè),我們是值得從頭儲備一系列的設(shè)備和技能的,而且設(shè)備只是把數(shù)據(jù)獲取回來,數(shù)據(jù)該怎么利用?該怎么訓(xùn)練?該怎么后處理?該怎么進(jìn)行模態(tài)/維度的增廣和補(bǔ)全?這都是大量的工作要做的。
所以我一上來就說諾亦騰機(jī)器人(Noitom Robotics)不是一家設(shè)備公司,也不是一家動捕公司,只是我這個個體先天帶有一些動捕的技能儲備。全行業(yè)都認(rèn)為搞定動捕就搞定了數(shù)據(jù)采集這件事情完全是錯的,搞定動捕沒有搞定數(shù)據(jù)采集,搞定動捕只是搞定了數(shù)據(jù)采集里頭一個單一模態(tài)采集的基礎(chǔ)門檻,而且搞定得還不徹底。
要把機(jī)器人的數(shù)據(jù)這件事情給做好,這絕不是一個動捕公司就能夠做的事情,一個動捕設(shè)備公司可以做機(jī)器人數(shù)據(jù)公司里 30 個供應(yīng)商其中的一個,所以諾亦騰(Noitom)可以是諾亦騰機(jī)器人(Noitom Robotics) 30 個供應(yīng)商中的一個供應(yīng)商。
AI科技評論:能透露你們已經(jīng)給哪些機(jī)器人公司提供數(shù)據(jù)了嗎?
戴若犁:如果要說數(shù)量的話,六、七十個肯定有了,美國十幾個,中國四、五十個。全是頭部公司,基本上你聽過的相對頭部的公司多多少少都跟我們發(fā)生過交易,不管是買硬件設(shè)備,還是采買我們的服務(wù),還是數(shù)據(jù)的交易,還是聊 2026 年的數(shù)據(jù)的合作,都非常非常多,但這個確實(shí)是商業(yè)機(jī)密。
我們會幫助他們?nèi)プ觯簲?shù)采設(shè)備提供、系統(tǒng)集成、遙操作的鏈路的打通調(diào)優(yōu)、URDF 的映射、 Retargeting Mapping、模仿學(xué)習(xí)訓(xùn)練數(shù)據(jù)的支持、中小體量數(shù)據(jù)集的授權(quán),甚至于大體量的數(shù)據(jù)集的定制化,這方面的服務(wù)我們在我個人認(rèn)知范圍內(nèi)是全球做的最多的。

諾亦騰機(jī)器人(Noitom Robotics)曾經(jīng)提供過服務(wù)的部分客戶案例
AI科技評論:其中有沒有什么項(xiàng)目是你覺得印象最深刻的?
戴若犁:每一個對于我們來說都很重要,我們是個 to b 服務(wù)商,最重要的一件事情就是要嘴嚴(yán),或者說不能嘚瑟,這是我的原則。
在所有的合作里面,我們都是配角,這個事情一定要想清楚,它很重要。一定要認(rèn)清楚自己的邊界,我們賺這個錢,別人信任我們,我不應(yīng)該把這件事情拿出來嘚瑟。我能說的就是非常多杰出的、頭部的工作,那種在圈子里刷屏爭論猜測的好幾個大工作,我們在里面都貢獻(xiàn)了一點(diǎn)微小的力量。

Source:西湖機(jī)器人(Westlake Robotics)
AI科技評論:今年世界模型很火,你們會關(guān)注這個點(diǎn)嗎?
戴若犁:我們對數(shù)據(jù)進(jìn)行預(yù)標(biāo)注、維度增廣處理、模態(tài)的補(bǔ)全處理都是要用到世界模型的。其實(shí)我們公司內(nèi)部的機(jī)器人模型團(tuán)隊和多模態(tài)模型團(tuán)隊是可以和我們絕大部分的甲方的模型團(tuán)隊比肩的,就像 Scale AI 的模型團(tuán)隊本質(zhì)上是不比 Anthropic OpenAI 差的,只是規(guī)模體量沒那么大,因?yàn)槟阈枰愕募追胶诵膱F(tuán)隊平等對話,要幫助他們解決懶得解決甚至解決不了的問題。
所以我們雖然不需要那么大規(guī)模的機(jī)器人 VLA 的模型團(tuán)隊、強(qiáng)化學(xué)習(xí)模型團(tuán)隊、世界模型團(tuán)隊,也不那么燒卡,但是我們單點(diǎn)的這個人的能力需要特別的強(qiáng)。
AI科技評論:那您覺得世界模型生成的數(shù)據(jù)會是解決機(jī)器人數(shù)據(jù)問題的一個路徑嗎?
戴若犁:它會是真實(shí)數(shù)據(jù)的一個很好的補(bǔ)充。如果說機(jī)器人向物理世界或者人的真實(shí)行為能夠?qū)W習(xí)的信息分兩類的話,一類叫做規(guī)則(rules),另一類叫做先驗(yàn)知識(prio)。模型(不管是世界模型還是物理引擎)能夠合成和仿真的更多的是規(guī)則,而人類的寶貴的大量的復(fù)雜的,難以描述的,難以枚舉的先驗(yàn)知識是很難直接合成,很難無中生有的:你能夠枚舉規(guī)則,但你不能枚舉全量人類先驗(yàn)。

Source:World Lab
從最底層的第一性來說,世界模型、合成仿真環(huán)境以及其產(chǎn)出的生成視頻與合成數(shù)據(jù),跟真實(shí)的物理世界獲取的 real data 的最合理關(guān)系其實(shí)是增廣(Augmentation),或者補(bǔ)全(Completion),也可以是修正(Amendments and imprint)。比如基于蘊(yùn)含大量人類先驗(yàn)的一個真實(shí)數(shù)據(jù)集,比如 1000 萬小時規(guī)模的,再由合成仿真環(huán)境或者世界模型去進(jìn)行進(jìn)一步的增廣,把它泛化到 10 億小時,把它再乘以 100 這樣的關(guān)系。而不是期待搭一個全知全能的,能夠生成所有數(shù)據(jù)的世界模型,創(chuàng)造一個能解決具身智能所有數(shù)據(jù)問題的世界模型的命題難度,比機(jī)器人命題難度還要高,所以你為了去解決一個命題 A,而去解決一個更難的命題 B 嗎? 如果全世界的 target 是世界模型,其實(shí)對我業(yè)務(wù)也挺好,我的數(shù)據(jù)會賣給世界模型,賣給命題 B。
所以對于真實(shí)數(shù)據(jù)的需求,有可能世界模型是比具身智能還大的買家,因?yàn)檫@是兩個分離但又極度相關(guān)的命題,他們都需要有空間、精度意義且來自真實(shí)世界的數(shù)據(jù)去進(jìn)行訓(xùn)練。上個月美國合作方的同事還去見了李飛飛教授跟 World Labs 組做了交流,我理解到,像DeepMind、通義千問多模態(tài)這樣的組其實(shí)對于這種有空間精度意義的數(shù)據(jù)有很強(qiáng)的需求。
你無法通過看視頻推斷出物理的原則,人類研究物理其實(shí)要做很多實(shí)驗(yàn)和測量的。就算是視覺這樣的單一模態(tài),Stereo video (雙目視覺信息)有空間精度, Mono video (單目視覺信息)沒有空間精度。世界模型是需要多模態(tài),需要 Stereo 的信息才能夠真正走到足夠好的高度。
AI科技評論:那你們會使用 UMI 嗎?
戴若犁:會使用 UMI, UMI 是非常好的數(shù)據(jù)采集的方式方法。UMI somehow 是可以跨本體的,所以我很喜歡 UMI 的數(shù)據(jù)。

Universal Manipulation Interface(UMI)source: https://umi-gripper.github.io/
但 UMI 也有一個很大的問題,就是丟失了全身大量的有價值的信息,且在夾爪這個層面有本體綁定性,遷移到其他本體也有大 gap。所以 UMI 在短期之內(nèi)去驗(yàn)證一些能力和驗(yàn)證 scaling law 是有極高的極好的價值的,又便宜又好又能 deploy,簡直是各種好,很誘人。但是長期來講,有太多的損失了,這些損失導(dǎo)致 UMI 的數(shù)據(jù)短期內(nèi)可以閉環(huán)一些任務(wù),有生意做,但是長期來講不足以巨大的投入去積累。所以我們放在 UMI 上很少,但會本著“幫客戶老爺解決點(diǎn)問題開心就好”的態(tài)度做點(diǎn)項(xiàng)目。
本質(zhì)上我是要權(quán)衡這個對我來說是不是一個長期的業(yè)務(wù),是不是一個天花板高的業(yè)務(wù)?如果單個體量特別的豐厚,利潤特別豐厚,我是可以做的。這類的數(shù)據(jù)有一丟丟積累的必要,它也能部分的跨本體,但是長期來講它是稍微差的,它就是 Sergey Levine 說的那種“勺叉”( Sporks of AGI:Why the Real Thing is better than the Next Best Thing),他也是將軍趕路不該追的那只有點(diǎn)肥的“野兔”。
AI科技評論:可以提前透露一些您在GAIR大會上要演講的精彩內(nèi)容嗎?
戴若犁:我在GAIR大會上會提一個概念,叫做具身智能數(shù)據(jù)的金字塔,這個金字塔分四層,這四層里面會涵蓋遙操作數(shù)據(jù)(Tele-op data)、多樣化人本數(shù)據(jù)(Human-centric data)、互聯(lián)網(wǎng)數(shù)據(jù)以及合成仿真數(shù)據(jù)(Synthetic data)。
我還會去跟大家講一講我們怎么看具身智能的數(shù)據(jù)的利用(data deploy),到底應(yīng)該怎么解決跨本體問題(cross-embodiment issue)?是可以有一個全知全能或者單一的數(shù)據(jù)集,還是需要分層解決,還是需要通過不同的企業(yè)之間的分工和合作,在不同的場景、不同的工作模式下面去解決?我們有一個比較深刻的認(rèn)知,這個認(rèn)知會持續(xù)迭代,我在大會上面跟大家分享一下迭代到這個月,這周,演講那天的結(jié)果。
還會跟大家稍微介紹一下我們服務(wù)的這些很杰出的伙伴,他們最近的一些成果我們有參與,會有一些好玩的東西給大家在視頻上面看一看,我相信大家會覺得很有趣,并且會有一些大家能夠帶走的認(rèn)知和想法。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。