丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給饒舒瑋
發(fā)送

0

專訪聯(lián)想集團 CTO 芮勇:智能體是具身智能的基礎|具身智能十人談

本文作者: 饒舒瑋 2024-06-12 15:40
導語:蘋果砸到機器人頭上,它能像牛頓那樣悟到萬有引力嗎?

作者丨饒舒瑋

編輯丨岑峰

在遼闊的未知海域,作為首席技術官的芮勇是決定聯(lián)想集團這座巨輪技術路線的掌舵人之一。

擁有七大國內(nèi)外知名學會會士( Fellow) 桂冠、曾在微軟工作近18年,芮勇在2016年選擇了聯(lián)想集團作為自己職業(yè)生涯的下一站。同年,聯(lián)想集團聘用多位 AI 領域大牛,發(fā)力人工智能領域,從一家做設備的公司向一家設備+云服務的公司加速轉(zhuǎn)型。聯(lián)想研究院人工智能實驗室開始籌備成立,芮勇也在朋友圈中廣發(fā)英雄帖,招攬有識之士加入團隊。

如今,從 All in AI 到 AI for all,聯(lián)想集團正沿著既定道路穩(wěn)步前行。在采訪中,每當提到聯(lián)想集團在 AI 領域的前瞻性和發(fā)展?jié)摿?,芮勇的自豪感溢于言表。比如他們很早就關注到了 OpenAI,并快速跟進了他們的研發(fā)技術;在業(yè)界還在關注大模型的時候,聯(lián)想集團早已經(jīng)開始了智能體的研究。

多年投身人工智能領域的經(jīng)驗和軟硬件結(jié)合的基因給了聯(lián)想集團不做盲目從眾者的底氣。這點從這波大模型的熱潮中就有所體現(xiàn)。聯(lián)想集團堅定地“舍棄”了公共大模型這一擁擠的賽道,轉(zhuǎn)身投入更具有“私”性質(zhì)的面向企業(yè)的私有大模型和面向設備的個人大模型。在大模型資源“蛋糕”不斷做大的未來,為每個人和每個企業(yè)提供量身定制的服務,注定是大模型這一處理海量數(shù)據(jù)工具的價值點。

大模型做好了,那么下一步是什么?芮勇的回答是智能體。在他看來,AI發(fā)展的三部曲是從小模型到大模型,再到智能體。“智能體基于大模型而又超越于大模型,智能體同時也是離身智能和具身智能的基礎?!?/p>

面對 AI 領域的下一個風潮——具身智能,芮勇的態(tài)度是積極擁抱。得益于多學科背景,芮勇在具身智能領域的研究得心應手。說到多學科背景,我們把時間拉回到上世紀八九十年代。芮勇在清華期間學習自動化控制,后赴美師從計算機視覺領域泰斗美國工程院院士、中國科學院工程院雙外籍院士黃煦濤教授 (Prof. Thomas S. Huang),從而打下了芮勇在人工智能和自動控制兩個領域的堅實基礎。

上世紀九十年代,多媒體檢索成為當時的新興科研領域,而芮勇則是當時全球第一批探索多媒體檢索的先行者。在1998年,芮勇借鑒了控制理論中的反饋概念,通過對多媒體特征和人類感知相似度的建模從根本上打破了之前單純依賴圖像特征的多媒體搜索框架。他的兩篇早期論文已經(jīng)成為了這一領域的世界級經(jīng)典論文:《Relevance Feedback: A Power Tool in Interactive Content-Based Image Retrieval》成為IEEE TCSVT 當年引用率排名第一的論文,《Image Retrieval: Current Techniques, Promising Directions and Open Issues》榮獲JVCIR 2010年頒發(fā)的“十年最高引用論文獎”。

此外,芮勇在人工智能和自動控制兩個領域還貢獻了如人工智能圖像與文本自動排版,圖像搜索多角度特征重排序,基于多模態(tài)稀疏編碼的圖像搜索點擊預估,相關性多標注的視頻分類等開創(chuàng)性的科研成果。

而創(chuàng)新領域的下一個風潮——具身智能,剛好又是這兩個領域的結(jié)合。當初跨領域研究的選擇,多年后的芮勇用“幸運”一言以概之。

作為人工智能領域的研究者,芮勇一直認為現(xiàn)在的工作都是為了以后,一個人工智能與人類和平共處的未來。那時,人類因為善用人工智能,已經(jīng)從重復性、無意義的繁重工作中得以解脫,可以更好地享受生活。

近日,雷峰網(wǎng)-AI科技評論有幸邀請到聯(lián)想集團 CTO 、高級副總裁、聯(lián)想技術委員會副主席芮勇與我們就具身智能這一主題展開討論,同時對近年聯(lián)想集團在 AI 領域的布局、未來研發(fā)方向以及人工智能行業(yè)趨勢等話題進行了一次深入對話,雷峰網(wǎng)-AI科技評論做了不改原意的編輯:


大模型、智能體兩手抓

AI科技評論:您近期的演講中涉及智能體的內(nèi)容比較多,目前聯(lián)想集團對于智能體的研發(fā)投入如何?聯(lián)想集團將最核心的技術投入放在了哪一塊?

芮勇:如果說去年聯(lián)想集團花了很多時間在看大模型的話,今年大家花最多時間看的就是智能體。我們可能也是在業(yè)界較早對智能體這一概念展開比較多討論的企業(yè)。今年4月在上海舉行的聯(lián)想創(chuàng)新科技大會 (Tech World) 主題基本就是圍繞智能體展開?,F(xiàn)在重要的一定是智能體,因為光有大模型技術,我們覺得已經(jīng)不夠了,所以智能體在聯(lián)想集團的研發(fā)業(yè)務中是處于一個核心技術的位置。但也不是把大模型徹底扔了,而且大模型是開發(fā)智能體的基礎,所以我們兩手都要抓,兩手都要硬。左手抓大模型,右手抓智能體。

在我們看來,下一步就是掌握智能體幾個核心技術。我覺得有幾大模塊非常重要,首先是智能體的大腦,也就是大模型,相當于控制中樞,所以要增強大模型本身的能力。

其次,智能體需要知道自己的能力邊界。人就是一個智能體,人知道自己的能力邊界。比如你問我兩位數(shù)的加減法,我可以心算很快給出答案。如果遇到8位數(shù)、9位數(shù)的加減法,我會想到使用合適的工具,比如找計算器來計算,把答案告訴你。

所以,智能體一個關鍵的能力是對自我能力邊界的認知,知道什么時候應該調(diào)用工具,調(diào)用什么樣的工具。今天的大模型有時候會非常自信地告訴你一個錯誤答案。大模型其實不想騙你,它只是不知道自己的能力邊界在哪里。

此外,對復雜任務的理解與規(guī)劃也是智能體的關鍵能力。我們?nèi)祟惷鎸σ粋€復雜任務,會全局地考慮問題,包括優(yōu)化目標,限制條件,可能的方案。然后理出思路,面對多步驟操作會清楚先做什么后做什么,對于未知情況如何去嘗試,對于多種路徑如何擇優(yōu)。大模型本質(zhì)上是在做下一個單詞的預測,它很適合直覺類任務,并不適合需要統(tǒng)籌規(guī)劃的復雜任務。

AI科技評論:在您看來,智能體與具身智能之間有什么聯(lián)系? 

芮勇:我認為,智能體是一個統(tǒng)籌的概念。智能體基于大模型而又超越于大模型,智能體同時也是離身智能和具身智能的基礎。智能體既可以存在于數(shù)字空間(cyberspace),也可以存在于物理空間(physical space),和各種設備結(jié)合。在數(shù)字空間的智能體,我們一般稱為離身智能(Disembodied AI);存在于物理空間的智能體就是具身智能(Embodied AI)。具身智能包括在機器人方向的具身智能,也包括了車和其他設備。

具身智能和離身智能概念的第一次出現(xiàn),是1950年前后,那時候 AI 還沒有真正出現(xiàn),正處在萌芽期。Alan Turing 在他那篇著名的論文《計算機器與智能(Computing machinery and intelligence)》結(jié)尾思考了未來人工智能的發(fā)展道路,一個方向是發(fā)展為能夠進行像下棋類的抽象活動所需的智能,另一條方向則是為機器人配備傳感器,讓它們像孩子一樣去接觸世界,認識世界。這就是離身智能和具身智能的前身。

目前可以看到的是,如果智能體光靠一個大模型支撐是遠遠不夠的。因為大模型本身能力有限,單憑一個大模型很難再往下發(fā)展?,F(xiàn)在大模型就遇到了一些瓶頸,比如它對自身能力的認識很不足,對于到底自己能干什么、不能干什么、什么時候要調(diào)用工具、什么時候可以自己干這些問題都不清楚。此外,還有它的長短期記憶、對于復雜意圖的理解以及分解復雜任務等等,這些都是尚待解決的問題。

AI科技評論:在研究智能體時遇到的問題對于研究具身智能有何幫助? 

芮勇:因為具身智能是基于智能體發(fā)展出來的,中間很多部分和智能體是一樣的,比如說他們都會有一個大模型的大腦,都會有對場景的理解和主動感知,都會有對復雜任務的理解、分解和規(guī)劃,以及對知識庫和工具的調(diào)用。

但是除了這些以外,具身智能還有它自己的特點,有一些新的問題要解決:

? 智能體的控制中樞部分,在原來的語言大模型和視覺大模型之外,還要加入動作大模型;

? 場景理解和主動感知組件部分,需要加入3D語義地圖生成,和環(huán)境與地形感知;

? 在自主行走與操作控制上,需要視覺落腳點規(guī)劃、基于強化學習的地形適應行走,以及自主定位、導航與探索;

? 具身載體和執(zhí)行器部分,需要通用足式機器人和力控驅(qū)動單元。

說到載體,聯(lián)想集團近日發(fā)布了通用型六足晨星機器人,這里面涉及到仿生學、物理運動等等,這些都是離身智能不太關心,但在具身智能領域非常重要的知識。此外,比如同樣是對知識庫和工具庫的調(diào)用,離身智能和具身智能所調(diào)用的庫是完全不一樣的。

AI科技評論:您認為具身智能最適合的載體是什么樣的?

芮勇:具身智能的載體多種多樣,既可以是人形機器人,也可以也是其它形態(tài),場景不同,載體則不同。

比如需要陪伴老人或者小朋友的場景,最適合的就是人形機器人。但像是安保、野外作業(yè)的場景,反而是多足機器人合適,因為穩(wěn)定,并且載重量大。我們都知道,三角形是最穩(wěn)定的結(jié)構(gòu),六足的話就是多組三角形輪流著地,能夠最大程度地保證穩(wěn)定性。這也是為什么聯(lián)想集團選擇研發(fā)六足機器人的原因。

像聯(lián)想集團其他的一些產(chǎn)品,比如說車計算,甚至我們不同型號的筆記本電腦等等,其實這些形態(tài)也是適用于不同場景。像是電腦,我認為它是介于具身智能和離身智能之間的智能體,因為電腦里面有很多傳感器、輸入設備等等,所以它對環(huán)境有一定的感知和理解,其實有了具身智能一部分的能力。但是它可能更側(cè)重于作為離身智能存在,因為在端側(cè)的大模型是跑在電腦上的,能夠使你的生活更加愉快,使你的工作變得更加有效率。

AI科技評論:從某種意義上來說,具身智能因為具有和物理環(huán)境進行交互的特點,應該是更高級的一種智能形態(tài),您如何看待具身智能和 AGI 之間的關系?

芮勇:
我覺得 AGI 跟離身智能、具身智能都有關系。有人覺得已經(jīng)基本上能看到 AGI 出現(xiàn)了,但我沒有那么樂觀,我認為我們當下的技術水平離 AGI 還有距離。無論是 AGI、具身智能還是離身智能,我覺得還有好多的事情要去做。

圖靈獎得主 Yoshua Bengio 所提出的五個層次 World Scope 理論給出了通往AGI的路徑。

第一個層次是小數(shù)據(jù)訓練小模型,過去幾十年的傳統(tǒng)方法都處于這個階段。

第二個層次是用互聯(lián)網(wǎng)規(guī)模的海量數(shù)據(jù)訓練大模型,以GPT-3為代表。

第三個層次是從單模態(tài)到多模態(tài),比如GPT-4o和Gemini是文字視覺語音的多模態(tài)大模型。

第四個層次是從開環(huán)系統(tǒng)到閉環(huán)控制,就是說考慮環(huán)境反饋并結(jié)合自身狀態(tài),給出下一步操作對環(huán)境產(chǎn)生影響同時更新自身狀態(tài),比如以AutoGPT為代表的智能體和具身智能機器人。

第五個層次是從單智能體到多智能體協(xié)作,也包括機器與人類的協(xié)作,由群體智能完成復雜任務,比如多智能體原型AutoGen模擬軟件公司的不同職位協(xié)作從而實現(xiàn)高質(zhì)量的代碼自動開發(fā)和文檔自動生成。

我覺得我們現(xiàn)在大概處于在第三層次(多模態(tài))和第四層次(和物理世界的交互)位置,其實第四層次都還沒有真正做到。

在我看來,如果有一個模型,它上知天文,下知地理,那只能說明它的記憶力很強,不代表它有智能。怎么樣算是有智能?我認為擁有自我意識,有自我學習的能力才能稱得上有智能。蘋果砸到機器人頭上,它能像牛頓那樣悟到萬有引力嗎? 

所以我認為,如果機器能發(fā)現(xiàn)人類還沒發(fā)現(xiàn)的東西,才算真正的 AGI。機器的知識多,并不代表它就有智能。我們現(xiàn)在是往 AGI 的方向在走,但是離  AGI 還有距離。


聯(lián)想集團的 AI 版圖

AI科技評論:我們都知道,聯(lián)想集團在2017年提出 All in AI 戰(zhàn)略,又在2023年升級為 AI for all,可以看到聯(lián)想集團以 AI 驅(qū)動企業(yè)智能化轉(zhuǎn)型的決心。作為一家同時擁有硬件基因和軟件實力的企業(yè),聯(lián)想集團在策略上對于 AI 有怎樣的布局?

芮勇:我覺得策略的制定需要參考兩個方向,其一是要結(jié)合企業(yè)本身的特點,其二是要結(jié)合 AI 技術的發(fā)展趨勢。把這兩件事考慮清楚了,企業(yè)應該怎么去做其實就很明了了。

首先聯(lián)想集團在硬件設備方面,無論是前端還是后端都做得非常強大。聯(lián)想集團的PC 是全球第一,平板是全球前三,手機在南美和北美成績也不錯,數(shù)據(jù)中心大概全球前五,高性能計算應該是全球第一。這是聯(lián)想集團的一個特點。轉(zhuǎn)變?yōu)?AI for all 的整個發(fā)展過程就是結(jié)合了聯(lián)想集團上述的特點和 AI 技術的發(fā)展趨勢。

其實我們很早就開始研究端側(cè)相關的模型,這類模型能自動檢測電腦是否開啟高性能模式,然后去釋放最大的能量,使得電腦能夠滿足當下的算力需求;如果判斷出只是在瀏覽網(wǎng)頁,則會去優(yōu)化電池的使用時間。

在邊側(cè),我們最重要的研究就是關于小樣本的學習。無論是在次品的檢測,還是其他方面,小樣本都比大樣本要難。而且次品的樣本非常少,如何在小樣本情況下訓練好模型?這是我們研究的課題。在云側(cè)或者是服務器集群這一側(cè),我們做的是一個分布式 AI 訓練推理平臺。所以不論是在端側(cè)、邊側(cè),還是在云側(cè),聯(lián)想集團其實很早就已經(jīng)下大功夫在做了,第一步以小模型為主,為之后大模型的研發(fā)埋下伏筆。

兩年前 OpenAI 真正的起飛之前,我們投入了一些跟大模型相關的關鍵技術,比如小樣本學習(few-shot learning)。像 GPT-3文章的標題是Language Models are Few-Shot Learners ,它講的是上下文小樣本學習技術(few-shot in-context learning)。在這方面他們和我們有異曲同工之妙。當時我們在做邊緣側(cè) AI 的時候,也是同樣的做法。我們在2019年就已經(jīng)在關注 Open AI 這家企業(yè),關注它所研發(fā)的大模型技術,一方面是我們自己在做小模型,另一方面也是在積累做大模型的經(jīng)驗。

等到 OpenAI 真正起飛的時候,我們也很快速地跟進了。在這次大模型里程碑式的浪潮中,每個企業(yè)各自擁抱大模型的姿勢都都會基于各自的強項而不盡相同。如果每個企業(yè)擁抱的姿勢一樣,那就錯了。一年多以前,我們就根據(jù)聯(lián)想集團自身特點制定了目標計劃。如果聯(lián)想集團要做大模型的話,就要按照混合 AI 的大框架去做。

我們把大模型分為不同的類型,像是 Open AI 做的 ChatGPT ,就屬于公共大模型。公共大模型,對于知識類的東西非常擅長。它在互聯(lián)網(wǎng)上看了很多天文地理、天南海北、古今中外的書,這是它的強項。

但除了公共大模型,還有私有大模型。這類大模型一般就是用在企業(yè)內(nèi)部,它通過企業(yè)內(nèi)部的數(shù)據(jù)進行優(yōu)化訓練。因為企業(yè)內(nèi)部有很多關鍵、敏感的數(shù)據(jù)和信息,而且要在企業(yè)內(nèi)網(wǎng)跑,所以不可能使用公共大模型。

還有一類,就是跑在設備端的個人模型。個人模型可以很大程度上滿足個性化需求,比如滿足喜好的出行計劃,但是公共大模型就沒辦法做到這樣,它只能給出千篇一律的答案,完全不具有針對性。它完全不知道你最喜歡的航空公司是哪一家?喜歡上午飛還是下午飛?喜歡什么酒店?只有建立在個人信息數(shù)據(jù)基礎上的個人大模型才能夠為用戶提供私人定制。

其實我們很早就看到有不同類型的大模型,我們把它稱作混合 AI。在我們的設想中,公共大模型跑在公有云上,私有大模型跑在企業(yè)內(nèi)網(wǎng),個人大模型跑在個人的設備側(cè)。

最近我看到公共大模型都開始爭相降價,甚至免費使用。聯(lián)想集團從以前就很清楚自己的定位,這些公共大模型就讓做公共大模型的廠商去做。我們主要聚焦兩類,一類是面向企業(yè)的私有大模型,一類是面向設備的個人大模型,這是我們的強項。

上述也只是我們制定大模型方案的第一部分,第二部分則是我近一年一直在強調(diào)的,重要的不是建大模型,而是用大模型,一定要有好的應用場景才能讓商業(yè)模式真正落地?;ヂ?lián)網(wǎng)這么火不是因為互聯(lián)網(wǎng)建好了這么火,而是因為互聯(lián)網(wǎng)上的應用很多,所以才紅火;移動互聯(lián)網(wǎng)也一樣,AI 同理。

所以說,我們從 2017 年的 All in AI 到現(xiàn)在的AI for all,其中的發(fā)展歷程是:最早投入研究小模型,然后開始關注大模型,積累有關大模型的關鍵技術,在大模型起飛后結(jié)合聯(lián)想集團本身企業(yè)側(cè)和端側(cè)的優(yōu)勢進行大模型的場景化應用,這就是三部曲。

AI科技評論:從投資層面來看,聯(lián)想創(chuàng)投也有人形機器人方面的布局,你們關心的是創(chuàng)業(yè)者的哪一個指標?同時,你們還看好哪些技術/產(chǎn)品趨勢?

芮勇:
過去這幾年聯(lián)想創(chuàng)投的回報都不錯,他們對某一個企業(yè)和創(chuàng)業(yè)者的核心指標的考察非常清晰,比如會關注創(chuàng)業(yè)者或企業(yè)對于整個產(chǎn)業(yè)協(xié)作的把控力,從產(chǎn)品進程和技術發(fā)展兩個維度進行判斷,光會做產(chǎn)品或是光有技術都不行,創(chuàng)投在這兩方面的平衡做得非常好。

聯(lián)想創(chuàng)投在機器人領域已經(jīng)布局了 20 多家的公司,也涵蓋了很多方面,包括像核心部件、本體以及執(zhí)行器。這幾年聯(lián)想創(chuàng)投主要是在移動和服務類型的機器人領域進行了投入,在人形機器人方面也有所投入。

從趨勢來看,具身智能之后會發(fā)展出幾個比較重要的方向,同時也是很具有挑戰(zhàn)的領域,比如底層的通用算法和硬件平臺,包括最底層這種模塊化電機、電機減速器和控制器;往上細數(shù),還有靈巧手、雙臂、輪式、足式等等。如果更細分的話,機器人的電子皮膚也是進行精細操作的關鍵組成部分。所以,在大方向上,聯(lián)想創(chuàng)投關注人形還有服務型機器人,同時還對很多關鍵的通用軟件和硬件設備有所關注。

AI科技評論:您認為什么樣的算法體系架構(gòu)能更好地支撐大模型和智能體技術的落地?

芮勇:我覺得滿足需求一定需要云邊端協(xié)同的體系架構(gòu)和算法平臺。如果用戶問百科知識類的問題,那么將問題發(fā)送到 ChatGPT 這類的云側(cè)大模型最合適。如果用戶要執(zhí)行工作中的一個任務,涉及企業(yè)數(shù)據(jù)和公司業(yè)務,那么就需要運行在企業(yè)邊緣服務器的私有大模型處理。如果用戶需要問題涉及個人偏好和隱私信息,比如網(wǎng)頁瀏覽歷史、購物記錄、私人文檔,那么需要使用設備本地的小模型。其實這就是剛才我提到的聯(lián)想集團混合式 AI 框架的理念,我們也正是以這樣的方式構(gòu)建企業(yè)智能體和個人智能體。這樣整體 AI 工作負載增強,用戶體驗也好很多。


AI是工具不是威脅

AI科技評論:據(jù)了解,研究具身智能的從業(yè)者里有硬件出身的,比如機器人方向,也有 AI 背景的,您覺得這樣不同背景的兩撥人做事時各自有哪些側(cè)重點?

芮勇:把具身智能給做好,必須要有這兩批人。光有機器人背景的人對 AI的了解可能不那么深刻,不懂 AI 就不懂大模型,不懂大模型就不懂離身智能,自然就很難做具身智能。光有 AI 背景也不夠,做AI的人基本上是搞軟件出身,他們不知道如何讓機器人去和環(huán)境進行交互,如何利用傳感器抓回信息。所以研究具身智能需要這兩批人緊密的合作。

但是研究背景不一樣,側(cè)重點自然也不一樣。比如有機器人背景的人,他們會對傳感器非常了解。傳感器就像我們?nèi)说奈骞偃ジ兄囊曈X、聽覺、觸覺等等,相當于機器人的輸入。輸入之外還有輸出。具身智能有具體的物理形態(tài),在物理世界里它需要去探索世界,去運動、抓取東西,這就涉及到執(zhí)行器方面的知識。

而 AI 背景的人基本上是跟機器人的大腦有關系。他們就負責對上面提到的傳感器數(shù)據(jù)進行分析,從這些數(shù)據(jù)中去學習,為智能體進行畫像,進行復雜任務分解。比如通過這個傳感器能知道環(huán)境是什么樣的,是在屋子里面還是屋子外邊,周圍有沒有障礙物等等,分析清楚之后生成一個最優(yōu)的輸出指令。所輸出的指令再通過執(zhí)行器進行自主定位、自我行走、落腳點的規(guī)劃、步態(tài)動作等等步驟。這兩批人都非常重要,他們的側(cè)重點不一樣而已,但是一定要相互配合協(xié)作。

AI科技評論:您認為,對于 AI 的研究來說,具身智能這個概念還能熱多久?它是否會成為未來主要的發(fā)展趨勢?

芮勇:
就像剛才談到的,從小模型到大模型,大模型再到智能體,智能體包括離身智能、具身智能,這一發(fā)展脈絡還是挺清晰的,所以我不覺得具身智能會是曇花一現(xiàn),現(xiàn)在具身智能確實是一個主流的研究方向。

過去機器人沒有做好,是因為它的大腦不夠發(fā)達,所用的模型太小,每一個都只能干一點事?,F(xiàn)在大模型出現(xiàn)了以后,就會類似從猴子的大腦變成人類大腦。隨著大模型和智能體的能力越來越強,具身智能也會變得越來越成為主流。

具身智能是生活和生產(chǎn)中一直以來的需求。最開始,機械臂在固定產(chǎn)線做固定動作,比如產(chǎn)品裝配、工件焊接,我們定義為機器人1.0時代。

后來,人們對機器人發(fā)展的訴求就與運動相關,希望機器人移動起來去完成一個任務,比如設備巡檢、酒店送餐。但這個任務有個前提條件,要知道環(huán)境的地圖,對環(huán)境中的物體有先驗知識,機器人才能在其中執(zhí)行任務,我們定義為機器人2.0時代。

當大模型和強化學習技術發(fā)展以后,我們可以讓機器人在未知環(huán)境中執(zhí)行之前沒有見過的任務,比如應急救援、野外探測,我們定義為機器人3.0時代。從機器人1.0, 到機器人2.0, 再到3.0, 具身智能越來越聰明。而且隨著技術的進步,具身智能的應用范圍越來越廣泛,機器人會普及到越來越多的領域。

AI科技評論:在這次人工智能的浪潮中,有沒有哪些需要大家重視的問題?

芮勇:
我比較關注人工智能發(fā)展帶來的安全問題?,F(xiàn)在大模型可以生成非常逼真的語音和視頻,有些人就利用這點來行騙,所以我們一定要加強人工智能的安全監(jiān)管,這是一方面。

另一方面,我認為在推動智能化發(fā)展的進程中,無論是具身智能還是離身智能,最終目的是為人類服務。如果發(fā)展到對人類產(chǎn)生威脅,或者它們的存在讓人類感到被敵視,我覺得就出現(xiàn)問題了。

人工智能,無論如何都只是我們?nèi)祟惖囊粋€工具。如果因為工具反而把人淘汰了,那么我們?yōu)槭裁匆プ鲞@個事情?我們希望人工智能、智能體或是具身智能,能把我們從一些繁瑣的、重復性的工作里解放出來。所以發(fā)展AI不是為了淘汰人類,而是為了解放人類,讓人類更好地享受生活,不能本末倒置,這樣我們現(xiàn)在做的這些工作才有意義。

此外,在具身智能方面,我還關注到物理世界里機器人對人類的安全風險問題。我認為需要為機器人建立一套行為規(guī)范和道德準則,比如說服從人類命令,永遠不能傷害人類,盡可能保護自己的生存安全等等。

AI科技評論:歷史上每一種新興技術的出現(xiàn)都引起很大討論。像是 AlexNet 的出現(xiàn)帶動了對深度學習的研究浪潮。您認為在具身智能領域,“里程碑”式的新興技術就是什么?現(xiàn)在出現(xiàn)了嗎?對這一領域,您有哪些技術期待?

芮勇:我覺得利用多模態(tài)生成式大模型實現(xiàn)端到端的具身智能是一個“里程碑”式的新興技術。利用這個技術,動作(action)也被認為是一種模態(tài),也可以轉(zhuǎn)換成tokens,和語言、圖像的tokens一起參與大模型的訓練。

例如,去年Google發(fā)布的RT-2是個視覺語言動作(Vision-Language-Action, VLA)大模型,它能夠根據(jù)用戶的自然語言指令和環(huán)境的圖像,直接操控機械臂完成任務。類似地,Tesla FSD之前的版本采用模塊化的設計,包括感知、規(guī)劃、控制等部分,而最新版的V12采用多模態(tài)大模型實現(xiàn)端到端的自動駕駛,從8個攝像頭觀察到的環(huán)境圖像直接生成加速、剎車、方向控制指令。

這種端到端系統(tǒng)更像是人類司機,根據(jù)觀察到的路況直接控制車輛。從用戶反饋來看,Tesla FSD V12表現(xiàn)出近乎完美的駕駛水準。同時整個系統(tǒng)重構(gòu),原來的30萬行控制代碼可以減少兩個數(shù)量級,極大地降低了工程開發(fā)成本。

然而,大模型這種端到端的數(shù)據(jù)驅(qū)動方法需要海量的訓練數(shù)據(jù),包括真實場景采集數(shù)據(jù)和模擬場景合成數(shù)據(jù)。即便有了海量訓練數(shù)據(jù),這種方法對未知場景和未知任務的泛化能力仍然不足。所以說,大模型是否學習到了完備的世界模型,或者說是否接近人類的認知,目前在業(yè)界爭議很大。

而且現(xiàn)在的大模型對物體空間關系和物理世界規(guī)律的理解還比較有限,就如我們看到 OpenAI Sora 生成的違背常識規(guī)律的視頻。所以,要想實現(xiàn)具身智能,還需要在空間理解和與三維世界互動方面取得突破。是沿著規(guī)模定律(scaling law) 發(fā)展的端到端方式的大模型路線,還是需要大模型與控制論方法相結(jié)合,才能得到完美解決方案,我們拭目以待。

人也是一個具身智能,我們既是一個智能體,又有物理的形態(tài)。簡而言之,我認為,什么時候大模型驅(qū)動的具身智能能夠達到人類的這種水平,我覺得真正劃時代的關鍵點就到了。

雷峰網(wǎng) 雷峰網(wǎng)(公眾號:雷峰網(wǎng)) 雷峰網(wǎng) 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪聯(lián)想集團 CTO 芮勇:智能體是具身智能的基礎|具身智能十人談

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說