0
本文作者: 岑大師 | 2017-11-18 14:12 |
本文為近日召開的CoRL 2017大會(huì)上,MIT TR 35得主、UC Berkeley助理教授 Anca Dragan 所做的演講整理,雷鋒網(wǎng)作為受邀媒體參加了CoRL大會(huì),并與Anca Dragan進(jìn)行了交流。在雷鋒網(wǎng)將于1月舉辦的GAIR硅谷智能駕駛峰會(huì)上,Anca Dragan也將出席并發(fā)表演講。
Anca Dragan現(xiàn)任UC Berkeley的電子工程與計(jì)算機(jī)科學(xué)助理教授及InterACT實(shí)驗(yàn)室主任。為了令機(jī)器人更好地協(xié)同人類工作,Anca Dragan帶領(lǐng)InterACT實(shí)驗(yàn)室開始專注于人機(jī)交互算法的研究,試圖將復(fù)雜或模糊的人類行為轉(zhuǎn)化為機(jī)器人能理解的簡(jiǎn)易數(shù)學(xué)模型,通過建立博弈理論和動(dòng)力系統(tǒng)理論,聚焦于發(fā)現(xiàn)或?qū)W習(xí)人類行為模型,并計(jì)算連續(xù)狀態(tài)和行動(dòng)空間。
MIT科技評(píng)論給她評(píng)的獎(jiǎng)項(xiàng)為“遠(yuǎn)見者”,稱“她致力于確保機(jī)器人與人類可以和諧地共同生活”。在獲獎(jiǎng)報(bào)道中,Anca Dragan表示:
當(dāng)人們?cè)噲D與機(jī)器人共事時(shí),許多沖突都來自于雙方對(duì)彼此的不了解,如果機(jī)器人能夠理解它可能對(duì)人類情緒造成的影響,就有望解決這一問題。
Anca Dragan認(rèn)為,機(jī)器人與人工智能的正確觀點(diǎn)應(yīng)該是機(jī)器人試圖優(yōu)化人的目標(biāo)函數(shù)。機(jī)器人不應(yīng)該將任何客觀的功能視為理所當(dāng)然,而應(yīng)該與人類一起去發(fā)現(xiàn)他們真正想要的是什么。該研究在短期之內(nèi)最重要的應(yīng)用莫過于幫助自動(dòng)駕駛汽車與傳統(tǒng)汽車預(yù)判對(duì)方可能的行為,而在演講中,Anca Dragan也多次提到了這一點(diǎn)。以下即為雷鋒網(wǎng)整理的演講內(nèi)容摘要:
Anca Dragan的PPT題目為《人類進(jìn)入機(jī)器人方程》。在傳統(tǒng)的機(jī)器人路徑規(guī)劃問題中,機(jī)器人通常將人類視為和其他不能移動(dòng)的物體一樣的避障目標(biāo),而Anca希望將人類作為機(jī)器人決策的一個(gè)“變量”實(shí)現(xiàn)和人類的最優(yōu)交互。
最簡(jiǎn)單的狀態(tài),只有機(jī)器人和交互的物體,則機(jī)器人的效用函數(shù)為UR,該效用函數(shù)包含的變量包括初始狀態(tài)x0以及運(yùn)動(dòng)軌跡uR。
但現(xiàn)實(shí)中,機(jī)器人需要和三類不同的人打交道:在運(yùn)行環(huán)境中的其他人、其使用者,以及其設(shè)計(jì)者。
出于安全的考慮,以往通常將人視為機(jī)器人行動(dòng)和路線規(guī)劃中需要避讓的“障礙物”;
但在人類交互當(dāng)中往往存在某種博弈行為,如這個(gè)超車變道的例子,黑色小車意圖超車,但銀色卡車寸步不讓。如果我們與他人的交互都像這個(gè)司機(jī)一樣,則會(huì)造成許多沖突,但無(wú)人駕駛車不會(huì)像小汽車司機(jī)這樣做,他們會(huì)感知到這里可能沒有足夠的超車空間,會(huì)選擇減速在卡車后變道;
如果我們將人視為需要規(guī)避的障礙物進(jìn)行建模,那意味著我們將人類視為這個(gè)例子中不會(huì)改變主意的卡車司機(jī)一樣進(jìn)行建模。
另一個(gè)Google Car無(wú)法順利通過四面都有停車標(biāo)志的十字路口的例子。在這個(gè)例子中,傳感器會(huì)一直探測(cè)到有人類司機(jī)并進(jìn)行避讓,而人類司機(jī)可以通過一寸一寸向前挪動(dòng)讓Google無(wú)法行動(dòng)。
漫畫:“你先走還是我先走?”在圖中,無(wú)人車讓人類先走,但行人并不打算走而是揮舞手臂,則會(huì)讓無(wú)人車?yán)Щ蟆?/p>
機(jī)器人與人類的互動(dòng)。此時(shí)機(jī)器人的效用函數(shù)UR包含三個(gè)變量:初始狀態(tài)x0、機(jī)器人運(yùn)動(dòng)軌跡uR以及人類運(yùn)動(dòng)軌跡uH,此時(shí)人類的效用函數(shù)UH也包含三個(gè)變量:初始狀態(tài)x0、人類運(yùn)動(dòng)軌跡uH以及覺察到有機(jī)器人后的隱形影響因子θH;
我們現(xiàn)在在做的研究:人并不是障礙,而是將其視為需要通過自己效用函數(shù)進(jìn)行優(yōu)化的智能體,但我們并不知道其效用函數(shù),參數(shù)是隱藏的;機(jī)器通過人的動(dòng)作估計(jì)隱藏狀態(tài),估計(jì)其下一步行為,如果機(jī)器人對(duì)人的下一步動(dòng)作有估計(jì),那么機(jī)器人會(huì)將其加入到自己的效用函數(shù)中:如果這件事情發(fā)生,我應(yīng)該怎么做才是最好的選擇。
Anca 6年前做的研究,與人類內(nèi)部狀態(tài)的相互作用,機(jī)器預(yù)測(cè)我要做什么,并幫我更好實(shí)現(xiàn)目標(biāo)。
以及最近的Paper。
當(dāng)人類也考慮機(jī)器人的行為來調(diào)整自己的行為時(shí),其效用函數(shù)UH變?yōu)樗膫€(gè)變量:初始狀態(tài)x0、人類運(yùn)動(dòng)軌跡uH、機(jī)器人運(yùn)動(dòng)軌跡UR及覺察到有機(jī)器人后的隱形影響因子θH。有不少證據(jù)表明人們實(shí)際上并不一定去在博弈中實(shí)現(xiàn)均衡,因?yàn)槿祟愂峭ㄟ^計(jì)算達(dá)到平衡的。
我們?nèi)绾握f明機(jī)器人對(duì)人類行為的影響?
例如,在這個(gè)軌道車的例子中,你的效用函數(shù)和你如何動(dòng)操作桿有關(guān);
再看一個(gè)無(wú)人車與人類司機(jī)交互的例子。上圖中的橙色汽車是無(wú)人駕駛車,UR是無(wú)人駕駛車軌跡,UH是人類駕駛軌跡,如果我們考慮的是在特定的UR下,UH應(yīng)該如何達(dá)到最優(yōu),這樣人類可以更好地響應(yīng)機(jī)器人的行為。
在這個(gè)例子中,這是一個(gè)保證效率和安全的博弈。人類的參數(shù)是隱藏的,我們通過反向優(yōu)化控制來猜測(cè)這些數(shù)據(jù),機(jī)器人收集這些展示人們將如何與機(jī)器人互動(dòng)的數(shù)據(jù),設(shè)置一個(gè)最大似然觀察,然后機(jī)器人去解決這個(gè)嵌套優(yōu)化問題,即當(dāng)人不可避免地受到我所做的事情的影響時(shí),我該怎么做才能最大限度地將我的效用最大化?最終會(huì)達(dá)到人和機(jī)器人的和諧協(xié)作。
接下來Anca展示了一些簡(jiǎn)化后的例子。如果將人類車輛當(dāng)做一個(gè)需要避障的目標(biāo)并推斷其行為,無(wú)人車通常在人類車輛后變道。在少數(shù)情況下,人類車輛之前有充足的空間的時(shí)候,無(wú)人車會(huì)超車變道,因?yàn)樵谶@個(gè)嵌套優(yōu)化中,機(jī)器人知道,如果它按這一方式超車變道,那么人的反應(yīng)就是放慢速度,讓無(wú)人車進(jìn)入。
在這一模式中,機(jī)器人不再處于被動(dòng)狀態(tài),而是更好地和人進(jìn)行互動(dòng)。Anca稱她最喜歡的一個(gè)例子是,仍然是四面停止標(biāo)志的十字路口,當(dāng)處于僵持、沒有乘客的無(wú)人車(橙色)需要表示“你先走”的時(shí)候,無(wú)人車會(huì)稍稍后退,在這個(gè)路口中,人類司機(jī)同樣在進(jìn)行效率和安全的博弈,而當(dāng)無(wú)人車后退的時(shí)候,車輛相撞的幾率變小,此時(shí)人類司機(jī)就會(huì)通過路口,達(dá)到人類車輛效用函數(shù)的最大化。這是一個(gè)無(wú)人車影響人類效用函數(shù)的例子,同時(shí)也是很令人驚異的發(fā)現(xiàn),因?yàn)槿祟愃緳C(jī)從不會(huì)通過后退表示讓對(duì)方先走。
同樣在這個(gè)漫畫的例子中,無(wú)人車也可以通過稍稍后退讓行人先走打破僵局。
三種模型下,真實(shí)用戶不同反應(yīng)的影響。
這一模型仍然存在某些局限性,如效用局限于已知的Feature的線性組合,假設(shè)感知問題已經(jīng)得到解決,對(duì)車輛運(yùn)行進(jìn)行了簡(jiǎn)化,等等。
而且我們不能用一些線下訓(xùn)練的模型來用來套到實(shí)際的駕駛中,萬(wàn)一遇到之前那個(gè)不肯避讓的二愣子卡車司機(jī)就麻煩了。所以需要對(duì)每個(gè)司機(jī)的行為進(jìn)行具體的估計(jì)。
通過對(duì)人類司機(jī)駕駛軌跡的觀察,可以推斷出司機(jī)的駕駛風(fēng)格:比較激進(jìn)或者比較保守,并采取正確的策略,如判斷對(duì)方是一個(gè)保守型的司機(jī)的時(shí)候,在其前面變道超車對(duì)方通常會(huì)避讓。
像這種情況的激進(jìn)型司機(jī),無(wú)人車只能放棄變道。
而在十字路口的例子中,無(wú)人車需要判斷這個(gè)司機(jī)是否注意其他車輛的動(dòng)作。
在優(yōu)化之外的緊急場(chǎng)景的系統(tǒng)協(xié)調(diào)策略又是怎樣的呢?
當(dāng)僅和最終用戶交互的時(shí)候,無(wú)需考慮兩個(gè)效用函數(shù),只需要和人類站一邊考慮UH最大化即可。
上述討論的很多都是機(jī)器人如何估計(jì)人類隱藏參數(shù)的研究,另一種方式則是人如何思考與機(jī)器人互動(dòng)中的參數(shù)的推斷,這方面的研究一直在進(jìn)行,而且需要機(jī)器人有更多的表現(xiàn)力。對(duì)于不同人,機(jī)器人同樣的動(dòng)作也會(huì)產(chǎn)生不同的后果,即便人類無(wú)法正確推斷機(jī)器人行為的時(shí)候,至少要讓他們知道發(fā)生了什么事,你想做的是什么,為什么交互沒有取得更好的結(jié)果等等。機(jī)器人需要注意這個(gè)更微妙的影響,因?yàn)樗鼪Q定了人們是否了解機(jī)器人正在做什么,是否有信心在執(zhí)行任務(wù)等。
然而我們(設(shè)計(jì)者)在為機(jī)器人指定效用函數(shù)的時(shí)候做的不怎么樣,機(jī)器人的獎(jiǎng)勵(lì)值通常具有不確定性,這往往會(huì)帶來出人意料的結(jié)果。
例如在OpenAI的一篇論文中,白色小船的目標(biāo)是在游戲中獲得盡可能多的分,但在這里白色小船卻偏離了賽道打起圈子(因?yàn)槟懿粩喑缘綄毾洌?/p>
另一個(gè)例子,如果設(shè)定一個(gè)吸塵機(jī)器人的獎(jiǎng)勵(lì)函數(shù)是吸盡量多的灰塵,那么機(jī)器人會(huì)不會(huì)在吸完灰塵后把手機(jī)起來的灰塵倒出來,然后繼續(xù)吸塵以達(dá)到最大的獎(jiǎng)勵(lì)值?
又或者,像迪士尼動(dòng)畫片米奇用魔法教一把掃把幫其挑水,最后這把掃把不斷挑水(獲得最大獎(jiǎng)勵(lì)值)把整個(gè)屋子給淹了一樣;
讓我們來分析一下這是如何產(chǎn)生的。例如小船游戲的例子,當(dāng)設(shè)置得分為獎(jiǎng)勵(lì)值,當(dāng)機(jī)器發(fā)現(xiàn)有兩個(gè)策略:1)排名第一但僅獲得20分;2)排名靠后但能獲得50分,機(jī)器人選擇的是后者。
這樣,設(shè)計(jì)者需要改變獎(jiǎng)勵(lì)值(找到真正的獎(jiǎng)勵(lì)值)以使得機(jī)器人按預(yù)定目標(biāo)進(jìn)行決策,或者讓機(jī)器人能夠推測(cè)到設(shè)計(jì)者的真正意圖。但二者均有不足之處。
另一個(gè)包含草地、灰塵、熔巖和最終目標(biāo)的導(dǎo)航場(chǎng)景的例子。
假設(shè)訓(xùn)練時(shí)的狀態(tài),獎(jiǎng)勵(lì)函數(shù)是盡可能少走草地得分越高的話,結(jié)果會(huì)如上圖所示(此時(shí)沒有出現(xiàn)熔巖)。
策略1:設(shè)計(jì)師有基于指標(biāo)的指示器,并建立從原始觀察值到指標(biāo)的分類器,此時(shí)將訓(xùn)練的模型放到有巖漿的例子中時(shí),機(jī)器人往往會(huì)越過巖漿到達(dá)終點(diǎn)(并非想要的結(jié)果)
策略2:而如果設(shè)定反向激勵(lì),機(jī)器人會(huì)對(duì)訓(xùn)練時(shí)未出現(xiàn)的元素敬而遠(yuǎn)之,機(jī)器人不知道巖漿是好雞還是懷,也可能如上圖所示錯(cuò)過“金礦”。
通過以上例子,說明需要在訓(xùn)練環(huán)境的背景下對(duì)特定的獎(jiǎng)勵(lì)進(jìn)行觀察找到真正的獎(jiǎng)勵(lì),而在執(zhí)行中人類的指導(dǎo)則是找到真正獎(jiǎng)勵(lì)的關(guān)鍵(如迪士尼動(dòng)畫片中,米奇讓掃把停止打水)。
這樣,機(jī)器人可以從從豐富的指導(dǎo)模式中學(xué)習(xí)。
簡(jiǎn)單來說,如果機(jī)器人能夠理解它可能對(duì)人類情緒造成的影響,就可以更好地進(jìn)行決策,并在更廣泛的領(lǐng)域于人類更有效進(jìn)行協(xié)作,給我們生活帶來更多便利與驚喜。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。