像調(diào)教小狗一樣，調(diào)教機(jī)器人做家務(wù)

本文作者： AI科技評(píng)論

2016-05-24 17:33

導(dǎo)語(yǔ)：沒(méi)有編程經(jīng)驗(yàn)的用戶，也可以訓(xùn)練機(jī)器人學(xué)習(xí)新技能。

今年8月，雷鋒網(wǎng)將在深圳舉辦盛況空前的“全球人工智能與機(jī)器人峰會(huì)”，屆時(shí)雷鋒網(wǎng)將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單。目前，我們正在拜訪人工智能、機(jī)器人領(lǐng)域的相關(guān)公司，從中篩選最終入選榜單的公司名單。

如果你也想加入我們的榜單之中，請(qǐng)聯(lián)系：2020@leiphone.com。

像調(diào)教小狗一樣，調(diào)教機(jī)器人做家務(wù)

訓(xùn)練機(jī)器狗的虛擬環(huán)境。圖片來(lái)源：華盛頓州立大學(xué)。

華盛頓州立大學(xué)的研究人員正在使用訓(xùn)練動(dòng)物的想法，幫助非專業(yè)用戶訓(xùn)練機(jī)器人如何執(zhí)行預(yù)期任務(wù)。

當(dāng)機(jī)器人在社會(huì)中越來(lái)越普遍，人類開始希望它們能做一些家務(wù)瑣事，比如打掃房間，做飯，等等。不過(guò)，對(duì)于那些沒(méi)有編程經(jīng)驗(yàn)的人來(lái)說(shuō)，讓機(jī)器人開始執(zhí)行一個(gè)任務(wù)，必須給予一定的指引說(shuō)明。“所以，我們需要為普通人提供一種訓(xùn)練機(jī)器人的方式，無(wú)需編程就能做到?！盡atthew Taylor說(shuō)道，他是華盛頓州立大學(xué)電子工程與計(jì)算機(jī)科學(xué)學(xué)院教授。

Bei Peng是布朗大學(xué)和北卡羅萊納州立大學(xué)計(jì)算機(jī)科學(xué)專業(yè)博士生兼項(xiàng)目協(xié)作員。在他的幫助下，Taylor在華盛頓州立大學(xué)智能機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室設(shè)計(jì)了一款計(jì)算機(jī)程序，即便用戶沒(méi)有任何計(jì)算機(jī)編程專業(yè)知識(shí)也可以教會(huì)虛擬機(jī)器人學(xué)習(xí)任務(wù)，這個(gè)虛擬機(jī)器人位于華盛頓州立大學(xué)的智能機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室，是一只虛擬小狗。

為了進(jìn)行學(xué)術(shù)研究，研究人員改變了虛擬狗的反應(yīng)速度。當(dāng)人們訓(xùn)練真正的動(dòng)物學(xué)習(xí)某項(xiàng)新技能時(shí)，相對(duì)較慢的運(yùn)動(dòng)能讓訓(xùn)練人員知道，虛擬狗是否理解該如何做出行為反應(yīng)，這樣訓(xùn)練人員才能提供更清晰的指導(dǎo)，幫助機(jī)器人更好的學(xué)習(xí)。

研究人員已經(jīng)開始在實(shí)體機(jī)器人和虛擬機(jī)器人上做實(shí)驗(yàn)，最終，他們希望使用這款程序幫助人們成為一個(gè)高效率的動(dòng)物訓(xùn)練員。

在最近舉辦的國(guó)際自動(dòng)代理與多代理系統(tǒng)會(huì)議（注：international Autonomous Agents and Multiagent Systems conference，該大會(huì)是一個(gè)匯聚機(jī)器人代理服務(wù)商和機(jī)器人研究的科學(xué)大會(huì)）上，研究人員展示了他們的工作成績(jī)。此外，該項(xiàng)目還獲得了美國(guó)國(guó)家科學(xué)基金會(huì)的資金支持。

當(dāng)機(jī)器人在人類世界里變得越來(lái)越常見(jiàn)，讓那些沒(méi)有編程經(jīng)驗(yàn)的用戶訓(xùn)練機(jī)器人學(xué)習(xí)新技能，就變得尤為重要。在現(xiàn)有的交互強(qiáng)化學(xué)習(xí)技術(shù)（Interactive Reinforcement Learning）里，絕大多數(shù)只專注于解釋或整合非專業(yè)的人類反饋，以此加速機(jī)器人的學(xué)習(xí)速度；我們的目標(biāo)，是給學(xué)習(xí)代理器程序設(shè)計(jì)一個(gè)更好的表現(xiàn)，讓這個(gè)程序能在人類訓(xùn)練者和學(xué)習(xí)者之間引出更多自然且高效的交流。而人類反饋離散的通訊信息，概率上取決于訓(xùn)練者的定位策略概率。這項(xiàng)工作需要一個(gè)用戶研究，通過(guò)在不同模擬環(huán)境下給予的不同獎(jiǎng)勵(lì)和/或懲罰，參與者訓(xùn)練一個(gè)虛擬代理器程序去完成各種任務(wù)。我們的研究成果來(lái)自于60個(gè)參與者，展示了學(xué)習(xí)者可以學(xué)習(xí)自然語(yǔ)言命令，并適應(yīng)其行為執(zhí)行速度，以此更高效地從人類訓(xùn)練者那里學(xué)習(xí)。這個(gè)代理器程序的行為執(zhí)行速度可以成功被調(diào)整，繼而鼓勵(lì)從人類訓(xùn)練者那里獲得更多明確的反饋（特別是在一些高度不確定的狀態(tài)領(lǐng)域里）。我們的研究結(jié)果表明，我們創(chuàng)新的自適應(yīng)速度代理器程序在一些性能評(píng)估上優(yōu)于那些固定速度代理器程序。此外，我們還研究了在訓(xùn)練條件下，指令對(duì)用戶性能和用戶偏好的影響。

via Kurzweilai

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

AI科技評(píng)論

編輯

發(fā)私信

當(dāng)月熱門文章

像調(diào)教小狗一樣，調(diào)教機(jī)器人做家務(wù)

像調(diào)教小狗一樣，調(diào)教機(jī)器人做家務(wù)