1
本文作者: AI科技評(píng)論 | 2016-05-24 17:33 |
今年8月,雷鋒網(wǎng)將在深圳舉辦盛況空前的“全球人工智能與機(jī)器人峰會(huì)”,屆時(shí)雷鋒網(wǎng)將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在拜訪人工智能、機(jī)器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。
如果你也想加入我們的榜單之中,請(qǐng)聯(lián)系:2020@leiphone.com。
訓(xùn)練機(jī)器狗的虛擬環(huán)境。圖片來(lái)源:華盛頓州立大學(xué)。
華盛頓州立大學(xué)的研究人員正在使用訓(xùn)練動(dòng)物的想法,幫助非專業(yè)用戶訓(xùn)練機(jī)器人如何執(zhí)行預(yù)期任務(wù)。
當(dāng)機(jī)器人在社會(huì)中越來(lái)越普遍,人類開始希望它們能做一些家務(wù)瑣事,比如打掃房間,做飯,等等。不過(guò),對(duì)于那些沒(méi)有編程經(jīng)驗(yàn)的人來(lái)說(shuō),讓機(jī)器人開始執(zhí)行一個(gè)任務(wù),必須給予一定的指引說(shuō)明。“所以,我們需要為普通人提供一種訓(xùn)練機(jī)器人的方式,無(wú)需編程就能做到?!盡atthew Taylor說(shuō)道,他是華盛頓州立大學(xué)電子工程與計(jì)算機(jī)科學(xué)學(xué)院教授。
Bei Peng是布朗大學(xué)和北卡羅萊納州立大學(xué)計(jì)算機(jī)科學(xué)專業(yè)博士生兼項(xiàng)目協(xié)作員。 在他的幫助下,Taylor在華盛頓州立大學(xué)智能機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室設(shè)計(jì)了一款計(jì)算機(jī)程序,即便用戶沒(méi)有任何計(jì)算機(jī)編程專業(yè)知識(shí)也可以教會(huì)虛擬機(jī)器人學(xué)習(xí)任務(wù),這個(gè)虛擬機(jī)器人位于華盛頓州立大學(xué)的智能機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室,是一只虛擬小狗。
為了進(jìn)行學(xué)術(shù)研究,研究人員改變了虛擬狗的反應(yīng)速度。當(dāng)人們訓(xùn)練真正的動(dòng)物學(xué)習(xí)某項(xiàng)新技能時(shí),相對(duì)較慢的運(yùn)動(dòng)能讓訓(xùn)練人員知道,虛擬狗是否理解該如何做出行為反應(yīng),這樣訓(xùn)練人員才能提供更清晰的指導(dǎo),幫助機(jī)器人更好的學(xué)習(xí)。
研究人員已經(jīng)開始在實(shí)體機(jī)器人和虛擬機(jī)器人上做實(shí)驗(yàn),最終,他們希望使用這款程序幫助人們成為一個(gè)高效率的動(dòng)物訓(xùn)練員。
在最近舉辦的國(guó)際自動(dòng)代理與多代理系統(tǒng)會(huì)議(注:international Autonomous Agents and Multiagent Systems conference,該大會(huì)是一個(gè)匯聚機(jī)器人代理服務(wù)商和機(jī)器人研究的科學(xué)大會(huì))上,研究人員展示了他們的工作成績(jī)。此外,該項(xiàng)目還獲得了美國(guó)國(guó)家科學(xué)基金會(huì)的資金支持。
當(dāng)機(jī)器人在人類世界里變得越來(lái)越常見(jiàn),讓那些沒(méi)有編程經(jīng)驗(yàn)的用戶訓(xùn)練機(jī)器人學(xué)習(xí)新技能,就變得尤為重要。在現(xiàn)有的交互強(qiáng)化學(xué)習(xí)技術(shù)(Interactive Reinforcement Learning)里,絕大多數(shù)只專注于解釋或整合非專業(yè)的人類反饋,以此加速機(jī)器人的學(xué)習(xí)速度;我們的目標(biāo),是給學(xué)習(xí)代理器程序設(shè)計(jì)一個(gè)更好的表現(xiàn),讓這個(gè)程序能在人類訓(xùn)練者和學(xué)習(xí)者之間引出更多自然且高效的交流。而人類反饋離散的通訊信息,概率上取決于訓(xùn)練者的定位策略概率。這項(xiàng)工作需要一個(gè)用戶研究,通過(guò)在不同模擬環(huán)境下給予的不同獎(jiǎng)勵(lì)和/或懲罰,參與者訓(xùn)練一個(gè)虛擬代理器程序去完成各種任務(wù)。我們的研究成果來(lái)自于60個(gè)參與者,展示了學(xué)習(xí)者可以學(xué)習(xí)自然語(yǔ)言命令,并適應(yīng)其行為執(zhí)行速度,以此更高效地從人類訓(xùn)練者那里學(xué)習(xí)。這個(gè)代理器程序的行為執(zhí)行速度可以成功被調(diào)整,繼而鼓勵(lì)從人類訓(xùn)練者那里獲得更多明確的反饋(特別是在一些高度不確定的狀態(tài)領(lǐng)域里)。我們的研究結(jié)果表明,我們創(chuàng)新的自適應(yīng)速度代理器程序在一些性能評(píng)估上優(yōu)于那些固定速度代理器程序。此外,我們還研究了在訓(xùn)練條件下,指令對(duì)用戶性能和用戶偏好的影響。
via Kurzweilai
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。