丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

CVPR 2019 最佳學(xué)生論文官方解讀!

本文作者: MrBear 編輯:幸麗娟 2019-07-25 11:08 專(zhuān)題:CVPR 2019
導(dǎo)語(yǔ):通往強(qiáng) AI 之路,從架起視覺(jué)與語(yǔ)言的橋梁開(kāi)始!

雷鋒網(wǎng) AI 科技評(píng)論按:作為人類(lèi)感知世界、進(jìn)行交互的兩大最重要的方式,視覺(jué)和語(yǔ)言一直是人工智能領(lǐng)域研究的重點(diǎn)。近年來(lái),將視覺(jué)與語(yǔ)言信息進(jìn)行融合和轉(zhuǎn)化成為了一個(gè)活躍的研究方向,許多讓人眼前一亮的工作也隨之產(chǎn)生。微軟研究院在文本中,對(duì)其獲得 CVPR 2019 最佳學(xué)生論文的工作進(jìn)行了技術(shù)解析,非常值得一讀!

人類(lèi)如何進(jìn)行高效的溝通呢?人們普遍認(rèn)為,人類(lèi)用來(lái)交流的詞語(yǔ)(例如「狗」)會(huì)引發(fā)對(duì)物理概念的相似理解。實(shí)際上,我們對(duì)于狗的物理外形、發(fā)出的聲音、行走或奔跑的方式等都有共同的概念。換句話說(shuō),自然語(yǔ)言與人類(lèi)與他們所處的環(huán)境之間的交互方式息息相關(guān)。因此,通過(guò)將自然語(yǔ)言基標(biāo)對(duì)準(zhǔn)到我們所處環(huán)境的各種模態(tài)中(例如圖像、動(dòng)作、物體、聲音等),可以產(chǎn)生有意義的行為。心理學(xué)領(lǐng)域最新的研究成果表明,嬰兒最可能學(xué)會(huì)的第一個(gè)單詞是基于其視覺(jué)體驗(yàn)的,這為嬰兒語(yǔ)言學(xué)習(xí)問(wèn)題的新理論奠定了基礎(chǔ)。那么現(xiàn)在問(wèn)題來(lái)了:我們是否能夠構(gòu)建出可以像人類(lèi)一樣,學(xué)著在不同模態(tài)下進(jìn)行溝通的智能體?

在各種多模態(tài)學(xué)習(xí)任務(wù)中,視覺(jué)-語(yǔ)言導(dǎo)航(VLN)是一類(lèi)十分有趣也極具挑戰(zhàn)性的任務(wù)。這是因?yàn)?,為了能夠以遵循自然語(yǔ)言指令的方式對(duì)真實(shí)環(huán)境中的智能體進(jìn)行導(dǎo)航,我們需要執(zhí)行兩層基標(biāo)對(duì)準(zhǔn):將指令基標(biāo)對(duì)準(zhǔn)到局部空間視覺(jué)場(chǎng)景中,然后將指令與全局時(shí)序視覺(jué)軌跡相匹配。最近,深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域的工作重點(diǎn)關(guān)注于通過(guò)在視覺(jué)上基標(biāo)對(duì)準(zhǔn)語(yǔ)言學(xué)習(xí)任務(wù),來(lái)連通視覺(jué)和自然語(yǔ)言理解的橋梁,從而構(gòu)建智能體,這要求研究人員具備機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理以及其它領(lǐng)域的專(zhuān)業(yè)知識(shí)。

對(duì)于這種基標(biāo)對(duì)準(zhǔn)任務(wù)而言,深度學(xué)習(xí)技術(shù)非常具有使用前景,這是因?yàn)槭褂蒙疃葘W(xué)習(xí)技術(shù)能夠使得同時(shí)從計(jì)算機(jī)視覺(jué)和語(yǔ)言的低級(jí)感知數(shù)據(jù)中學(xué)習(xí)到高級(jí)語(yǔ)義特征成為可能。此外,深度學(xué)習(xí)模型也使我們可以將不同模態(tài)的信息融合到同一種表征中?;A(chǔ)語(yǔ)言學(xué)習(xí)任務(wù)還要求與某個(gè)外部環(huán)境進(jìn)行交互;因此,強(qiáng)化學(xué)習(xí)為我們提供了一種優(yōu)雅的框架,能夠基于視覺(jué)層面來(lái)完成對(duì)話任務(wù)規(guī)劃。所有這些研究進(jìn)展使得解決具有挑戰(zhàn)性的 VLN 任務(wù)在技術(shù)上可行。

CVPR 2019 最佳學(xué)生論文官方解讀!

圖 1:視覺(jué)語(yǔ)言導(dǎo)航(VLN)任務(wù)示意圖。圖中展示了指令、局部視覺(jué)場(chǎng)景,以及從俯視視角描繪的全局軌跡。智能體并不能獲取俯視圖信息。路徑 A 是遵循指令得到的正確演示路徑。路徑 B 和 C 代表智能體執(zhí)行出的兩條路徑。

微軟研究院的視覺(jué)和語(yǔ)言研究人員一直致力于研究對(duì)自然語(yǔ)言和視覺(jué)交互進(jìn)行基標(biāo)對(duì)準(zhǔn)的各種不同的方法,并一直在應(yīng)對(duì) VLN 所特有的挑戰(zhàn)。 CVPR 2019 中,由微軟 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao,加州大學(xué)圣巴巴拉分校的王鑫、Yuan-Feng Wang、王威廉,以及杜克大學(xué)的 Dinghan Shen 共同完成的工作「Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation」獲得了最佳學(xué)生論文,微軟的 VLN 研究團(tuán)隊(duì)在本論文中探索了解決 VLN 領(lǐng)域這三個(gè)關(guān)鍵挑戰(zhàn)的方案:跨模態(tài)基標(biāo)對(duì)準(zhǔn)(cross-modal grounding)、不適定反饋(ill-posed feedback)以及泛化(generalization)問(wèn)題。不僅如此,這項(xiàng)工作所取得的好結(jié)果非常激動(dòng)人心!

其中的一個(gè)挑戰(zhàn)是,根據(jù)視覺(jué)圖像和自然語(yǔ)言指令進(jìn)行推理。如圖 1 所示,為了到達(dá)目的地(用黃色圓圈高亮表示),智能體需要將用單詞序列表征的指令對(duì)標(biāo)到局部的視覺(jué)場(chǎng)景中,并且將指令與全局時(shí)序空間中的視覺(jué)軌跡匹配起來(lái)。為了解決這個(gè)問(wèn)題,我們提出了一種新的強(qiáng)化跨模態(tài)匹配(RCM)方法,它可以通過(guò)強(qiáng)化學(xué)習(xí)在局部和全局進(jìn)行跨模態(tài)基礎(chǔ)標(biāo)對(duì)。

如圖 2a 所示,我們的研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)帶有兩種獎(jiǎng)勵(lì)函數(shù)的推理導(dǎo)航器。外部獎(jiǎng)勵(lì)會(huì)指導(dǎo)智能體學(xué)習(xí)文本指令和局部視覺(jué)場(chǎng)景之間的跨模態(tài)基礎(chǔ)對(duì)標(biāo),從而使智能體可以推測(cè)出要關(guān)注的子指令以及相應(yīng)的視覺(jué)內(nèi)容。同時(shí),從全局的角度來(lái)看,內(nèi)部獎(jiǎng)勵(lì)和匹配評(píng)價(jià)器一起,通過(guò)根據(jù)執(zhí)行的路徑重建原始指令的概率來(lái)評(píng)估一個(gè)執(zhí)行路徑,我們將其稱(chēng)為「循環(huán)重建」獎(jiǎng)勵(lì)。

CVPR 2019 最佳學(xué)生論文官方解讀!

圖 2:用于將自然語(yǔ)言指令與視覺(jué)環(huán)境對(duì)標(biāo)的強(qiáng)化跨模態(tài)匹配框架。

該內(nèi)部獎(jiǎng)勵(lì)對(duì)于這種 VLN 任務(wù)尤為重要;如何訓(xùn)練這些智能體,以及從它們的環(huán)境中獲取反饋是VLN 研究人員面臨的重大挑戰(zhàn)。在訓(xùn)練時(shí),學(xué)習(xí)遵循專(zhuān)家演示需要頻繁的反饋,從而使智能體可以保持在正確的軌跡上,并且按時(shí)到達(dá)目的地。然而,在 VLN 任務(wù)中,反饋是非常粗糙的,因?yàn)橹挥挟?dāng)智能體到達(dá)了某個(gè)目標(biāo)位置后才會(huì)提供「成功」的反饋,完全沒(méi)有考慮智能體是否遵循了指令(如圖 1 中的路徑 A 所示),或者是按照隨機(jī)的路徑到達(dá)了目的地(如圖 1 中路徑 C 所示)。如果智能體稍微比預(yù)計(jì)時(shí)間停止得早了一些(如圖 1 中的路徑 B 所示),即使與指令相匹配的「好」軌跡也可能被認(rèn)為是「不成功」的。這樣的話,不適定反饋可能會(huì)與最優(yōu)策略學(xué)習(xí)的結(jié)果不符。

如圖 2a 和 2b 所示,我們提出通過(guò)局部測(cè)量一個(gè)循環(huán)重建獎(jiǎng)勵(lì)來(lái)評(píng)價(jià)智能體遵循指令的能力;這種機(jī)制能夠提供一種細(xì)粒度的內(nèi)部獎(jiǎng)勵(lì)信號(hào),促使智能體更好地理解語(yǔ)言輸入,并且懲罰與指令不匹配的軌跡。舉例而言,如圖 1 所示,使用我們提出的獎(jiǎng)勵(lì),路徑 B 就會(huì)被認(rèn)為優(yōu)于路徑 C。

使用匹配評(píng)價(jià)器提供的內(nèi)部獎(jiǎng)勵(lì)以及環(huán)境提供外部獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練,我們的推理導(dǎo)航器會(huì)學(xué)著將自然語(yǔ)言指令同時(shí)在局部空間視覺(jué)場(chǎng)景和全局時(shí)序視覺(jué)軌跡進(jìn)行基標(biāo)對(duì)準(zhǔn)。在一個(gè) VLN 對(duì)比基準(zhǔn)數(shù)據(jù)集上的評(píng)估結(jié)果顯示,我們的 RCM 模型在 SPL(通過(guò)逆路徑長(zhǎng)度加權(quán)的成功率)指標(biāo)上顯著優(yōu)于之前的方法,提升高達(dá) 10%,實(shí)現(xiàn)了目前最佳的模型性能。

當(dāng)處于訓(xùn)練時(shí)未曾見(jiàn)過(guò)的環(huán)境中時(shí),VLN 智能體的性能會(huì)顯著降低。為了縮小這種差距,我們提出了一種通過(guò)自監(jiān)督學(xué)習(xí)探索未見(jiàn)過(guò)的環(huán)境的有效解決方案。通過(guò)這種新技術(shù),我們可以促進(jìn)終身學(xué)習(xí)以及對(duì)新環(huán)境的適應(yīng)。例如,家用機(jī)器人可以探索一個(gè)新的房子,然后通過(guò)學(xué)習(xí)之前的經(jīng)驗(yàn)迭代式地改進(jìn)導(dǎo)航策略。受到這一事實(shí)的啟發(fā),我們引入了一種自監(jiān)督模仿學(xué)習(xí)機(jī)制(SIL)來(lái)支持智能體對(duì)未見(jiàn)過(guò)的環(huán)境(沒(méi)有帶標(biāo)簽的數(shù)據(jù))進(jìn)行探索。其中,智能體會(huì)學(xué)習(xí)自己過(guò)去積極的經(jīng)驗(yàn)。

具體而言,在我們的框架中,導(dǎo)航器將執(zhí)行多次「roll-out」策略,其中好的軌跡(由匹配評(píng)價(jià)器確定)將會(huì)被保存在經(jīng)驗(yàn)回放緩存中,然后被導(dǎo)航器用于模仿。通過(guò)這種方式,當(dāng)行器可以對(duì)其最佳行為進(jìn)行近似,從而得到更好地策略。我們能夠證明 SIL 可以近似得到一個(gè)更好、更高效的策略,這極大地縮小了訓(xùn)練時(shí)見(jiàn)過(guò)和未曾見(jiàn)過(guò)的環(huán)境之間的成功率的性能差異(從 30.7% 降低到 11.7%)。

非常榮幸,這篇論文被選為了 CVPR 2019 的最佳學(xué)生論文。用 CVPR 2019 最佳論文獎(jiǎng)組委會(huì)的話來(lái)說(shuō),就是「視覺(jué)導(dǎo)航是計(jì)算機(jī)視覺(jué)的一個(gè)重要領(lǐng)域,而這篇論文在視覺(jué)-語(yǔ)言導(dǎo)航方面取得了進(jìn)展。在該領(lǐng)域之前工作的基礎(chǔ)上,該論文在跨模態(tài)環(huán)境下基于自模仿學(xué)習(xí)所取得的成果令人激動(dòng)!」熱烈祝賀這篇論的作者們:來(lái)自加州大學(xué)圣巴巴拉分校的王鑫、Yuan-Fang Wang、王威廉,來(lái)自微軟 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao, 以及來(lái)自杜克大學(xué)的 Dinghan Shen。其中,王鑫對(duì)這一工作所做的貢獻(xiàn)是其在微軟研究院實(shí)習(xí)期間完成的。

在另外一篇 CVPR 2019 論文「Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation」(由微軟 AI 研究院的 Xiujun Li 和 Jianfeng Gao,華盛頓大學(xué)的 Liyiming Ke、Yonatan Bisk、Ari Holtzman、Yejin Choi、Siddhartha Srinivasa,以及微軟 Dynamics AI 的 Zhe Gan 和 Jingjing Liu 共同完成)中,我們改進(jìn)了 VLN 智能體的搜索方法,提出了一個(gè)被稱(chēng)為「快速導(dǎo)航器」(Fast Navigator)的動(dòng)作編碼的通用框架,使智能體能夠基于局部和全局的信息比較長(zhǎng)度不同的部分路徑,并且在出錯(cuò)時(shí)進(jìn)行回溯。

我們注意到,VLN 與文本生成任務(wù)有一些相似之處,所有現(xiàn)有的工作可以被分為兩類(lèi):

  • 貪婪搜索(Greedy search)——在每個(gè)時(shí)間步做出決策時(shí),智能體僅僅考慮局部信息,其中所有的智能體都存在「exposure bias」的現(xiàn)象,這是序列生成任務(wù)中的一類(lèi)典型問(wèn)題;

  • 集束搜索(Beam search)是另一個(gè)極端。智能體會(huì)使用「roll-out」策略生成多條軌跡,然后選擇最好的那一條。盡管這種方法提升了成功率,但是其計(jì)算成本與軌跡數(shù)成正比,并且這種成本可能十分巨大。不可能會(huì)有人部署一個(gè)在執(zhí)行每次命令前都要在房子里重復(fù)進(jìn)行 100 次導(dǎo)航(即使它最終到達(dá)了正確的位置)的家用機(jī)器人吧!

總的來(lái)說(shuō),當(dāng)前的 VLN 模型面臨著兩大核心問(wèn)題:首先,我們應(yīng)該回溯嗎?如果我們應(yīng)該回溯,那么我們應(yīng)該回溯到哪一步呢?其次,我們應(yīng)該在何時(shí)停止搜索?

為了使智能體能夠在出錯(cuò)時(shí)進(jìn)行回溯,我們將搜索與神經(jīng)編碼結(jié)合了起來(lái),從而使得智能體可以基于局部和全局信息比較長(zhǎng)度不同的部分路徑,然后在發(fā)現(xiàn)錯(cuò)誤時(shí)進(jìn)行回溯。為了確定我們是否應(yīng)該停止搜索,我們使用了一個(gè)融合函數(shù),該函數(shù)會(huì)將局部動(dòng)作知識(shí)和歷史轉(zhuǎn)化為一個(gè)進(jìn)度的估計(jì)值,從而通過(guò)對(duì)我們之前的動(dòng)作與給定的文本指令的匹配程度建模來(lái)評(píng)估智能體的進(jìn)度。

 via https://www.microsoft.com/en-us/research/blog/see-what-we-mean-visually-grounded-natural-language-navigation-is-going-places/  雷鋒網(wǎng) 雷鋒網(wǎng) 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

CVPR 2019 最佳學(xué)生論文官方解讀!

分享:
相關(guān)文章

知情人士

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)