0
本文作者: 隔壁王大喵 | 編輯:郭奕欣 | 2017-06-14 16:00 | 專(zhuān)題:CVPR 2017 |
李飛飛作為人工智能領(lǐng)域鮮有的活躍女性學(xué)者,不知道這一次她又帶領(lǐng)著團(tuán)隊(duì)做出了怎樣的貢獻(xiàn)呢?趕緊隨雷鋒網(wǎng)AI科技評(píng)論來(lái)看看吧。這項(xiàng)研究是李飛飛團(tuán)隊(duì)在今年CVPR上的一項(xiàng)最新工作,該方法提出了一種模型用于自動(dòng)標(biāo)注網(wǎng)絡(luò)中巨量的嘈雜視頻。
以下內(nèi)容是雷鋒網(wǎng)AI科技評(píng)論根據(jù)論文內(nèi)容進(jìn)行的部分編譯。
人類(lèi)行為多種多樣,而要如何才能讓機(jī)器理解具有多樣化和細(xì)粒度的人類(lèi)行為,則是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)關(guān)鍵性的開(kāi)放問(wèn)題。通過(guò)手工的方式標(biāo)注訓(xùn)練視頻,對(duì)于少數(shù)的動(dòng)作類(lèi)型是可行的,但是這種策略無(wú)法完整覆蓋豐富多樣的所有動(dòng)作。
圖一,該論文中的模型使用一組標(biāo)注數(shù)據(jù)來(lái)學(xué)習(xí)如何為新的沒(méi)有見(jiàn)過(guò)的動(dòng)作類(lèi)別進(jìn)行標(biāo)注的策略。這樣可以學(xué)習(xí)特定領(lǐng)域的專(zhuān)有知識(shí),以及如何在避免語(yǔ)義漂移(Semantic drift)的同時(shí)選擇不同的范例。比如,該模型可以從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí),如圖所示,其中人的動(dòng)作線索對(duì)正確動(dòng)作分類(lèi)的幫助更大(比如“騎馬”),而不是動(dòng)物的外形。在測(cè)試期間,這種知識(shí)可以被應(yīng)用于標(biāo)記一些全新類(lèi)別的嘈雜數(shù)據(jù),比如“飼養(yǎng)動(dòng)物”,而傳統(tǒng)的半監(jiān)督方法則是基于視覺(jué)相似(Visual similarity)性進(jìn)行標(biāo)注。
當(dāng)前,解決這一個(gè)問(wèn)題的一個(gè)可能有效的策略是,使用半監(jiān)督(Semi-supervised)或者“網(wǎng)絡(luò)監(jiān)督(Webly-supervised)”的方法,利用來(lái)自網(wǎng)絡(luò)檢索所產(chǎn)生的嘈雜數(shù)據(jù)來(lái)學(xué)習(xí)新的動(dòng)作。然而,這些方法要么通常無(wú)法學(xué)習(xí)到特定領(lǐng)域的知識(shí)(Domain-specific knowledge),要么依賴(lài)于需要不斷迭代的手工調(diào)整的數(shù)據(jù)標(biāo)簽策略(Hand-tuned data labeling policies)。據(jù)雷鋒網(wǎng)了解在這項(xiàng)研究中,李飛飛她們團(tuán)隊(duì)提出了一種基于增強(qiáng)學(xué)習(xí)(Reinforcement learning-based)的方法,該方法能夠從嘈雜的網(wǎng)絡(luò)檢索結(jié)果中篩選出適合于訓(xùn)練分類(lèi)器的樣本。
圖二,模型框架圖。該模型使用從網(wǎng)絡(luò)搜索所得的候選示例集,為特定的視覺(jué)概念學(xué)習(xí)分類(lèi)器。在每一個(gè)時(shí)間節(jié)距(time step)t,模型通過(guò)Q-learning的智能體來(lái)選擇樣本(比如Dk),并將該樣本加入到已經(jīng)存在的正樣本數(shù)據(jù)集Dt-1中構(gòu)成訓(xùn)練樣本。然后該訓(xùn)練樣本被用于訓(xùn)練視覺(jué)分類(lèi)器。分類(lèi)器將同時(shí)更新智能體的狀態(tài)st+1并提供一個(gè)獎(jiǎng)勵(lì)rt。然后在測(cè)試期間,經(jīng)過(guò)訓(xùn)練的智能體能夠用于從任意的全新的視覺(jué)概念的網(wǎng)絡(luò)檢索結(jié)果中,自動(dòng)選取出正樣本。
該方法的核心思想是,使用Q-learning來(lái)學(xué)習(xí)一個(gè)小型標(biāo)簽訓(xùn)練數(shù)據(jù)上的數(shù)據(jù)標(biāo)簽策略,然后再利用該模型來(lái)自動(dòng)標(biāo)注嘈雜的網(wǎng)絡(luò)數(shù)據(jù),以獲得新的視覺(jué)概念。
據(jù)雷鋒網(wǎng)了解,為了驗(yàn)證該方法,研究員們?cè)诋?dāng)前最富有挑戰(zhàn)性的動(dòng)作識(shí)別數(shù)據(jù)集Sports-1M上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)內(nèi)容包括動(dòng)作識(shí)別基準(zhǔn)、細(xì)粒度和新動(dòng)作類(lèi)別預(yù)測(cè)。通過(guò)實(shí)驗(yàn)證明了該方法能夠?yàn)猷须s數(shù)據(jù)學(xué)習(xí)到足夠好的標(biāo)簽,并且使用這些標(biāo)簽?zāi)軌驅(qū)W習(xí)到準(zhǔn)確的視覺(jué)概念分類(lèi)器。
Via Learning to Learn from Noisy Web Videos
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章