0
本文作者: 叢末 | 2018-09-19 18:02 |
雷鋒網 AI 科技評論消息,9 月 8 日至14 日,兩年一度的歐洲計算機視覺大會(ECCV 2018)在德國慕尼黑召開。作為與 CVPR、ICCV 共稱為計算機視覺領域三大頂級學術會議,ECCV 今年的火爆程度驚人。據(jù)悉,ECCV 2018 有近 3200 人參加,接收論文 776 篇( 2016 年為 415 篇);另有 43 場 Workshops 和 11 場 Tutorials。京東 AI 研究院在副院長、計算機視覺與多媒體實驗室主任梅濤博士的帶領下赴會,在本次 ECCV 2018 大會上取得了亮眼的成績。
雷鋒網獲悉,本次京東 AI 研究院不僅有 3 篇論文被 ECCV 2018 收錄,還在 ECCV 大會舉辦的視覺領域遷移學習挑戰(zhàn)賽奪得兩項冠軍、視覺領域 Wider face&pedestrian 挑戰(zhàn)賽(行人檢測任務)中獲得第二名。憑借以上成績,京東 AI 研究院在雷鋒網旗下學術頻道 AI 科技評論數(shù)據(jù)庫產品「AI 影響因子」中有相應加分。
京東 AI 研究院被 ECCV 2018 收錄的 3 篇論文,分別是在圖像描述、視頻動作檢測、視覺問答等課題上取得的重大算法創(chuàng)新。
《探索圖像描述的視覺關系》(Exploring Visual Relationship for Image Captioning)
對于人類而言,當他看到一幅圖像時不僅能知道圖像中包含的物體場景等,同時還能捕捉到物體之間的聯(lián)系,圖像描述的核心任務是研究便是讓計算機像人一樣看圖說話,即對圖像內容進行深層次的理解并自動生成和圖像內容相關的描述語句,然而業(yè)界目前還沒有相對應的工作來探索物體間聯(lián)系對圖像描述的作用。
基于此,京東 AI 研究院設計了一個基于圖卷積網絡(Graph Convolutional Networks)和長短時記憶網絡(LongShort-Term Memory)的編碼器-解碼器系統(tǒng)來將物體間的語義關系和空間關系融入到圖像描述的生成過程中,其結構圖如下:
該編碼器-解碼器圖像描述系統(tǒng)可分為三個步驟:
(1)對于輸入的圖像,物體檢測模塊首先檢測圖像中包含的物體,并獲得每個物體對應的區(qū)域級別的特征。然后,針對檢測出來的多個物體,京東 AI 研究院團隊會構建出物體間的語義關系圖和空間關系圖;
(2)接著在基于圖卷積網絡的圖像編碼器模塊中,圖卷積網絡會分別作用于物體間的語義關系圖和空間關系圖上,將兩兩物體間的語義關系和空間關系融入到對應物體的區(qū)域級別的特征,實現(xiàn)對物體區(qū)域級別特征的進一步編碼;
(3)在獲得了來自于語義關系圖或者空間關系圖上蘊含有物體間關系的區(qū)域級別特征后,我們將這一組編碼后的物體區(qū)域級別特征輸入基于長短時記憶網絡的解碼器模塊,主要利用兩層的長短時記憶網絡來將輸入的圖像區(qū)域級別特征解碼為對應的文本描述。
該系統(tǒng)在圖像描述基準數(shù)據(jù)集 COCO 上驗證了物體間聯(lián)系對圖像描述的促進作用,并獲得了目前業(yè)界單模型最優(yōu)的效果。
《動作檢測的循環(huán)定位和識別網絡》(Recurrent Tubelet Proposal and Recognition Networks for ActionDetection)
視頻動作檢測任務要求識別出視頻中人物的動作并確定其在視頻中的時空位置。現(xiàn)有方法大部分都是為每個單獨的幀或固定長度的片段獨立地生成動作定位,往往忽略了幀與幀或片段與片段之間的上下文關系。然而,一個動作本身就是由一系列連續(xù)的移動構成的,這種上下文關系對視頻動作檢測而言非常重要。
京東 AI 研究院提出了一種基于視頻中的時間上下文信息來進行動作檢測的深度模型。此深度模型主要分為兩部分:
循環(huán)動作定位網絡:它首先用傳統(tǒng)的區(qū)域生成網絡對視頻中第一幀的動作進行定位,然后通過估計當前幀的動作在下一幀的位移來得到下一幀中動作的位置。隨后利用維特比算法將所有幀的動作定位連成動作序列。
循環(huán)動作識別網絡:該網絡采用多通道架構來識別動作序列。團隊在每一個通道中都使用了 LSTM 網絡結構來捕捉視頻中的時間信息,并在四個公開數(shù)據(jù)集上驗證了模型的有效性并實現(xiàn)了目前為止最好的檢測性能(在 UCF-Sports, J-HMDB, UCF-101 和 AVA 上分別取得了 2.9%,4.3%,0.7% 和 3.9% 的性能提升)。
圖 2. 本文提出的視頻動作檢測模型整體框架圖。此模型主要由循環(huán)動作定位網絡和循環(huán)動作識別網絡構成。循環(huán)動作定位網絡通過當前幀的動作在下一幀的位移來得到下一幀中動作的位置。隨后所有幀的動作定位被連成動作序列。循環(huán)動作識別網絡采用多通道架構來識別動作序列。
《視覺問答的深度注意力張量神經網絡》(Deep Attention Neural Tensor Network for Visual Question Answering)
視覺問答任務要求在給定一幅圖像與問句之后要求預測出與之對應的答案。近年來關于該任務的研究工作主要關注于視覺特征與文本特征的多模態(tài)融合學習。絕大多數(shù)相關研究工作是直接將視覺特征表示與文本特征表示融合之后訓練分類器的方式來完成視覺問答的,然而這些方法卻把圖像—問句—答案這個三元組之間隱含的相互關系忽略了。
本文提出一種基于張量神經網絡對圖像—問句—答案三元組之間的關系進行建模的方法。考慮到在大多數(shù)情況下,三元組之間的相互關系與問句的類型息息相關,因此該論文提出了由問句類型和答案類型指導的注意力模型來幫助三元組選擇合適的相互關系和自適應推理過程,最后采用一種基于回歸的訓練方式解決開放性視覺問答任務。
最后的實驗結果證明,本文提出的方法不但可以有效的對圖像—問句—答案之間的隱含關系進行建模(在 VQA-1.0 和 VQA-2.0 數(shù)據(jù)上分別基于 MUTAN 和 MLB 視覺問答模型取得了 1.70% 和 1.98% 的相對性能提升),而且對于不同的問題類型,可以自適應的選擇與之對應的推理過程,同時基于視覺問答任務的監(jiān)督信息可以學習得到具有視覺區(qū)分能力的答案特征表示。
圖 3. 本文提出的視覺問答系統(tǒng)整體框架圖。紅框的部分是用來生成問句特征以及圖像-問句融合特征的基本模型。兩個藍框是本文提出的基于注意力模型的張量神經網絡的兩個組成部分,即面向圖像-問句-答案三元組關系的張量神經網絡以及面向自適應推理的注意力模型。
大家可移步社區(qū)(http://www.gair.link/page/resourceDetail/553)下載京東 AI 研究院 ECCV 2018 收錄論文資料包。
ECCV 2018 視覺領域遷移學習挑戰(zhàn)賽摘下雙桂冠
此次 ECCV 2018 大會舉辦的視覺領域遷移學習挑戰(zhàn)賽,具體任務場景分為開放式圖像分類(openset classification)和物體檢測(detection)兩種, 京東 AI 研究院在此項賽事的兩個任務中均以大比分優(yōu)勢摘下桂冠。
挑戰(zhàn)賽中,京東 AI 研究院計算機視覺與多媒體團隊針對數(shù)據(jù)分布差異較大的源域和目標域,設計了一套通用于圖像分類和物體檢測的遷移學習系統(tǒng),其主要思想是賦予目標域圖像相對應的偽標簽,并在基于聯(lián)合聚類的篩選之后將帶有偽標簽的目標域圖像加入到分類器或者檢測器的學習中,從而進一步地調整模型。通過實驗可以發(fā)現(xiàn),這樣基于偽標簽的方法可以有效地將源域中的知識遷移到目標域中。
在 ECCV 2018 大會舉辦的另一賽事——視覺領域 Wider face&pedestrian 挑戰(zhàn)賽中,京東 AI 研究院計算機視覺與多媒體團隊則在行人檢測任務中獲得了第二名,并受邀在 Wider face&pedestrian Challenge Workshop 上介紹了該團隊在人體檢測方面的最新研究進展。
在該比賽中,京東 AI 研究院使用了基于 Faster R-CNN 的檢測框架,加入了特征金字塔、組標準化、級聯(lián) R-CNN 以及多通道特征注意力模型等方法,并在不同級聯(lián)階段設計了可以自適應平衡分類與回歸誤差的新?lián)p失函數(shù)。實驗證明,該研究團隊所提出的這一方法能夠有效地處理復雜場景下的小目標行人檢測問題。
值得一提的是,在剛剛過去的中國多媒體大會 ChinaMM 上,京東 AI 還主辦了 JD AI Fashion Challenge 技術競賽,吸引了 212 支來自國內外高校、企業(yè)的隊伍報名參加。這一賽事同樣讓京東 AI 研究院在「AI 影響因子」獲得加分。據(jù)悉,明年年初京東將啟動新一輪的國際時尚大賽。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。