0
雷鋒網(wǎng) AI 科技評論按:本文由中山大學人機物智能融合實驗室(HCP Lab)特約供稿。全球計算機視覺三大頂會之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition) 于 6月 16~20日 在美國洛杉磯如期舉辦。
CVPR 作為計算機視覺三大頂級會議之一,一直以來都備受關(guān)注。被 CVPR 收錄的論文更是代表了計算機視覺領(lǐng)域的最新發(fā)展方向和水平。在谷歌學術(shù)發(fā)表的2018年最新的學術(shù)期刊和會議影響力排名中,CVPR排名第20,這是計算機領(lǐng)域頂會第一次進入Top20的行列。
在論文方面,CVPR 2019 年共收到了 5165 篇有效提交論文,比去年 CVPR2018 增加了 56%,論文接收方面,本屆大會共接收了 1300 論文,接收率接近 25.2%,據(jù)統(tǒng)計共有 288 篇 Oral 論文。
在本屆CVPR大會上,中山大學人機物智能融合實驗室(HCP Lab)共有12篇論文被收錄,在國內(nèi)研究組里屬于頂尖水平。HCP Lab實力強潛力足勢頭猛,對學術(shù)上再創(chuàng)佳績滿懷信心。
以下我們將精選幾篇論文展示給大家,歡迎感興趣的朋友關(guān)注閱讀。
【01】
Blending-target Domain Adaptation by Adversarial Meta-Adaptation Networks
通過對抗元適應(yīng)網(wǎng)絡(luò)解決混合目標域適應(yīng)
在大數(shù)據(jù)時代下,機器學習學家面臨著日新月異的無標注數(shù)據(jù)更新和在這些新數(shù)據(jù)下進行模型再訓練的問題。如何利用以前的標注數(shù)據(jù)(源域,source domain)對各種各樣的無標注數(shù)據(jù)(目標域,target domain)進行知識遷移,也即所謂的域適應(yīng)問題,成為學界以及工業(yè)界備受關(guān)注的研究熱點。遺憾的是,目前對于域適應(yīng)問題,大部分解決方案都基于目標域均由一個或多個顯式目標域所組成(如圖一a)。而事實上,多種真實應(yīng)用場景如自動駕駛和云數(shù)據(jù)處理等,都會面臨著多個目標域混合的域適應(yīng)問題(如圖一b)。在多個目標域混合下,每一個目標數(shù)據(jù)都可以來自其中一個子目標域,但來自于哪一個子域都是不可知的。因此如果直接使用一般的域適應(yīng)算法去解決混合域適應(yīng)問題,訓練出來的遷移學習模型會忽略混合子域之間的域偏移(domain shift)。這會導致負遷移現(xiàn)象從而損害模型的效果。
為了解決混合目標域情況下面進行有效的域適應(yīng)訓練出有效的模型,我們提出了對抗元適應(yīng)網(wǎng)絡(luò)模型(Adversarial Meta-Adaptation Networks,AMEAN),如下圖所示:
AMEAN模型有兩個混合訓練的遷移學習過程構(gòu)建而成。第一部分啟發(fā)于現(xiàn)有的域適應(yīng)算法,也就是直接進行源域和混合目標域之間的遷移學習。這個過程可以將源域的類別信息有效遷移到目標域去,但無法消除多個子目標域之間的域偏移。目標子域之間的差異越大,那混合目標域造成的負遷移現(xiàn)象就會越明顯。為了克服這個問題,我們構(gòu)建了元子域適應(yīng)(meta-sub-target domain adaptation)過程。因為在混合目標域的設(shè)定下,每個目標子域沒有顯式地給出,因此也沒辦法直接對他們的域偏移進行懲罰。作為代替,我們利用深度無監(jiān)督聚類算法(Unsupervised Meta Learner)對混合目標域進行劃分,將每一個聚類結(jié)果看作子目標域的替代。然后,利用對抗域適應(yīng)的方法對這些子目標域和源目標域一起進行遷移學習。之后每隔一個迭代數(shù)間隔,我們利用在學習中的混合目標域遷移特征進行反饋,和混合目標域的數(shù)據(jù)一起重新更新聚類結(jié)果然后動態(tài)構(gòu)建元子域適應(yīng)過程中的對抗遷移學習關(guān)系和其損失函數(shù)。聚類過程與兩個混合訓練的遷移學習過程交替進行直到收斂。
我們的實驗結(jié)果表明,混合目標域適應(yīng)的確會為一般域適應(yīng)算法造成各種各樣的負遷移現(xiàn)象,同時我們的AMEAN模型能夠有效地克服混合目標域適應(yīng)帶來的負遷移效果,從而取得目前在該新問題下的最佳性能。但作為一個新的遷移學習問題,混合目標域適應(yīng)遠遠沒去到接近解決的地步。
原文代碼鏈接:https://github.com/zjy526223908/BTDA
【02】
Knowledge-Embedded Routing Network for Scene Graph Generation
面向場景圖生成的知識嵌入路由網(wǎng)絡(luò)模型
場景圖生成不僅僅需要定位和識別圖像中物體的位置和類別,還需要進一步推理不同物體之間的視覺關(guān)系。然而,現(xiàn)實場景中物體關(guān)系的樣本分布是非常不均衡的,現(xiàn)有的方法對于樣本較多的關(guān)系,可以取得較好的結(jié)果,但對于樣本較為缺乏的關(guān)系,其預(yù)測結(jié)果則明顯下降。場景中目標物體和他們可能的視覺關(guān)系之間關(guān)聯(lián)的先驗知識和圖傳播網(wǎng)絡(luò)結(jié)合,約束目標物體視覺關(guān)系的預(yù)測空間,從而降低對樣本的依賴。因此,我們提出了知識嵌入的路由網(wǎng)絡(luò)模型,在統(tǒng)計先驗知識的約束下探索目標物體和他們可能的視覺關(guān)系的作用,以及挖掘場景中的上下文信息,并應(yīng)用場景圖生成任務(wù)。
該模型首先利用物體共存的先驗知識構(gòu)建關(guān)聯(lián)所有物體區(qū)域的圖,并引入一個圖傳播網(wǎng)絡(luò)傳播節(jié)點信息,學習具有上下文信息的特征以輔助更好地預(yù)測物體類別。對于給定類別標簽的目標物體,該模型進一步構(gòu)建他們和可能的視覺關(guān)系的統(tǒng)計關(guān)聯(lián)的圖,并引入另一個圖傳播網(wǎng)絡(luò)探索兩者的交互作用,以最終預(yù)測目標物體的視覺關(guān)系。
相比于現(xiàn)有的方法,本文的模型通過引入先驗知識隱式地約束目標物體可能的預(yù)測空間,有效地解決不同關(guān)系分布不均衡的問題。在大規(guī)模場景圖生成的數(shù)據(jù)集Visual Genome上進行大量的實驗表明,本文的框架相比于現(xiàn)有的方法取得更好的效果。
論文代碼鏈接:https://github.com/HCPLab-SYSU/KERN
【03】
Adaptively Connected Neural Networks
自適應(yīng)連接神經(jīng)網(wǎng)絡(luò)
我們引入一種新的自適應(yīng)連接神經(jīng)網(wǎng)絡(luò)(ACNet),從兩方面改進了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。一是ACNet可以自適應(yīng)地決定神經(jīng)元連接屬于全局連接抑或局部連接,從而進行自適應(yīng)局部推斷或全局推斷。我們可以證明,現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)(CNN)、經(jīng)典的多層感知器(MLP)和最近提出的非局域網(wǎng)絡(luò)(NLN)都是ACNet的特例。二是ACNet不僅可以適用于傳統(tǒng)的歐氏數(shù)據(jù)(例如圖像、音頻等),也可以適用于非歐氏數(shù)據(jù)(graph data)。實驗表明,ACNet在ImageNet-1K/CIFAR圖像分類、COCO 2017目標檢測和分割、CUHK03行人重識別以及CORA文檔分類等任務(wù)中達到了State-of-the-art效果。
具體來說,研究人員首先使用自變換操作(Self Trans模塊)提取像素級特征、卷積操作(CN N 模塊)提取局部特征、多層感知器操作(MLP 模塊)提取全局特征,然后使用自適應(yīng)連接神經(jīng)網(wǎng)絡(luò)(ACNET模塊)融合三者,得到局部與全局自適應(yīng)的特征,這樣ACNet既有自變換操作和卷積操作所具有的局部推斷能力,又具有多層感知器操作所具有的全局推斷能力。
代碼和預(yù)訓練模型下載:
https://github.com/wanggrun/Adaptively-Connected-Neural-Networks/blob/master/README.md
【04】
"Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation"
基于結(jié)構(gòu)表征的弱監(jiān)督3D人體姿態(tài)估計
3D 人體姿態(tài)估計是計算機視覺領(lǐng)域的一個熱門研究課題,旨在從單張彩色圖像中恢復出精確的 3D 人體姿態(tài)。作為三維人體結(jié)構(gòu)建模的基礎(chǔ),3D 人體姿態(tài)估計在動作識別、視頻分析、人機交互、虛擬現(xiàn)實和自動駕駛等領(lǐng)域中都起到非常重要的作用。近年來,3D 人體姿態(tài)估計取得了較大的發(fā)展。但是,相關(guān)數(shù)據(jù)和模型方法只局限于簡單的室內(nèi)場景,極大地限制了該研究問題的探索。主要原因在于,室外復雜場景的 3D 人體數(shù)據(jù)集的采集十分困難,受限于光學動作采集系統(tǒng)對場地的嚴格要求,只能捕捉室內(nèi)場景下的簡單人體動作。當測試數(shù)據(jù)中出現(xiàn)高難度的人體姿態(tài)、擾動較大的拍攝視角、各式各樣的人物外觀以及復雜的拍攝場景時,3D 人體姿態(tài)估計模型的泛化性往往較差。
為此本文提出一種解決方法,擬從從大量多視角圖像中提取額外的 3D 人體結(jié)構(gòu)信息,使用額外信息輔助單張圖像的 3D 人體姿態(tài)估計任務(wù)。在提取額外信息的過程中,只使用帶有 2D 標注的多視角圖像作為訓練集,選取編解碼器作為主干網(wǎng)絡(luò),訓練編解碼器實現(xiàn)不同視角下 2D 人體信息的相互轉(zhuǎn)換。為了讓轉(zhuǎn)換僅僅基于人體結(jié)構(gòu),選取 2D人體骨架作為本文方法的 2D 人體信息,而沒有使用原始圖像。進一步加入了對 3D 結(jié)構(gòu)的一致性約束,使得抽取到的額外信息的 3D 結(jié)構(gòu)更加穩(wěn)定。因為抽取的額外信息蘊含了人體的 3D 結(jié)構(gòu)信息,所以將它映射到 3D 關(guān)鍵點坐標將會比直接利用 2D 圖像或者 2D 坐標更為容易。繼而驗證了僅僅使用簡單的兩層線性全連接層,可以從額外信息中解碼出相對合理的 3D 人體姿態(tài)。
經(jīng)過實驗驗證,本文提取的額外信息可以作為對 3D 人體姿態(tài)信息的補充,簡單靈活的融合到現(xiàn)有的 3D 人體姿態(tài)估計方法中,得到更加準確的預(yù)測結(jié)果。在標準的大型3D 人體數(shù)據(jù)庫 Human3.6M 上,本文提取的額外信息對三種不同的 3D 人體姿態(tài)估計方法都有較大提升。對于現(xiàn)有最好的開源 3D 人體姿態(tài)估計方法,在標準 的數(shù)據(jù)劃分下使用評估指標 MPJPE,本文提出的方法仍然有 7% 的提升,在現(xiàn)有的方法中達到最好的效果。
【05】
Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection
通用的自適應(yīng)全局推理網(wǎng)絡(luò)及在大規(guī)模目標檢測的應(yīng)用
隨著深度學習的發(fā)展,大規(guī)模目標檢測問題逐漸成為人們關(guān)注的熱點,通過這一計算機視覺中的基礎(chǔ)技術(shù),軟硬件應(yīng)用產(chǎn)品可以深度定位圖片中的物體位置以及類別,并用于新零售、通用多物品識別、自動駕駛等場景。與普通檢測問題不同的是,大規(guī)模目標檢測意味著同時定位并識別數(shù)千個類別,面臨嚴重的長尾效應(yīng),目標間相互遮擋,以及更多模糊不清的目標。然而主流的目標檢測方法通常獨立地識別每個區(qū)域,并忽略場景中目標之間的關(guān)鍵語義相關(guān)性,導致它們面對復雜的大規(guī)模數(shù)據(jù)時檢測性能大幅下降。而人類即使看到復雜場景仍能夠準確理解并識別目標,因為人類了解很多關(guān)聯(lián)的知識域的常識知識,并且能夠借助知識進行學習和推理,這正是當前的檢測系統(tǒng)所缺乏的能力。因此,關(guān)鍵問題是如何賦予檢測系統(tǒng)視覺推理能力,來模仿人類推理過程。
本文研究了知識導向的圖像級的自適應(yīng)全局推理方法,提出了通用的自適應(yīng)全局推理模型(Reasoning-RCNN),通過知識提高了對所有目標區(qū)域的自適應(yīng)全局推理能力。該方法不是直接在單一圖像上傳播視覺特征,而是全局地演化所有類別的高級語義表示,以避免圖像中的噪聲或不良的視覺特征帶來的影響。具體地,基于基礎(chǔ)檢測網(wǎng)絡(luò)的特征表示,所提出的網(wǎng)絡(luò)首先通過收集上層分類層的權(quán)重來生成每個類別的全局語義池(Global Semantic Pool),然后通過挑選全局語義池中的不同語義上下文來自適應(yīng)地增強每個目標區(qū)域的特征。本文提出的Reasoning-RCNN不是從可能存在噪聲的所有類別的語義信息中傳播信息,而是能自動發(fā)現(xiàn)與特征演化最相關(guān)的類別。
經(jīng)過實驗驗證,本文提出的方法是輕量級的,通用的,可擴展的,并且能夠融合知識賦予任何檢測網(wǎng)絡(luò)視覺推理的能力。在不引入過多計算代價的前提下,本文提出的方法在大規(guī)模檢測數(shù)據(jù)集VisualGenome(1000類/3000類),ADE(445類)和通用檢測數(shù)據(jù)集MS COCO(80類),PASCAL VOC(20類)上均遠優(yōu)于其他現(xiàn)有的先進檢測方法。
【06】
Spatial-aware Graph Relation Network for Large-scale Object Detection
空間感知的圖關(guān)系網(wǎng)絡(luò)及在大規(guī)模目標檢測的應(yīng)用
大規(guī)模目標檢測框架需要具備同時定位并識別成千上萬個具有復雜語義和空間關(guān)系的目標,伴隨著待處理的類別數(shù)越多,面臨越多的小目標、越嚴重的類別之間目標數(shù)不平衡、目標之間相互遮擋等問題。眾所周知,目標之間復雜的語義和空間關(guān)系有助于提高檢測精度。而當前的多數(shù)研究工作通常單獨地對目標進行定位和識別,當這些方法面對大規(guī)模類別數(shù)據(jù)集時,性能會大幅下降。因此本文提出一個空間感知圖關(guān)系網(wǎng)絡(luò)(SGRN)框架來主動發(fā)現(xiàn)并結(jié)合關(guān)鍵的語義和相對空間關(guān)系來對每個對象進行推理。我們的方法考慮了目標之間相對位置布局和相互作用,我們提出的SGRN可以很容易地嵌入到任何現(xiàn)存的檢測方法中,并提高它們的檢測性能。
在沒有任何外部知識的情況下,如何正確編碼檢測系統(tǒng)中對象之間的高階關(guān)系?如何利用對象間的伴隨關(guān)系和相對位置之間的信息進行更好的推理?這些問題是當今大規(guī)模目標檢測框架面臨的主要挑戰(zhàn)。近期,一些工作也嘗試通過構(gòu)建目標之間的知識圖來增強檢測效果,圖1a使用人工設(shè)計的知識構(gòu)建一個類類之間的圖。然而,這種方法很大程度上依賴于來自廣義的類別視覺的屬性標注和語義關(guān)系。此外,由于語義和視覺語境之間的差異,某些空間關(guān)系可能會被忽略,固定圖也無法適應(yīng)全部的圖像。另一些方法試圖從的視覺特征中隱式地學習目標之間的全連接圖。但是,完全連接的關(guān)系由于從無關(guān)對象和背景中合并了冗余和不必要的關(guān)系而變得低效和嘈雜。因此,本文的工作目標是設(shè)計一個基于圖卷積神經(jīng)網(wǎng)絡(luò)的檢測框架,它可以同時利用語義和空間關(guān)系,直接從訓練集中有效地學習到可解釋的稀疏圖結(jié)構(gòu),并根據(jù)學到的圖結(jié)構(gòu)進行推理和特征傳播,增強小目標、罕見類和模糊遮擋目標的特征相應(yīng)提高檢測結(jié)果。
本文提出的SGRN框架由兩個模塊組成:一個稀疏關(guān)系圖學習模塊(Relation Learner)和一個空間感知圖推理模塊(Spatial Graph Reasoning)。關(guān)系圖學習模塊首先從視覺特征中學習一個稀疏鄰接矩陣,它保持了最相關(guān)的T個連接關(guān)系。然后,收集前一個分類器的權(quán)重,并將其映射到每個目標上,從而成為每個目標的視覺向量。目標之間的相對空間信息(距離、角度)被用來學習高斯核參數(shù),以確定圖形卷積的模式。在空間感知圖形推理模塊中,根據(jù)稀疏鄰接矩陣和高斯核對不同區(qū)域的視覺嵌入進行演化和傳播。空間圖推理模塊的輸出與原始區(qū)域特征相連接,以改進分類和定位。
【07】
Graphonomy: Universal Human Parsing via Graph Transfer Learning
面向通用人體解析的圖遷移模型
人類的視覺系統(tǒng),具有在簡單看一眼人物圖像的情況下,完成對圖像中人物整體理解的能力。例如,人們只需看一眼圖像,就能夠把圖中人物和背景區(qū)分開來,能夠知道圖中人物的姿勢,也能夠識別出圖中人物的穿著打扮。盡管如此,最近對人物圖像理解的研究都致力于為每個單獨的應(yīng)用開發(fā)許多種高度獨立的特定的模型,譬如人物前景分割任務(wù),粗糙的衣服分割任務(wù)和精細的人物部位或服飾解析任務(wù)等。這些經(jīng)過高度調(diào)整的網(wǎng)絡(luò)犧牲了模型的泛化能力,僅僅通過過度擬合來適應(yīng)不同的數(shù)據(jù)集和不一致的標注粒度,而忽略了存在于所有人物圖像中潛在的人體結(jié)構(gòu)特征和共同的內(nèi)在語義信息。將在一個數(shù)據(jù)集上訓練的模型直接拿到另一個相關(guān)數(shù)據(jù)集上重新微調(diào)是非常困難的事情,因為這需要冗余而繁重的數(shù)據(jù)標注和大量的計算資源來重新訓練每個特定的模型。為了解決這些現(xiàn)實的挑戰(zhàn)并避免為相關(guān)任務(wù)訓練冗余的模型,我們做出了一個創(chuàng)新性的嘗試,研究面向通用人體解析的問題,通過單個模型來同時處理不同的、從粗粒度到細粒度的人體解析任務(wù),如下圖所示。
設(shè)計一個通用人體解析模型的關(guān)鍵因素是在不同的人體解析任務(wù)之間進行準確的遷移學習和知識集成,因為不同數(shù)據(jù)集之間的標簽差異性很大程度上阻礙了模型和數(shù)據(jù)的統(tǒng)一。為了實現(xiàn)這一目標,我們提出了一個圖遷移模型,將人類知識和標簽分類法顯式地歸納為圖表達學習,并且嵌入到卷積神經(jīng)網(wǎng)絡(luò)中去。我們的圖遷移模型通過圖遷移學習來建模多個領(lǐng)域的全局和通用的語義一致性,以此來解決多層次的人體解析任務(wù),并通過信息傳播使他們能夠相互促進。
我們的圖遷移模型集成了兩個相互協(xié)作的模塊,用于圖遷移學習,如下圖所示。首先,我們提出了一個圖內(nèi)推理模塊來逐步改善圖結(jié)構(gòu)中的圖表達,其中每個圖節(jié)點表示數(shù)據(jù)集中的一個語義部位區(qū)域。此外,我們還構(gòu)建了一個圖間遷移模塊,專注于將相關(guān)語義從一個領(lǐng)域的圖表達中提取到另一個領(lǐng)域的圖表達中去,從而橋接了來自不同數(shù)據(jù)集的語義標簽,更好地利用了不同粒度的標注信息。
我們在三個人體解析數(shù)據(jù)集上進行了大量的實驗,這些數(shù)據(jù)集包含了不同種類的語義部位和服飾標簽。實驗結(jié)果表明,通過圖內(nèi)推理模塊和圖間遷移模塊的信息傳播,我們的圖遷移模型能夠關(guān)聯(lián)和提取由不同數(shù)據(jù)集構(gòu)建的高級的語義圖表達,有效地解決了多層次的通用人體解析任務(wù)。
【08】
ClusterNet: Deep Hierarchical Cluster Network with Rigorously Rotation-Invariant Representation for Point Cloud Analysis
一種基于嚴格旋轉(zhuǎn)不變性的點云表達以及深度層次類簇網(wǎng)絡(luò)的點云分析方法
在三維世界中,旋轉(zhuǎn)變換是一種十分自然、常見的現(xiàn)象,但是它對于三維物體識別也帶來了很大的挑戰(zhàn)。理論上,因為SO(3)群是一個無窮集合,同一個三維物體在不同姿態(tài)下具有不同的“克隆”。對于人類而言,我們能很輕易地將這些“克隆”判斷為同一個物體;但是對于機器學習模型而言,這些克隆卻是完全不同的輸入數(shù)據(jù),這會導致輸入空間非常龐大。
為了緩解該問題,前人做了許多嘗試。①一個最簡單的辦法是提升模型容量并且對訓練數(shù)據(jù)集進行旋轉(zhuǎn)增強,這種方法使得訓練階段的計算成本大大增加,而且也無法從根本上保證模型具有旋轉(zhuǎn)不變性。對于同一個物體的某種姿態(tài),模型可能就識別不準確了。②利用空間變換網(wǎng)絡(luò)(Spatial transformer network)來對輸入數(shù)據(jù)進行校正,這種方法能從一定程度提升模型的旋轉(zhuǎn)魯棒性,但同樣需要增強訓練集,而且也缺乏理論上的保證。③利用旋轉(zhuǎn)等變性網(wǎng)絡(luò)(rotation-equivariant network)來消除旋轉(zhuǎn)對于模型的影響。它設(shè)計了一種旋轉(zhuǎn)等變的卷積操作,相當于給神經(jīng)網(wǎng)絡(luò)加入了一種旋轉(zhuǎn)等變的先驗知識,但是如果對于神經(jīng)網(wǎng)絡(luò)的每一層都施加旋轉(zhuǎn)等變的約束,我們很難保證這些約束不會影響模型的容量。
與旋轉(zhuǎn)等變性網(wǎng)絡(luò)不同,我們提出了一種新的方案:直接對每一個三維物體的點云建立一個旋轉(zhuǎn)不變的統(tǒng)一的表達(簡稱為RRI表達),直接從源頭解決了旋轉(zhuǎn)所帶來的問題,將原本冗余的輸入空間大大削減。我們不僅從理論上證明了這種表達具有嚴格旋轉(zhuǎn)不變性,而且在較弱的條件下還具有信息無損性,即:當我們知道了一個點云的RRI表達,不管這個點云如何旋轉(zhuǎn),只要給定旋轉(zhuǎn)后點云中的一個點以及另一個不共線的k近鄰點的坐標,那么我們就可以重建這個旋轉(zhuǎn)后的點云。RRI表達的具體形式還具有直觀的幾何意義。
我們還提出了一個新的網(wǎng)絡(luò)結(jié)構(gòu)ClusterNet,架構(gòu)如圖2所示。它首先會對輸入點云進行層次聚類,得到關(guān)于該點云幾何結(jié)構(gòu)的層次聚類樹。然后我們沿著這棵層次聚類樹去指導特征的聚合,自底向上將較小類簇的特征聚合為較大類簇的特征,直到獲得整個點云的特征。
在旋轉(zhuǎn)魯棒性實驗中,我們提出的RRI表達與ClusterNet結(jié)合的方法在旋轉(zhuǎn)魯棒性上取得了最優(yōu)的表現(xiàn),并且現(xiàn)存的基于點云的分類網(wǎng)絡(luò)采用我們的RRI表達作為輸入后,在旋轉(zhuǎn)魯棒性上也有明顯的提升。
【09】
Layout-graph Reasoning for Fashion Landmark Detection
一種基于堆疊式層級布局知識推理的服裝關(guān)鍵點定位方法
近來在預(yù)測定位關(guān)鍵點的方面有了許多的研究方法。一種直接的方法是通過DCNNs,采用端到端的方式進行建模關(guān)鍵點的位置信息,如圖1(a)所示。雖然這種方法得益于深度卷積網(wǎng)絡(luò)的深層建模能力,但缺乏可解釋性,對數(shù)據(jù)依賴敏感,同時在一些具有復雜背景的場景下表現(xiàn)差強人意。另一種引入語法建模的方法是通過對服裝關(guān)鍵點之間進行語法建模,比如建立領(lǐng)口點的對稱語法,然后利用該語法形成的約束進行引導網(wǎng)絡(luò)學習,如圖1(b)所示。這種引入外部自定義的語法進行建模的方法可以有效提升定位關(guān)鍵點的性能并增強了網(wǎng)絡(luò)的可解釋性,但是該方法沒有引入知識來建模點的空間上下文語義關(guān)聯(lián),比如袖子點屬于上半身語義關(guān)聯(lián)。缺乏這種關(guān)聯(lián)容易導致在一些復雜模糊的場景下,上下身的服裝關(guān)鍵點預(yù)測混亂。同時目前的方法并沒有對卷積特征圖和圖節(jié)點特征建模一種有效的轉(zhuǎn)換方法,讓知識圖譜中節(jié)點的知識推理操作無法有效地和卷積網(wǎng)絡(luò)進行無縫銜接,從而無法達到協(xié)同訓練的目的。
為了克服現(xiàn)有技術(shù)的不足,同時受益于人類在認識事物的過程中,對事物進行歸屬分類的思想,我們首次提出了一種基于堆疊式層級布局知識推理的服裝關(guān)鍵點定位方法,整體框架如圖2所示。整體框架主要包括一個基礎(chǔ)卷積網(wǎng)絡(luò)和一系列的層級布局知識推理模塊(LGR layer)。其中每個層級布局知識推理模塊都包含三個子模塊:圖-點子模塊(Map-to-Node)、層級推理子模塊(Layout-graph Reasoning Module)和點-圖子模塊(Node-to-Map)。每個層級推理子模塊包含圖節(jié)點聚類操作、圖節(jié)點反卷積操作和圖節(jié)點信息傳播操作。本方法首先利用基礎(chǔ)卷積網(wǎng)絡(luò)對輸入的圖像提取卷積特征圖,再利用圖-點子模塊將卷積特征圖轉(zhuǎn)換為圖節(jié)點特征;再利用服裝關(guān)鍵點空間布局關(guān)系的信息結(jié)合圖節(jié)點特征,輸入到層級推理子模塊實現(xiàn)層級布局知識推理,包括建模各個葉子節(jié)點的布局關(guān)系,各個中間節(jié)點的布局關(guān)系等,如圖3所示,最終輸出得到進化增強的葉子節(jié)點特征;最后通過點-圖子模塊將層級推理子模塊的輸出節(jié)點轉(zhuǎn)換為卷積特征圖;再通過后處理將卷積特征圖轉(zhuǎn)換為特征定位圖,預(yù)測出最終的服裝關(guān)鍵點位置。
層級布局知識推理模塊(LGR layer)
本方法第一次提出層級布局知識推理的方法,并將該方法首次應(yīng)用到通用服裝關(guān)鍵點定位的任務(wù)中。相比于最近的基于多階段預(yù)測、空間變換的注意力機制以及利用語法模型約束關(guān)鍵點定位的服裝關(guān)鍵點定位方法,我們提出的方法不僅擁有更高的定位精度和可解釋性,而且提供了一種將層級知識圖譜引入卷積網(wǎng)絡(luò)進行層級推理的機制。我們的方法在目前已有的兩個大型fashion landmark數(shù)據(jù)集上進行測試并達到state-of-the-art的效果。
附錄
1. "Blending-target Domain Adaptation by Adversarial Meta-Adaptation Networks”, Ziliang Chen, Jingyu Zhuang, Xiaodan Liang and Liang Lin Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.
2. "Knowledge-Embedded Routing Network for Scene Graph Generation", Tianshui Chen, Weihao Yu, RIquan Chen, Liang LinProc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.
3. “Adaptively Connected Neural Networks”, Guangrun Wang, Keze Wang, and Liang Lin*, Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
4. "Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation", Xipeng Chen, Kwan-Yee Lin, Wentao Liu, Chen Qian and Liang Lin, Proc. of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2019
5. "Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection", Hang Xu*, ChenHan Jiang*, Xiaodan Liang, Liang Lin, Zhenguo Li, Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.
6. "Spatial-aware Graph Relation Network for Large-scale Object Detection", Hang Xu*, ChenHan Jiang*, Xiaodan Liang, Zhenguo Li, Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.
7. Graphonomy: Universal Human Parsing via Graph Transfer Learning,Ke Gong, Yiming Gao, Xiaodan Liang, Xiaohui Shen, Meng Wang, Liang Lin,Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.
8.ClusterNet: Deep Hierarchical Cluster Network with Rigorously Rotation-Invariant Representation for Point Cloud Analysis, Chao Chen, Guanbin Li, Ruijia Xu, Tianshui Chen, Meng Wang, Liang Lin, Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.
9. “Layout-Graph Reasoning for Fashion Landmark Detection”,Weijiang Yu, Xiaodan Liang, Ke Gong, Chenhan Jiang, Nong Xiao, Liang Lin; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019
10. “Cross-Modal Relationship Inference for Grounding Referring Expressions”,Sibei Yang, Guanbin Li, Yizhou Yu; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019
11. “Learning Personalized Modular Network Guided by Structured Knowledge”,Xiaodan Liang; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019
12. “Rethinking Knowledge Graph Propagation for Zero-Shot Learning”,Michael Kampffmeyer, Yinbo Chen, Xiaodan Liang, Hao Wang, Yujia Zhang, Eric P. Xing; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019
附錄:中山大學HCP人機物智能融合實驗室
“中山大學HCP人機物智能融合實驗室“依托于中山大學數(shù)據(jù)科學與計算機學院,圍繞“人工智能原創(chuàng)和前沿技術(shù)”布局研究方向與課題,并與產(chǎn)業(yè)界開展廣泛合作,輸出大量原創(chuàng)技術(shù)及孵化多個創(chuàng)業(yè)團隊。在感知計算與智能學習、機器人與嵌入式系統(tǒng)、人機協(xié)同技術(shù)、大數(shù)據(jù)挖掘與分析等領(lǐng)域開展研究,以“攀學術(shù)高峰、踏應(yīng)用實地”為工作理念。實驗室目前有教授1名,副教授4名,特聘研究員3名,工程師3名。
實驗室承擔或者已完成各級科研項目40余項,共獲得科研經(jīng)費超過數(shù)千萬元??蒲袌F隊在頂級國際學術(shù)期刊與會議上發(fā)表論文200余篇,包括在IEEE/ACM Trans匯刊發(fā)表論文60余篇,在CVPR/ICCV/NIPS/Multimedia/AAAI/IJCAI等頂級會議發(fā)表論文100余篇,獲得NPAR 2010 Best Paper Award, ACM SIG CHI Best Paper Award Honorable Mention, ICME 2014 Best Student Paper, The World’s FIRST 10K Best Paper Diamond Award by ICME 2017,Pattern Recognition Best Paper Award等獎勵。
雷鋒網(wǎng) AI 科技評論雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。