丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給黃善清
發(fā)送

0

HCP Lab 12篇論文入選世界頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2019

本文作者: 黃善清 2019-06-30 19:23 專題:CVPR 2019
導(dǎo)語:在國內(nèi)研究組里屬于頂尖水平

雷鋒網(wǎng) AI 科技評(píng)論按:本文由中山大學(xué)人機(jī)物智能融合實(shí)驗(yàn)室(HCP Lab)特約供稿。全球計(jì)算機(jī)視覺三大頂會(huì)之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition) 于 6月 16~20日 在美國洛杉磯如期舉辦。

CVPR 作為計(jì)算機(jī)視覺三大頂級(jí)會(huì)議之一,一直以來都備受關(guān)注。被 CVPR 收錄的論文更是代表了計(jì)算機(jī)視覺領(lǐng)域的最新發(fā)展方向和水平。在谷歌學(xué)術(shù)發(fā)表的2018年最新的學(xué)術(shù)期刊和會(huì)議影響力排名中,CVPR排名第20,這是計(jì)算機(jī)領(lǐng)域頂會(huì)第一次進(jìn)入Top20的行列。

HCP Lab 12篇論文入選世界頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2019

在論文方面,CVPR 2019 年共收到了 5165 篇有效提交論文,比去年 CVPR2018 增加了 56%,論文接收方面,本屆大會(huì)共接收了 1300 論文,接收率接近 25.2%,據(jù)統(tǒng)計(jì)共有 288 篇 Oral 論文。

在本屆CVPR大會(huì)上,中山大學(xué)人機(jī)物智能融合實(shí)驗(yàn)室(HCP Lab)共有12篇論文被收錄,在國內(nèi)研究組里屬于頂尖水平。HCP Lab實(shí)力強(qiáng)潛力足勢(shì)頭猛,對(duì)學(xué)術(shù)上再創(chuàng)佳績(jī)滿懷信心。

以下我們將精選幾篇論文展示給大家,歡迎感興趣的朋友關(guān)注閱讀。

【01】

Blending-target Domain Adaptation by Adversarial Meta-Adaptation Networks

通過對(duì)抗元適應(yīng)網(wǎng)絡(luò)解決混合目標(biāo)域適應(yīng)

在大數(shù)據(jù)時(shí)代下,機(jī)器學(xué)習(xí)學(xué)家面臨著日新月異的無標(biāo)注數(shù)據(jù)更新和在這些新數(shù)據(jù)下進(jìn)行模型再訓(xùn)練的問題。如何利用以前的標(biāo)注數(shù)據(jù)(源域,source domain)對(duì)各種各樣的無標(biāo)注數(shù)據(jù)(目標(biāo)域,target domain)進(jìn)行知識(shí)遷移,也即所謂的域適應(yīng)問題,成為學(xué)界以及工業(yè)界備受關(guān)注的研究熱點(diǎn)。遺憾的是,目前對(duì)于域適應(yīng)問題,大部分解決方案都基于目標(biāo)域均由一個(gè)或多個(gè)顯式目標(biāo)域所組成(如圖一a)。而事實(shí)上,多種真實(shí)應(yīng)用場(chǎng)景如自動(dòng)駕駛和云數(shù)據(jù)處理等,都會(huì)面臨著多個(gè)目標(biāo)域混合的域適應(yīng)問題(如圖一b)。在多個(gè)目標(biāo)域混合下,每一個(gè)目標(biāo)數(shù)據(jù)都可以來自其中一個(gè)子目標(biāo)域,但來自于哪一個(gè)子域都是不可知的。因此如果直接使用一般的域適應(yīng)算法去解決混合域適應(yīng)問題,訓(xùn)練出來的遷移學(xué)習(xí)模型會(huì)忽略混合子域之間的域偏移(domain shift)。這會(huì)導(dǎo)致負(fù)遷移現(xiàn)象從而損害模型的效果。

為了解決混合目標(biāo)域情況下面進(jìn)行有效的域適應(yīng)訓(xùn)練出有效的模型,我們提出了對(duì)抗元適應(yīng)網(wǎng)絡(luò)模型(Adversarial Meta-Adaptation Networks,AMEAN),如下圖所示:

HCP Lab 12篇論文入選世界頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2019

AMEAN模型有兩個(gè)混合訓(xùn)練的遷移學(xué)習(xí)過程構(gòu)建而成。第一部分啟發(fā)于現(xiàn)有的域適應(yīng)算法,也就是直接進(jìn)行源域和混合目標(biāo)域之間的遷移學(xué)習(xí)。這個(gè)過程可以將源域的類別信息有效遷移到目標(biāo)域去,但無法消除多個(gè)子目標(biāo)域之間的域偏移。目標(biāo)子域之間的差異越大,那混合目標(biāo)域造成的負(fù)遷移現(xiàn)象就會(huì)越明顯。為了克服這個(gè)問題,我們構(gòu)建了元子域適應(yīng)(meta-sub-target domain adaptation)過程。因?yàn)樵诨旌夏繕?biāo)域的設(shè)定下,每個(gè)目標(biāo)子域沒有顯式地給出,因此也沒辦法直接對(duì)他們的域偏移進(jìn)行懲罰。作為代替,我們利用深度無監(jiān)督聚類算法(Unsupervised Meta Learner)對(duì)混合目標(biāo)域進(jìn)行劃分,將每一個(gè)聚類結(jié)果看作子目標(biāo)域的替代。然后,利用對(duì)抗域適應(yīng)的方法對(duì)這些子目標(biāo)域和源目標(biāo)域一起進(jìn)行遷移學(xué)習(xí)。之后每隔一個(gè)迭代數(shù)間隔,我們利用在學(xué)習(xí)中的混合目標(biāo)域遷移特征進(jìn)行反饋,和混合目標(biāo)域的數(shù)據(jù)一起重新更新聚類結(jié)果然后動(dòng)態(tài)構(gòu)建元子域適應(yīng)過程中的對(duì)抗遷移學(xué)習(xí)關(guān)系和其損失函數(shù)。聚類過程與兩個(gè)混合訓(xùn)練的遷移學(xué)習(xí)過程交替進(jìn)行直到收斂。

我們的實(shí)驗(yàn)結(jié)果表明,混合目標(biāo)域適應(yīng)的確會(huì)為一般域適應(yīng)算法造成各種各樣的負(fù)遷移現(xiàn)象,同時(shí)我們的AMEAN模型能夠有效地克服混合目標(biāo)域適應(yīng)帶來的負(fù)遷移效果,從而取得目前在該新問題下的最佳性能。但作為一個(gè)新的遷移學(xué)習(xí)問題,混合目標(biāo)域適應(yīng)遠(yuǎn)遠(yuǎn)沒去到接近解決的地步。

原文代碼鏈接:https://github.com/zjy526223908/BTDA

【02】

Knowledge-Embedded Routing Network for Scene Graph Generation

面向場(chǎng)景圖生成的知識(shí)嵌入路由網(wǎng)絡(luò)模型

HCP Lab 12篇論文入選世界頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2019

場(chǎng)景圖生成不僅僅需要定位和識(shí)別圖像中物體的位置和類別,還需要進(jìn)一步推理不同物體之間的視覺關(guān)系。然而,現(xiàn)實(shí)場(chǎng)景中物體關(guān)系的樣本分布是非常不均衡的,現(xiàn)有的方法對(duì)于樣本較多的關(guān)系,可以取得較好的結(jié)果,但對(duì)于樣本較為缺乏的關(guān)系,其預(yù)測(cè)結(jié)果則明顯下降。場(chǎng)景中目標(biāo)物體和他們可能的視覺關(guān)系之間關(guān)聯(lián)的先驗(yàn)知識(shí)和圖傳播網(wǎng)絡(luò)結(jié)合,約束目標(biāo)物體視覺關(guān)系的預(yù)測(cè)空間,從而降低對(duì)樣本的依賴。因此,我們提出了知識(shí)嵌入的路由網(wǎng)絡(luò)模型,在統(tǒng)計(jì)先驗(yàn)知識(shí)的約束下探索目標(biāo)物體和他們可能的視覺關(guān)系的作用,以及挖掘場(chǎng)景中的上下文信息,并應(yīng)用場(chǎng)景圖生成任務(wù)。

該模型首先利用物體共存的先驗(yàn)知識(shí)構(gòu)建關(guān)聯(lián)所有物體區(qū)域的圖,并引入一個(gè)圖傳播網(wǎng)絡(luò)傳播節(jié)點(diǎn)信息,學(xué)習(xí)具有上下文信息的特征以輔助更好地預(yù)測(cè)物體類別。對(duì)于給定類別標(biāo)簽的目標(biāo)物體,該模型進(jìn)一步構(gòu)建他們和可能的視覺關(guān)系的統(tǒng)計(jì)關(guān)聯(lián)的圖,并引入另一個(gè)圖傳播網(wǎng)絡(luò)探索兩者的交互作用,以最終預(yù)測(cè)目標(biāo)物體的視覺關(guān)系。

相比于現(xiàn)有的方法,本文的模型通過引入先驗(yàn)知識(shí)隱式地約束目標(biāo)物體可能的預(yù)測(cè)空間,有效地解決不同關(guān)系分布不均衡的問題。在大規(guī)模場(chǎng)景圖生成的數(shù)據(jù)集Visual Genome上進(jìn)行大量的實(shí)驗(yàn)表明,本文的框架相比于現(xiàn)有的方法取得更好的效果。

論文代碼鏈接:https://github.com/HCPLab-SYSU/KERN

【03】

Adaptively Connected Neural Networks

自適應(yīng)連接神經(jīng)網(wǎng)絡(luò)

我們引入一種新的自適應(yīng)連接神經(jīng)網(wǎng)絡(luò)(ACNet),從兩方面改進(jìn)了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。一是ACNet可以自適應(yīng)地決定神經(jīng)元連接屬于全局連接抑或局部連接,從而進(jìn)行自適應(yīng)局部推斷或全局推斷。我們可以證明,現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)(CNN)、經(jīng)典的多層感知器(MLP)和最近提出的非局域網(wǎng)絡(luò)(NLN)都是ACNet的特例。二是ACNet不僅可以適用于傳統(tǒng)的歐氏數(shù)據(jù)(例如圖像、音頻等),也可以適用于非歐氏數(shù)據(jù)(graph data)。實(shí)驗(yàn)表明,ACNet在ImageNet-1K/CIFAR圖像分類、COCO 2017目標(biāo)檢測(cè)和分割、CUHK03行人重識(shí)別以及CORA文檔分類等任務(wù)中達(dá)到了State-of-the-art效果。

具體來說,研究人員首先使用自變換操作(Self Trans模塊)提取像素級(jí)特征、卷積操作(CN N 模塊)提取局部特征、多層感知器操作(MLP 模塊)提取全局特征,然后使用自適應(yīng)連接神經(jīng)網(wǎng)絡(luò)(ACNET模塊)融合三者,得到局部與全局自適應(yīng)的特征,這樣ACNet既有自變換操作和卷積操作所具有的局部推斷能力,又具有多層感知器操作所具有的全局推斷能力。

代碼和預(yù)訓(xùn)練模型下載:

https://github.com/wanggrun/Adaptively-Connected-Neural-Networks/blob/master/README.md

【04】

"Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation" 

基于結(jié)構(gòu)表征的弱監(jiān)督3D人體姿態(tài)估計(jì)

 3D 人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱門研究課題,旨在從單張彩色圖像中恢復(fù)出精確的 3D 人體姿態(tài)。作為三維人體結(jié)構(gòu)建模的基礎(chǔ),3D 人體姿態(tài)估計(jì)在動(dòng)作識(shí)別、視頻分析、人機(jī)交互、虛擬現(xiàn)實(shí)和自動(dòng)駕駛等領(lǐng)域中都起到非常重要的作用。近年來,3D 人體姿態(tài)估計(jì)取得了較大的發(fā)展。但是,相關(guān)數(shù)據(jù)和模型方法只局限于簡(jiǎn)單的室內(nèi)場(chǎng)景,極大地限制了該研究問題的探索。主要原因在于,室外復(fù)雜場(chǎng)景的 3D 人體數(shù)據(jù)集的采集十分困難,受限于光學(xué)動(dòng)作采集系統(tǒng)對(duì)場(chǎng)地的嚴(yán)格要求,只能捕捉室內(nèi)場(chǎng)景下的簡(jiǎn)單人體動(dòng)作。當(dāng)測(cè)試數(shù)據(jù)中出現(xiàn)高難度的人體姿態(tài)、擾動(dòng)較大的拍攝視角、各式各樣的人物外觀以及復(fù)雜的拍攝場(chǎng)景時(shí),3D 人體姿態(tài)估計(jì)模型的泛化性往往較差。

    為此本文提出一種解決方法,擬從從大量多視角圖像中提取額外的 3D 人體結(jié)構(gòu)信息,使用額外信息輔助單張圖像的 3D 人體姿態(tài)估計(jì)任務(wù)。在提取額外信息的過程中,只使用帶有 2D 標(biāo)注的多視角圖像作為訓(xùn)練集,選取編解碼器作為主干網(wǎng)絡(luò),訓(xùn)練編解碼器實(shí)現(xiàn)不同視角下 2D 人體信息的相互轉(zhuǎn)換。為了讓轉(zhuǎn)換僅僅基于人體結(jié)構(gòu),選取 2D人體骨架作為本文方法的 2D 人體信息,而沒有使用原始圖像。進(jìn)一步加入了對(duì) 3D 結(jié)構(gòu)的一致性約束,使得抽取到的額外信息的 3D 結(jié)構(gòu)更加穩(wěn)定。因?yàn)槌槿〉念~外信息蘊(yùn)含了人體的 3D 結(jié)構(gòu)信息,所以將它映射到 3D 關(guān)鍵點(diǎn)坐標(biāo)將會(huì)比直接利用 2D 圖像或者 2D 坐標(biāo)更為容易。繼而驗(yàn)證了僅僅使用簡(jiǎn)單的兩層線性全連接層,可以從額外信息中解碼出相對(duì)合理的 3D 人體姿態(tài)。

    經(jīng)過實(shí)驗(yàn)驗(yàn)證,本文提取的額外信息可以作為對(duì) 3D 人體姿態(tài)信息的補(bǔ)充,簡(jiǎn)單靈活的融合到現(xiàn)有的 3D 人體姿態(tài)估計(jì)方法中,得到更加準(zhǔn)確的預(yù)測(cè)結(jié)果。在標(biāo)準(zhǔn)的大型3D 人體數(shù)據(jù)庫 Human3.6M 上,本文提取的額外信息對(duì)三種不同的 3D 人體姿態(tài)估計(jì)方法都有較大提升。對(duì)于現(xiàn)有最好的開源 3D 人體姿態(tài)估計(jì)方法,在標(biāo)準(zhǔn) 的數(shù)據(jù)劃分下使用評(píng)估指標(biāo) MPJPE,本文提出的方法仍然有 7% 的提升,在現(xiàn)有的方法中達(dá)到最好的效果。 

【05】

Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection

通用的自適應(yīng)全局推理網(wǎng)絡(luò)及在大規(guī)模目標(biāo)檢測(cè)的應(yīng)用

HCP Lab 12篇論文入選世界頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2019

隨著深度學(xué)習(xí)的發(fā)展,大規(guī)模目標(biāo)檢測(cè)問題逐漸成為人們關(guān)注的熱點(diǎn),通過這一計(jì)算機(jī)視覺中的基礎(chǔ)技術(shù),軟硬件應(yīng)用產(chǎn)品可以深度定位圖片中的物體位置以及類別,并用于新零售、通用多物品識(shí)別、自動(dòng)駕駛等場(chǎng)景。與普通檢測(cè)問題不同的是,大規(guī)模目標(biāo)檢測(cè)意味著同時(shí)定位并識(shí)別數(shù)千個(gè)類別,面臨嚴(yán)重的長(zhǎng)尾效應(yīng),目標(biāo)間相互遮擋,以及更多模糊不清的目標(biāo)。然而主流的目標(biāo)檢測(cè)方法通常獨(dú)立地識(shí)別每個(gè)區(qū)域,并忽略場(chǎng)景中目標(biāo)之間的關(guān)鍵語義相關(guān)性,導(dǎo)致它們面對(duì)復(fù)雜的大規(guī)模數(shù)據(jù)時(shí)檢測(cè)性能大幅下降。而人類即使看到復(fù)雜場(chǎng)景仍能夠準(zhǔn)確理解并識(shí)別目標(biāo),因?yàn)槿祟惲私夂芏嚓P(guān)聯(lián)的知識(shí)域的常識(shí)知識(shí),并且能夠借助知識(shí)進(jìn)行學(xué)習(xí)和推理,這正是當(dāng)前的檢測(cè)系統(tǒng)所缺乏的能力。因此,關(guān)鍵問題是如何賦予檢測(cè)系統(tǒng)視覺推理能力,來模仿人類推理過程。

本文研究了知識(shí)導(dǎo)向的圖像級(jí)的自適應(yīng)全局推理方法,提出了通用的自適應(yīng)全局推理模型(Reasoning-RCNN),通過知識(shí)提高了對(duì)所有目標(biāo)區(qū)域的自適應(yīng)全局推理能力。該方法不是直接在單一圖像上傳播視覺特征,而是全局地演化所有類別的高級(jí)語義表示,以避免圖像中的噪聲或不良的視覺特征帶來的影響。具體地,基于基礎(chǔ)檢測(cè)網(wǎng)絡(luò)的特征表示,所提出的網(wǎng)絡(luò)首先通過收集上層分類層的權(quán)重來生成每個(gè)類別的全局語義池(Global Semantic Pool),然后通過挑選全局語義池中的不同語義上下文來自適應(yīng)地增強(qiáng)每個(gè)目標(biāo)區(qū)域的特征。本文提出的Reasoning-RCNN不是從可能存在噪聲的所有類別的語義信息中傳播信息,而是能自動(dòng)發(fā)現(xiàn)與特征演化最相關(guān)的類別。

經(jīng)過實(shí)驗(yàn)驗(yàn)證,本文提出的方法是輕量級(jí)的,通用的,可擴(kuò)展的,并且能夠融合知識(shí)賦予任何檢測(cè)網(wǎng)絡(luò)視覺推理的能力。在不引入過多計(jì)算代價(jià)的前提下,本文提出的方法在大規(guī)模檢測(cè)數(shù)據(jù)集VisualGenome(1000類/3000類),ADE(445類)和通用檢測(cè)數(shù)據(jù)集MS COCO(80類),PASCAL VOC(20類)上均遠(yuǎn)優(yōu)于其他現(xiàn)有的先進(jìn)檢測(cè)方法。

【06】

Spatial-aware Graph Relation Network for Large-scale Object Detection

空間感知的圖關(guān)系網(wǎng)絡(luò)及在大規(guī)模目標(biāo)檢測(cè)的應(yīng)用

大規(guī)模目標(biāo)檢測(cè)框架需要具備同時(shí)定位并識(shí)別成千上萬個(gè)具有復(fù)雜語義和空間關(guān)系的目標(biāo),伴隨著待處理的類別數(shù)越多,面臨越多的小目標(biāo)、越嚴(yán)重的類別之間目標(biāo)數(shù)不平衡、目標(biāo)之間相互遮擋等問題。眾所周知,目標(biāo)之間復(fù)雜的語義和空間關(guān)系有助于提高檢測(cè)精度。而當(dāng)前的多數(shù)研究工作通常單獨(dú)地對(duì)目標(biāo)進(jìn)行定位和識(shí)別,當(dāng)這些方法面對(duì)大規(guī)模類別數(shù)據(jù)集時(shí),性能會(huì)大幅下降。因此本文提出一個(gè)空間感知圖關(guān)系網(wǎng)絡(luò)(SGRN)框架來主動(dòng)發(fā)現(xiàn)并結(jié)合關(guān)鍵的語義和相對(duì)空間關(guān)系來對(duì)每個(gè)對(duì)象進(jìn)行推理。我們的方法考慮了目標(biāo)之間相對(duì)位置布局和相互作用,我們提出的SGRN可以很容易地嵌入到任何現(xiàn)存的檢測(cè)方法中,并提高它們的檢測(cè)性能。

在沒有任何外部知識(shí)的情況下,如何正確編碼檢測(cè)系統(tǒng)中對(duì)象之間的高階關(guān)系?如何利用對(duì)象間的伴隨關(guān)系和相對(duì)位置之間的信息進(jìn)行更好的推理?這些問題是當(dāng)今大規(guī)模目標(biāo)檢測(cè)框架面臨的主要挑戰(zhàn)。近期,一些工作也嘗試通過構(gòu)建目標(biāo)之間的知識(shí)圖來增強(qiáng)檢測(cè)效果,圖1a使用人工設(shè)計(jì)的知識(shí)構(gòu)建一個(gè)類類之間的圖。然而,這種方法很大程度上依賴于來自廣義的類別視覺的屬性標(biāo)注和語義關(guān)系。此外,由于語義和視覺語境之間的差異,某些空間關(guān)系可能會(huì)被忽略,固定圖也無法適應(yīng)全部的圖像。另一些方法試圖從的視覺特征中隱式地學(xué)習(xí)目標(biāo)之間的全連接圖。但是,完全連接的關(guān)系由于從無關(guān)對(duì)象和背景中合并了冗余和不必要的關(guān)系而變得低效和嘈雜。因此,本文的工作目標(biāo)是設(shè)計(jì)一個(gè)基于圖卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)框架,它可以同時(shí)利用語義和空間關(guān)系,直接從訓(xùn)練集中有效地學(xué)習(xí)到可解釋的稀疏圖結(jié)構(gòu),并根據(jù)學(xué)到的圖結(jié)構(gòu)進(jìn)行推理和特征傳播,增強(qiáng)小目標(biāo)、罕見類和模糊遮擋目標(biāo)的特征相應(yīng)提高檢測(cè)結(jié)果。

HCP Lab 12篇論文入選世界頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2019

本文提出的SGRN框架由兩個(gè)模塊組成:一個(gè)稀疏關(guān)系圖學(xué)習(xí)模塊(Relation Learner)和一個(gè)空間感知圖推理模塊(Spatial Graph Reasoning)。關(guān)系圖學(xué)習(xí)模塊首先從視覺特征中學(xué)習(xí)一個(gè)稀疏鄰接矩陣,它保持了最相關(guān)的T個(gè)連接關(guān)系。然后,收集前一個(gè)分類器的權(quán)重,并將其映射到每個(gè)目標(biāo)上,從而成為每個(gè)目標(biāo)的視覺向量。目標(biāo)之間的相對(duì)空間信息(距離、角度)被用來學(xué)習(xí)高斯核參數(shù),以確定圖形卷積的模式。在空間感知圖形推理模塊中,根據(jù)稀疏鄰接矩陣和高斯核對(duì)不同區(qū)域的視覺嵌入進(jìn)行演化和傳播??臻g圖推理模塊的輸出與原始區(qū)域特征相連接,以改進(jìn)分類和定位。

【07】

Graphonomy: Universal Human Parsing via Graph Transfer Learning

面向通用人體解析的圖遷移模型

人類的視覺系統(tǒng),具有在簡(jiǎn)單看一眼人物圖像的情況下,完成對(duì)圖像中人物整體理解的能力。例如,人們只需看一眼圖像,就能夠把圖中人物和背景區(qū)分開來,能夠知道圖中人物的姿勢(shì),也能夠識(shí)別出圖中人物的穿著打扮。盡管如此,最近對(duì)人物圖像理解的研究都致力于為每個(gè)單獨(dú)的應(yīng)用開發(fā)許多種高度獨(dú)立的特定的模型,譬如人物前景分割任務(wù),粗糙的衣服分割任務(wù)和精細(xì)的人物部位或服飾解析任務(wù)等。這些經(jīng)過高度調(diào)整的網(wǎng)絡(luò)犧牲了模型的泛化能力,僅僅通過過度擬合來適應(yīng)不同的數(shù)據(jù)集和不一致的標(biāo)注粒度,而忽略了存在于所有人物圖像中潛在的人體結(jié)構(gòu)特征和共同的內(nèi)在語義信息。將在一個(gè)數(shù)據(jù)集上訓(xùn)練的模型直接拿到另一個(gè)相關(guān)數(shù)據(jù)集上重新微調(diào)是非常困難的事情,因?yàn)檫@需要冗余而繁重的數(shù)據(jù)標(biāo)注和大量的計(jì)算資源來重新訓(xùn)練每個(gè)特定的模型。為了解決這些現(xiàn)實(shí)的挑戰(zhàn)并避免為相關(guān)任務(wù)訓(xùn)練冗余的模型,我們做出了一個(gè)創(chuàng)新性的嘗試,研究面向通用人體解析的問題,通過單個(gè)模型來同時(shí)處理不同的、從粗粒度到細(xì)粒度的人體解析任務(wù),如下圖所示。

HCP Lab 12篇論文入選世界頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2019

設(shè)計(jì)一個(gè)通用人體解析模型的關(guān)鍵因素是在不同的人體解析任務(wù)之間進(jìn)行準(zhǔn)確的遷移學(xué)習(xí)和知識(shí)集成,因?yàn)椴煌瑪?shù)據(jù)集之間的標(biāo)簽差異性很大程度上阻礙了模型和數(shù)據(jù)的統(tǒng)一。為了實(shí)現(xiàn)這一目標(biāo),我們提出了一個(gè)圖遷移模型,將人類知識(shí)和標(biāo)簽分類法顯式地歸納為圖表達(dá)學(xué)習(xí),并且嵌入到卷積神經(jīng)網(wǎng)絡(luò)中去。我們的圖遷移模型通過圖遷移學(xué)習(xí)來建模多個(gè)領(lǐng)域的全局和通用的語義一致性,以此來解決多層次的人體解析任務(wù),并通過信息傳播使他們能夠相互促進(jìn)。

我們的圖遷移模型集成了兩個(gè)相互協(xié)作的模塊,用于圖遷移學(xué)習(xí),如下圖所示。首先,我們提出了一個(gè)圖內(nèi)推理模塊來逐步改善圖結(jié)構(gòu)中的圖表達(dá),其中每個(gè)圖節(jié)點(diǎn)表示數(shù)據(jù)集中的一個(gè)語義部位區(qū)域。此外,我們還構(gòu)建了一個(gè)圖間遷移模塊,專注于將相關(guān)語義從一個(gè)領(lǐng)域的圖表達(dá)中提取到另一個(gè)領(lǐng)域的圖表達(dá)中去,從而橋接了來自不同數(shù)據(jù)集的語義標(biāo)簽,更好地利用了不同粒度的標(biāo)注信息。

HCP Lab 12篇論文入選世界頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2019

我們?cè)谌齻€(gè)人體解析數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),這些數(shù)據(jù)集包含了不同種類的語義部位和服飾標(biāo)簽。實(shí)驗(yàn)結(jié)果表明,通過圖內(nèi)推理模塊和圖間遷移模塊的信息傳播,我們的圖遷移模型能夠關(guān)聯(lián)和提取由不同數(shù)據(jù)集構(gòu)建的高級(jí)的語義圖表達(dá),有效地解決了多層次的通用人體解析任務(wù)。

【08】

ClusterNet: Deep Hierarchical Cluster Network with Rigorously Rotation-Invariant Representation for Point Cloud Analysis

一種基于嚴(yán)格旋轉(zhuǎn)不變性的點(diǎn)云表達(dá)以及深度層次類簇網(wǎng)絡(luò)的點(diǎn)云分析方法

在三維世界中,旋轉(zhuǎn)變換是一種十分自然、常見的現(xiàn)象,但是它對(duì)于三維物體識(shí)別也帶來了很大的挑戰(zhàn)。理論上,因?yàn)镾O(3)群是一個(gè)無窮集合,同一個(gè)三維物體在不同姿態(tài)下具有不同的“克隆”。對(duì)于人類而言,我們能很輕易地將這些“克隆”判斷為同一個(gè)物體;但是對(duì)于機(jī)器學(xué)習(xí)模型而言,這些克隆卻是完全不同的輸入數(shù)據(jù),這會(huì)導(dǎo)致輸入空間非常龐大。

為了緩解該問題,前人做了許多嘗試。①一個(gè)最簡(jiǎn)單的辦法是提升模型容量并且對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行旋轉(zhuǎn)增強(qiáng),這種方法使得訓(xùn)練階段的計(jì)算成本大大增加,而且也無法從根本上保證模型具有旋轉(zhuǎn)不變性。對(duì)于同一個(gè)物體的某種姿態(tài),模型可能就識(shí)別不準(zhǔn)確了。②利用空間變換網(wǎng)絡(luò)(Spatial transformer network)來對(duì)輸入數(shù)據(jù)進(jìn)行校正,這種方法能從一定程度提升模型的旋轉(zhuǎn)魯棒性,但同樣需要增強(qiáng)訓(xùn)練集,而且也缺乏理論上的保證。③利用旋轉(zhuǎn)等變性網(wǎng)絡(luò)(rotation-equivariant network)來消除旋轉(zhuǎn)對(duì)于模型的影響。它設(shè)計(jì)了一種旋轉(zhuǎn)等變的卷積操作,相當(dāng)于給神經(jīng)網(wǎng)絡(luò)加入了一種旋轉(zhuǎn)等變的先驗(yàn)知識(shí),但是如果對(duì)于神經(jīng)網(wǎng)絡(luò)的每一層都施加旋轉(zhuǎn)等變的約束,我們很難保證這些約束不會(huì)影響模型的容量。

與旋轉(zhuǎn)等變性網(wǎng)絡(luò)不同,我們提出了一種新的方案:直接對(duì)每一個(gè)三維物體的點(diǎn)云建立一個(gè)旋轉(zhuǎn)不變的統(tǒng)一的表達(dá)(簡(jiǎn)稱為RRI表達(dá)),直接從源頭解決了旋轉(zhuǎn)所帶來的問題,將原本冗余的輸入空間大大削減。我們不僅從理論上證明了這種表達(dá)具有嚴(yán)格旋轉(zhuǎn)不變性,而且在較弱的條件下還具有信息無損性,即:當(dāng)我們知道了一個(gè)點(diǎn)云的RRI表達(dá),不管這個(gè)點(diǎn)云如何旋轉(zhuǎn),只要給定旋轉(zhuǎn)后點(diǎn)云中的一個(gè)點(diǎn)以及另一個(gè)不共線的k近鄰點(diǎn)的坐標(biāo),那么我們就可以重建這個(gè)旋轉(zhuǎn)后的點(diǎn)云。RRI表達(dá)的具體形式還具有直觀的幾何意義。

我們還提出了一個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu)ClusterNet,架構(gòu)如圖2所示。它首先會(huì)對(duì)輸入點(diǎn)云進(jìn)行層次聚類,得到關(guān)于該點(diǎn)云幾何結(jié)構(gòu)的層次聚類樹。然后我們沿著這棵層次聚類樹去指導(dǎo)特征的聚合,自底向上將較小類簇的特征聚合為較大類簇的特征,直到獲得整個(gè)點(diǎn)云的特征。

在旋轉(zhuǎn)魯棒性實(shí)驗(yàn)中,我們提出的RRI表達(dá)與ClusterNet結(jié)合的方法在旋轉(zhuǎn)魯棒性上取得了最優(yōu)的表現(xiàn),并且現(xiàn)存的基于點(diǎn)云的分類網(wǎng)絡(luò)采用我們的RRI表達(dá)作為輸入后,在旋轉(zhuǎn)魯棒性上也有明顯的提升。     

【09】

Layout-graph Reasoning for Fashion Landmark Detection

一種基于堆疊式層級(jí)布局知識(shí)推理的服裝關(guān)鍵點(diǎn)定位方法

近來在預(yù)測(cè)定位關(guān)鍵點(diǎn)的方面有了許多的研究方法。一種直接的方法是通過DCNNs,采用端到端的方式進(jìn)行建模關(guān)鍵點(diǎn)的位置信息,如圖1(a)所示。雖然這種方法得益于深度卷積網(wǎng)絡(luò)的深層建模能力,但缺乏可解釋性,對(duì)數(shù)據(jù)依賴敏感,同時(shí)在一些具有復(fù)雜背景的場(chǎng)景下表現(xiàn)差強(qiáng)人意。另一種引入語法建模的方法是通過對(duì)服裝關(guān)鍵點(diǎn)之間進(jìn)行語法建模,比如建立領(lǐng)口點(diǎn)的對(duì)稱語法,然后利用該語法形成的約束進(jìn)行引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí),如圖1(b)所示。這種引入外部自定義的語法進(jìn)行建模的方法可以有效提升定位關(guān)鍵點(diǎn)的性能并增強(qiáng)了網(wǎng)絡(luò)的可解釋性,但是該方法沒有引入知識(shí)來建模點(diǎn)的空間上下文語義關(guān)聯(lián),比如袖子點(diǎn)屬于上半身語義關(guān)聯(lián)。缺乏這種關(guān)聯(lián)容易導(dǎo)致在一些復(fù)雜模糊的場(chǎng)景下,上下身的服裝關(guān)鍵點(diǎn)預(yù)測(cè)混亂。同時(shí)目前的方法并沒有對(duì)卷積特征圖和圖節(jié)點(diǎn)特征建模一種有效的轉(zhuǎn)換方法,讓知識(shí)圖譜中節(jié)點(diǎn)的知識(shí)推理操作無法有效地和卷積網(wǎng)絡(luò)進(jìn)行無縫銜接,從而無法達(dá)到協(xié)同訓(xùn)練的目的。

為了克服現(xiàn)有技術(shù)的不足,同時(shí)受益于人類在認(rèn)識(shí)事物的過程中,對(duì)事物進(jìn)行歸屬分類的思想,我們首次提出了一種基于堆疊式層級(jí)布局知識(shí)推理的服裝關(guān)鍵點(diǎn)定位方法,整體框架如圖2所示。整體框架主要包括一個(gè)基礎(chǔ)卷積網(wǎng)絡(luò)和一系列的層級(jí)布局知識(shí)推理模塊(LGR layer)。其中每個(gè)層級(jí)布局知識(shí)推理模塊都包含三個(gè)子模塊:圖-點(diǎn)子模塊(Map-to-Node)、層級(jí)推理子模塊(Layout-graph Reasoning Module)和點(diǎn)-圖子模塊(Node-to-Map)。每個(gè)層級(jí)推理子模塊包含圖節(jié)點(diǎn)聚類操作、圖節(jié)點(diǎn)反卷積操作和圖節(jié)點(diǎn)信息傳播操作。本方法首先利用基礎(chǔ)卷積網(wǎng)絡(luò)對(duì)輸入的圖像提取卷積特征圖,再利用圖-點(diǎn)子模塊將卷積特征圖轉(zhuǎn)換為圖節(jié)點(diǎn)特征;再利用服裝關(guān)鍵點(diǎn)空間布局關(guān)系的信息結(jié)合圖節(jié)點(diǎn)特征,輸入到層級(jí)推理子模塊實(shí)現(xiàn)層級(jí)布局知識(shí)推理,包括建模各個(gè)葉子節(jié)點(diǎn)的布局關(guān)系,各個(gè)中間節(jié)點(diǎn)的布局關(guān)系等,如圖3所示,最終輸出得到進(jìn)化增強(qiáng)的葉子節(jié)點(diǎn)特征;最后通過點(diǎn)-圖子模塊將層級(jí)推理子模塊的輸出節(jié)點(diǎn)轉(zhuǎn)換為卷積特征圖;再通過后處理將卷積特征圖轉(zhuǎn)換為特征定位圖,預(yù)測(cè)出最終的服裝關(guān)鍵點(diǎn)位置。

HCP Lab 12篇論文入選世界頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2019

層級(jí)布局知識(shí)推理模塊(LGR layer)

本方法第一次提出層級(jí)布局知識(shí)推理的方法,并將該方法首次應(yīng)用到通用服裝關(guān)鍵點(diǎn)定位的任務(wù)中。相比于最近的基于多階段預(yù)測(cè)、空間變換的注意力機(jī)制以及利用語法模型約束關(guān)鍵點(diǎn)定位的服裝關(guān)鍵點(diǎn)定位方法,我們提出的方法不僅擁有更高的定位精度和可解釋性,而且提供了一種將層級(jí)知識(shí)圖譜引入卷積網(wǎng)絡(luò)進(jìn)行層級(jí)推理的機(jī)制。我們的方法在目前已有的兩個(gè)大型fashion landmark數(shù)據(jù)集上進(jìn)行測(cè)試并達(dá)到state-of-the-art的效果。

附錄

1. "Blending-target Domain Adaptation by Adversarial Meta-Adaptation Networks”, Ziliang Chen, Jingyu Zhuang, Xiaodan Liang and Liang Lin Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.

2. "Knowledge-Embedded Routing Network for Scene Graph Generation", Tianshui Chen, Weihao Yu, RIquan Chen, Liang LinProc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.

3. “Adaptively Connected Neural Networks”, Guangrun Wang, Keze Wang, and Liang Lin*, Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. 

4. "Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation", Xipeng Chen, Kwan-Yee Lin, Wentao Liu, Chen Qian and Liang Lin, Proc. of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2019

5. "Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection", Hang Xu*, ChenHan Jiang*, Xiaodan Liang, Liang Lin, Zhenguo Li, Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.

6. "Spatial-aware Graph Relation Network for Large-scale Object Detection", Hang Xu*, ChenHan Jiang*, Xiaodan Liang, Zhenguo Li, Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.

7. Graphonomy: Universal Human Parsing via Graph Transfer Learning,Ke Gong, Yiming Gao, Xiaodan Liang, Xiaohui Shen, Meng Wang, Liang Lin,Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.

8.ClusterNet: Deep Hierarchical Cluster Network with Rigorously Rotation-Invariant Representation for Point Cloud Analysis, Chao Chen, Guanbin Li, Ruijia Xu, Tianshui Chen, Meng Wang, Liang Lin, Proc. of IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2019.

9. “Layout-Graph Reasoning for Fashion Landmark Detection”,Weijiang Yu, Xiaodan Liang, Ke Gong, Chenhan Jiang, Nong Xiao, Liang Lin; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019

10. “Cross-Modal Relationship Inference for Grounding Referring Expressions”,Sibei Yang, Guanbin Li, Yizhou Yu; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019

11. “Learning Personalized Modular Network Guided by Structured Knowledge”,Xiaodan Liang; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019

12. “Rethinking Knowledge Graph Propagation for Zero-Shot Learning”,Michael Kampffmeyer, Yinbo Chen, Xiaodan Liang, Hao Wang, Yujia Zhang, Eric P. Xing; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019

附錄:中山大學(xué)HCP人機(jī)物智能融合實(shí)驗(yàn)室

 “中山大學(xué)HCP人機(jī)物智能融合實(shí)驗(yàn)室“依托于中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院,圍繞“人工智能原創(chuàng)和前沿技術(shù)”布局研究方向與課題,并與產(chǎn)業(yè)界開展廣泛合作,輸出大量原創(chuàng)技術(shù)及孵化多個(gè)創(chuàng)業(yè)團(tuán)隊(duì)。在感知計(jì)算與智能學(xué)習(xí)、機(jī)器人與嵌入式系統(tǒng)、人機(jī)協(xié)同技術(shù)、大數(shù)據(jù)挖掘與分析等領(lǐng)域開展研究,以“攀學(xué)術(shù)高峰、踏應(yīng)用實(shí)地”為工作理念。實(shí)驗(yàn)室目前有教授1名,副教授4名,特聘研究員3名,工程師3名。

實(shí)驗(yàn)室承擔(dān)或者已完成各級(jí)科研項(xiàng)目40余項(xiàng),共獲得科研經(jīng)費(fèi)超過數(shù)千萬元??蒲袌F(tuán)隊(duì)在頂級(jí)國際學(xué)術(shù)期刊與會(huì)議上發(fā)表論文200余篇,包括在IEEE/ACM Trans匯刊發(fā)表論文60余篇,在CVPR/ICCV/NIPS/Multimedia/AAAI/IJCAI等頂級(jí)會(huì)議發(fā)表論文100余篇,獲得NPAR 2010 Best Paper Award, ACM SIG CHI Best Paper Award Honorable Mention, ICME 2014 Best Student Paper, The World’s FIRST 10K Best Paper Diamond Award by ICME 2017,Pattern Recognition Best Paper Award等獎(jiǎng)勵(lì)。

雷鋒網(wǎng) AI 科技評(píng)論雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

HCP Lab 12篇論文入選世界頂級(jí)計(jì)算機(jī)視覺會(huì)議 CVPR 2019

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說