0
本文作者: debbie | 2017-07-22 19:49 | 專題:CVPR 2017 |
2017 年 7 月 11 日,專注于計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)的國(guó)內(nèi)人工智能企業(yè)商湯科技完成 4.1 億美元融資的消息引爆業(yè)內(nèi)。本次融資創(chuàng)下了全球人工智能公司單輪融資的最高紀(jì)錄。作為一家專注于計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)的新銳公司,在即將到來(lái)的世界頂級(jí)計(jì)算機(jī)視覺(jué)會(huì)議CVPR(7月21日-26日,美國(guó)夏威夷)上,商湯科技也將帶來(lái)一系列的技術(shù)Demo、Presentation、PartyTime等活動(dòng)。在本屆CVPR 2017 大會(huì)上,商湯科技及香港中大-商湯科技聯(lián)合實(shí)驗(yàn)室共有23篇論文被接收。錄取論文中不乏新奇有趣的題目,詳細(xì)內(nèi)容歡迎到會(huì)場(chǎng)和作者深度交流。
圖像質(zhì)量差異識(shí)別難點(diǎn)示意圖
在人臉識(shí)別、人體再識(shí)別任務(wù)中,輸入的數(shù)據(jù)通常是每張人臉或每個(gè)人體的多張圖像構(gòu)成的序列。現(xiàn)有的方法利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)一個(gè)序列中的所有圖像分別提取特征,再將特征進(jìn)行簡(jiǎn)單的平均或池化,作為該序列的最終特征用于之后的識(shí)別。但實(shí)際應(yīng)用場(chǎng)景中一個(gè)序列中的圖像可能在許多方面存在著較大差異,例如光照、清晰度、角度等,如示例圖。由于在融合序列的特征時(shí)沒(méi)有考慮到這些差異,上述方法在實(shí)際應(yīng)用場(chǎng)景用會(huì)受這些因素的影響從而無(wú)法達(dá)到理想的效果。本論文提出了一種新的序列匹配方法,充分考慮了序列內(nèi)圖像的差異性,并利用深度學(xué)習(xí)的方法對(duì)這種差異性進(jìn)行無(wú)監(jiān)督的學(xué)習(xí),再根據(jù)學(xué)習(xí)到的質(zhì)量差異性對(duì)序列中的圖像特征進(jìn)行融合,最終得到具有較高判別力的序列特征,解決光照模糊等一系列實(shí)際應(yīng)用中的問(wèn)題。
以自然語(yǔ)言描述來(lái)進(jìn)行人的檢索
大規(guī)模圖像庫(kù)檢索有非常大的行業(yè)意義,通常提取圖像屬性特征再通過(guò)屬性檢索來(lái)找到目標(biāo)。但是常用場(chǎng)景比如嫌疑犯描述都是通過(guò)自然語(yǔ)言描述(人類能理解的語(yǔ)言)。本論文提出了使用自然語(yǔ)言描述進(jìn)行人的大庫(kù)檢索,如上圖所示,自然語(yǔ)言描述為“這位婦女穿著一件長(zhǎng)而亮的橙色長(zhǎng)袍,腰上系著一條白色腰帶。她把頭發(fā)挽成一個(gè)發(fā)髻或馬尾辮?!边@樣的描述要比用屬性來(lái)的豐富的多。這個(gè)系統(tǒng)定位人體圖像顯著視覺(jué)區(qū)域,同時(shí)把有意義的文本描述短語(yǔ)賦予顯著的視覺(jué)區(qū)域。通過(guò)學(xué)習(xí)圖像-語(yǔ)言關(guān)系,系統(tǒng)可以準(zhǔn)確得到自然語(yǔ)言查詢和相似度得分,從而大大提成查詢準(zhǔn)確率和效率。
結(jié)合人類視覺(jué)注意力 - Residual Attention Network for Image Classification
首次成功將極深卷積神經(jīng)網(wǎng)絡(luò)與人類視覺(jué)注意力機(jī)制進(jìn)行有效的結(jié)合
視覺(jué)注意力機(jī)制是人類視覺(jué)所特有的大腦信號(hào)處理機(jī)制。人類視覺(jué)通過(guò)快速掃描全局圖像獲得需要關(guān)注的目標(biāo)區(qū)域,而后重點(diǎn)獲取所需要關(guān)注的目標(biāo)信息,抑制其他無(wú)用信息。人類視覺(jué)注意力機(jī)制極大的提高了視覺(jué)信息處理的效率與準(zhǔn)確性。注意力機(jī)制已經(jīng)在自然語(yǔ)言處理中取得了重大成功。但在計(jì)算機(jī)視覺(jué)任務(wù)中,如何將視覺(jué)注意力機(jī)制有效的嵌入到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并提升網(wǎng)絡(luò)性能成為亟待解決的問(wèn)題。
Residual Attention Network,在圖像分類問(wèn)題上,首次成功將極深卷積神經(jīng)網(wǎng)絡(luò)與人類視覺(jué)注意力機(jī)制進(jìn)行有效的結(jié)合,并取得了遠(yuǎn)超之前網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確度與參數(shù)效率。僅用與ResNet-50的相當(dāng)?shù)膮?shù)量和計(jì)算量就得到了遠(yuǎn)超過(guò)了ResNet-152的分類性能。今年ImageNet檢測(cè)冠軍團(tuán)隊(duì)已經(jīng)在LOC任務(wù)重使用了本文的機(jī)制。 模型、參數(shù)等都可以參考網(wǎng)站
CVPR 2017 會(huì)議期間商湯將聯(lián)合香港中文大學(xué)聯(lián)合實(shí)驗(yàn)室共同主辦一場(chǎng)SenseTime PartyTime活動(dòng)。該活動(dòng)旨在為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究人員和學(xué)生提供交流機(jī)會(huì),并且會(huì)有業(yè)內(nèi)大咖分享最新研究成果。
活動(dòng)時(shí)間: 7月24日下午12:00-16:00pm
活動(dòng)地點(diǎn):THE MODERN HONOLULU, Honolulu, Hawaii
商湯科技及香港中大-商湯科技聯(lián)合實(shí)驗(yàn)室共有23篇論文被接收,附上CVPR2017上Session時(shí)間
1) Multi-Context Attention for Human Pose Estimation - Saturday, July 22, 2017,09:00–10:30
2) Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation - Saturday, July 22, 2017,09:00–10:30
3) Accurate Single Stage Detector Using Recurrent Rolling Convolution - Saturday, July 22, 2017,10:30–12:30
4) Mimicking Very Efficient Network for Object Detection - Saturday, July 22, 2017,10:30–12:30
5) Object Detection in Videos with Tubelet Proposal Networks - Saturday, July 22, 2017,10:30–12:30
6) Spindle Net: Person Re-identification with Human Body Region Guided Feature Decomposition and Fusion.- Saturday, July 22, 2017,10:30–12:30
7) Discover and Learn New Objects from Documentaries - Saturday, July 22, 2017,13:30–15:00
8) Learning object interactions and descriptions for Semantic Image Segmentation - Saturday, July 22, 2017,13:30–15:00
9) Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification Saturday, July 22, 2017- 15:00–17:00
10) Scale-Aware Face Detection - Saturday, July 22, 2017,15:00–17:00
11) Interpretable Structure-Evolving LSTM - Sunday, July 23, 2017,08:30–10:00
12) Detecting Visual Relationships with Deep Relational Networks - Sunday, July 23, 2017,13:00–14:30
13) Joint Detection and Identification Feature Learning for Person Search - Sunday, July 23, 2017,13:00–14:30
14) Learning Cross-Modal Deep Representations for Robust Pedestrian Detection - Sunday, July 23, 2017,14:30–16:30
15) PolyNet: A Pursuit of Structural Diversity in Very Deep Networks - Sunday, July 23, 2017,14:30–16:30
16) Pyramid Scene Parsing Network - Sunday, July 23, 2017,14:30–16:30
17) Person Search with Natural Language Description - Monday, July 24, 2017,10:00–12:00
18) Quality Aware Network for Set to Set Recognition - Monday, July 24, 10:00–12:00
19) UntrimmedNets for Weakly Supervised Action Recognition and Detection - Tuesday, July 25, 2017,10:00–12:00
20) Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade - Tuesday, July 25, 2017,13:00–14:30
21) Residual Attention Network for Image Classification - Tuesday, July 25, 13:00–14:30
22) ViP-CNN: A Visual Phrase Reasoning Convolutional Neural Network for Visual Relationship Detection - Tuesday, July 25, 2017,1430–1630
23) Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing - Tuesday, July 25, 2017,14:30–16:30
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章