0
本文作者: 汪思穎 | 編輯:郭奕欣 | 2018-02-27 11:18 | 專題:CVPR 2018 |
雷鋒網(wǎng) AI 研習社按,當?shù)貢r間 6.18-22 日,CVPR 2018 將在美國鹽湖城舉辦。目前距離大會開幕還有四個月,隨著春節(jié)期間大會主辦方公布接收論文名單,引來大家對 CVPR 的討論狂潮(詳情可參見 CVPR 2018 收錄論文名單全公布,默默看各路大神公布喜訊)。除了對接收論文的討論和學習,其實還有一個議程也不容大家錯過,那就是 workshop 上各式各樣的比賽了。
從大會官網(wǎng)上可以看到,今年的 workshop 涉及到多個議題,比如偽裝人臉識別、低功耗圖像識別、圖像壓縮、系統(tǒng)魯棒性分析、自動駕駛、嵌入式視覺等等多個方面,而針對這些議題,也涌現(xiàn)出許多有意思的比賽。這些 workshop 上的比賽,或是有多個大公司贊助,或是極具新意,或是極具實用價值,雷鋒網(wǎng) AI 研習社在篩選之后,為大家介紹如下幾個比賽。
以下是兩個極有新意的比賽,在偽裝人臉識別比賽和大規(guī)模地標識別競賽上,主辦方都提供全新的大規(guī)模公開數(shù)據(jù)集,大家可以利用系統(tǒng)識別偽裝后的明星,識別景點。
偽裝人臉識別比賽
在「First International Workshop on Disguised Faces in the Wild 」workshop上,來自馬里蘭大學、IBM 和印度國際信息學院(IIIT)的幾位主辦方推出偽裝人臉檢測比賽。
隨著近年來深度學習的進步,自動人臉識別能力得到了顯著提升。然而,在不受約束的環(huán)境中,面對不是很配合的用戶,想要進行精準的人臉識別仍然極具挑戰(zhàn)。
目前對姿勢、表情、光照、老化程度和低分辨率等幾個因素的研究頗多,但「偽裝」仍然是人臉識別中一個很難解決的問題。
如下圖所示,偽裝包括有意和無意的改變面容來混淆自己的身份,或者模仿別人的身份。你能猜出下面誰是Lady Gaga,誰是 Neil Patrick Haris 嗎?
偽裝在什么樣的環(huán)境下都有可能發(fā)生,因此對這種問題的識別會更加困難。此外,由于沒有可用的數(shù)據(jù)集,人們并沒有對真實場景下的偽裝進行全面研究。
針對現(xiàn)狀,在此次研討會上,主辦方舉辦了這場偽裝人臉識別競賽,參賽者將被要求展示他們在自然環(huán)境數(shù)據(jù)庫中對偽裝后的人臉的識別情況。優(yōu)秀的算法組將被受邀提交論文,選中的論文會在 workshop 上進行演示。此外,沒有參加比賽的相關(guān)研究人員也可以提交論文。
喬裝人臉數(shù)據(jù)集(Disguised Face Dataset)
主辦方準備了一個喬裝人臉數(shù)據(jù)集(Disguised Face Dataset),包含了 1.1 萬多張涵蓋 1000 種主題的各種經(jīng)過不同偽裝的圖片。主題文件夾由喬裝過后的藝人的圖片組成,此外主辦方還提供從 Faster RCNN 中生成的臉部文件。
數(shù)據(jù)集地址:http://iab-rubric.org/databases/DFW_Data.zip
比賽主要包括如下幾個方向:
在偽裝的情況下識別人臉
通過偽裝冒充其他身份
檢測各種不同的偽裝方法
檢測化妝之后的人臉
識別遮掩之后的人臉
關(guān)于該比賽的詳細信息,可以參見:
http://iab-rubric.org/DFW/dfw.html
大規(guī)模地標識別競賽(Large-Scale Landmark Recognition: A Challenge)
當你在瀏覽旅游之后的照片時,有沒有問過自己:我在中國訪問過的這座寺廟叫什么名字? 我在法國看到的這個紀念碑是誰建造的? 想不起來沒關(guān)系,地標識別系統(tǒng)能幫到你。地標識別技術(shù)可以直接通過圖片像素預測地標標簽,從而幫助人們更好地理解和分類自己的照片。
如今,地標識別研究面臨一大障礙——缺乏大型的帶標注的數(shù)據(jù)集。
在這次競賽中,主辦方公開了迄今為止最大的全球性數(shù)據(jù)集,以促進解決這個問題。此次比賽在 Kaggle 平臺上舉辦,極具挑戰(zhàn)性。
此次共分為兩個賽事:
地標識別
Kagglers 需要建立模型,在測試集中識別出正確的地標 (如果圖中有地標)。
許多 Kagglers 對諸如 ImageNet LSVRC 大規(guī)模視覺識別挑戰(zhàn)賽很熟悉,ILSVRC 的目標是識別一千種常規(guī)的對象類別。地標識別與這有些許不同:它包含了更大的類 (這次比賽中有一萬五千個類),并且每個類的訓練樣例的數(shù)量可能不是很大。地標識別本身也極具挑戰(zhàn)。
這一挑戰(zhàn)與地標檢索挑戰(zhàn)賽同時進行,兩個比賽的測試集相同,以鼓勵參賽者兩個都參加。
地標檢索
圖像檢索是計算機視覺中的一個基礎(chǔ)問題:給定一個圖像,你能否在大型數(shù)據(jù)庫中找到類似的圖像? 這個問題對于含有地標的圖像來說非常重要,因為人們大都喜歡以特定的地標作為背景拍照。
在這場競爭中,主辦方會為參賽者提供查詢的圖像,并且,對于每個給定的圖像,都希望參賽者能檢索出數(shù)據(jù)庫中包含相同地標的所有圖像 (如果存在的話)。
主辦方也鼓勵參賽者使用識別比賽中的訓練數(shù)據(jù)來訓練檢索賽中的模型,這可能也會有用。但是請注意:這兩個挑戰(zhàn)賽的訓練/檢索集中沒有共同的地標。
比賽提供的全新數(shù)據(jù)集是世界上最大的圖像檢索研究數(shù)據(jù)集,由一百多萬張圖片組成,包含一萬五千個獨特的地標。主辦方表示,希望這一數(shù)據(jù)集將加速對這類研究的進展。
地標識別比賽地址:https://www.kaggle.com/c/landmark-recognition-challenge
地標檢索比賽地址:https://www.kaggle.com/c/landmark-retrieval-challenge
除了以上兩個代表性的極具新意的比賽,會上也有很多較為傳統(tǒng)的比賽,例如 LPIRC。
低功耗圖像識別挑戰(zhàn)賽(Low-Power Image Recognition Challenge)
該比賽為 IEEE 主辦,今年是第四屆。比賽贊助方包括 IEEE Rebooting Computing、谷歌和 Facebook。
舉辦該比賽的背景如下:目前,許多移動系統(tǒng) (智能手機、電子設(shè)備、自動機器人) 都具有拍照功能,這些系統(tǒng)都需要使用電池,因此降低能耗極其重要。
這一競賽旨在發(fā)掘出兼顧圖像識別和節(jié)約能耗的最佳技術(shù)。參賽選手的方案將會根據(jù)兩個維度來評估:一是高識別率,二是低功耗。
圖像識別涉及到許多任務(wù)。這一挑戰(zhàn)集中于對象檢測,這是許多識別方法的基本路徑。
下面有兩個例子,舉例說明了此次任務(wù)。
在第一個例子中,有兩個物體:一只鳥和一只青蛙。
在第二個例子中,有若干物體:汽車、人、摩托車和頭盔。
LPIRC 的訓練和驗證數(shù)據(jù)來自于 ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽。測試數(shù)據(jù)是專門針對此次比賽準備的。
比賽分為三個不同挑戰(zhàn):
Track 1:參賽隊伍在 CVPR 2018 之前,將他們的模型提交為 TfLite 格式,這里重點關(guān)注模型在確定計算平臺上的準確率和執(zhí)行時間。
Track 2:參賽隊伍在 CVPR 2018 前提交程序,主辦方將會在英偉達 TX2 上執(zhí)行程序,衡量準確率和能耗。
Track 3:與 2017 年的一樣,參賽者在現(xiàn)場用他們寫好的程序比賽,這里對硬件和軟件都沒有限制。(注意:不能使用英偉達 TX2)
關(guān)于比賽的更多信息,接下來會陸續(xù)公布,大家可以關(guān)注:
https://rebootingcomputing.ieee.org/lpirc
除了這些或極具新意,或傳統(tǒng)的比賽,也有比賽既涉及到由來已久的賽事,又專注于未來的實用性價值,例如下面要介紹的魯棒性視覺挑戰(zhàn)賽。
魯棒性視覺挑戰(zhàn)賽(Robust Vision Challenge)
過去十年間,帶標注的大數(shù)據(jù)集日益增多,如 Middlebury、PASCAL VOC、ImageNet、MS COCO、KITTI、Cityscapes,這些數(shù)據(jù)集的出現(xiàn)使得計算機視覺和機器學習取得巨大進步。
有了公共排行榜,大家只需要比較多種方法的結(jié)果,就很容易追蹤到這一領(lǐng)域的最先進技術(shù)。雖然目前在每個數(shù)據(jù)集上都取得了穩(wěn)定的進展,但許多都只限于特定領(lǐng)域。例如,KITTI 專注于真實世界的城市駕駛場景,而 Middlebury 考慮的是室內(nèi)場景。
因此,在一個數(shù)據(jù)集上頂尖的方法通常在另一個數(shù)據(jù)集上表現(xiàn)很差,或者需要對模型參數(shù)進行大量修改。
這個 workshop 的目標是促進視覺系統(tǒng)的發(fā)展,找到能在各種具有不同特征的數(shù)據(jù)集上均表現(xiàn)良好的穩(wěn)健系統(tǒng)。
為了實現(xiàn)這一目標,主辦方推出 Robust Vision Challenge 挑戰(zhàn)賽,通過一系列具有不同特征的、極具挑戰(zhàn)性的基準(例如室內(nèi) VS 室外,真實 VS 合成,晴朗 VS 惡劣天氣,不同的傳感器),測試系統(tǒng)在若干個任務(wù) (如:重建、語義/實例分割、單一圖像深度預測) 上的性能。此外,主辦方也鼓勵大家提交的系統(tǒng)中包括新的算法、目前正在審核的技術(shù)和已經(jīng)發(fā)表的方法。
如上圖所示,主辦方為這 6 個挑戰(zhàn)中的冠軍和亞軍提供獎項,并邀請他們在這次的 workshop 上展示其方法,參加 workshop 晚宴。此外,主辦方還計劃在 TPAMI 論文上發(fā)表優(yōu)勝者方案。
而從大的方向上來看,也有諸多比賽關(guān)注城市現(xiàn)狀,旨在利用計算機技術(shù),找出針對于交通問題、城市發(fā)展問題的更好的應對方法,例如下面將要介紹的兩項比賽:
英偉達 AI 城市挑戰(zhàn)賽(NVIDIA AI CITY CHALLENGE)
英偉達在 CVPR 2018 上舉辦了一場英偉達 AI 城市挑戰(zhàn)賽。他們表示,到 2020 年將有 10 億臺相機。交通運輸是相機最大的細分市場之一,因為它可以從這些相機捕捉到的數(shù)據(jù)中受益。在交通、信號系統(tǒng)、運輸系統(tǒng)、基礎(chǔ)設(shè)施中,分析從這些攝像頭中獲得的信息,有助于交通系統(tǒng)更安全、更智能。
然而,目前因為一些原因,他們還沒能利用到這些潛在的信息。首先是數(shù)據(jù)質(zhì)量很糟糕,此外缺乏數(shù)據(jù)標簽,最后缺乏能夠?qū)?shù)據(jù)轉(zhuǎn)化為有用信息的高質(zhì)量模型,另外還需要支持從端到云分析的平臺來加速模型的開發(fā)和部署。
而此次的 NVIDIA AI City Challenge workshop 將特別關(guān)注這些問題,例如分析交通流量特征(如車速),大力開展使用無人監(jiān)督的方法來檢測車輛相撞、停車引起的異?,F(xiàn)象等等。
雖然目前計算機視覺,特別是深度學習已經(jīng)在大規(guī)模的實際部署上有所貢獻,這將有助于使城市變得更聰明、更安全,但英偉達希望征求大家更多的點子。
為了減少對監(jiān)督式方法的依賴,而更多的關(guān)注于遷移學習、非監(jiān)督和半監(jiān)督的方法,他們在這次 workshop 上組織此次競賽,優(yōu)秀成果將在 workshop 上進行展示。
參賽者可以在以下三個挑戰(zhàn)中選擇參加一個或多個,想獲得獎品的參賽隊伍需要提交代碼,以便于主辦方驗證。
Track 1: 交通流量分析(Traffic Flow Analysis)
參賽隊伍需要提交預估車速。測試集是 27 個 1 分鐘的視頻。
Track 2:異常檢測(Anomaly Detection)
參賽隊伍將提交檢測到的前一百個異常情況,這可能是由于汽車相撞或車輛停滯造成的。異常情況不包括正常的交通堵塞。
Track 3: 多場景車輛檢測和鑒定(Multi-camera Vehicle Detection and Reidentification)
參賽隊伍需要在 15 個視頻中,識別出在 4 個不同地點中均至少出現(xiàn)過一次的車輛。
而他們?yōu)閰①愡x手提供的獎品也很英偉達:
Track 1 中,冠軍和亞軍獎品是 Jetson TX2;
Track 2 中,冠軍獎勵是 Titan Xp1,亞軍獎勵是 Jetson TX2;
Track 3 中,冠軍獎勵是 Tesla V100,亞軍獎勵是 Jetson TX2。
比賽詳細信息:https://www.aicitychallenge.org/
DeepGlobe 衛(wèi)星圖像理解挑戰(zhàn)
據(jù)主辦方介紹,與傳統(tǒng)圖像相比,衛(wèi)星圖像非常強大,它包含更多的結(jié)構(gòu)化、一致的數(shù)據(jù)。盡管計算機視覺社群目前已經(jīng)在利用深度學習,基于日常圖像數(shù)據(jù)集,完成了一些極具挑戰(zhàn)的任務(wù),但衛(wèi)星圖像最近才獲得關(guān)注,基于衛(wèi)星圖像可以對地圖和人口進行分析。
這個 workshop 旨在將不同研究人員聚集與此,以推進衛(wèi)星圖像分析頂尖技術(shù)的進展。
為了讓更多人關(guān)注這些技術(shù),主辦方推出 DeepGlobe 衛(wèi)星圖像理解挑戰(zhàn)(DeepGlobe Satellite Image Understanding Challenge),該挑戰(zhàn)賽基于三種不同的衛(wèi)星圖像理解任務(wù)。
為這次競賽準備的數(shù)據(jù)集可以作為未來分析研究衛(wèi)星圖像的參考基準。此外,由于挑戰(zhàn)任務(wù)將涉及到實拍圖片(in the wild)中的經(jīng)典計算機視覺問題,這些數(shù)據(jù)集極具價值,有可能成為產(chǎn)生健壯視覺算法的溫床,而不僅僅只是局限在遙感技術(shù)的范圍。
DeepGlobe 包含如下三種挑戰(zhàn):
道路提?。╮oad extraction)
在災區(qū),特別是發(fā)展中國家,地圖和可獲得的信息對于危機應對至關(guān)重要。這項挑戰(zhàn)是從衛(wèi)星圖像中自動提取道路和街道網(wǎng)絡(luò)。這是一個二元分割問題,需要檢測每一區(qū)域所有道路的像素。對這項競賽的評估將基于道路像素的準確度。
建筑物探測(building detection)
人口動態(tài)建模對災害響應和恢復具有重要意義,而對建筑物和城市區(qū)域的檢測是實現(xiàn)建模的關(guān)鍵。這項挑戰(zhàn)的目的是從衛(wèi)星圖像中自動探測建筑物。這一問題也是二元分割問題,需要找出每個區(qū)域所有不同建筑的位置。評估是基于檢測到的建筑邊緣與地面實況的重疊情況。
土地分類(land cover classification)
對地表自動分類和切割對可持續(xù)發(fā)展、農(nóng)耕和城市規(guī)劃具有重要意義。這一挑戰(zhàn)是個多類分割任務(wù),需要探測城市、耕地、牧場、森林、水源、荒地和未知區(qū)域。評估是基于類別標簽的準確性。
參賽者可提交一個或多個挑戰(zhàn)的結(jié)果。主辦方呼吁大家提交的結(jié)果包括新的技術(shù)、正在審查的方法和已經(jīng)出版的方法。每項挑戰(zhàn)的前三名都將獲得獎勵,獲勝者將會在 DeepGlobe CVPR 2018 workshop 上進行口頭陳述,每一挑戰(zhàn)的前五名將受邀請進行海報展示。主辦方還將在 workshop 上發(fā)表一些選定的論文。
當然了,上面介紹的那些比賽并不是全部,大家可以點擊:http://cvpr2018.thecvf.com/program/workshops,查看更多 workshop 比賽信息,看看是否有你感興趣的主題。
(完)雷鋒網(wǎng) AI 研習社編譯整理
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。