1
本文作者: 宗仁 | 2016-09-27 20:58 | 專題:雷峰網(wǎng)公開課 |
雷鋒網(wǎng)了解到,近兩個月,國內(nèi)團隊先后在全球權(quán)威的人臉檢測評測平臺 FDDB 和全球自動駕駛算法公開排行榜 KITTI 以及 Cityscapes 上取得非常好的成績,這在一定程度上證明了國內(nèi)計算機視覺相關(guān)算法已達(dá)到國際頂尖水平。
今年 ILSVRC 2016(全稱是ImageNet Large Scale Visual Recognition Challenge)分為五大部分,包括:目標(biāo)檢測、目標(biāo)定位、視頻中目標(biāo)物體檢測、場景分類、場景分析。在昨天,全球最為權(quán)威的計算機視覺大賽 ILSVRC2016(大規(guī)模圖像識別競賽)公布了算法排名結(jié)果,Hikvision(??低暎Z得場景分類第一名。
那么,今年的ImageNet的比賽為什么由這5部分組成?Hikvision(??低暎┦侨绾卧趫鼍白R別一項中奪得冠軍的?今天雷鋒網(wǎng)請到了海康威視首席科學(xué)家、??低曆芯吭撼?wù)副院長浦世亮先生為我們講解ILSVRC2016相關(guān)的詳細(xì)細(xì)節(jié)。雷鋒網(wǎng)對采訪過程整理如下。
浦世亮,法國國家科學(xué)研究院(CNRS)博士、浙江大學(xué)博士,現(xiàn)任海康威視(杭州??低晹?shù)字技術(shù)股份有限公司002415)首席科學(xué)家、研究院常務(wù)副院長、??低暡┦亢罂蒲泄ぷ髡矩?fù)責(zé)人、博士后導(dǎo)師,帶領(lǐng)??低曆芯吭旱难邪l(fā)團隊負(fù)責(zé)??低曉谝曨l應(yīng)用領(lǐng)域的前瞻性、戰(zhàn)略性基礎(chǔ)技術(shù)研究。其個人曾獲第十九屆求是杰出青年獎、浙江省有突出貢獻(xiàn)中青年專家、浙江省科學(xué)技術(shù)進步一等獎、杭州市131中青年人才等多項榮譽;已申請發(fā)明專利90多件,獲得授權(quán)發(fā)明專利11件,并在知名期刊、國際知名會議ICDAR、ICPR等發(fā)表多篇論文。
今年 ILSVRC分為
任務(wù)目標(biāo)檢測(object detection)
目標(biāo)分類與定位(object localization)
視頻中的目標(biāo)檢測和跟蹤(object detection / tracking from video)
場景分類(scene classification)
場景分割(scene parsing)
與去年相比今年增加了一項場景分割任務(wù)。這五類任務(wù)都是計算機視覺領(lǐng)域基礎(chǔ)的人工智能任務(wù),有廣闊的工業(yè)應(yīng)用前景。與去年相比,今年增加了一項場景分割任務(wù)。
鑒于這個參賽規(guī)則相對復(fù)雜,請參考ImageNet官網(wǎng)權(quán)威說明。http://image-net.org/challenges/LSVRC/2016,這是訪問地址。
大致來說,五項任務(wù)提供了基礎(chǔ)的訓(xùn)練集和測試集,各參賽隊伍在訓(xùn)練集上訓(xùn)練,在測試集上完成測試,提交測試結(jié)果,然后,由組委會統(tǒng)一評估性能,并給出排名。
先說一下,場景識別比賽的主要的難點是訓(xùn)練數(shù)據(jù)的極度不均衡,而且數(shù)據(jù)標(biāo)簽具有二義性。在訓(xùn)練過程中,我們做了以下工作。
借助于我們組建的M40 GPU大規(guī)模訓(xùn)練集群,我們在過去兩個月內(nèi)訓(xùn)練了20多種不同結(jié)構(gòu)的模型,包括常見的VGG,Inception,ResNet及其變化形式。
同時通過實驗我們發(fā)現(xiàn),在非常深的ResNet(101/152/200層)上對場景數(shù)據(jù)進行精調(diào),無論是訓(xùn)練還是預(yù)測,都非常耗費時間,而且性能上還略差于更快的Inception結(jié)構(gòu)的模型?;谶@個觀察,在模型結(jié)構(gòu)上,我們主要采用了比較深的Inception模型和相對較淺的ResNet。
此外,我們還在訓(xùn)練和預(yù)測環(huán)節(jié)進行了多項改進,比如說,我們提出了一種的數(shù)據(jù)增強方法,可以更好的利用圖像中的目標(biāo)物信息。
我們還采用了標(biāo)簽洗牌(label shuffling)和標(biāo)簽平滑(label smoothing)技術(shù),以更好地應(yīng)對數(shù)據(jù)不均衡問題。
最后,我們的模型在28支隊伍的92次結(jié)果提交中,脫穎而出,獲得了第一名,top5 的分類準(zhǔn)確率達(dá)到了91%。
??低曆芯吭核诘暮?低?,本身就是以視頻為核心的物聯(lián)網(wǎng)解決方案和數(shù)據(jù)運營服務(wù)提供商。連續(xù)五年蟬聯(lián)IHS全球視頻監(jiān)控企業(yè)第一位。
我們在計算機視覺領(lǐng)域已經(jīng)投入了十幾年時間,深度學(xué)習(xí)技術(shù)的研究也開展了相當(dāng)長時間了。在長時間的研究工作中,我們打造了一支經(jīng)驗豐富的人工智能算法團隊,對于計算機視覺領(lǐng)域的基礎(chǔ)技術(shù)有比較深刻的理解。
其次,我們認(rèn)為深度學(xué)習(xí)是一項復(fù)雜的系統(tǒng)性工程。系統(tǒng)性工程需要集團作戰(zhàn),數(shù)據(jù)的清洗標(biāo)定、大規(guī)模訓(xùn)練集群的搭建、各種神經(jīng)網(wǎng)絡(luò)框架的測試、神經(jīng)網(wǎng)絡(luò)的優(yōu)化都需要比較專業(yè)的團隊分工才能達(dá)到最優(yōu)效果。
最后,理論的探索和創(chuàng)新需要一個良好的環(huán)境。
一方面,我們投入大量資源構(gòu)建我們的數(shù)據(jù)和訓(xùn)練平臺,讓我們的研究人員可以在海量的訓(xùn)練數(shù)據(jù)上迅速的做大量的試驗。另一方面,我們營造了一個寬松的研究環(huán)境,可以讓大家在支持公司業(yè)務(wù)發(fā)展的同時有大量時間可以進行技術(shù)的探索。
我們準(zhǔn)備了半年多,主體參賽團隊總共7人,四位博士、兩位碩士外加一位實習(xí)生。另外,還有很多該領(lǐng)域工作的同事也陪伴我們完成這個過程,比如,有高性能計算團隊團隊搭建并行訓(xùn)練集群,團隊成員大都畢業(yè)于國內(nèi)的頂級高校。
場景分類技術(shù),對于視頻產(chǎn)業(yè)及其應(yīng)用領(lǐng)域有比較重要的應(yīng)用價值,基于對場景的理解可以有助于我們的系統(tǒng)對于視頻中的信息理解和應(yīng)用。
一方面,可以讓系統(tǒng)根據(jù)場景適配算法,另一方面,也可以讓系統(tǒng)更好的理解視頻中所產(chǎn)生的信息。例如,當(dāng)系統(tǒng)檢測到視頻中有人在奔跑,系統(tǒng)理解到這個奔跑事件所發(fā)生的環(huán)境,是在步行街或者是在學(xué)校,那么,它就可以采用不同的應(yīng)對策略。
而目標(biāo)檢測、分類、跟蹤及定位技術(shù)是計算機視覺領(lǐng)域的基礎(chǔ)算法,可以應(yīng)用于許多領(lǐng)域。
例如,自動駕駛、機器人、智能攝像機、智能手機等,只要系統(tǒng)中有視覺傳感器,需要視覺傳感器從視頻圖像中提取信息,這些技術(shù)都是必不可少的。Imagenet競爭的成績逐年提升,顯示人工智能技術(shù)在工業(yè)界的應(yīng)用會逐漸成熟,其應(yīng)用領(lǐng)域也會獲得極大的拓展。
很多數(shù)據(jù)集存在樣本不均衡的問題,有些類別樣本特別多,有些類別樣本特別少。訓(xùn)練模型時,如果從一個圖像列表中依次讀取樣本訓(xùn)練的話,小類樣本參與訓(xùn)練的機會就比大類少。
訓(xùn)練出來的模型會偏向于大類,即大類性能好,小類性能差。我們的平衡采樣策略就是把樣本按類別分組,每個類別生成一個樣本列表。
訓(xùn)練過程中先隨機選擇1個或幾個類別,然后從各個類別所對應(yīng)的樣本列表中隨機選擇樣本。這樣可以保證每個類別參與訓(xùn)練的機會比較均衡。
我們實現(xiàn)了一種有監(jiān)督的數(shù)據(jù)增強方法,可以在裁剪數(shù)據(jù)的時候更好的利用目標(biāo)物信息。后面馬上會在Eccv會議上作report,因此建議關(guān)心的朋友直接看report。
海康威視研究院重點開展視頻領(lǐng)域共性技術(shù)、關(guān)鍵技術(shù)和前瞻技術(shù)的創(chuàng)新研究,持續(xù)增強公司技術(shù)實力,為公司核心產(chǎn)品及新興業(yè)務(wù)拓展提供有力支撐,成為公司主營業(yè)務(wù)及創(chuàng)新業(yè)務(wù)發(fā)展的重要驅(qū)動力。研究院在KITTI、MOT、Pascal VOC等世界級人工智能競賽中曾獲得多個第一的好成績。
除研究院之外,??低曔€在全球設(shè)有五大研發(fā)中心,年輕的研發(fā)團隊在視音頻編解碼、視頻圖像處理、視頻智能分析、云計算、大數(shù)據(jù)、云存儲、人工智能等方面有深厚的技術(shù)積累,成功助力??低暡粩嘁I(lǐng)整個行業(yè)的發(fā)展。他們在圖像處理、識別算法、視頻核心算法技術(shù)領(lǐng)域的前瞻性研究,應(yīng)用于??低暤母黝愔鳡I業(yè)務(wù)產(chǎn)品和解決方案中。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。