0
本文作者: camel | 2018-04-15 22:21 |
雷鋒網(wǎng) AI 科技評(píng)論:2018 年 4 月 8 日至 10 日由北京圖象圖形學(xué)學(xué)會(huì)主辦,北京航空航天大學(xué)承辦的「第十三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議」(IGTA 2018)在北京航空航天大學(xué)成功舉辦。
本次大會(huì)由北京理工大學(xué)王涌天教授、北京航空航天大學(xué)姜志國(guó)擔(dān)任大會(huì)主席,北京航空航天大學(xué)趙沁平院士、中科院自動(dòng)化研究所譚鐵牛院士擔(dān)任大會(huì)名譽(yù)主席。雷鋒網(wǎng)了解到,會(huì)議共收到 138 篇投遞論文,錄用 87 篇,其中 64 篇英文論文。本次會(huì)議共有 200 多人與會(huì)。在三天的議程中,共包含
4 場(chǎng)特邀報(bào)告:
張廣軍:動(dòng)態(tài)視覺測(cè)量與工程應(yīng)用
Jeremy M. Wolfe:Why didn't I see that? The role of attention in visual search errors
劉成林:文檔圖像識(shí)別研究現(xiàn)狀與趨勢(shì)
劉燁斌:動(dòng)態(tài)場(chǎng)景三維重建技術(shù):便捷性與實(shí)時(shí)性
4 場(chǎng)高峰論壇報(bào)告:
張艷寧:高分辨率圖像智能處理技術(shù)
童欣:從交互圖形學(xué)到智能圖形學(xué)
周昆:Computer Graphics 2.0:towards end-user-generated 3D contents
王亮:Analysis and Understanding of Big Visual Data
6 場(chǎng) CVPR 頂會(huì)論文報(bào)告:
宋純鋒(自動(dòng)化所):Mask-guided Contrastive Attention Model for Person Re-Identification
黃鑫(北大):Deep Cross-media Knowledge Transfer
段岳圻(清華):Deep Adversarial Metric Learning
楊文瀚(北大):Erase or Fill? Deep Joint Recurrent Rain Removal and Reconstruction in Videos
王培松(自動(dòng)化所):Two-Step Quantization for Low-bit Neural Networks
黃永業(yè)(北郵):SketchMate: Deep Hashing for Million-Scale Human Sketch Retrieval
此外還有一系列接收論文的交流報(bào)告。
下面為特邀報(bào)告和高峰論壇報(bào)告的詳細(xì)內(nèi)容。
東南大學(xué)校長(zhǎng)張廣軍院士作為本次會(huì)議的特邀講者,做了首場(chǎng)特邀報(bào)告。在一個(gè)小時(shí)左右的報(bào)告中,張廣軍院士簡(jiǎn)要介紹他十多年的主要研究成果。
張廣軍院士在報(bào)告中提到隨著我國(guó)航天、國(guó)防、鐵路等領(lǐng)域快速發(fā)展,如何能夠?qū)崟r(shí)、精確、動(dòng)態(tài)地測(cè)量物體(例如衛(wèi)星、導(dǎo)彈、高鐵等)的三維形貌、位置和姿態(tài)成為迫切急需的核心技術(shù)之一,這決定著高端裝備的性能和安全。而動(dòng)態(tài)視覺測(cè)量,即為采用計(jì)算機(jī)視覺和幾何量測(cè)量學(xué)的方法來(lái)實(shí)現(xiàn)高速運(yùn)動(dòng)體的測(cè)量。
基于實(shí)際需求及對(duì)問題的分析,張廣軍院士及他所帶領(lǐng)的團(tuán)隊(duì)在數(shù)十年中完成了大量相關(guān)的研究,概括來(lái)說則有三類:
1、發(fā)展了視覺測(cè)量模型與現(xiàn)場(chǎng)校準(zhǔn)體系,提高了動(dòng)態(tài)測(cè)量精度和現(xiàn)場(chǎng)適應(yīng)性,并實(shí)現(xiàn)了星載設(shè)備小型輕量化。
2、發(fā)明了動(dòng)態(tài)成像新模式和圖像信息處理新方法,提高了動(dòng)態(tài)視覺測(cè)量的實(shí)時(shí)性、動(dòng)態(tài)性、準(zhǔn)確性和可靠性。
3、研制成功三類動(dòng)態(tài)測(cè)量系列設(shè)備,打破了國(guó)外的技術(shù)封鎖,填補(bǔ)了國(guó)內(nèi)空白,主要指標(biāo)達(dá)到或超過了國(guó)外最好的水平。
在工程應(yīng)用上,張廣軍院士列舉了三類應(yīng)用,包括航天器自主姿態(tài)測(cè)量星載產(chǎn)品、航空裝備飛行性能動(dòng)態(tài)測(cè)試站和列車運(yùn)行狀況正線動(dòng)態(tài)測(cè)試站等。
接著來(lái)自哈佛醫(yī)學(xué)院 Jeremy M. Wolfe 教授做了關(guān)于人類注意力對(duì)視覺影像的報(bào)告。
據(jù) Wolfe 教授介紹,我們?nèi)祟悷o(wú)法同時(shí)識(shí)別出我們視野中的每一個(gè)物體,我們通過將注意力從一個(gè)對(duì)象轉(zhuǎn)到另一個(gè)對(duì)象,從而來(lái)尋找我們需要的東西。因此注意力在我們的視覺搜索中占據(jù)著極為重要的地位。
在報(bào)告中,Wolfe 教授通過三個(gè)故事生動(dòng)地介紹了關(guān)于人類注意力的研究結(jié)果。
首先,他通過在圖中找物體或差異的游戲,陳述了一個(gè)事實(shí):對(duì)于人類視覺,在任何時(shí)候都沒有關(guān)注全部,而只是匯集到當(dāng)前關(guān)注的對(duì)象上,其余的部分只是幾個(gè)簡(jiǎn)單要點(diǎn)、抽象物體或者記憶產(chǎn)物。
其次,他介紹一個(gè)經(jīng)典實(shí)驗(yàn) The Incidental Gorilla,即當(dāng)你關(guān)注視頻中傳遞籃球的游戲時(shí),卻沒有注意到從視頻當(dāng)中走過的黑猩猩。同樣的情況也會(huì)在醫(yī)生檢查 CT 片子時(shí)發(fā)生,當(dāng)他們把注意力放在尋找肺結(jié)節(jié)時(shí),常常會(huì)忽略片子中其他的信息。這告訴我們?nèi)祟惖淖⒁饬λ褜ひ嬗袝r(shí)候會(huì)給我們帶來(lái)很嚴(yán)重的錯(cuò)誤。
最后,Wolfe 教授通過安檢的案例介紹了 The Prevalence Problem。在安檢中通過掃描圖像能否正確地發(fā)現(xiàn)危險(xiǎn)物品呢?Wolfe 通過具體的實(shí)驗(yàn)數(shù)據(jù)得出結(jié)論:在低流行率下漏掉危險(xiǎn)物品的幾率大大增加,而虛警率則稍稍降低。
通過以上這些研究,Wolfe 認(rèn)為我們的「搜索引擎」并不能完美運(yùn)行,有時(shí)我們無(wú)法找到我們要找的東西。當(dāng)那些錯(cuò)過的目標(biāo)是諸如腫瘤或炸彈之類的東西時(shí),這些錯(cuò)誤就具有重要的社會(huì)意義,這個(gè)問題值得關(guān)注,如果有可能的話則需要通過別的方式來(lái)糾正。
劉成林研究員是中科院自動(dòng)化所副所長(zhǎng),模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室主任。在他的報(bào)告中,劉成林研究員詳細(xì)介紹了文檔圖像識(shí)別(簡(jiǎn)稱文字識(shí)別)的研究現(xiàn)狀和未來(lái)趨勢(shì)。
在報(bào)告中劉成林首先介紹了文字識(shí)別的應(yīng)用背景。所謂文字識(shí)別,即將字符圖像轉(zhuǎn)換為符號(hào)代碼,這包括文本分割、識(shí)別、上下文處理、語(yǔ)義信息提取等。其意義在于能夠壓縮數(shù)據(jù),以及內(nèi)容理解和語(yǔ)義提取等。其應(yīng)用需求包括手寫字體識(shí)別、圖像中文字信息提取等,例如交通牌信息的提取對(duì)于當(dāng)前自動(dòng)駕駛尤為重要。
其次劉成林介紹了文檔種類和研究問題。文檔種類大致分為物理文檔(例如掃描書籍、交通牌等)和合成文檔(在線手寫字體等)。對(duì)于文檔的研究,依據(jù)流程,主要有圖像處理、版面分析、內(nèi)容識(shí)別、語(yǔ)義分析和應(yīng)用等。隨后他詳細(xì)介紹了這幾個(gè)方面的技術(shù)研究現(xiàn)狀。就像在 CV 的其他領(lǐng)域一樣,深度學(xué)習(xí)的方法在文字識(shí)別中也逐漸發(fā)揮著越來(lái)越多的應(yīng)用,并對(duì)文字識(shí)別的性能有極大的提升。
但是目前文字識(shí)別在應(yīng)用中仍然存在許多問題有待解決。例如識(shí)別精度到底需要多高才可以用?識(shí)別錯(cuò)誤主要發(fā)生在什么情況?應(yīng)用中如何克服識(shí)別錯(cuò)誤?文本分割/識(shí)別之處有哪些研究問題?如何更有效地構(gòu)建(學(xué)習(xí))識(shí)別系統(tǒng)?如何對(duì)應(yīng)用場(chǎng)景進(jìn)行擴(kuò)展?……
此外,劉成林研究員還提出了幾個(gè)尚未解決的傳統(tǒng)問題,包括版面分析(印刷/手寫混合、多種元素、多文種、多語(yǔ)言、邏輯結(jié)構(gòu)等)、文字認(rèn)證和拒識(shí)(置信度分析、結(jié)構(gòu)分析等)
對(duì)于未來(lái)的研究方向,劉成林研究員也針對(duì)基礎(chǔ)理論和方法論、字符識(shí)別、文本行識(shí)別、情景文字識(shí)別、應(yīng)用導(dǎo)向等的問題。
整個(gè)報(bào)告可以說是對(duì)文字識(shí)別領(lǐng)域全方位的介紹。劉成林認(rèn)為文字識(shí)別的研究已經(jīng)有 50 多年的歷史,在這個(gè)過程中產(chǎn)生了大量的研究成果,但是在實(shí)際應(yīng)用中還存在很多技術(shù)的不足,需要從應(yīng)用角度重新思考聚焦研究問題。
劉燁斌為清華大學(xué)自動(dòng)化系副教授,其研究方向?yàn)橐曈X信息獲取與重建,包括三維重建、運(yùn)動(dòng)捕捉、計(jì)算攝像等。他在報(bào)告中主要介紹了他十多年來(lái)所做的一件事情:對(duì)人體進(jìn)行動(dòng)態(tài)的三維重建。
人類表現(xiàn)捕捉,也即根據(jù)多角度視頻輸入或 RGBD 序列來(lái)捕捉人體的三維幾何和一維運(yùn)動(dòng)。其應(yīng)用場(chǎng)景包括電影生成、增強(qiáng)現(xiàn)實(shí)、電子會(huì)議、運(yùn)動(dòng)分析等領(lǐng)域,其目標(biāo)則是能夠高精度、可編輯、大范圍、便捷且實(shí)時(shí)地捕捉人類的表現(xiàn)。
其講解內(nèi)容包括 Depth Map Merging Based MVS、Variational MVS Pipeline、多視角立體測(cè)光、骨架驅(qū)動(dòng)的 HPC、Relightable/Animatable HPC、Multi-person HPC、Hand-object Motion Capture、手持相機(jī)的 HPC、非剛性表面追蹤的 HPC、實(shí)時(shí) 4D 重建、實(shí)時(shí) 4D 融合和重建、用無(wú)人機(jī)實(shí)現(xiàn)重建、第四代 4D 重建等大量的工作。
劉燁斌副教授表示,基于視覺信息在空間、視角、光譜、時(shí)域、強(qiáng)度等的多維度,他們未來(lái)的工作將圍繞全光成像、實(shí)時(shí)構(gòu)建、智能計(jì)算等方面進(jìn)行深入開展。
西北工業(yè)大學(xué)張艷寧教授是國(guó)務(wù)院學(xué)科評(píng)議組成員,教育部「長(zhǎng)江學(xué)者」特聘教授。在報(bào)告中張艷寧教授詳細(xì)介紹了她所帶領(lǐng)的研究團(tuán)隊(duì)在高分辨率觀測(cè)中的研究成果。
隨著人類對(duì)近地空間的探索,分布地球軌道上的衛(wèi)星、空間站、空間碎片日益增多,對(duì)這些太空人造物體進(jìn)行有效監(jiān)視則極為重要。但是利用空間平臺(tái)視覺圖像進(jìn)行空間探索,依然存在光學(xué)成像分辨率受制約、圖像模糊、分辨率低等問題,現(xiàn)有的圖像難以滿足看得清、辨得明的應(yīng)用需求。
針對(duì)這樣的問題,張艷寧教授及其所帶領(lǐng)的團(tuán)隊(duì)認(rèn)為在硬件平臺(tái)受限、同時(shí)由于運(yùn)動(dòng)、抖動(dòng)等造成圖像模糊等問題的情況下,應(yīng)當(dāng)通過計(jì)算方法實(shí)現(xiàn)高分辨率的圖像智能處理。報(bào)告中張艷寧教授提出了他們?cè)诳臻g圖像高分辨率計(jì)算成像、動(dòng)態(tài)耦合降質(zhì)圖像的清晰化重建等方面的創(chuàng)新理論和方法,其成果在提高圖像分辨率、圖像清晰化方面有極好的表現(xiàn)。
最后張艷寧教授還介紹了他們?cè)趫D像去噪、協(xié)同感知等方面的研究成果。
童欣博士目前為微軟亞洲研究院網(wǎng)絡(luò)圖形組首席研究員,研究主管,同時(shí)擔(dān)任中科大兼職教授。
童欣博士介紹到,AR&VR 技術(shù)的發(fā)展可以應(yīng)用到例如探索世界、訓(xùn)練和學(xué)習(xí)、工業(yè)設(shè)計(jì)、復(fù)雜任務(wù)等場(chǎng)景中。這其中最為關(guān)鍵的技術(shù)就是高質(zhì)量的三維內(nèi)容。但是傳統(tǒng)的圖像內(nèi)容創(chuàng)作一般都依賴藝術(shù)家和工程師大量的交互和手工勞動(dòng),對(duì)于普通人來(lái)說則幾乎不可能。
微軟對(duì)此的解決方案是:使用便宜的設(shè)備、大量的數(shù)據(jù)以及機(jī)器學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)從交互到智能。童欣博士在報(bào)告中介紹了三方面的內(nèi)容。
第一是 shape modeling。其目標(biāo)為根據(jù)稀疏的二維素描來(lái)自動(dòng)生成三維模型。研究成果詳見 ACM TG, 36(4), 2017
第二是 material modeling and rendering。其目標(biāo)為從單一圖像能夠自動(dòng)生成材料紋理。研究成果詳見 SIGGRAPH, 36(4), 2017
第三是 animation。其目標(biāo)為自動(dòng)設(shè)計(jì)具有所需行為的軟氣動(dòng)機(jī)器人。研究成果詳見 SIGGRAPH,36(6), 2017
童欣博士認(rèn)為依據(jù)幾何知識(shí)、物理計(jì)算和優(yōu)化、以及數(shù)據(jù)和機(jī)器學(xué)習(xí)模型,完全可以實(shí)現(xiàn)智能地高質(zhì)量?jī)?nèi)容創(chuàng)作。當(dāng)然這條路還很漫長(zhǎng),離終端用戶能夠創(chuàng)作高質(zhì)量圖像內(nèi)容還有很長(zhǎng)的路要走。
浙江大學(xué)的周昆教授,是教育部長(zhǎng)江學(xué)者特聘教授,IEEE Fellow。研究領(lǐng)域包括計(jì)算機(jī)圖形學(xué)、人機(jī)交互、虛擬現(xiàn)實(shí)和并行計(jì)算。
周昆教授的與前面童欣博士的研究類似,他認(rèn)為在海量互聯(lián)網(wǎng)數(shù)據(jù)、傳感器技術(shù)、以及 VR/AR 和 3D 打印等新興應(yīng)用的推動(dòng)下,計(jì)算機(jī)圖形學(xué)的研究正在進(jìn)入一個(gè)新的時(shí)代:每一個(gè)人在日常生活中都能夠創(chuàng)作屬于自己的視覺內(nèi)容。
在這個(gè)報(bào)告中周昆教授舉了三個(gè)案例。
案例一:Digital Avatar。在電影《阿凡達(dá)》中,依靠 CG 技術(shù),阿凡達(dá)可以擁有真實(shí)的面孔和頭發(fā);然而在一些交互應(yīng)用(例如游戲)中,幾乎沒有這樣的特效。周昆教授所帶領(lǐng)的團(tuán)隊(duì)在 13-16 年間連續(xù)發(fā)表了多篇文章,探討了如何自動(dòng)生成真實(shí)面孔以及如何從單張圖片中自動(dòng)生成動(dòng)態(tài)的頭發(fā)模型。
案例二:基于模型的 RGBD 圖像。根據(jù)單張 RGBD 圖像自動(dòng)生成相應(yīng)場(chǎng)景的數(shù)字化模型。
案例三:Computational Fabrication。如何將數(shù)字模型變得更為真實(shí)呢?在已知數(shù)字化模型的基礎(chǔ)上,可以通過 3D 打印的方法獲得物理模型。周昆教授團(tuán)隊(duì)受到傳統(tǒng)上色工藝的啟發(fā),采用仿真等方法將數(shù)字模型中的表面圖像轉(zhuǎn)化為二維紋理,隨后可以使用相關(guān)的技術(shù)可以將圖像貼到 3D 打印物體上,構(gòu)建出生動(dòng)的物理模型。
周昆教授認(rèn)為,未來(lái)圖像研究主要有三個(gè)大的研究方向。首先是輸入,將沿著從點(diǎn)、網(wǎng)格、圖像、視頻、深度等方向發(fā)展;其次是輸出,將沿著數(shù)字化到實(shí)體化的方向發(fā)展;另外一個(gè)是應(yīng)用,將從電影走向游戲、APPs、VR/AR 以及 3D 打印等。這需要計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺和數(shù)字制造三個(gè)領(lǐng)域的相互結(jié)合。
自動(dòng)化所王亮研究員是模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室副主任,主要研究領(lǐng)域是模式識(shí)別、計(jì)算機(jī)視覺、大數(shù)據(jù)分析等。
在報(bào)告中,王亮研究員針對(duì)視覺大數(shù)據(jù)整個(gè)領(lǐng)域的研究做了一個(gè)綜述性的介紹。
視覺信息對(duì)人類至關(guān)重要,隨著設(shè)備的改進(jìn),視覺數(shù)據(jù)出現(xiàn)爆發(fā)式增長(zhǎng),表現(xiàn)為數(shù)據(jù)總量巨大、類別跨度多樣、性質(zhì)異質(zhì)性高以及質(zhì)量不一。這也帶來(lái)了一系列的挑戰(zhàn),例如如何獲取、如何建模、如何計(jì)算以及如何使用等,此外還有模糊、多視角、多尺度、遮掩等多樣的問題。
在整個(gè)視覺大數(shù)據(jù)的分析中,主要有三個(gè)大問題:大規(guī)模數(shù)據(jù)集、大規(guī)模視覺計(jì)算、平臺(tái)和應(yīng)用。
針對(duì)大規(guī)模數(shù)據(jù)集,目前有包括 ImageNet、Microsoft COCO、Google YouTube-8M、Kinetics、Visual Question Answering(VQA)、NLPR Object Tracking、CRIPAC Pedestrian Attribute、Gait Dataset 等數(shù)據(jù)集,各個(gè)數(shù)據(jù)集都有自己的針對(duì)方向和領(lǐng)域。
針對(duì)大規(guī)模視覺計(jì)算,則主要包括物體檢測(cè)和分割、物體識(shí)別和檢索、運(yùn)動(dòng)/行為分析、場(chǎng)景理解、視覺語(yǔ)言(Vision by Language)等。
針對(duì)平臺(tái)和應(yīng)用,王亮研究員介紹了視覺圖靈測(cè)試、DIG(數(shù)據(jù)智能收集)、ISEE(智能場(chǎng)景演化和探索)、SIR(smart identity recognition)以及一些計(jì)算機(jī)視覺相關(guān)的公司現(xiàn)狀。
他總結(jié)到,現(xiàn)在計(jì)算機(jī)視覺已經(jīng)在許多領(lǐng)域取得了長(zhǎng)足的進(jìn)展,但是計(jì)算機(jī)視覺相比于人類視覺還有很大差距,未來(lái)的工作需要進(jìn)行一下探索:
通過模擬人類認(rèn)知機(jī)制來(lái)學(xué)習(xí)人類的視覺智能;
將視覺與語(yǔ)言、語(yǔ)音等結(jié)合起來(lái),實(shí)現(xiàn)統(tǒng)一的智能框架;
將視覺與預(yù)測(cè)、控制和規(guī)劃結(jié)合起來(lái)打造下一代類人智能機(jī)器人;
增強(qiáng)視覺智能在視覺大數(shù)據(jù)的嚴(yán)重噪聲下的魯棒性和普適性;
構(gòu)建有效的視覺數(shù)據(jù)捕捉、存儲(chǔ)、大規(guī)模計(jì)算和應(yīng)用的集成平臺(tái)。
雷鋒網(wǎng)報(bào)道。
相關(guān)文章:
IGTA 2018 | 第十三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。