丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

第十三屆圖像圖形技術(shù)與應用學術(shù)會議 ,張廣軍院士等學者報告其多年研究工作

本文作者: camel 2018-04-15 22:21
導語:張廣軍、Jeremy M. Wolfe、劉成林、劉燁斌、張艷寧、童欣、周昆、王亮

第十三屆圖像圖形技術(shù)與應用學術(shù)會議 ,張廣軍院士等學者報告其多年研究工作

雷鋒網(wǎng) AI 科技評論:2018 年 4 月 8 日至 10 日由北京圖象圖形學學會主辦,北京航空航天大學承辦的「第十三屆圖像圖形技術(shù)與應用學術(shù)會議」(IGTA 2018)在北京航空航天大學成功舉辦。

本次大會由北京理工大學王涌天教授、北京航空航天大學姜志國擔任大會主席,北京航空航天大學趙沁平院士、中科院自動化研究所譚鐵牛院士擔任大會名譽主席。雷鋒網(wǎng)了解到,會議共收到 138 篇投遞論文,錄用 87 篇,其中 64 篇英文論文。本次會議共有 200 多人與會。在三天的議程中,共包含

4 場特邀報告:

張廣軍:動態(tài)視覺測量與工程應用

Jeremy M. Wolfe:Why didn't I see that? The role of attention in visual search errors

劉成林:文檔圖像識別研究現(xiàn)狀與趨勢

劉燁斌:動態(tài)場景三維重建技術(shù):便捷性與實時性

4 場高峰論壇報告:

張艷寧:高分辨率圖像智能處理技術(shù)

童欣:從交互圖形學到智能圖形學

周昆:Computer Graphics 2.0:towards end-user-generated 3D contents

王亮:Analysis and Understanding of Big Visual Data

6 場 CVPR 頂會論文報告:

宋純鋒(自動化所):Mask-guided Contrastive Attention Model for Person Re-Identification

黃鑫(北大):Deep Cross-media Knowledge Transfer

段岳圻(清華):Deep Adversarial Metric Learning

楊文瀚(北大):Erase or Fill? Deep Joint Recurrent Rain Removal and Reconstruction in Videos

王培松(自動化所):Two-Step Quantization for Low-bit Neural Networks

黃永業(yè)(北郵):SketchMate: Deep Hashing for Million-Scale Human Sketch Retrieval

此外還有一系列接收論文的交流報告。

下面為特邀報告和高峰論壇報告的詳細內(nèi)容。

特邀報告

1、動態(tài)視覺測量與工程應用

東南大學校長張廣軍院士作為本次會議的特邀講者,做了首場特邀報告。在一個小時左右的報告中,張廣軍院士簡要介紹他十多年的主要研究成果。

張廣軍院士在報告中提到隨著我國航天、國防、鐵路等領域快速發(fā)展,如何能夠?qū)崟r、精確、動態(tài)地測量物體(例如衛(wèi)星、導彈、高鐵等)的三維形貌、位置和姿態(tài)成為迫切急需的核心技術(shù)之一,這決定著高端裝備的性能和安全。而動態(tài)視覺測量,即為采用計算機視覺和幾何量測量學的方法來實現(xiàn)高速運動體的測量。

基于實際需求及對問題的分析,張廣軍院士及他所帶領的團隊在數(shù)十年中完成了大量相關的研究,概括來說則有三類:

1、發(fā)展了視覺測量模型與現(xiàn)場校準體系,提高了動態(tài)測量精度和現(xiàn)場適應性,并實現(xiàn)了星載設備小型輕量化。

2、發(fā)明了動態(tài)成像新模式和圖像信息處理新方法,提高了動態(tài)視覺測量的實時性、動態(tài)性、準確性和可靠性。

3、研制成功三類動態(tài)測量系列設備,打破了國外的技術(shù)封鎖,填補了國內(nèi)空白,主要指標達到或超過了國外最好的水平。

在工程應用上,張廣軍院士列舉了三類應用,包括航天器自主姿態(tài)測量星載產(chǎn)品、航空裝備飛行性能動態(tài)測試站和列車運行狀況正線動態(tài)測試站等。

2、Why didn't I see that? The role of attention in visual search errors

接著來自哈佛醫(yī)學院 Jeremy M. Wolfe 教授做了關于人類注意力對視覺影像的報告。

據(jù) Wolfe 教授介紹,我們?nèi)祟悷o法同時識別出我們視野中的每一個物體,我們通過將注意力從一個對象轉(zhuǎn)到另一個對象,從而來尋找我們需要的東西。因此注意力在我們的視覺搜索中占據(jù)著極為重要的地位。

在報告中,Wolfe 教授通過三個故事生動地介紹了關于人類注意力的研究結(jié)果。

首先,他通過在圖中找物體或差異的游戲,陳述了一個事實:對于人類視覺,在任何時候都沒有關注全部,而只是匯集到當前關注的對象上,其余的部分只是幾個簡單要點、抽象物體或者記憶產(chǎn)物。

其次,他介紹一個經(jīng)典實驗 The Incidental Gorilla,即當你關注視頻中傳遞籃球的游戲時,卻沒有注意到從視頻當中走過的黑猩猩。同樣的情況也會在醫(yī)生檢查 CT 片子時發(fā)生,當他們把注意力放在尋找肺結(jié)節(jié)時,常常會忽略片子中其他的信息。這告訴我們?nèi)祟惖淖⒁饬λ褜ひ嬗袝r候會給我們帶來很嚴重的錯誤。

最后,Wolfe 教授通過安檢的案例介紹了 The Prevalence Problem。在安檢中通過掃描圖像能否正確地發(fā)現(xiàn)危險物品呢?Wolfe 通過具體的實驗數(shù)據(jù)得出結(jié)論:在低流行率下漏掉危險物品的幾率大大增加,而虛警率則稍稍降低。

通過以上這些研究,Wolfe 認為我們的「搜索引擎」并不能完美運行,有時我們無法找到我們要找的東西。當那些錯過的目標是諸如腫瘤或炸彈之類的東西時,這些錯誤就具有重要的社會意義,這個問題值得關注,如果有可能的話則需要通過別的方式來糾正。

3、文檔圖像識別研究現(xiàn)狀與趨勢

劉成林研究員是中科院自動化所副所長,模式識別國家重點實驗室主任。在他的報告中,劉成林研究員詳細介紹了文檔圖像識別(簡稱文字識別)的研究現(xiàn)狀和未來趨勢。

在報告中劉成林首先介紹了文字識別的應用背景。所謂文字識別,即將字符圖像轉(zhuǎn)換為符號代碼,這包括文本分割、識別、上下文處理、語義信息提取等。其意義在于能夠壓縮數(shù)據(jù),以及內(nèi)容理解和語義提取等。其應用需求包括手寫字體識別、圖像中文字信息提取等,例如交通牌信息的提取對于當前自動駕駛尤為重要。

其次劉成林介紹了文檔種類和研究問題。文檔種類大致分為物理文檔(例如掃描書籍、交通牌等)和合成文檔(在線手寫字體等)。對于文檔的研究,依據(jù)流程,主要有圖像處理、版面分析、內(nèi)容識別、語義分析和應用等。隨后他詳細介紹了這幾個方面的技術(shù)研究現(xiàn)狀。就像在 CV 的其他領域一樣,深度學習的方法在文字識別中也逐漸發(fā)揮著越來越多的應用,并對文字識別的性能有極大的提升。

但是目前文字識別在應用中仍然存在許多問題有待解決。例如識別精度到底需要多高才可以用?識別錯誤主要發(fā)生在什么情況?應用中如何克服識別錯誤?文本分割/識別之處有哪些研究問題?如何更有效地構(gòu)建(學習)識別系統(tǒng)?如何對應用場景進行擴展?……

此外,劉成林研究員還提出了幾個尚未解決的傳統(tǒng)問題,包括版面分析(印刷/手寫混合、多種元素、多文種、多語言、邏輯結(jié)構(gòu)等)、文字認證和拒識(置信度分析、結(jié)構(gòu)分析等)

對于未來的研究方向,劉成林研究員也針對基礎理論和方法論、字符識別、文本行識別、情景文字識別、應用導向等的問題。

整個報告可以說是對文字識別領域全方位的介紹。劉成林認為文字識別的研究已經(jīng)有 50 多年的歷史,在這個過程中產(chǎn)生了大量的研究成果,但是在實際應用中還存在很多技術(shù)的不足,需要從應用角度重新思考聚焦研究問題。

4、Real-time and Convenient Human Performance Capture

劉燁斌為清華大學自動化系副教授,其研究方向為視覺信息獲取與重建,包括三維重建、運動捕捉、計算攝像等。他在報告中主要介紹了他十多年來所做的一件事情:對人體進行動態(tài)的三維重建。

人類表現(xiàn)捕捉,也即根據(jù)多角度視頻輸入或 RGBD 序列來捕捉人體的三維幾何和一維運動。其應用場景包括電影生成、增強現(xiàn)實、電子會議、運動分析等領域,其目標則是能夠高精度、可編輯、大范圍、便捷且實時地捕捉人類的表現(xiàn)。

其講解內(nèi)容包括 Depth Map Merging Based MVS、Variational MVS Pipeline、多視角立體測光、骨架驅(qū)動的 HPC、Relightable/Animatable HPC、Multi-person HPC、Hand-object Motion Capture、手持相機的 HPC、非剛性表面追蹤的 HPC、實時 4D 重建、實時 4D 融合和重建、用無人機實現(xiàn)重建、第四代 4D 重建等大量的工作。

劉燁斌副教授表示,基于視覺信息在空間、視角、光譜、時域、強度等的多維度,他們未來的工作將圍繞全光成像、實時構(gòu)建、智能計算等方面進行深入開展。

高峰論壇報告

1、高分辨率智能圖像處理技術(shù)

西北工業(yè)大學張艷寧教授是國務院學科評議組成員,教育部「長江學者」特聘教授。在報告中張艷寧教授詳細介紹了她所帶領的研究團隊在高分辨率觀測中的研究成果。

隨著人類對近地空間的探索,分布地球軌道上的衛(wèi)星、空間站、空間碎片日益增多,對這些太空人造物體進行有效監(jiān)視則極為重要。但是利用空間平臺視覺圖像進行空間探索,依然存在光學成像分辨率受制約、圖像模糊、分辨率低等問題,現(xiàn)有的圖像難以滿足看得清、辨得明的應用需求。

針對這樣的問題,張艷寧教授及其所帶領的團隊認為在硬件平臺受限、同時由于運動、抖動等造成圖像模糊等問題的情況下,應當通過計算方法實現(xiàn)高分辨率的圖像智能處理。報告中張艷寧教授提出了他們在空間圖像高分辨率計算成像、動態(tài)耦合降質(zhì)圖像的清晰化重建等方面的創(chuàng)新理論和方法,其成果在提高圖像分辨率、圖像清晰化方面有極好的表現(xiàn)。

最后張艷寧教授還介紹了他們在圖像去噪、協(xié)同感知等方面的研究成果。

2、從交互圖形到智能圖形

童欣博士目前為微軟亞洲研究院網(wǎng)絡圖形組首席研究員,研究主管,同時擔任中科大兼職教授。

童欣博士介紹到,AR&VR 技術(shù)的發(fā)展可以應用到例如探索世界、訓練和學習、工業(yè)設計、復雜任務等場景中。這其中最為關鍵的技術(shù)就是高質(zhì)量的三維內(nèi)容。但是傳統(tǒng)的圖像內(nèi)容創(chuàng)作一般都依賴藝術(shù)家和工程師大量的交互和手工勞動,對于普通人來說則幾乎不可能。

微軟對此的解決方案是:使用便宜的設備、大量的數(shù)據(jù)以及機器學習的方法來實現(xiàn)從交互到智能。童欣博士在報告中介紹了三方面的內(nèi)容。

第一是 shape modeling。其目標為根據(jù)稀疏的二維素描來自動生成三維模型。研究成果詳見 ACM TG, 36(4), 2017

第二是 material modeling and rendering。其目標為從單一圖像能夠自動生成材料紋理。研究成果詳見 SIGGRAPH, 36(4), 2017

第三是 animation。其目標為自動設計具有所需行為的軟氣動機器人。研究成果詳見 SIGGRAPH,36(6), 2017

童欣博士認為依據(jù)幾何知識、物理計算和優(yōu)化、以及數(shù)據(jù)和機器學習模型,完全可以實現(xiàn)智能地高質(zhì)量內(nèi)容創(chuàng)作。當然這條路還很漫長,離終端用戶能夠創(chuàng)作高質(zhì)量圖像內(nèi)容還有很長的路要走。

3、Computer Graphics 2.0: towards end-user-generated 3D content

浙江大學的周昆教授,是教育部長江學者特聘教授,IEEE Fellow。研究領域包括計算機圖形學、人機交互、虛擬現(xiàn)實和并行計算。

周昆教授的與前面童欣博士的研究類似,他認為在海量互聯(lián)網(wǎng)數(shù)據(jù)、傳感器技術(shù)、以及 VR/AR 和 3D 打印等新興應用的推動下,計算機圖形學的研究正在進入一個新的時代:每一個人在日常生活中都能夠創(chuàng)作屬于自己的視覺內(nèi)容。

在這個報告中周昆教授舉了三個案例。

案例一:Digital Avatar。在電影《阿凡達》中,依靠 CG 技術(shù),阿凡達可以擁有真實的面孔和頭發(fā);然而在一些交互應用(例如游戲)中,幾乎沒有這樣的特效。周昆教授所帶領的團隊在 13-16 年間連續(xù)發(fā)表了多篇文章,探討了如何自動生成真實面孔以及如何從單張圖片中自動生成動態(tài)的頭發(fā)模型。

案例二:基于模型的 RGBD 圖像。根據(jù)單張 RGBD 圖像自動生成相應場景的數(shù)字化模型。

案例三:Computational Fabrication。如何將數(shù)字模型變得更為真實呢?在已知數(shù)字化模型的基礎上,可以通過 3D 打印的方法獲得物理模型。周昆教授團隊受到傳統(tǒng)上色工藝的啟發(fā),采用仿真等方法將數(shù)字模型中的表面圖像轉(zhuǎn)化為二維紋理,隨后可以使用相關的技術(shù)可以將圖像貼到 3D 打印物體上,構(gòu)建出生動的物理模型。

周昆教授認為,未來圖像研究主要有三個大的研究方向。首先是輸入,將沿著從點、網(wǎng)格、圖像、視頻、深度等方向發(fā)展;其次是輸出,將沿著數(shù)字化到實體化的方向發(fā)展;另外一個是應用,將從電影走向游戲、APPs、VR/AR 以及 3D 打印等。這需要計算機圖形學、計算機視覺和數(shù)字制造三個領域的相互結(jié)合。

4、Analysis and Understanding of Big Visual Data

自動化所王亮研究員是模式識別國家重點實驗室副主任,主要研究領域是模式識別、計算機視覺、大數(shù)據(jù)分析等。

在報告中,王亮研究員針對視覺大數(shù)據(jù)整個領域的研究做了一個綜述性的介紹。

視覺信息對人類至關重要,隨著設備的改進,視覺數(shù)據(jù)出現(xiàn)爆發(fā)式增長,表現(xiàn)為數(shù)據(jù)總量巨大、類別跨度多樣、性質(zhì)異質(zhì)性高以及質(zhì)量不一。這也帶來了一系列的挑戰(zhàn),例如如何獲取、如何建模、如何計算以及如何使用等,此外還有模糊、多視角、多尺度、遮掩等多樣的問題。

在整個視覺大數(shù)據(jù)的分析中,主要有三個大問題:大規(guī)模數(shù)據(jù)集、大規(guī)模視覺計算、平臺和應用。

針對大規(guī)模數(shù)據(jù)集,目前有包括 ImageNet、Microsoft COCO、Google YouTube-8M、Kinetics、Visual Question Answering(VQA)、NLPR Object Tracking、CRIPAC Pedestrian Attribute、Gait Dataset 等數(shù)據(jù)集,各個數(shù)據(jù)集都有自己的針對方向和領域。

針對大規(guī)模視覺計算,則主要包括物體檢測和分割、物體識別和檢索、運動/行為分析、場景理解、視覺語言(Vision by Language)等。

針對平臺和應用,王亮研究員介紹了視覺圖靈測試、DIG(數(shù)據(jù)智能收集)、ISEE(智能場景演化和探索)、SIR(smart identity recognition)以及一些計算機視覺相關的公司現(xiàn)狀。

他總結(jié)到,現(xiàn)在計算機視覺已經(jīng)在許多領域取得了長足的進展,但是計算機視覺相比于人類視覺還有很大差距,未來的工作需要進行一下探索:

通過模擬人類認知機制來學習人類的視覺智能;

將視覺與語言、語音等結(jié)合起來,實現(xiàn)統(tǒng)一的智能框架;

將視覺與預測、控制和規(guī)劃結(jié)合起來打造下一代類人智能機器人;

增強視覺智能在視覺大數(shù)據(jù)的嚴重噪聲下的魯棒性和普適性;

構(gòu)建有效的視覺數(shù)據(jù)捕捉、存儲、大規(guī)模計算和應用的集成平臺。

雷鋒網(wǎng)報道。

相關文章:

IGTA 2018 | 第十三屆圖像圖形技術(shù)與應用學術(shù)會議

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

第十三屆圖像圖形技術(shù)與應用學術(shù)會議 ,張廣軍院士等學者報告其多年研究工作

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說