0
雷鋒網(wǎng) AI 科技評論按:10 月 17 日至 19 日,由 CCF 主辦、蘇州工業(yè)園區(qū)管委會、蘇州大學承辦的 CNCC 2019在蘇州成功召開。今年大會以「智能+引領社會發(fā)展」為主題,選址蘇州金雞湖國際會議中心召開。雷鋒網(wǎng)AI 科技評論作為戰(zhàn)略合作媒體對會議進行了全程跟蹤報道。
在《CNCC爆款技術論壇,申省梅、陳熙霖主持,西湖李子青、阿里王剛多視角講解CV賦能智慧城市》一文中,雷鋒網(wǎng) AI 科技評論提到,由澎思科技承辦的「計算機視覺技術賦能智慧城市」技術論壇盡管在大會第三天舉辦,仍然人滿為患,成為今年 CNCC 的爆款技術論壇之一。
澎思科技首席科學家、新加坡研究院院長申省梅作為該技術論壇的主席兼演講嘉賓,帶來了主題為《視頻圖像智能化助力智慧安防建設》的演講,她認為當前由于巨量攝像頭的存在并不斷生產(chǎn)出海量的監(jiān)控視頻,如果想要更好地利用、存儲和檢索視頻圖像,必須把視頻圖像智能化,將視頻結構化和智能壓縮,只有這樣才能做到事前預警、事中處置、事后分析。
個人簡介:申省梅,澎思科技(PENSEES)首席科學家、新加坡研究院院長,前松下新加坡研究院副院長。作為計算機視覺與深度學習領域頂級科學家,領導超40人的算法研究團隊,獲得十余項計算機視覺領域國際頂級競賽冠軍,累計專利300余項,致力于監(jiān)控與安全、智慧城市、自動駕駛、智能機器人以及AI 工廠自動化解決方案等領域的相關技術的開發(fā)部署和落地。曾聯(lián)合新加坡國立大學LV組參加PASCAL VOC(視覺物體分類)連續(xù)三年獲獎,在美國國家技術標準局(NIST)主辦的非受限條件下人臉識別競賽IJB-A獲得了人臉驗證 (verification)與人臉辨認(identification)的雙項冠軍,在微軟百萬名人識別競賽MS-Cele-1M人臉挑戰(zhàn)賽獲雙項冠軍。
以下為申省梅演講全文,AI 科技評論進行了不改變原意的編輯。
申省梅:
視頻圖像是從攝像頭而來,就像我們的眼睛,我們看到了東西,但如果我們沒有大腦來分析,圖像就等于是沒有意義的東西。
智慧城市包含著方方面面,從最近的落地來看,智慧安防、智慧交通、智慧社區(qū)遠遠走在了前面。那視頻圖像智能化能如何助力于智慧安防建設?
縱觀整個安防行業(yè)的發(fā)展歷程,AI的發(fā)揮空間還有很多。我相信大家也熟悉整個安防行業(yè)的發(fā)展,在座年輕人可能不太清楚,最早監(jiān)控用的都是模擬攝像頭,在中國模擬攝像頭可能都不見了,但在其它國家還在大量地被使用。下一個階段,當數(shù)字相機出現(xiàn)以后,就出現(xiàn)了DVR;接著網(wǎng)絡監(jiān)控階段出現(xiàn)了,那時候我們就叫NVR+網(wǎng)絡軟件數(shù)字相機;今天我們看到的高清攝像頭、以及智能監(jiān)控已經(jīng)出現(xiàn)在各個應用場景中了。
據(jù)英偉達預測,到2020年全世界會有10億個視頻攝像頭在使用,另一個統(tǒng)計說中國現(xiàn)在已經(jīng)有1.76億個攝像頭,3年之后可能會有6億攝像頭,也就是說平均兩個人一個攝像頭。
對大量的視頻,盡管我們有壓縮手段(視頻流),但怎樣存儲、怎樣觀看越來越成為一個難題?假如我們想從大量視頻當中快速地偵破一個事件,或檢索一件事都變得非常困難。那是不是可以用人工智能來幫忙解決這個問題,做到事前預警、事中處置、事后分析呢?
數(shù)據(jù)壓縮,事實上是一種不做內容分析的壓縮,包括MPEG1/2、H.264、H.265,甚至現(xiàn)在的H.266,以及中國的壓縮標準AVS2/3。即使有這樣的壓縮,但現(xiàn)在攝像頭的像素越來越高,攝像頭的數(shù)目越來越多,即使有5G的出現(xiàn),有云端的存儲,我們最后的DVR、NVR(即使是云端的存儲)也都是一種物理的存儲。這不像我們大腦,從來沒有一個人說“我們的大腦放不下東西了,我的記憶力滿了”這樣的話。因此我們就問,什么時候人工智能能做到代替物理的存儲?物理存儲是一個空間,它是有局限性的。目前的一種做法就是視頻圖像智能化。
對視頻圖像智能化我們要做好幾件事,都是基于圖像的分析理解。
第一,視頻圖像的恢復增強,即在恢復過程中如何提高圖像質量。
第二,視頻圖像的目標檢測、跟蹤、識別。這個我們可以做到事前預警、事中處置。
第三,視頻結構化,它包括人臉屬性、行人屬性、車輛屬性、非機動車屬性、以及各種物體的屬性,每一個東西都有它的ID(都有它的屬性),這些結構化的信息就會使事后檢索分析變得更為方便。
第四,在智能化的時代,我們除了普通的圖片和視頻壓縮以外,能不能在視頻內容理解的基礎上做智能壓縮。目前我們也在做智能壓縮,也在做視頻摘要,這會讓我們進一步節(jié)省存儲的空間和傳輸?shù)膸挕?/p>
剛才講到圖像壓縮會造成圖像模糊,其實還有很多方面都會造成圖像的質量下降,比如設備用的不正當,例如你用了高清的攝像頭,但你的lens用的不匹配,或者我們拍攝的時候,環(huán)境條件(比如燈光或天氣)不太好。李子青老師講過光線對人臉造成非常大的影響,這幾個問題都會讓我們看到視頻圖像恢復增強是非常重要的一關。
分享一下我們最近的成果,對非常小的臉用的是“深度超分辨率技術”。傳統(tǒng)的人臉識別在40×40以下就不行了;用上深度學習后可能會提高到30×30。
而我們的工作可以做到12×14(這是一個很小的臉),中間的結果是我們用深度學習的超分辨率方法恢復了他的人臉識別,我們在人臉識別的庫上檢測發(fā)現(xiàn),用了深度超分辨率以后,我們的人臉識別性能從0.75提高到0.97。
當然還有其他各種各樣的模糊問題,我們也都在做,例如運動模糊、defocus的模糊等,我們希望將來能夠用單一的模塊覆蓋不同的模糊。
其次是背光、低光的處理。這里有兩個圖,右邊這張圖很黑,什么都看不清,當我們用低光處理后(如左圖),內容就可以看到了。第二張圖是做人臉識別的時候,如果你背后光線非常亮,你站在那邊拍照,常常會出現(xiàn)臉部漆黑一片。我們用了背光處理,背光處理有不同的方法——傳統(tǒng)的、深度學習的方法,在不同的硬件上、不同的場景下,我們會選擇不同的算法。
圖像增強也包括去抖動,比如刮風時抖動引起來的圖像模糊,以及去霧、去云、去雨的處理。
澎思科技的人臉識別和行人識別、車輛識別,以及非車輛(自行車、摩托車等)的識別都是我們的關鍵產(chǎn)品,在技術上面,我們要求是非常高的。
這是過去我?guī)ьI的團隊取得的成績,關于人臉識別,取得了NIST獎,以及微軟百萬名人臉識別挑戰(zhàn)賽的冠軍。目標跟蹤、行人檢測、行人再識別也分別打破了世界記錄。此外在PASCAL VOC(ImageNet前身),我們當時連著3年參加比賽,并且連續(xù)3年拿到冠軍。交通異常檢測、自動駕駛、以及智能機器人,我們都有參加比賽拿到過冠軍,計算機視覺其實面特別廣,它也用在智能機器人,自動駕駛方面。
我們最近在做跨攝像機的行人再識別ReID。在不同的攝像頭里,有時候有人臉出現(xiàn)、有時候沒有人臉出現(xiàn),通過ReID的技術,即使在看不到人臉的情況下,我們仍可以通過行人的身體特征去判斷這個人是誰。
這是我們做的一些測試,黃色框中這個人根本連臉都看不到,他出現(xiàn)在不同的角落,但我們通過他身體的特征,會知道這是同一個人,ID是55,另外一個人是ID25。
7、8月份左右,我們在行人再識別三大數(shù)據(jù)集Market1501、DukeMTMC-reID、CUHK03,視頻行人再識別三大數(shù)據(jù)集PRID-2011,iLIDS-VID,MARS,以及行人屬性上都打破了世界記錄。
人臉識別,澎思更專注于動態(tài)捕捉下的人臉識別。監(jiān)控相機沒有辦法約束條件,人臉的姿態(tài)、燈光的變化各種各樣,還有模糊的情況。在這方面,最近澎思的模型在IJB-B和IJB-C下刷新了記錄。我們的客戶也拿我們的模型去跟友商做了比對,可以看出性能遠遠超過友商的性能。
李子青老師剛剛提到的ICCV的人臉識別比賽,我們在ICCV LFR挑戰(zhàn)賽的輕量級圖像識別、大型圖像識別和輕量級視頻圖像識別三項競賽中成績第一,一個競賽成績第二。
視頻結構化剛才也講到了。當你事后想要從視頻中檢索一件事的時候,可以用視頻的屬性來檢索。
這是公安的需求。原來公安想要從一天的視頻中找到想要的東西,要用肉眼來看視頻,找一個東西,確定一件事是什么時候發(fā)生的,至少要把整個錄像看完才行;然而將視頻結構化以后,幾秒鐘就可以找到想要的東西。
澎思科技的視頻結構化屬性與目標參考了國標,比如對行人結構來講,我們支持27大項、128小項,這是屬于業(yè)界第一的。9月份,澎思在行人屬性三個數(shù)據(jù)庫上也刷新了世界記錄。
當然,在做的過程中也有很多困難,比如數(shù)據(jù)采集、以及數(shù)據(jù)長尾問題。長尾問題我們用了各種方法來解決,甚至用一些傳統(tǒng)的圖像處理方法,比如雨傘我們可以生成不同顏色的,其中也用了一些很inpainting的技術,也用了GAN來生產(chǎn),比如最下面這個人臉的數(shù)據(jù)庫不平衡,這個文章已經(jīng)發(fā)表。
澎思也可以做到實時結構化預覽、綜合檢索,以及以圖搜圖,甚至以圖搜視頻。
在人臉屬性上,除了性別、年齡以外,澎思的算法還包括有沒有戴口罩、有沒有眼鏡等,共支持其它40多個不同的屬性描述。
結構化也包括人、車一些行為的異常檢測。異常包括交通的異常、打架、搶劫、聚集、事故、抽煙等。2018年我們也在CVPR上的AI CITY CHALLENGE拿到了冠軍。
最后一個內容,講一下視頻內容的智能壓縮,視頻摘要。魯繼文老師提到深度強化學習怎么來幫助我們的例子,在這個問題上,我們知道很難用強化學習來做視頻摘要和內容壓縮,因為你不知道視頻中哪一個行為是最關鍵、最重要的。
所以,一個策略就是在不同的情況下要有不同的考量,不僅僅是從一幀上去考量,它是在時空域上的一個分析,所以我們采用時空域的特征,并且做到關鍵內容的保留、壓縮和摘要,根據(jù)不同的情況,有的時候可以做到10倍、100倍、甚至1000倍的壓縮。我們在壓縮的過程中屬性同時會被記載下來,當將壓縮后的這一段視頻存下來以后,會不斷地將重要的場景和行為存下來,而且對它的屬性都有描述。
視頻圖像智能化,事實上還取決于圖像質量的好壞,而圖像質量的好壞又取決于整個軟硬件系統(tǒng)的構成。比如說拍攝距離是多少、相機的像素是多少、鏡頭怎么選擇、傳輸?shù)姆绞绞窃趺礃拥摹⒁曨l圖像壓縮的方式等,這些都會影響到圖像質量的好壞。所以我們說完美體現(xiàn)技術的優(yōu)勢還在于一個很SMART的解決方案,以及系統(tǒng)人員的培訓。
在AI產(chǎn)業(yè)圖譜中的技術層,澎思科技一直走在前面。我們的立場是堅持應用驅動的解決方案,商業(yè)驅動的算法研究,用最有效的算法和最經(jīng)濟的軟硬體來解決客戶的剛需。
因此我的結論就是,視頻圖像的智能化非常重要。現(xiàn)在很多人都在用深度學習,如果是視頻圖像數(shù)據(jù),就一定要進行結構化分析,這是一個前提。這個方面包括了很多技術,如果把這些技術都用好,我們就可以實現(xiàn)事前預警、事中處置、事后檢索分析。我個人更想追求的一個方向是節(jié)省存儲空間、傳輸帶寬、智能化的方式。這個方面我相信接下來大家會往這個方面多考慮,我們會有更好的發(fā)揮空間,謝謝大家。
雷鋒網(wǎng)報道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。