0
ImageNet比賽結束了。
夏威夷當?shù)貢r間7月26日,CVPR 2017最后一天,李飛飛教授等學者在ImageNet workshop上緬懷過去8年計算機視覺(CV)發(fā)展的ImageNet時代,同時宣布挑戰(zhàn)賽最終歸于Kaggle。
同一天上午,WebVision也公布了第一期獲獎名單。
WebVision競賽由蘇黎世聯(lián)邦理工、Google Reasearch、卡耐基梅隆大學等共同組織。但相較而言,WebVision所用數(shù)據(jù)集直接從網(wǎng)絡爬取,沒有經(jīng)過人工標注,含有大量噪音之外,數(shù)據(jù)類別和數(shù)量也遠大于ImageNet比賽所用數(shù)據(jù),所以難度也高很多。
所以,ImageNet為什么結束?WebVision將如何推動CV發(fā)展?CV學術與應用研究的出路又在哪?帶著這些問題,雷鋒網(wǎng)AI科技評論與多位計算機視覺專家進行了交流。
在CVPR研討會上,李飛飛教授作為谷歌研究院代表暨比賽贊助方,向碼隆科技算法團隊頒發(fā)了WebVision冠軍獎項
六天會議過程中,CVPR 2017的論文成果通過oral presentation、workshop、poster、spotlight等環(huán)節(jié)普遍都得到了展示,但業(yè)內人士普遍認為,“今年并沒有一個特別讓人興奮、驚喜的成果出來?!毕愀壑写?商湯科技聯(lián)合實驗室林達華教授解釋稱,包括「Densely Connected Convolutional Networks」等最佳論文在內,我們看到了很多不同的網(wǎng)絡設計的想法和切入角度,這些扎實的工作推動了現(xiàn)有體系、架構的一步前進,但是,卻普遍缺乏一個根本性突破(fundamental breakthrough)。
關于計算機視覺和模式識別的研究,過去數(shù)年依靠ImageNet數(shù)據(jù)集之下,通過深度學習該領域獲得長足的發(fā)展。但是,如WebVision主辦方成員李文博士指出,依賴于數(shù)據(jù)標注進行訓練,這也是過去到現(xiàn)在CV研究到達了瓶頸的原因。因為,很多實際場景中是沒有大規(guī)模標注數(shù)據(jù)的,如果WebVision希望推動半監(jiān)督或無監(jiān)督學習進行圖像理解的初衷能夠實現(xiàn),將更符合現(xiàn)實的應用。
地平線機器人技術創(chuàng)始人及CEO余凱接受雷鋒網(wǎng)采訪時指出,“現(xiàn)在的深度學習其實是一個有問題的框架,基本是用大數(shù)據(jù)和很多標注數(shù)據(jù)來訓練,這過去幾年很成功,但不代表是正確的方向?!庇鄤P表示,現(xiàn)在的計算機視覺的系統(tǒng)是一個(特征為)training system的訓練,而不是一個learning system,我們要從training system變成learning system,讓機器主動,并結合數(shù)據(jù)的結構、時間空間結構去學習,而不是被動地用人工訓練來標注它。“在自動駕駛領域尤其重要,因為駕駛中永遠有好多corner case,這些在訓練數(shù)據(jù)集里面是沒有的?!?/p>
對于當前CV研究現(xiàn)狀,林達華教授指出,“如今似乎是有新的成果誕生但又有所停滯的狀態(tài),就像當年deep learning流行起來之前幾年的狀態(tài)——雖然各種思路百花齊放,但是很多核心問題都尚未取得新的突破性進展?!?/p>
不過,面對今年來自全球各地超過五千人的參會盛況,林達華教授說道:“現(xiàn)在處于承前啟后的階段,大家都非常關注計算機視覺這個領域。目前很多研究組都在積極開拓新的問題和方向,我相信未來一兩年內能夠在多個方向實現(xiàn)新的突破?!?/span>
不過,面對今年來自全球各地超過五千人的參會盛況,林達華教授說道:“現(xiàn)在處于承前啟后的階段,大家都非常關注計算機視覺這個領域。目前很多研究組都在積極開拓新的問題和方向,我相信未來一兩年內能夠在多個方向實現(xiàn)新的突破?!?/p>
以大公司,比如騰訊AI Lab的兩篇論文為例——「Deep Self-Taught Learning for Weakly Supervised Object Localization」,提出依靠檢測器自身不斷改進訓練樣本質量,破解弱監(jiān)督目標檢測問題中訓練樣本質量低的瓶頸;以及「Diverse Image Annotation」,用少量多樣性標簽表達盡量多的圖像信息,該目標充分利用標簽之間的語義關系,以使得自動標注結果與人類標注更加接近——都強調了模型的自主學習和理解的方法的突破。
在今年的CVPR上,錄取論文涉及的領域占比最高的五類是:計算機視覺中的機器學習(24%)、物體識別和場景理解(22%)、3D視覺(13%)、低級和中級視覺(12%)、分析圖像中的人類(11%)。
所謂的“突破”,即是大家都迫切希望解決這個問題,但是暫時又沒有很好的方法來解決,那么就看誰提出了很好的方法。從今年CVPR的成果來看,data set的研究依舊火熱;不過,林達華教授指出,到現(xiàn)在,ImageNet基本上做到一個極限了。“當一個事情的標準做到98%、99%的時候,從學術的角度來說,這個事情做到這個程度,學術界的使命差不多終結了?!?/p>
所以,無論是新升級的WebVision競賽,還是大公司的研發(fā)——對于做學術的人來說,如何尋找新的挑戰(zhàn)?
林達華教授向雷鋒網(wǎng)AI科技評論介紹,在其實驗室的研究下,總結起來CV領域的突破方向主要有三個,而它們各自的未來和面臨挑戰(zhàn)是怎樣的呢?
方向一:做更大更有挑戰(zhàn)性的數(shù)據(jù)集
在WebVision的workshop上,Google科學家介紹了他們如何用300Million的3D圖片做deep learning。而在更早之前,雅虎被收購前也發(fā)布了一個“YFCC 100M”,數(shù)據(jù)庫達到億級。
不過,這些數(shù)據(jù)最大的問題是,上億的數(shù)據(jù)集,像ImageNet那樣把標簽做好,幾乎是不可能的事情。在數(shù)據(jù)量龐大的情況下,帶來新的挑戰(zhàn)是:怎么提供標簽?同時,每個領域的AI應用都需要各自領域的數(shù)據(jù)集,是需要每一個領域都標注一個自己的ImageNet?顯然這樣的效率難以被產業(yè)界接受。
所以,現(xiàn)在大家也不選擇提供標簽了,比如Google可能就直接通過data采集了一些標簽。只是也沒有完全百分百能夠確認標簽是對的,就在于校驗一下準確率達到70%、80%。WebVision比賽最重要的特點就是采用的非人工標注, 而是通過特定的標簽在互聯(lián)網(wǎng)上搜索1000個類的圖片, 這樣就容易引起圖像和標簽含有大量的錯誤信息(噪聲)。這不同于“干凈”的ImageNet數(shù)據(jù),圖片內容和對應的標簽都非常單一和清楚。
“那么,怎么樣使用這些有噪音的數(shù)據(jù)?這其實是帶來了一個非常大的挑戰(zhàn)。我們內部拿現(xiàn)有的視覺模型和學習方法在有噪音的數(shù)據(jù)集上測試過,發(fā)現(xiàn)不用說20%,哪怕是10%的錯誤標簽都會對性能產生嚴重的破壞?!绷诌_華教授說道。
理論上說,如果有十倍以上的數(shù)據(jù)量,以及一個好的方法的話,機器識別和理解的水平必定要超越原本ImageNet的水平,但目前只能達到不相伯仲的結果。那么問題就來了:是要投入一些資源,繼續(xù)做一百萬級的標注數(shù)據(jù),還是就想辦法去解決上億的數(shù)據(jù)集問題?
“這是一個很open的領域?!睕]有標注,就沒標準參照,機器怎么處理這種帶噪音數(shù)據(jù)?如何把握機器識別的準確性呢?……這些都是有待探索的問題。
作為本次WebVision第一名獲獎得主,碼隆科技首席科學家黃偉林博士向雷鋒網(wǎng)AI科技評論表示,所以,要實現(xiàn)這個突破, 需要發(fā)展半監(jiān)督(semi-supervised),甚至無監(jiān)督(unsupervised)學習。這就需要設計更好、更優(yōu)化的損失函數(shù)(loss functions), 來減少模型訓練對標簽數(shù)據(jù)的依賴。 對于更復雜的圖像分割任務, 最重要的應該發(fā)展弱監(jiān)督(weakly-supervised)學習算法,以盡量避免像素級別的標注。
在這個過程中, 最近很火的生成式對抗網(wǎng)絡(Generative Adversarial Networks,GAN),可以自動生成大量的人工樣本,這些人工樣本對訓練缺乏樣本和標注的圖片數(shù)據(jù)有很大幫助,為解決多層次圖像理解提供重要的思路。 另外,如何利用少量的圖片數(shù)據(jù)和標簽來訓練足夠優(yōu)化的深度模型也是重要的一個課題, 而課程學習(curriculum learning)對提升模型的泛化能力非常有效。
不過,如果擴展到更廣闊的計算機視覺應用領域,業(yè)內人士會覺得,這還不太夠。這就是下一個方向需要解決的問題。
“就是說我覺得計算機視覺要和robotics結合在一起,它是用時間的維度去看場景的變化,什么是前景什么是背景區(qū),什么是一個物體,什么是形狀。最后理解到的結果應該是有空間信息的語義識別理解,現(xiàn)在都還很少,都是用弱監(jiān)督、生成對抗的方法去做。”地平線機器人技術創(chuàng)始人及CEO余凱指出,
“所以我覺得研究方法要改變,研究的目的要改變。目的要改變是指,研究的空間和場景的關系,這尤其對自動駕駛特別重要?!?/p>
所以,這里不是指NLP領域的所謂結構化數(shù)據(jù)。在自動駕駛領域中,林達華教授指出,很多人做自動駕駛的預測時,需要做路線的檢測、三維重建等,這些許多任務當中的每一個,從傳統(tǒng)學術的研究角度,是分開研究的。但是,實際中要解決這些問題,比如駕駛,就是個綜合的問題,人開車時也不會把任務分成若干個方向分別做判斷。
以往的圖像分割,每一次分割用一次CNN這樣的方法,并不能綜合處理這些任務。比如,通過地圖,周邊環(huán)境明明存在一個空間結構,圖像分割并不能將這些結構性空間考慮全面,“單純的語義分割,比如一張圖中標出這50萬個像素是路,另外80萬個像素是建筑物,這是無法直接指導駕駛的?!?/span>
林達華教授表示,從學術的角度看,只有把結構數(shù)據(jù)融合在一個幾何的框架下面,才能知道客觀世界是什么——前面多少米是人、 是建筑,前面的車開得多快……這才是實際有用的成果。
“所以,所謂的結構就是有多個不同的方面,相互之間是有著數(shù)學上、語義上、物理上的各種聯(lián)系。在多種補充結構相互聯(lián)系的系統(tǒng)里面,用系統(tǒng)的角度,帶著結構的角度,去系統(tǒng)地觀察,把不同的視覺聯(lián)合在一起解決問題,我覺得也是一個現(xiàn)在正在開始推進的方向。”
承接上述結構數(shù)據(jù)處理的問題繼續(xù)展開想象,就會發(fā)現(xiàn),整個CVPR 2017中,視頻理解相關的研究大約只占整個會議論文不到30%的水平,但實際中這個問題的應用卻是極其廣泛。人臉識別、監(jiān)控、互聯(lián)網(wǎng)視頻、自動駕駛等,全部有巨大商業(yè)價值的視覺數(shù)據(jù),都是以視頻的形式存在的,不是一幀一幀的。
視頻相對與圖像而言,最重要的一點就是多了一個維度:時間軸。怎么去利用這一個新的維度,利用時間的關系……
據(jù)了解,今年就有很多大公司、研究小組都做了新的視頻數(shù)據(jù)集(video dataset),包括Facebook、Google、伯克利大學等?!按蠹叶既幦‘攙ideo domain的ImageNet,誰能夠脫穎而出?現(xiàn)在還不好說,這是百家爭鳴的戰(zhàn)國時代?!绷诌_華教授說道,“但是,video是一個非常重要的方向,這也是我們實驗室過去兩年也在持續(xù)投入的?!?/p>
WebVision在今年的CVPR大會上開設了一個專題,上面提出了 Visual understanding and learning from web data 的挑戰(zhàn)。平安科技首席科學家,平安科技人工智能總工程師劉飛解釋稱,也就是說,今年的挑戰(zhàn)分為兩項:第一項還是關于圖像分類,另一項挑戰(zhàn)是關于遷移學習的。
前面大家都意識到了無監(jiān)督學習、半監(jiān)督學習等重要和困難,不過從產業(yè)界觀察學術進步的角度看,劉飛指出,遷移學習恐怕才是比較有新意的、更大的挑戰(zhàn)。“遷移學習是為了解決在一類環(huán)境下學習到的模型能用于一個全新環(huán)境下缺少樣本數(shù)據(jù)的機器學習的問題,遷移學習是提升機器學習泛化能力的一個出路。如果遷移學習的技術有較快發(fā)展進展,那么以后深度學習技術將會比較快速和廣泛地部署到各個領域的商用場景?!?/p>
但是,實際應用中,很多時候對圖像的處理不只是視覺問題,更多也涉及到需要NLP交叉結合的研究。結合實際應用處理的經(jīng)驗,劉飛稱,
WebVision如今提到的視覺理解目前還只是字面意義上的,可能會通過今后幾年提出的新挑戰(zhàn)來體現(xiàn)。真正的視覺理解更加大的挑戰(zhàn)應該是理解圖像內容的語義內涵,而不僅僅是檢測定位、分類這些任務,還要理解圖像表達出的人類高級知識范疇的內容,例如一副圖片是表達出一個社會事件、一次個人聚會,或是一副什么風格的藝術作品等等,這些都是以往人類用語言表達出的內容。
無獨有偶,騰訊AI Lab計算機視覺總監(jiān)劉威博士接受雷鋒網(wǎng)AI科技評論采訪時也指出,
現(xiàn)在互聯(lián)網(wǎng)上的數(shù)據(jù)很多都是視覺與文本信號共同出現(xiàn),譬如騰訊視頻,不僅有視頻信息,還有音頻信息,還有相應的字幕、評論和彈幕等信息。如何挖掘或者學習他們之間的相關性也是業(yè)界的研究熱點。
近年來計算機視覺+NLP相結合,出現(xiàn)了很多熱點的研究問題,譬如圖像文本匹配、圖像描述生成、圖像問答等。今年的CVPR的其中一個keynote也是邀請了NLP領域斯坦福大學的知名教授Dan Jurafsky,討論了language方面的研究進展。因此,多個交叉領域的研究,更能推動研究成果在實際業(yè)務場景中的應用。
所以,討論完這些方法論后,對于“未來要實現(xiàn)這個突破,還要經(jīng)歷一個怎樣的創(chuàng)新期?”這個問題,跨領域機器學習的技術融合,例如計算視覺、自然語言處理、語音識別等的融合;以及學術界與產業(yè)界的進一步研究合作,是業(yè)內人士普遍希望推進的路徑。
同時,中國互聯(lián)網(wǎng)公司的眾多創(chuàng)新,大多還停留在應用層面或技術層面。而美國創(chuàng)新科技的研究,往往是從理論的根基出發(fā),建立一套完整的思維方式,這也是為什么美國,尤其是硅谷,在過去數(shù)十年一直引領創(chuàng)新的原因:他們有能力也有意愿從基礎研究出發(fā),與大學、研究機構保持密切關系,共同完成學術創(chuàng)新和商業(yè)化。
如商湯科技CEO徐立所言,AI的火熱都不是一夜時間的事情,雖然看起來像是一夜梨花開,但更重要是一直以來源頭創(chuàng)新工作的厚積薄發(fā)。在本屆CVPR,商湯科技與香港中大-商湯科技聯(lián)合實驗被共同錄取23篇論文,這個數(shù)量遠高于BAT。“現(xiàn)在,基礎研究不能丟,才能帶來足夠的時間窗口。AI的發(fā)展需要產業(yè)和研究相結合,以定義問題,解決問題。”
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。
本專題其他文章