0
本文作者: 溫曉樺 | 2017-08-01 15:38 | 專(zhuān)題:CVPR 2017 |
ImageNet比賽結(jié)束了。
夏威夷當(dāng)?shù)貢r(shí)間7月26日,CVPR 2017最后一天,李飛飛教授等學(xué)者在ImageNet workshop上緬懷過(guò)去8年計(jì)算機(jī)視覺(jué)(CV)發(fā)展的ImageNet時(shí)代,同時(shí)宣布挑戰(zhàn)賽最終歸于Kaggle。
同一天上午,WebVision也公布了第一期獲獎(jiǎng)名單。
WebVision競(jìng)賽由蘇黎世聯(lián)邦理工、Google Reasearch、卡耐基梅隆大學(xué)等共同組織。但相較而言,WebVision所用數(shù)據(jù)集直接從網(wǎng)絡(luò)爬取,沒(méi)有經(jīng)過(guò)人工標(biāo)注,含有大量噪音之外,數(shù)據(jù)類(lèi)別和數(shù)量也遠(yuǎn)大于ImageNet比賽所用數(shù)據(jù),所以難度也高很多。
所以,ImageNet為什么結(jié)束?WebVision將如何推動(dòng)CV發(fā)展?CV學(xué)術(shù)與應(yīng)用研究的出路又在哪?帶著這些問(wèn)題,雷鋒網(wǎng)AI科技評(píng)論與多位計(jì)算機(jī)視覺(jué)專(zhuān)家進(jìn)行了交流。
在CVPR研討會(huì)上,李飛飛教授作為谷歌研究院代表暨比賽贊助方,向碼隆科技算法團(tuán)隊(duì)頒發(fā)了WebVision冠軍獎(jiǎng)項(xiàng)
六天會(huì)議過(guò)程中,CVPR 2017的論文成果通過(guò)oral presentation、workshop、poster、spotlight等環(huán)節(jié)普遍都得到了展示,但業(yè)內(nèi)人士普遍認(rèn)為,“今年并沒(méi)有一個(gè)特別讓人興奮、驚喜的成果出來(lái)?!毕愀壑写?商湯科技聯(lián)合實(shí)驗(yàn)室林達(dá)華教授解釋稱(chēng),包括「Densely Connected Convolutional Networks」等最佳論文在內(nèi),我們看到了很多不同的網(wǎng)絡(luò)設(shè)計(jì)的想法和切入角度,這些扎實(shí)的工作推動(dòng)了現(xiàn)有體系、架構(gòu)的一步前進(jìn),但是,卻普遍缺乏一個(gè)根本性突破(fundamental breakthrough)。
關(guān)于計(jì)算機(jī)視覺(jué)和模式識(shí)別的研究,過(guò)去數(shù)年依靠ImageNet數(shù)據(jù)集之下,通過(guò)深度學(xué)習(xí)該領(lǐng)域獲得長(zhǎng)足的發(fā)展。但是,如WebVision主辦方成員李文博士指出,依賴(lài)于數(shù)據(jù)標(biāo)注進(jìn)行訓(xùn)練,這也是過(guò)去到現(xiàn)在CV研究到達(dá)了瓶頸的原因。因?yàn)?,很多?shí)際場(chǎng)景中是沒(méi)有大規(guī)模標(biāo)注數(shù)據(jù)的,如果WebVision希望推動(dòng)半監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)進(jìn)行圖像理解的初衷能夠?qū)崿F(xiàn),將更符合現(xiàn)實(shí)的應(yīng)用。
地平線機(jī)器人技術(shù)創(chuàng)始人及CEO余凱接受雷鋒網(wǎng)采訪時(shí)指出,“現(xiàn)在的深度學(xué)習(xí)其實(shí)是一個(gè)有問(wèn)題的框架,基本是用大數(shù)據(jù)和很多標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練,這過(guò)去幾年很成功,但不代表是正確的方向。”余凱表示,現(xiàn)在的計(jì)算機(jī)視覺(jué)的系統(tǒng)是一個(gè)(特征為)training system的訓(xùn)練,而不是一個(gè)learning system,我們要從training system變成learning system,讓機(jī)器主動(dòng),并結(jié)合數(shù)據(jù)的結(jié)構(gòu)、時(shí)間空間結(jié)構(gòu)去學(xué)習(xí),而不是被動(dòng)地用人工訓(xùn)練來(lái)標(biāo)注它?!霸谧詣?dòng)駕駛領(lǐng)域尤其重要,因?yàn)轳{駛中永遠(yuǎn)有好多corner case,這些在訓(xùn)練數(shù)據(jù)集里面是沒(méi)有的?!?/p>
對(duì)于當(dāng)前CV研究現(xiàn)狀,林達(dá)華教授指出,“如今似乎是有新的成果誕生但又有所停滯的狀態(tài),就像當(dāng)年deep learning流行起來(lái)之前幾年的狀態(tài)——雖然各種思路百花齊放,但是很多核心問(wèn)題都尚未取得新的突破性進(jìn)展?!?/p>
不過(guò),面對(duì)今年來(lái)自全球各地超過(guò)五千人的參會(huì)盛況,林達(dá)華教授說(shuō)道:“現(xiàn)在處于承前啟后的階段,大家都非常關(guān)注計(jì)算機(jī)視覺(jué)這個(gè)領(lǐng)域。目前很多研究組都在積極開(kāi)拓新的問(wèn)題和方向,我相信未來(lái)一兩年內(nèi)能夠在多個(gè)方向?qū)崿F(xiàn)新的突破。”
不過(guò),面對(duì)今年來(lái)自全球各地超過(guò)五千人的參會(huì)盛況,林達(dá)華教授說(shuō)道:“現(xiàn)在處于承前啟后的階段,大家都非常關(guān)注計(jì)算機(jī)視覺(jué)這個(gè)領(lǐng)域。目前很多研究組都在積極開(kāi)拓新的問(wèn)題和方向,我相信未來(lái)一兩年內(nèi)能夠在多個(gè)方向?qū)崿F(xiàn)新的突破?!?/p>
以大公司,比如騰訊AI Lab的兩篇論文為例——「Deep Self-Taught Learning for Weakly Supervised Object Localization」,提出依靠檢測(cè)器自身不斷改進(jìn)訓(xùn)練樣本質(zhì)量,破解弱監(jiān)督目標(biāo)檢測(cè)問(wèn)題中訓(xùn)練樣本質(zhì)量低的瓶頸;以及「Diverse Image Annotation」,用少量多樣性標(biāo)簽表達(dá)盡量多的圖像信息,該目標(biāo)充分利用標(biāo)簽之間的語(yǔ)義關(guān)系,以使得自動(dòng)標(biāo)注結(jié)果與人類(lèi)標(biāo)注更加接近——都強(qiáng)調(diào)了模型的自主學(xué)習(xí)和理解的方法的突破。
在今年的CVPR上,錄取論文涉及的領(lǐng)域占比最高的五類(lèi)是:計(jì)算機(jī)視覺(jué)中的機(jī)器學(xué)習(xí)(24%)、物體識(shí)別和場(chǎng)景理解(22%)、3D視覺(jué)(13%)、低級(jí)和中級(jí)視覺(jué)(12%)、分析圖像中的人類(lèi)(11%)。
所謂的“突破”,即是大家都迫切希望解決這個(gè)問(wèn)題,但是暫時(shí)又沒(méi)有很好的方法來(lái)解決,那么就看誰(shuí)提出了很好的方法。從今年CVPR的成果來(lái)看,data set的研究依舊火熱;不過(guò),林達(dá)華教授指出,到現(xiàn)在,ImageNet基本上做到一個(gè)極限了?!爱?dāng)一個(gè)事情的標(biāo)準(zhǔn)做到98%、99%的時(shí)候,從學(xué)術(shù)的角度來(lái)說(shuō),這個(gè)事情做到這個(gè)程度,學(xué)術(shù)界的使命差不多終結(jié)了?!?/p>
所以,無(wú)論是新升級(jí)的WebVision競(jìng)賽,還是大公司的研發(fā)——對(duì)于做學(xué)術(shù)的人來(lái)說(shuō),如何尋找新的挑戰(zhàn)?
林達(dá)華教授向雷鋒網(wǎng)AI科技評(píng)論介紹,在其實(shí)驗(yàn)室的研究下,總結(jié)起來(lái)CV領(lǐng)域的突破方向主要有三個(gè),而它們各自的未來(lái)和面臨挑戰(zhàn)是怎樣的呢?
方向一:做更大更有挑戰(zhàn)性的數(shù)據(jù)集
在WebVision的workshop上,Google科學(xué)家介紹了他們?nèi)绾斡?00Million的3D圖片做deep learning。而在更早之前,雅虎被收購(gòu)前也發(fā)布了一個(gè)“YFCC 100M”,數(shù)據(jù)庫(kù)達(dá)到億級(jí)。
不過(guò),這些數(shù)據(jù)最大的問(wèn)題是,上億的數(shù)據(jù)集,像ImageNet那樣把標(biāo)簽做好,幾乎是不可能的事情。在數(shù)據(jù)量龐大的情況下,帶來(lái)新的挑戰(zhàn)是:怎么提供標(biāo)簽?同時(shí),每個(gè)領(lǐng)域的AI應(yīng)用都需要各自領(lǐng)域的數(shù)據(jù)集,是需要每一個(gè)領(lǐng)域都標(biāo)注一個(gè)自己的ImageNet?顯然這樣的效率難以被產(chǎn)業(yè)界接受。
所以,現(xiàn)在大家也不選擇提供標(biāo)簽了,比如Google可能就直接通過(guò)data采集了一些標(biāo)簽。只是也沒(méi)有完全百分百能夠確認(rèn)標(biāo)簽是對(duì)的,就在于校驗(yàn)一下準(zhǔn)確率達(dá)到70%、80%。WebVision比賽最重要的特點(diǎn)就是采用的非人工標(biāo)注, 而是通過(guò)特定的標(biāo)簽在互聯(lián)網(wǎng)上搜索1000個(gè)類(lèi)的圖片, 這樣就容易引起圖像和標(biāo)簽含有大量的錯(cuò)誤信息(噪聲)。這不同于“干凈”的ImageNet數(shù)據(jù),圖片內(nèi)容和對(duì)應(yīng)的標(biāo)簽都非常單一和清楚。
“那么,怎么樣使用這些有噪音的數(shù)據(jù)?這其實(shí)是帶來(lái)了一個(gè)非常大的挑戰(zhàn)。我們內(nèi)部拿現(xiàn)有的視覺(jué)模型和學(xué)習(xí)方法在有噪音的數(shù)據(jù)集上測(cè)試過(guò),發(fā)現(xiàn)不用說(shuō)20%,哪怕是10%的錯(cuò)誤標(biāo)簽都會(huì)對(duì)性能產(chǎn)生嚴(yán)重的破壞?!绷诌_(dá)華教授說(shuō)道。
理論上說(shuō),如果有十倍以上的數(shù)據(jù)量,以及一個(gè)好的方法的話,機(jī)器識(shí)別和理解的水平必定要超越原本ImageNet的水平,但目前只能達(dá)到不相伯仲的結(jié)果。那么問(wèn)題就來(lái)了:是要投入一些資源,繼續(xù)做一百萬(wàn)級(jí)的標(biāo)注數(shù)據(jù),還是就想辦法去解決上億的數(shù)據(jù)集問(wèn)題?
“這是一個(gè)很open的領(lǐng)域?!睕](méi)有標(biāo)注,就沒(méi)標(biāo)準(zhǔn)參照,機(jī)器怎么處理這種帶噪音數(shù)據(jù)?如何把握機(jī)器識(shí)別的準(zhǔn)確性呢?……這些都是有待探索的問(wèn)題。
作為本次WebVision第一名獲獎(jiǎng)得主,碼隆科技首席科學(xué)家黃偉林博士向雷鋒網(wǎng)AI科技評(píng)論表示,所以,要實(shí)現(xiàn)這個(gè)突破, 需要發(fā)展半監(jiān)督(semi-supervised),甚至無(wú)監(jiān)督(unsupervised)學(xué)習(xí)。這就需要設(shè)計(jì)更好、更優(yōu)化的損失函數(shù)(loss functions), 來(lái)減少模型訓(xùn)練對(duì)標(biāo)簽數(shù)據(jù)的依賴(lài)。 對(duì)于更復(fù)雜的圖像分割任務(wù), 最重要的應(yīng)該發(fā)展弱監(jiān)督(weakly-supervised)學(xué)習(xí)算法,以盡量避免像素級(jí)別的標(biāo)注。
在這個(gè)過(guò)程中, 最近很火的生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN),可以自動(dòng)生成大量的人工樣本,這些人工樣本對(duì)訓(xùn)練缺乏樣本和標(biāo)注的圖片數(shù)據(jù)有很大幫助,為解決多層次圖像理解提供重要的思路。 另外,如何利用少量的圖片數(shù)據(jù)和標(biāo)簽來(lái)訓(xùn)練足夠優(yōu)化的深度模型也是重要的一個(gè)課題, 而課程學(xué)習(xí)(curriculum learning)對(duì)提升模型的泛化能力非常有效。
不過(guò),如果擴(kuò)展到更廣闊的計(jì)算機(jī)視覺(jué)應(yīng)用領(lǐng)域,業(yè)內(nèi)人士會(huì)覺(jué)得,這還不太夠。這就是下一個(gè)方向需要解決的問(wèn)題。
“就是說(shuō)我覺(jué)得計(jì)算機(jī)視覺(jué)要和robotics結(jié)合在一起,它是用時(shí)間的維度去看場(chǎng)景的變化,什么是前景什么是背景區(qū),什么是一個(gè)物體,什么是形狀。最后理解到的結(jié)果應(yīng)該是有空間信息的語(yǔ)義識(shí)別理解,現(xiàn)在都還很少,都是用弱監(jiān)督、生成對(duì)抗的方法去做?!钡仄骄€機(jī)器人技術(shù)創(chuàng)始人及CEO余凱指出,
“所以我覺(jué)得研究方法要改變,研究的目的要改變。目的要改變是指,研究的空間和場(chǎng)景的關(guān)系,這尤其對(duì)自動(dòng)駕駛特別重要。”
所以,這里不是指NLP領(lǐng)域的所謂結(jié)構(gòu)化數(shù)據(jù)。在自動(dòng)駕駛領(lǐng)域中,林達(dá)華教授指出,很多人做自動(dòng)駕駛的預(yù)測(cè)時(shí),需要做路線的檢測(cè)、三維重建等,這些許多任務(wù)當(dāng)中的每一個(gè),從傳統(tǒng)學(xué)術(shù)的研究角度,是分開(kāi)研究的。但是,實(shí)際中要解決這些問(wèn)題,比如駕駛,就是個(gè)綜合的問(wèn)題,人開(kāi)車(chē)時(shí)也不會(huì)把任務(wù)分成若干個(gè)方向分別做判斷。
以往的圖像分割,每一次分割用一次CNN這樣的方法,并不能綜合處理這些任務(wù)。比如,通過(guò)地圖,周邊環(huán)境明明存在一個(gè)空間結(jié)構(gòu),圖像分割并不能將這些結(jié)構(gòu)性空間考慮全面,“單純的語(yǔ)義分割,比如一張圖中標(biāo)出這50萬(wàn)個(gè)像素是路,另外80萬(wàn)個(gè)像素是建筑物,這是無(wú)法直接指導(dǎo)駕駛的?!?/span>
林達(dá)華教授表示,從學(xué)術(shù)的角度看,只有把結(jié)構(gòu)數(shù)據(jù)融合在一個(gè)幾何的框架下面,才能知道客觀世界是什么——前面多少米是人、 是建筑,前面的車(chē)開(kāi)得多快……這才是實(shí)際有用的成果。
“所以,所謂的結(jié)構(gòu)就是有多個(gè)不同的方面,相互之間是有著數(shù)學(xué)上、語(yǔ)義上、物理上的各種聯(lián)系。在多種補(bǔ)充結(jié)構(gòu)相互聯(lián)系的系統(tǒng)里面,用系統(tǒng)的角度,帶著結(jié)構(gòu)的角度,去系統(tǒng)地觀察,把不同的視覺(jué)聯(lián)合在一起解決問(wèn)題,我覺(jué)得也是一個(gè)現(xiàn)在正在開(kāi)始推進(jìn)的方向。”
承接上述結(jié)構(gòu)數(shù)據(jù)處理的問(wèn)題繼續(xù)展開(kāi)想象,就會(huì)發(fā)現(xiàn),整個(gè)CVPR 2017中,視頻理解相關(guān)的研究大約只占整個(gè)會(huì)議論文不到30%的水平,但實(shí)際中這個(gè)問(wèn)題的應(yīng)用卻是極其廣泛。人臉識(shí)別、監(jiān)控、互聯(lián)網(wǎng)視頻、自動(dòng)駕駛等,全部有巨大商業(yè)價(jià)值的視覺(jué)數(shù)據(jù),都是以視頻的形式存在的,不是一幀一幀的。
視頻相對(duì)與圖像而言,最重要的一點(diǎn)就是多了一個(gè)維度:時(shí)間軸。怎么去利用這一個(gè)新的維度,利用時(shí)間的關(guān)系……
據(jù)了解,今年就有很多大公司、研究小組都做了新的視頻數(shù)據(jù)集(video dataset),包括Facebook、Google、伯克利大學(xué)等?!按蠹叶既?zhēng)取當(dāng)video domain的ImageNet,誰(shuí)能夠脫穎而出?現(xiàn)在還不好說(shuō),這是百家爭(zhēng)鳴的戰(zhàn)國(guó)時(shí)代?!绷诌_(dá)華教授說(shuō)道,“但是,video是一個(gè)非常重要的方向,這也是我們實(shí)驗(yàn)室過(guò)去兩年也在持續(xù)投入的。”
WebVision在今年的CVPR大會(huì)上開(kāi)設(shè)了一個(gè)專(zhuān)題,上面提出了 Visual understanding and learning from web data 的挑戰(zhàn)。平安科技首席科學(xué)家,平安科技人工智能總工程師劉飛解釋稱(chēng),也就是說(shuō),今年的挑戰(zhàn)分為兩項(xiàng):第一項(xiàng)還是關(guān)于圖像分類(lèi),另一項(xiàng)挑戰(zhàn)是關(guān)于遷移學(xué)習(xí)的。
前面大家都意識(shí)到了無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等重要和困難,不過(guò)從產(chǎn)業(yè)界觀察學(xué)術(shù)進(jìn)步的角度看,劉飛指出,遷移學(xué)習(xí)恐怕才是比較有新意的、更大的挑戰(zhàn)?!斑w移學(xué)習(xí)是為了解決在一類(lèi)環(huán)境下學(xué)習(xí)到的模型能用于一個(gè)全新環(huán)境下缺少樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)的問(wèn)題,遷移學(xué)習(xí)是提升機(jī)器學(xué)習(xí)泛化能力的一個(gè)出路。如果遷移學(xué)習(xí)的技術(shù)有較快發(fā)展進(jìn)展,那么以后深度學(xué)習(xí)技術(shù)將會(huì)比較快速和廣泛地部署到各個(gè)領(lǐng)域的商用場(chǎng)景?!?/p>
但是,實(shí)際應(yīng)用中,很多時(shí)候?qū)D像的處理不只是視覺(jué)問(wèn)題,更多也涉及到需要NLP交叉結(jié)合的研究。結(jié)合實(shí)際應(yīng)用處理的經(jīng)驗(yàn),劉飛稱(chēng),
WebVision如今提到的視覺(jué)理解目前還只是字面意義上的,可能會(huì)通過(guò)今后幾年提出的新挑戰(zhàn)來(lái)體現(xiàn)。真正的視覺(jué)理解更加大的挑戰(zhàn)應(yīng)該是理解圖像內(nèi)容的語(yǔ)義內(nèi)涵,而不僅僅是檢測(cè)定位、分類(lèi)這些任務(wù),還要理解圖像表達(dá)出的人類(lèi)高級(jí)知識(shí)范疇的內(nèi)容,例如一副圖片是表達(dá)出一個(gè)社會(huì)事件、一次個(gè)人聚會(huì),或是一副什么風(fēng)格的藝術(shù)作品等等,這些都是以往人類(lèi)用語(yǔ)言表達(dá)出的內(nèi)容。
無(wú)獨(dú)有偶,騰訊AI Lab計(jì)算機(jī)視覺(jué)總監(jiān)劉威博士接受雷鋒網(wǎng)AI科技評(píng)論采訪時(shí)也指出,
現(xiàn)在互聯(lián)網(wǎng)上的數(shù)據(jù)很多都是視覺(jué)與文本信號(hào)共同出現(xiàn),譬如騰訊視頻,不僅有視頻信息,還有音頻信息,還有相應(yīng)的字幕、評(píng)論和彈幕等信息。如何挖掘或者學(xué)習(xí)他們之間的相關(guān)性也是業(yè)界的研究熱點(diǎn)。
近年來(lái)計(jì)算機(jī)視覺(jué)+NLP相結(jié)合,出現(xiàn)了很多熱點(diǎn)的研究問(wèn)題,譬如圖像文本匹配、圖像描述生成、圖像問(wèn)答等。今年的CVPR的其中一個(gè)keynote也是邀請(qǐng)了NLP領(lǐng)域斯坦福大學(xué)的知名教授Dan Jurafsky,討論了language方面的研究進(jìn)展。因此,多個(gè)交叉領(lǐng)域的研究,更能推動(dòng)研究成果在實(shí)際業(yè)務(wù)場(chǎng)景中的應(yīng)用。
所以,討論完這些方法論后,對(duì)于“未來(lái)要實(shí)現(xiàn)這個(gè)突破,還要經(jīng)歷一個(gè)怎樣的創(chuàng)新期?”這個(gè)問(wèn)題,跨領(lǐng)域機(jī)器學(xué)習(xí)的技術(shù)融合,例如計(jì)算視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等的融合;以及學(xué)術(shù)界與產(chǎn)業(yè)界的進(jìn)一步研究合作,是業(yè)內(nèi)人士普遍希望推進(jìn)的路徑。
同時(shí),中國(guó)互聯(lián)網(wǎng)公司的眾多創(chuàng)新,大多還停留在應(yīng)用層面或技術(shù)層面。而美國(guó)創(chuàng)新科技的研究,往往是從理論的根基出發(fā),建立一套完整的思維方式,這也是為什么美國(guó),尤其是硅谷,在過(guò)去數(shù)十年一直引領(lǐng)創(chuàng)新的原因:他們有能力也有意愿從基礎(chǔ)研究出發(fā),與大學(xué)、研究機(jī)構(gòu)保持密切關(guān)系,共同完成學(xué)術(shù)創(chuàng)新和商業(yè)化。
如商湯科技CEO徐立所言,AI的火熱都不是一夜時(shí)間的事情,雖然看起來(lái)像是一夜梨花開(kāi),但更重要是一直以來(lái)源頭創(chuàng)新工作的厚積薄發(fā)。在本屆CVPR,商湯科技與香港中大-商湯科技聯(lián)合實(shí)驗(yàn)被共同錄取23篇論文,這個(gè)數(shù)量遠(yuǎn)高于BAT?!艾F(xiàn)在,基礎(chǔ)研究不能丟,才能帶來(lái)足夠的時(shí)間窗口。AI的發(fā)展需要產(chǎn)業(yè)和研究相結(jié)合,以定義問(wèn)題,解決問(wèn)題?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章