深度學(xué)習(xí)集體瓶頸，產(chǎn)業(yè)化加速時(shí)代CV研究出路在哪里？

本文作者：溫曉樺

2017-08-01 15:38

專(zhuān)題：CVPR 2017

導(dǎo)語(yǔ)：學(xué)術(shù)與商用疊加的距離

ImageNet比賽結(jié)束了。

夏威夷當(dāng)?shù)貢r(shí)間7月26日，CVPR 2017最后一天，李飛飛教授等學(xué)者在ImageNet workshop上緬懷過(guò)去8年計(jì)算機(jī)視覺(jué)（CV）發(fā)展的ImageNet時(shí)代，同時(shí)宣布挑戰(zhàn)賽最終歸于Kaggle。

同一天上午，WebVision也公布了第一期獲獎(jiǎng)名單。

WebVision競(jìng)賽由蘇黎世聯(lián)邦理工、Google Reasearch、卡耐基梅隆大學(xué)等共同組織。但相較而言，WebVision所用數(shù)據(jù)集直接從網(wǎng)絡(luò)爬取，沒(méi)有經(jīng)過(guò)人工標(biāo)注，含有大量噪音之外，數(shù)據(jù)類(lèi)別和數(shù)量也遠(yuǎn)大于ImageNet比賽所用數(shù)據(jù)，所以難度也高很多。

所以，ImageNet為什么結(jié)束？WebVision將如何推動(dòng)CV發(fā)展？CV學(xué)術(shù)與應(yīng)用研究的出路又在哪？帶著這些問(wèn)題，雷鋒網(wǎng)AI科技評(píng)論與多位計(jì)算機(jī)視覺(jué)專(zhuān)家進(jìn)行了交流。

深度學(xué)習(xí)集體瓶頸，產(chǎn)業(yè)化加速時(shí)代CV研究出路在哪里？

在CVPR研討會(huì)上，李飛飛教授作為谷歌研究院代表暨比賽贊助方，向碼隆科技算法團(tuán)隊(duì)頒發(fā)了WebVision冠軍獎(jiǎng)項(xiàng)

為何CVPR 2017沒(méi)有驚喜？

六天會(huì)議過(guò)程中，CVPR 2017的論文成果通過(guò)oral presentation、workshop、poster、spotlight等環(huán)節(jié)普遍都得到了展示，但業(yè)內(nèi)人士普遍認(rèn)為，“今年并沒(méi)有一個(gè)特別讓人興奮、驚喜的成果出來(lái)?！毕愀壑写?商湯科技聯(lián)合實(shí)驗(yàn)室林達(dá)華教授解釋稱(chēng)，包括「Densely Connected Convolutional Networks」等最佳論文在內(nèi)，我們看到了很多不同的網(wǎng)絡(luò)設(shè)計(jì)的想法和切入角度，這些扎實(shí)的工作推動(dòng)了現(xiàn)有體系、架構(gòu)的一步前進(jìn)，但是，卻普遍缺乏一個(gè)根本性突破（fundamental breakthrough）。

關(guān)于計(jì)算機(jī)視覺(jué)和模式識(shí)別的研究，過(guò)去數(shù)年依靠ImageNet數(shù)據(jù)集之下，通過(guò)深度學(xué)習(xí)該領(lǐng)域獲得長(zhǎng)足的發(fā)展。但是，如WebVision主辦方成員李文博士指出，依賴(lài)于數(shù)據(jù)標(biāo)注進(jìn)行訓(xùn)練，這也是過(guò)去到現(xiàn)在CV研究到達(dá)了瓶頸的原因。因?yàn)?，很多?shí)際場(chǎng)景中是沒(méi)有大規(guī)模標(biāo)注數(shù)據(jù)的，如果WebVision希望推動(dòng)半監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)進(jìn)行圖像理解的初衷能夠?qū)崿F(xiàn)，將更符合現(xiàn)實(shí)的應(yīng)用。

地平線機(jī)器人技術(shù)創(chuàng)始人及CEO余凱接受雷鋒網(wǎng)采訪時(shí)指出，“現(xiàn)在的深度學(xué)習(xí)其實(shí)是一個(gè)有問(wèn)題的框架，基本是用大數(shù)據(jù)和很多標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練，這過(guò)去幾年很成功，但不代表是正確的方向。”余凱表示，現(xiàn)在的計(jì)算機(jī)視覺(jué)的系統(tǒng)是一個(gè)（特征為）training system的訓(xùn)練，而不是一個(gè)learning system，我們要從training system變成learning system，讓機(jī)器主動(dòng)，并結(jié)合數(shù)據(jù)的結(jié)構(gòu)、時(shí)間空間結(jié)構(gòu)去學(xué)習(xí)，而不是被動(dòng)地用人工訓(xùn)練來(lái)標(biāo)注它?！霸谧詣?dòng)駕駛領(lǐng)域尤其重要，因?yàn)轳{駛中永遠(yuǎn)有好多corner case，這些在訓(xùn)練數(shù)據(jù)集里面是沒(méi)有的?！?/p>

對(duì)于當(dāng)前CV研究現(xiàn)狀，林達(dá)華教授指出，“如今似乎是有新的成果誕生但又有所停滯的狀態(tài)，就像當(dāng)年deep learning流行起來(lái)之前幾年的狀態(tài)——雖然各種思路百花齊放，但是很多核心問(wèn)題都尚未取得新的突破性進(jìn)展?！?/p>

不過(guò)，面對(duì)今年來(lái)自全球各地超過(guò)五千人的參會(huì)盛況，林達(dá)華教授說(shuō)道：“現(xiàn)在處于承前啟后的階段，大家都非常關(guān)注計(jì)算機(jī)視覺(jué)這個(gè)領(lǐng)域。目前很多研究組都在積極開(kāi)拓新的問(wèn)題和方向，我相信未來(lái)一兩年內(nèi)能夠在多個(gè)方向?qū)崿F(xiàn)新的突破。”

以大公司，比如騰訊AI Lab的兩篇論文為例——「Deep Self-Taught Learning for Weakly Supervised Object Localization」，提出依靠檢測(cè)器自身不斷改進(jìn)訓(xùn)練樣本質(zhì)量，破解弱監(jiān)督目標(biāo)檢測(cè)問(wèn)題中訓(xùn)練樣本質(zhì)量低的瓶頸；以及「Diverse Image Annotation」，用少量多樣性標(biāo)簽表達(dá)盡量多的圖像信息，該目標(biāo)充分利用標(biāo)簽之間的語(yǔ)義關(guān)系，以使得自動(dòng)標(biāo)注結(jié)果與人類(lèi)標(biāo)注更加接近——都強(qiáng)調(diào)了模型的自主學(xué)習(xí)和理解的方法的突破。

尋找下一個(gè)“突破”的方向和出路

在今年的CVPR上，錄取論文涉及的領(lǐng)域占比最高的五類(lèi)是：計(jì)算機(jī)視覺(jué)中的機(jī)器學(xué)習(xí)（24%）、物體識(shí)別和場(chǎng)景理解（22%）、3D視覺(jué)（13%）、低級(jí)和中級(jí)視覺(jué)（12%）、分析圖像中的人類(lèi)（11%）。

所謂的“突破”，即是大家都迫切希望解決這個(gè)問(wèn)題，但是暫時(shí)又沒(méi)有很好的方法來(lái)解決，那么就看誰(shuí)提出了很好的方法。從今年CVPR的成果來(lái)看，data set的研究依舊火熱；不過(guò)，林達(dá)華教授指出，到現(xiàn)在，ImageNet基本上做到一個(gè)極限了?！爱?dāng)一個(gè)事情的標(biāo)準(zhǔn)做到98%、99%的時(shí)候，從學(xué)術(shù)的角度來(lái)說(shuō)，這個(gè)事情做到這個(gè)程度，學(xué)術(shù)界的使命差不多終結(jié)了?！?/p>

所以，無(wú)論是新升級(jí)的WebVision競(jìng)賽，還是大公司的研發(fā)——對(duì)于做學(xué)術(shù)的人來(lái)說(shuō)，如何尋找新的挑戰(zhàn)？

林達(dá)華教授向雷鋒網(wǎng)AI科技評(píng)論介紹，在其實(shí)驗(yàn)室的研究下，總結(jié)起來(lái)CV領(lǐng)域的突破方向主要有三個(gè)，而它們各自的未來(lái)和面臨挑戰(zhàn)是怎樣的呢？

方向一：做更大更有挑戰(zhàn)性的數(shù)據(jù)集

深度學(xué)習(xí)集體瓶頸，產(chǎn)業(yè)化加速時(shí)代CV研究出路在哪里？

在WebVision的workshop上，Google科學(xué)家介紹了他們?nèi)绾斡?00Million的3D圖片做deep learning。而在更早之前，雅虎被收購(gòu)前也發(fā)布了一個(gè)“YFCC 100M”，數(shù)據(jù)庫(kù)達(dá)到億級(jí)。

不過(guò)，這些數(shù)據(jù)最大的問(wèn)題是，上億的數(shù)據(jù)集，像ImageNet那樣把標(biāo)簽做好，幾乎是不可能的事情。在數(shù)據(jù)量龐大的情況下，帶來(lái)新的挑戰(zhàn)是：怎么提供標(biāo)簽？同時(shí)，每個(gè)領(lǐng)域的AI應(yīng)用都需要各自領(lǐng)域的數(shù)據(jù)集，是需要每一個(gè)領(lǐng)域都標(biāo)注一個(gè)自己的ImageNet？顯然這樣的效率難以被產(chǎn)業(yè)界接受。

所以，現(xiàn)在大家也不選擇提供標(biāo)簽了，比如Google可能就直接通過(guò)data采集了一些標(biāo)簽。只是也沒(méi)有完全百分百能夠確認(rèn)標(biāo)簽是對(duì)的，就在于校驗(yàn)一下準(zhǔn)確率達(dá)到70%、80%。WebVision比賽最重要的特點(diǎn)就是采用的非人工標(biāo)注，而是通過(guò)特定的標(biāo)簽在互聯(lián)網(wǎng)上搜索1000個(gè)類(lèi)的圖片，這樣就容易引起圖像和標(biāo)簽含有大量的錯(cuò)誤信息（噪聲）。這不同于“干凈”的ImageNet數(shù)據(jù)，圖片內(nèi)容和對(duì)應(yīng)的標(biāo)簽都非常單一和清楚。

深度學(xué)習(xí)集體瓶頸，產(chǎn)業(yè)化加速時(shí)代CV研究出路在哪里？

“那么，怎么樣使用這些有噪音的數(shù)據(jù)？這其實(shí)是帶來(lái)了一個(gè)非常大的挑戰(zhàn)。我們內(nèi)部拿現(xiàn)有的視覺(jué)模型和學(xué)習(xí)方法在有噪音的數(shù)據(jù)集上測(cè)試過(guò)，發(fā)現(xiàn)不用說(shuō)20%，哪怕是10%的錯(cuò)誤標(biāo)簽都會(huì)對(duì)性能產(chǎn)生嚴(yán)重的破壞?！绷诌_(dá)華教授說(shuō)道。

理論上說(shuō)，如果有十倍以上的數(shù)據(jù)量，以及一個(gè)好的方法的話，機(jī)器識(shí)別和理解的水平必定要超越原本ImageNet的水平，但目前只能達(dá)到不相伯仲的結(jié)果。那么問(wèn)題就來(lái)了：是要投入一些資源，繼續(xù)做一百萬(wàn)級(jí)的標(biāo)注數(shù)據(jù)，還是就想辦法去解決上億的數(shù)據(jù)集問(wèn)題？

“這是一個(gè)很open的領(lǐng)域?！睕](méi)有標(biāo)注，就沒(méi)標(biāo)準(zhǔn)參照，機(jī)器怎么處理這種帶噪音數(shù)據(jù)？如何把握機(jī)器識(shí)別的準(zhǔn)確性呢？……這些都是有待探索的問(wèn)題。

作為本次WebVision第一名獲獎(jiǎng)得主，碼隆科技首席科學(xué)家黃偉林博士向雷鋒網(wǎng)AI科技評(píng)論表示，所以，要實(shí)現(xiàn)這個(gè)突破，需要發(fā)展半監(jiān)督（semi-supervised），甚至無(wú)監(jiān)督（unsupervised）學(xué)習(xí)。這就需要設(shè)計(jì)更好、更優(yōu)化的損失函數(shù)（loss functions），來(lái)減少模型訓(xùn)練對(duì)標(biāo)簽數(shù)據(jù)的依賴(lài)。對(duì)于更復(fù)雜的圖像分割任務(wù)，最重要的應(yīng)該發(fā)展弱監(jiān)督（weakly-supervised）學(xué)習(xí)算法，以盡量避免像素級(jí)別的標(biāo)注。

在這個(gè)過(guò)程中，最近很火的生成式對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Networks，GAN），可以自動(dòng)生成大量的人工樣本，這些人工樣本對(duì)訓(xùn)練缺乏樣本和標(biāo)注的圖片數(shù)據(jù)有很大幫助，為解決多層次圖像理解提供重要的思路。另外，如何利用少量的圖片數(shù)據(jù)和標(biāo)簽來(lái)訓(xùn)練足夠優(yōu)化的深度模型也是重要的一個(gè)課題，而課程學(xué)習(xí)（curriculum learning）對(duì)提升模型的泛化能力非常有效。

不過(guò)，如果擴(kuò)展到更廣闊的計(jì)算機(jī)視覺(jué)應(yīng)用領(lǐng)域，業(yè)內(nèi)人士會(huì)覺(jué)得，這還不太夠。這就是下一個(gè)方向需要解決的問(wèn)題。

深度學(xué)習(xí)集體瓶頸，產(chǎn)業(yè)化加速時(shí)代CV研究出路在哪里？

方向二：需要帶有結(jié)構(gòu)的數(shù)據(jù)

“就是說(shuō)我覺(jué)得計(jì)算機(jī)視覺(jué)要和robotics結(jié)合在一起，它是用時(shí)間的維度去看場(chǎng)景的變化，什么是前景什么是背景區(qū)，什么是一個(gè)物體，什么是形狀。最后理解到的結(jié)果應(yīng)該是有空間信息的語(yǔ)義識(shí)別理解，現(xiàn)在都還很少，都是用弱監(jiān)督、生成對(duì)抗的方法去做?！钡仄骄€機(jī)器人技術(shù)創(chuàng)始人及CEO余凱指出，

“所以我覺(jué)得研究方法要改變，研究的目的要改變。目的要改變是指，研究的空間和場(chǎng)景的關(guān)系，這尤其對(duì)自動(dòng)駕駛特別重要。”

所以，這里不是指NLP領(lǐng)域的所謂結(jié)構(gòu)化數(shù)據(jù)。在自動(dòng)駕駛領(lǐng)域中，林達(dá)華教授指出，很多人做自動(dòng)駕駛的預(yù)測(cè)時(shí)，需要做路線的檢測(cè)、三維重建等，這些許多任務(wù)當(dāng)中的每一個(gè)，從傳統(tǒng)學(xué)術(shù)的研究角度，是分開(kāi)研究的。但是，實(shí)際中要解決這些問(wèn)題，比如駕駛，就是個(gè)綜合的問(wèn)題，人開(kāi)車(chē)時(shí)也不會(huì)把任務(wù)分成若干個(gè)方向分別做判斷。

以往的圖像分割，每一次分割用一次CNN這樣的方法，并不能綜合處理這些任務(wù)。比如，通過(guò)地圖，周邊環(huán)境明明存在一個(gè)空間結(jié)構(gòu)，圖像分割并不能將這些結(jié)構(gòu)性空間考慮全面，“單純的語(yǔ)義分割，比如一張圖中標(biāo)出這50萬(wàn)個(gè)像素是路，另外80萬(wàn)個(gè)像素是建筑物，這是無(wú)法直接指導(dǎo)駕駛的?！?/span>

林達(dá)華教授表示，從學(xué)術(shù)的角度看，只有把結(jié)構(gòu)數(shù)據(jù)融合在一個(gè)幾何的框架下面，才能知道客觀世界是什么——前面多少米是人、是建筑，前面的車(chē)開(kāi)得多快……這才是實(shí)際有用的成果。

“所以，所謂的結(jié)構(gòu)就是有多個(gè)不同的方面，相互之間是有著數(shù)學(xué)上、語(yǔ)義上、物理上的各種聯(lián)系。在多種補(bǔ)充結(jié)構(gòu)相互聯(lián)系的系統(tǒng)里面，用系統(tǒng)的角度，帶著結(jié)構(gòu)的角度，去系統(tǒng)地觀察，把不同的視覺(jué)聯(lián)合在一起解決問(wèn)題，我覺(jué)得也是一個(gè)現(xiàn)在正在開(kāi)始推進(jìn)的方向。”

方向三：做視頻領(lǐng)域的ImageNet

承接上述結(jié)構(gòu)數(shù)據(jù)處理的問(wèn)題繼續(xù)展開(kāi)想象，就會(huì)發(fā)現(xiàn)，整個(gè)CVPR 2017中，視頻理解相關(guān)的研究大約只占整個(gè)會(huì)議論文不到30%的水平，但實(shí)際中這個(gè)問(wèn)題的應(yīng)用卻是極其廣泛。人臉識(shí)別、監(jiān)控、互聯(lián)網(wǎng)視頻、自動(dòng)駕駛等，全部有巨大商業(yè)價(jià)值的視覺(jué)數(shù)據(jù)，都是以視頻的形式存在的，不是一幀一幀的。

視頻相對(duì)與圖像而言，最重要的一點(diǎn)就是多了一個(gè)維度：時(shí)間軸。怎么去利用這一個(gè)新的維度，利用時(shí)間的關(guān)系……

據(jù)了解，今年就有很多大公司、研究小組都做了新的視頻數(shù)據(jù)集（video dataset），包括Facebook、Google、伯克利大學(xué)等?！按蠹叶既?zhēng)取當(dāng)video domain的ImageNet，誰(shuí)能夠脫穎而出？現(xiàn)在還不好說(shuō)，這是百家爭(zhēng)鳴的戰(zhàn)國(guó)時(shí)代?！绷诌_(dá)華教授說(shuō)道，“但是，video是一個(gè)非常重要的方向，這也是我們實(shí)驗(yàn)室過(guò)去兩年也在持續(xù)投入的。”

挑戰(zhàn)：學(xué)術(shù)與商用疊加的距離

WebVision在今年的CVPR大會(huì)上開(kāi)設(shè)了一個(gè)專(zhuān)題，上面提出了 Visual understanding and learning from web data 的挑戰(zhàn)。平安科技首席科學(xué)家，平安科技人工智能總工程師劉飛解釋稱(chēng)，也就是說(shuō)，今年的挑戰(zhàn)分為兩項(xiàng)：第一項(xiàng)還是關(guān)于圖像分類(lèi)，另一項(xiàng)挑戰(zhàn)是關(guān)于遷移學(xué)習(xí)的。

前面大家都意識(shí)到了無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等重要和困難，不過(guò)從產(chǎn)業(yè)界觀察學(xué)術(shù)進(jìn)步的角度看，劉飛指出，遷移學(xué)習(xí)恐怕才是比較有新意的、更大的挑戰(zhàn)?！斑w移學(xué)習(xí)是為了解決在一類(lèi)環(huán)境下學(xué)習(xí)到的模型能用于一個(gè)全新環(huán)境下缺少樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)的問(wèn)題，遷移學(xué)習(xí)是提升機(jī)器學(xué)習(xí)泛化能力的一個(gè)出路。如果遷移學(xué)習(xí)的技術(shù)有較快發(fā)展進(jìn)展，那么以后深度學(xué)習(xí)技術(shù)將會(huì)比較快速和廣泛地部署到各個(gè)領(lǐng)域的商用場(chǎng)景?！?/p>

但是，實(shí)際應(yīng)用中，很多時(shí)候?qū)D像的處理不只是視覺(jué)問(wèn)題，更多也涉及到需要NLP交叉結(jié)合的研究。結(jié)合實(shí)際應(yīng)用處理的經(jīng)驗(yàn)，劉飛稱(chēng)，

WebVision如今提到的視覺(jué)理解目前還只是字面意義上的，可能會(huì)通過(guò)今后幾年提出的新挑戰(zhàn)來(lái)體現(xiàn)。真正的視覺(jué)理解更加大的挑戰(zhàn)應(yīng)該是理解圖像內(nèi)容的語(yǔ)義內(nèi)涵，而不僅僅是檢測(cè)定位、分類(lèi)這些任務(wù)，還要理解圖像表達(dá)出的人類(lèi)高級(jí)知識(shí)范疇的內(nèi)容，例如一副圖片是表達(dá)出一個(gè)社會(huì)事件、一次個(gè)人聚會(huì)，或是一副什么風(fēng)格的藝術(shù)作品等等，這些都是以往人類(lèi)用語(yǔ)言表達(dá)出的內(nèi)容。

無(wú)獨(dú)有偶，騰訊AI Lab計(jì)算機(jī)視覺(jué)總監(jiān)劉威博士接受雷鋒網(wǎng)AI科技評(píng)論采訪時(shí)也指出，

現(xiàn)在互聯(lián)網(wǎng)上的數(shù)據(jù)很多都是視覺(jué)與文本信號(hào)共同出現(xiàn)，譬如騰訊視頻，不僅有視頻信息，還有音頻信息，還有相應(yīng)的字幕、評(píng)論和彈幕等信息。如何挖掘或者學(xué)習(xí)他們之間的相關(guān)性也是業(yè)界的研究熱點(diǎn)。

近年來(lái)計(jì)算機(jī)視覺(jué)+NLP相結(jié)合，出現(xiàn)了很多熱點(diǎn)的研究問(wèn)題，譬如圖像文本匹配、圖像描述生成、圖像問(wèn)答等。今年的CVPR的其中一個(gè)keynote也是邀請(qǐng)了NLP領(lǐng)域斯坦福大學(xué)的知名教授Dan Jurafsky，討論了language方面的研究進(jìn)展。因此，多個(gè)交叉領(lǐng)域的研究，更能推動(dòng)研究成果在實(shí)際業(yè)務(wù)場(chǎng)景中的應(yīng)用。

所以，討論完這些方法論后，對(duì)于“未來(lái)要實(shí)現(xiàn)這個(gè)突破，還要經(jīng)歷一個(gè)怎樣的創(chuàng)新期？”這個(gè)問(wèn)題，跨領(lǐng)域機(jī)器學(xué)習(xí)的技術(shù)融合，例如計(jì)算視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等的融合；以及學(xué)術(shù)界與產(chǎn)業(yè)界的進(jìn)一步研究合作，是業(yè)內(nèi)人士普遍希望推進(jìn)的路徑。

同時(shí)，中國(guó)互聯(lián)網(wǎng)公司的眾多創(chuàng)新，大多還停留在應(yīng)用層面或技術(shù)層面。而美國(guó)創(chuàng)新科技的研究，往往是從理論的根基出發(fā)，建立一套完整的思維方式，這也是為什么美國(guó)，尤其是硅谷，在過(guò)去數(shù)十年一直引領(lǐng)創(chuàng)新的原因：他們有能力也有意愿從基礎(chǔ)研究出發(fā)，與大學(xué)、研究機(jī)構(gòu)保持密切關(guān)系，共同完成學(xué)術(shù)創(chuàng)新和商業(yè)化。

如商湯科技CEO徐立所言，AI的火熱都不是一夜時(shí)間的事情，雖然看起來(lái)像是一夜梨花開(kāi)，但更重要是一直以來(lái)源頭創(chuàng)新工作的厚積薄發(fā)。在本屆CVPR，商湯科技與香港中大-商湯科技聯(lián)合實(shí)驗(yàn)被共同錄取23篇論文，這個(gè)數(shù)量遠(yuǎn)高于BAT?！艾F(xiàn)在，基礎(chǔ)研究不能丟，才能帶來(lái)足夠的時(shí)間窗口。AI的發(fā)展需要產(chǎn)業(yè)和研究相結(jié)合，以定義問(wèn)題，解決問(wèn)題?！?/p>

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

7人收藏

相關(guān)文章