丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給宗仁
發(fā)送

4

商湯科技曹旭東:為何深度學(xué)習(xí)幾乎成了計(jì)算機(jī)視覺(jué)研究的標(biāo)配?| 雷鋒網(wǎng)公開(kāi)課

本文作者: 宗仁 2016-07-07 20:52 專題:雷峰網(wǎng)公開(kāi)課
導(dǎo)語(yǔ):很多人疑惑,為什么深度學(xué)習(xí)相比其它的AI實(shí)現(xiàn)方法,已然呈現(xiàn)出一副碾壓之態(tài)?

聯(lián)合編輯 宗仁 黃鑫雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

今年夏天,雷鋒網(wǎng)將在深圳舉辦一場(chǎng)盛況空前的“全球人工智能與機(jī)器人峰會(huì)”(簡(jiǎn)稱CCF-GAIR)。大會(huì)現(xiàn)場(chǎng),谷歌,DeepMind,Uber,微軟等巨頭的人工智能實(shí)驗(yàn)室負(fù)責(zé)人將蒞臨深圳,向我們零距離展示國(guó)外人工智能震撼人心、撬動(dòng)地球的核心所在。如果你不想錯(cuò)過(guò)這個(gè)大會(huì)的盛世狂歡,請(qǐng)點(diǎn)擊文末購(gòu)買(mǎi)我們的早鳥(niǎo)票。

本次CVPR 2016上,深度學(xué)習(xí)幾乎成了如今計(jì)算機(jī)視覺(jué)研究的標(biāo)配,人臉識(shí)別、圖像識(shí)別、視頻識(shí)別、行人檢測(cè)、大規(guī)模場(chǎng)景識(shí)別的相關(guān)論文里都用到了深度學(xué)習(xí)的方法,加上Google,F(xiàn)acebook這樣的大企業(yè)助力,很多人疑惑,為什么深度學(xué)習(xí)相比其它的AI實(shí)現(xiàn)方法,已然呈現(xiàn)出一副碾壓之態(tài)?

本期硬創(chuàng)公開(kāi)課嘉賓我們邀請(qǐng)了商湯科技執(zhí)行研發(fā)總監(jiān)曹旭東,其剛從CVPR 2016現(xiàn)場(chǎng)趕回來(lái),正好在這里為大家解釋一下為什么深度學(xué)習(xí)幾乎成了計(jì)算機(jī)視覺(jué)研究的標(biāo)配這個(gè)問(wèn)題。以及為大家講解CV和深度學(xué)習(xí)的現(xiàn)狀和未來(lái)趨勢(shì)。

曹旭東,商湯科技執(zhí)行研發(fā)總監(jiān),深度學(xué)習(xí)專家。畢業(yè)于清華大學(xué)。前微軟亞洲研究院副研究員,負(fù)責(zé)研發(fā)的人臉?biāo)惴ㄔ糜谖④沊box、How-old等知名產(chǎn)品,現(xiàn)象級(jí)產(chǎn)品How Old.net有數(shù)億用戶。在CVPR/ICCV/ECCV等計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議發(fā)表論文十余篇,其中三篇CVPR論文和兩篇ICCV論文獲得口頭報(bào)告榮譽(yù)(接收率小5%)。

商湯科技曹旭東:為何深度學(xué)習(xí)幾乎成了計(jì)算機(jī)視覺(jué)研究的標(biāo)配?| 雷鋒網(wǎng)公開(kāi)課

商湯科技曹旭東:為什么深度學(xué)習(xí)幾乎成了計(jì)算機(jī)視覺(jué)研究的標(biāo)配?| 硬創(chuàng)公開(kāi)課

基于深度學(xué)習(xí)的物體檢測(cè)

Q:目前的深度學(xué)習(xí)用于目標(biāo)檢測(cè)中有什么優(yōu)點(diǎn)和缺點(diǎn)?

首先簡(jiǎn)單介紹一下傳統(tǒng)物體檢測(cè)的方法和基于深度學(xué)習(xí)的物體檢測(cè)方法。

傳統(tǒng)方法使用滑動(dòng)窗口的框架,把一張圖分解成幾百萬(wàn)個(gè)不同位置不同尺度的子窗口,針對(duì)每一個(gè)窗口使用分類器判斷是否包含目標(biāo)物體。傳統(tǒng)方法針對(duì)不同的類別的物體,一般會(huì)設(shè)計(jì)不同的特征和分類算法,比如人臉檢測(cè)的經(jīng)典算法是Harr特征+Adaboosting分類器;行人檢測(cè)的經(jīng)典算法是HOG(histogram of gradients) + Support Vector Machine;一般性物體的檢測(cè)的話是HOG的特征加上DPM(deformable part model)的算法。

基于深度學(xué)習(xí)的物體檢測(cè)的經(jīng)典算法是RCNN系列: RCNN,fast RCNN (Ross Girshick),faster RCNN (少卿、凱明、孫劍、Ross)。這三個(gè)工作的核心思想是分別是:使用更好的CNN模型判斷候選區(qū)域的類別;復(fù)用預(yù)計(jì)算的sharing feature map加快模型訓(xùn)練和物體檢測(cè)的速度;進(jìn)一步使用sharing feature map大幅提高計(jì)算候選區(qū)域的速度。其實(shí)基于深度學(xué)習(xí)的物體檢測(cè)也可以看成對(duì)海量滑動(dòng)窗口分類,只是用全卷積的方式。

RCNN系列算法還是將物體檢測(cè)分為兩個(gè)步驟?,F(xiàn)在還有一些工作是端到端(end-to-end)的物體檢測(cè),比如說(shuō)YOLO(You Only Look Once: Unified, Real-Time Object Detection)和SSD(SSD: Single Shot MultiBox Detector)這樣的算法。這兩個(gè)算法號(hào)稱和faster RCNN精度相似但速度更快。物體檢測(cè)正負(fù)樣本極端非均衡,two-stage cascade可以更好的應(yīng)對(duì)非均衡。端到端學(xué)習(xí)是否可以超越faster RCNN還需要更多研究實(shí)驗(yàn)。

深度學(xué)習(xí)為何成為CV研究的標(biāo)配

Q:針對(duì)本屆大會(huì)深度學(xué)習(xí)幾乎成了如今計(jì)算機(jī)視覺(jué)研究的標(biāo)配,法國(guó) Inria 研究所的研究員 Nikos Paragios 在 LinkedIn 撰文表示了擔(dān)憂,似乎過(guò)于單一了,對(duì)這個(gè)有什么看法?

先回答深度學(xué)習(xí)為什么會(huì)成為現(xiàn)在計(jì)算機(jī)視覺(jué)標(biāo)配的方法。

首先,最重要的原因是深度學(xué)習(xí)可以做到傳統(tǒng)方法無(wú)法企及的精度,這是關(guān)鍵中的關(guān)鍵,如果說(shuō)這個(gè)優(yōu)點(diǎn)是1的話,其它的優(yōu)點(diǎn)都是1后面的0。深度學(xué)習(xí)革命爆發(fā)在2011~2012年,11年的時(shí)候在語(yǔ)音識(shí)別領(lǐng)域有重大突破,12年的時(shí)候在圖像識(shí)別領(lǐng)域有重大突破。深度學(xué)習(xí)革命,使得計(jì)算機(jī)視覺(jué)在很多應(yīng)用領(lǐng)域達(dá)到了實(shí)用水平,催生了工業(yè)界的大量應(yīng)用。這也是為什么在11年前,機(jī)器視覺(jué)&人工智能的博士生都是找不到工作的,但是12年之后,尤其是現(xiàn)在,都變成了被眾多公司高薪爭(zhēng)奪的寶貝。

另外深度學(xué)習(xí)成為標(biāo)配,還有其它的優(yōu)點(diǎn)。

第一,深度學(xué)習(xí)算法的通用性很強(qiáng),剛才提到的檢測(cè),在傳統(tǒng)算法里面,針對(duì)不同的物體需要定制化不同的算法。相比來(lái)看,基于深度學(xué)習(xí)的算法更加通用,比如faster RCNN在人臉、行人、一般物體檢測(cè)任務(wù)上都可以取得非常好的效果。


第二,深度學(xué)習(xí)獲得的特征(feature)有很強(qiáng)的遷移能力。所謂特征遷移能力,指的是在A任務(wù)上學(xué)習(xí)到一些特征,在B任務(wù)上使用也可以獲得非常好的效果。例如在ImageNet(物體為主)上學(xué)習(xí)到的特征在場(chǎng)景分類任務(wù)上也能取得非常好的效果。


第三, 工程開(kāi)發(fā)、優(yōu)化、維護(hù)成本低。深度學(xué)習(xí)計(jì)算主要是卷積和矩陣乘,針對(duì)這種計(jì)算優(yōu)化,所有深度學(xué)習(xí)算法都可以提升性能。另外,通過(guò)組合現(xiàn)有的層(layer),我們可以實(shí)現(xiàn)大量復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)和一些算法,開(kāi)發(fā)維護(hù)的成本低。想想同時(shí)開(kāi)發(fā)、維護(hù)Boosting,Random Forest等算法是非常痛苦的一件事情。

再回答深度學(xué)習(xí)過(guò)于單一的問(wèn)題。

深度學(xué)習(xí)過(guò)于單一的說(shuō)法,我覺(jué)得是不準(zhǔn)確的。就好比說(shuō)一個(gè)包容萬(wàn)象的宇宙過(guò)于單一了。

簡(jiǎn)單來(lái)說(shuō),機(jī)器學(xué)習(xí)就是學(xué)習(xí)輸入到輸出的一個(gè)映射,傳統(tǒng)方法使用淺層的簡(jiǎn)單映射,現(xiàn)在深度學(xué)習(xí)是多層的復(fù)合映射。深度學(xué)習(xí)有很多的自由度,學(xué)習(xí)目標(biāo)和學(xué)習(xí)方法有很多種選擇,網(wǎng)絡(luò)結(jié)構(gòu)層與層之間有無(wú)數(shù)的可能連接方式,每一層映射的具體形式到底是卷積,還是全連接,還是其它的形式,并沒(méi)有限制,其實(shí)除了全連接和卷積之外,還可以用其它的映射形式,比如說(shuō)去年ICCV上的一個(gè)工作:微軟研究院用Random Forest做為新的映射形式。

深度學(xué)習(xí)技術(shù)樹(shù)

Q: 商湯科技CVPR2016送選論文重點(diǎn)介紹了四篇論文《物體分割》《服飾識(shí)別搜索技術(shù)》《行為識(shí)別和定位》《人臉檢測(cè)中級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練》,這4篇有何重要意義?這與你們目前的業(yè)務(wù)側(cè)重點(diǎn)有何關(guān)系?

深度學(xué)習(xí)的技術(shù)框架是一棵樹(shù)形結(jié)構(gòu)。

訓(xùn)練平臺(tái)是樹(shù)根,如caffe、tensorflow等?,F(xiàn)在深度學(xué)習(xí)還處于實(shí)驗(yàn)科學(xué)階段,實(shí)驗(yàn)效率很大程度上決定著研發(fā)效率,好的訓(xùn)練平臺(tái)可以把實(shí)驗(yàn)周期從一個(gè)月縮短到一天,對(duì)于深度學(xué)習(xí)研發(fā)非常重要。

模型是樹(shù)干。自06年提出深度學(xué)習(xí)概念,學(xué)術(shù)界花了六年時(shí)間才認(rèn)識(shí)到模型結(jié)構(gòu)的研究才是深度學(xué)習(xí)的重點(diǎn)。典型的成果有AlexNet、VGGNet、GoogleNet、ResNet等。學(xué)術(shù)界大家主要研究怎么把模型做的精度更好。在工業(yè)界我們還要考慮怎么把模型做得更快,更小。

在樹(shù)干上有幾個(gè)主干的枝丫,對(duì)應(yīng)著計(jì)算機(jī)視覺(jué)里的核心任務(wù),包括了檢測(cè)、識(shí)別、分割、特征點(diǎn)定位、序列學(xué)習(xí)等五個(gè)大的任務(wù),任何計(jì)算機(jī)視覺(jué)的具體的應(yīng)用都可以由這五個(gè)任務(wù)組合而成。以人臉識(shí)別為例,人臉識(shí)別要完成整個(gè)流程,要涉及到人臉的檢測(cè)、特征點(diǎn)定位,特征的提取&驗(yàn)證。這就包含了檢測(cè)、特征點(diǎn)定位和識(shí)別三個(gè)部分。

我們?cè)趧偛盘岬降哪俏鍌€(gè)重要的主干方向其實(shí)都投入了非常大的研究力量,一方面是保證我們?cè)趯W(xué)術(shù)界的前沿有所突破,另一方面,針對(duì)我們一些重要應(yīng)用也開(kāi)發(fā)出了一整套與學(xué)術(shù)界并行的方法,能夠做到十倍的加速和百倍模型的壓縮,同時(shí)保持很好的精度。這個(gè)問(wèn)題中提到的四篇論文主要是我們?cè)谶@五個(gè)計(jì)算機(jī)視覺(jué)的核心任務(wù)上取得的一些研究方向的成果。其實(shí)我們除了在研究方向成果之外在工業(yè)實(shí)用方面有更大、更多的成果,比如我們的人臉檢測(cè)在做到學(xué)術(shù)界最好結(jié)果的同時(shí)能做到300FPS的速度。人臉特征點(diǎn)的定位超過(guò)學(xué)術(shù)界最好結(jié)果的同時(shí),做到3000FPS的速度。在學(xué)術(shù)界公開(kāi)的論文中,我還沒(méi)有看到這樣的性能。

Q:在《物體分割》這篇文章中(作者石建萍)主要解決的問(wèn)題是 instance segmentation(也稱為Simultaneous Detection and Segmentation)。Instance segmentation 最近逐漸成為一個(gè)新的熱點(diǎn)問(wèn)題。它要解決的問(wèn)題是檢測(cè)(Object Detection)和語(yǔ)義分割(Semantic Segmentation)綜合的一個(gè)問(wèn)題。比起檢測(cè),需要得到物體更精確的邊界信息;比起語(yǔ)義分割,需要區(qū)分不同的物體個(gè)體。

檢測(cè)好懂,現(xiàn)在都強(qiáng)調(diào)從2D檢測(cè)升級(jí)到3D,4D的深度檢測(cè);語(yǔ)義分割一直在做的都是區(qū)分不同的物體個(gè)體,那么現(xiàn)在的語(yǔ)義分割與之前的區(qū)別是什么?是不是指語(yǔ)義分割要上升到結(jié)合場(chǎng)景的語(yǔ)義理解?

在深度學(xué)習(xí)領(lǐng)域有一個(gè)簡(jiǎn)單但又非常通用的原理。在學(xué)習(xí)時(shí),指導(dǎo)信息越豐富、越精細(xì),學(xué)習(xí)的效果一般來(lái)說(shuō)也會(huì)越好。

舉個(gè)簡(jiǎn)單的例子,在數(shù)據(jù)量充足的情況下,如果我對(duì)我圖像類別的標(biāo)注僅僅是動(dòng)物、植物、場(chǎng)景的話,學(xué)習(xí)出來(lái)的模型和特征可能一般。但是如果把這些類別標(biāo)記細(xì)化,比如最開(kāi)始有十類數(shù)據(jù),我們把它細(xì)化到一千類,例如把狗分成斑點(diǎn)狗、斗牛犬等,把貓分成波斯貓、大花貓等,通常來(lái)說(shuō)可以學(xué)習(xí)到更好的模型和更加好的特征。

另一個(gè)例子是物體檢測(cè),如果在bounding box的基礎(chǔ)上增加額外的監(jiān)督信息通長(zhǎng)會(huì)得到更好的結(jié)果。比如標(biāo)注出人臉的眼睛、鼻子、嘴的位置,人臉的角度,種族性別男女等屬性,做成一個(gè)多任務(wù)學(xué)習(xí)的算法的話,通常來(lái)說(shuō)能得到更好的效果。

兩個(gè)代表性工作可以參考:Joint cascade face detection and alignment,F(xiàn)acial landmark detection by deep multi-task learning。

有時(shí)候多個(gè)標(biāo)注/任務(wù)是并列關(guān)系,可以通過(guò)Multi-Task Learning的框架來(lái)學(xué)習(xí)。另外一些情況,多個(gè)任務(wù)是遞進(jìn)關(guān)系,前一個(gè)任務(wù)的結(jié)果可以幫助后一個(gè)任務(wù),例如將每一個(gè)人都獨(dú)立的檢測(cè)出來(lái)之后再分割每個(gè)人身體的Mask。合理利用這種遞進(jìn)關(guān)系,可以得到比并列關(guān)系更好的結(jié)果,這其實(shí)就是Instance segmentation的核心思想。因?yàn)橥瑐鹘y(tǒng)語(yǔ)義分割不同的是,傳統(tǒng)語(yǔ)義分割只需要對(duì)物體類別進(jìn)行分類,不需要區(qū)分不同的個(gè)體。物體分割(Instance segmentation)是既需要區(qū)分類別,又需要區(qū)分同一物體的個(gè)體,所以深度學(xué)習(xí)的網(wǎng)絡(luò)需要學(xué)習(xí)到比之前語(yǔ)義分割任務(wù)更多的信息。這方面微軟亞洲研究院的戴繼峰做了非常開(kāi)創(chuàng)性的工作。我們商湯科技石建萍高級(jí)研究員的工作也非常有創(chuàng)建性。通過(guò)多尺度局部區(qū)域融合的方法,端到端的實(shí)現(xiàn)了instance segmentation 物體類別與區(qū)分統(tǒng)一類別不同個(gè)體的信息。

計(jì)算機(jī)視覺(jué)黑科技 

Q:最近CV的應(yīng)用出現(xiàn)了一些黑科技,比如MIT給機(jī)器“看電視劇”預(yù)測(cè)人類行為;MIT的人工智能為視頻配音;迪士尼研究院可以讓AI直接識(shí)別視頻里正在發(fā)生的事。這些黑科技是噱頭多還是真的有意義?

做深度學(xué)習(xí)的人都是有一個(gè)終極的追求?,F(xiàn)在的深度學(xué)習(xí)模式其實(shí)比較傻。給定一個(gè)數(shù)據(jù),以及對(duì)應(yīng)的標(biāo)簽(label)。比如說(shuō)給一張圖片,標(biāo)簽是一只貓,給另一幅圖片,標(biāo)簽是一只狗,然后把這些數(shù)據(jù)送到神經(jīng)網(wǎng)絡(luò)里去學(xué)習(xí),最終達(dá)到一個(gè)很好的識(shí)別效果。這樣的方法叫做監(jiān)督學(xué)習(xí),雖然非常有效,但是和人類學(xué)習(xí)的方法還是不一樣的。深度學(xué)習(xí)的研究者希望,機(jī)器可以更加聰明,可以像人一樣學(xué)習(xí)。

在監(jiān)督學(xué)習(xí)領(lǐng)域取得了重大成果之后,大家就把更多的精力投入到更接近人類學(xué)習(xí)方式的半監(jiān)督學(xué)習(xí)(semi-supervised)和無(wú)監(jiān)督學(xué)習(xí)(unsupervised)上。一方面,我們希望更加的深入的理解人類視覺(jué)的機(jī)理、甚至人的智能的機(jī)理。另一方面,監(jiān)督學(xué)習(xí)需要大量的數(shù)據(jù),如果能用半監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)的方式繞過(guò)大數(shù)據(jù)標(biāo)注難題,達(dá)到相同精度,這對(duì)工業(yè)界非常有吸引力。

問(wèn)題中提到的這些黑科技,都是朝著人類學(xué)習(xí)方式探索性工作,非常有意義。

其實(shí)朝著這個(gè)方向努力的工作還有很多。這些工作都使用沒(méi)有監(jiān)督信息的圖像或者視頻。這些數(shù)據(jù)雖然沒(méi)有標(biāo)簽,但數(shù)據(jù)內(nèi)部其實(shí)都是蘊(yùn)含著一些結(jié)構(gòu)。比如視頻里物體的運(yùn)動(dòng)、行為存在特定規(guī)律;在一張圖片里,一個(gè)物體也是有特定的結(jié)構(gòu)的。利用這些視頻或圖像中特定的結(jié)構(gòu),我們可以把一個(gè)無(wú)監(jiān)督的問(wèn)題轉(zhuǎn)化為一個(gè)有監(jiān)督問(wèn)題,然后利用有監(jiān)督學(xué)習(xí)的方法來(lái)學(xué)習(xí)。

有兩個(gè)典型的工作。第一個(gè)工作把圖像劃分成2x2或者3x3的圖像區(qū)域,給定任意兩個(gè)區(qū)域預(yù)測(cè)他們之間的相對(duì)位置關(guān)系。這個(gè)工作利用到的物體、場(chǎng)景的固有結(jié)構(gòu)特點(diǎn),例如天空在道路上方,雙腿在身體下方。另一個(gè)工作利用視頻數(shù)據(jù)學(xué)習(xí)物體邊緣,主要用到了視頻中物體的邊緣相對(duì)于背景有較大的運(yùn)動(dòng)這一個(gè)特點(diǎn)。

長(zhǎng)期來(lái)看的話,探索人類學(xué)習(xí)過(guò)程的半監(jiān)督、非監(jiān)督、多感知輸入的學(xué)習(xí)方式是深度學(xué)習(xí)的另一個(gè)發(fā)展趨勢(shì)。

怎么看最佳論文們

Q:微軟亞洲研究院的論文 Deep Residual Learning for Image Recognition 榮獲最佳論文獎(jiǎng),本屆 CVPR 2016最佳學(xué)生論文是斯坦福大學(xué)的 Structural-RNN: Deep Learning on Spatio-Temporal Graphs,您對(duì)這兩篇論文有什么看法?

凱明、孫劍的兩篇best paper都是十分鐘就能看懂,一天就能復(fù)現(xiàn)出結(jié)果。而對(duì)于之后的研究產(chǎn)生長(zhǎng)遠(yuǎn)影響的工作。另外,孫劍做研究的風(fēng)格對(duì)我影響很大。問(wèn)題導(dǎo)向,解決重要問(wèn)題,做真正work的研究。這些方法論不僅在學(xué)術(shù)界非常有價(jià)值,而且在工業(yè)界研究更加重要。

回到論文本身,這篇論文解決的是深度網(wǎng)絡(luò)一般超過(guò)20~30層的時(shí)候,訓(xùn)練和測(cè)試的loss不再下降,甚至隨著層數(shù)的增加,loss會(huì)逐漸增加,針對(duì)這個(gè)問(wèn)題提出了一個(gè)非常行之有效的解決方案。這個(gè)方法之所以有效,有很多解釋,比如說(shuō)有一種解釋是通過(guò)跨層(skip-layer)可以把loss反傳到中間的很多層,解決了梯度傳播的問(wèn)題。另一種解釋認(rèn)為ResNet通過(guò)skip-layer,可以做到深度方面的多模型融合。


我的解釋稍微有點(diǎn)復(fù)雜。我認(rèn)為,沒(méi)有降采樣的情況下,當(dāng)深度達(dá)到一定的程度的時(shí)候,卷積層的學(xué)習(xí)能力是逐漸減弱的。當(dāng)網(wǎng)絡(luò)過(guò)深,增加的卷積層只能學(xué)習(xí)到噪音,并且造成有效信息損失,導(dǎo)致訓(xùn)練和測(cè)試loss都增加的情況。Skip layer可以很好的自適應(yīng)的調(diào)整每一層的學(xué)習(xí)目標(biāo),解決這個(gè)問(wèn)題。

另外ResNet有很大的冗余,把152層網(wǎng)絡(luò)中的后面幾層去掉也不會(huì)改變精度,可能這些層都被skip了。保持精度的情況下,去掉這些冗余,做到更小更經(jīng)濟(jì)的網(wǎng)絡(luò),非常有研究?jī)r(jià)值。

 產(chǎn)業(yè)落地:從學(xué)術(shù)界到工業(yè)界

Q:論文總體上大概有基礎(chǔ)理論研究的論文和提出具體解決辦法的論文兩類,對(duì)于論文的產(chǎn)業(yè)化,我們正確的態(tài)度是怎樣的,比如多久論文投入實(shí)用的周期是適合?以及怎樣發(fā)揮最大意義?

現(xiàn)在產(chǎn)業(yè)界跟學(xué)術(shù)界的研究基本是并行進(jìn)行的,總體來(lái)說(shuō),產(chǎn)業(yè)界沒(méi)有落后于學(xué)術(shù)界,學(xué)術(shù)界也沒(méi)有落后于產(chǎn)業(yè)界,只是產(chǎn)業(yè)界和學(xué)術(shù)界的側(cè)重點(diǎn)不一樣。

現(xiàn)在深度學(xué)習(xí)的研究迭代速度是非常非常快的,而且快的驚人。在其他領(lǐng)域的話,學(xué)術(shù)研究主要是通過(guò)發(fā)表期刊文章來(lái)交流,期刊周期短的話可能一年,長(zhǎng)的話可能要兩三年的時(shí)間。而在計(jì)算機(jī)領(lǐng)域,大家更多的是發(fā)表會(huì)議論文,會(huì)議論文的時(shí)間周期大概是半年的時(shí)間。在深度學(xué)習(xí)領(lǐng)域,大家第一時(shí)間把自己做出來(lái)的成果放在預(yù)印本(Arxiv),半年之后再把論文投稿到會(huì)議上去。

在商湯科技,很多研究員養(yǎng)成的習(xí)慣就是每天先到預(yù)印本(Arxiv)上去看最新論文,如果這個(gè)論文的思想有價(jià)值或者這個(gè)論文做出了一些非常突出的成果的話大家都會(huì)第一時(shí)間嘗試復(fù)現(xiàn),做一些探索性的實(shí)驗(yàn)。

我認(rèn)為,在深度學(xué)習(xí)這個(gè)特定的領(lǐng)域,新技術(shù)落地的周期幾乎為零。

Q:CVPR 上這么多主題演講(main conference),覺(jué)得認(rèn)為哪幾個(gè)版塊的內(nèi)容最有用?

我覺(jué)得CVPR的很多版塊都非常有意思。要說(shuō)哪個(gè)版塊最有用的話,從工業(yè)界實(shí)用的角度出發(fā),當(dāng)然是檢測(cè)識(shí)別的板塊最有用。

Q:參加本屆CVPR后有什么心得體會(huì)?

最大的體會(huì)是華人圈做計(jì)算機(jī)視覺(jué)真的很厲害。去年參加ICCV的時(shí)候所有ImageNet的比賽第一名都被華人包攬了。這次CVPR的時(shí)候也看到了非常多的華人的優(yōu)秀論文。凱明、少卿、翔宇、孫劍還拿了最佳論文獎(jiǎng)。華人在計(jì)算機(jī)視覺(jué)領(lǐng)域的研究水平越來(lái)越高。這是非常振奮人心的事。稍微雞湯一下,我們中國(guó)錯(cuò)過(guò)了工業(yè)革命,錯(cuò)過(guò)了電氣革命,信息革命也只是跟隨狀態(tài)。但人工智能的革命,我們跟世界上的領(lǐng)先國(guó)家是并肩往前跑的。能身處這個(gè)時(shí)代浪潮之中,做一番偉大的事業(yè),經(jīng)常激動(dòng)的夜不能寐。

小結(jié):

本期硬創(chuàng)公開(kāi)課上,曹旭東重點(diǎn)為我們介紹了深度學(xué)習(xí)目前相對(duì)其它AI實(shí)現(xiàn)方法占優(yōu)的4個(gè)特點(diǎn):精度好; 算法通用;特征推廣性好;工程框架統(tǒng)一。這或許可以解釋為深度學(xué)習(xí)現(xiàn)在在AI界大受歡迎的原因。

另外他指出計(jì)算機(jī)視覺(jué)里的核心任務(wù),包括檢測(cè)、識(shí)別、分割、特征點(diǎn)定位、序列學(xué)習(xí)等五個(gè)大的任務(wù),為計(jì)算機(jī)視覺(jué)的具體應(yīng)用勾畫(huà)了一個(gè)清晰的脈絡(luò)。

不過(guò)令人震驚的是,談到深度學(xué)習(xí)這個(gè)特定領(lǐng)域的研究迭代速度,談到論文投入實(shí)用的合理周期,他認(rèn)為在深度學(xué)習(xí)這個(gè)特定的領(lǐng)域落地的周期應(yīng)該是零。雖然現(xiàn)在谷歌,F(xiàn)acebook等大公司正在引導(dǎo)論文從文字到實(shí)踐的產(chǎn)業(yè)化熱潮,但這樣的周期顯然是讓業(yè)內(nèi)人士感到驚心動(dòng)魄的一個(gè)速度。

商湯科技曹旭東:為何深度學(xué)習(xí)幾乎成了計(jì)算機(jī)視覺(jué)研究的標(biāo)配?| 雷鋒網(wǎng)公開(kāi)課

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

商湯科技曹旭東:為何深度學(xué)習(xí)幾乎成了計(jì)算機(jī)視覺(jué)研究的標(biāo)配?| 雷鋒網(wǎng)公開(kāi)課

分享:
相關(guān)文章

專注AIR(人工智能+機(jī)器人)

專注人工智能+機(jī)器人報(bào)道,經(jīng)驗(yàn)分享請(qǐng)加微信keatslee8(請(qǐng)注明原因)。 科學(xué)的本質(zhì)是:?jiǎn)栆粋€(gè)不恰當(dāng)?shù)膯?wèn)題,于是走上了通往恰當(dāng)答案的路。
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)