丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

本文作者: 汪思穎 2017-08-13 21:17 專題:GAIR 2017
導(dǎo)語:看1×1卷積如何讓深度學(xué)習(xí)更出彩

7 月 7 日,由中國計算機(jī)學(xué)會(CCF)主辦,雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的CCF-GAIR 2017全球人工智能與機(jī)器人峰會在深圳大中華喜來登酒店如期開幕。奇虎360副總裁、首席科學(xué)家、IEEE Fellow、IAPR Fellow顏水成博士帶來了主題為《深度學(xué)習(xí):精度極限VS用戶體驗》的演講。這是大會首日最后一場演講。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

作為360 人工智能研究院院長,顏水成博士曾在新加坡國立大學(xué)領(lǐng)導(dǎo)機(jī)器學(xué)習(xí)與計算機(jī)視覺實驗室,他的主要研究領(lǐng)域是計算機(jī)視覺、機(jī)器學(xué)習(xí)與多媒體分析,其團(tuán)隊提出的“Network in Network” 對深度學(xué)習(xí)產(chǎn)生了很大的推動力。

以下內(nèi)容由雷鋒網(wǎng)整理自顏水成教授的報告,有刪減:

這次我希望對過去5年我在學(xué)術(shù)和工業(yè)界對深度學(xué)習(xí)的一些觀察進(jìn)行簡單介紹。深度學(xué)習(xí)的研究有兩種不同的目標(biāo),一個目標(biāo)是追求精度的極限,另一種是追求產(chǎn)品的體驗極限,我將從這兩方面來進(jìn)行介紹。然后我將圍繞1×1卷積及相關(guān)分析,來思考如何設(shè)計更好的網(wǎng)絡(luò),分別追求精度極限和體驗極限。

學(xué)術(shù)界的人工智能\深度學(xué)習(xí)

在學(xué)術(shù)界研究深度學(xué)習(xí),一般是針對一個具體的問題去探索新的算法。我們可以去設(shè)計更好的模型結(jié)構(gòu),用更多的模型去融合,另一方面,我們也會思考用更好的訓(xùn)練平臺和更多的資源實現(xiàn)分布式多機(jī)多卡的訓(xùn)練。也會思考利用海量的數(shù)據(jù),通過預(yù)測學(xué)習(xí)的方式先預(yù)先訓(xùn)練模型,然后利用有標(biāo)注數(shù)據(jù)訓(xùn)練好模型之后,又可以利用baby-learning或增強(qiáng)學(xué)習(xí)等后處理的方式進(jìn)一步增強(qiáng)模型的性能。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

工業(yè)界的人工智能\深度學(xué)習(xí)

在工業(yè)界不再只是追求純粹的算法,一定要思考產(chǎn)品和應(yīng)用的場景。人工智能本身不是一個產(chǎn)品,它必須跟具體的場景相結(jié)合才有它內(nèi)在的價值。最好的做法是算法和數(shù)據(jù)形成一個閉環(huán),先訓(xùn)練出初始的模型,然后再到具體的應(yīng)用場景中去挖掘模型失效的數(shù)據(jù),用這些數(shù)據(jù)進(jìn)一步提升模型的精度,然后再把模型應(yīng)用到場景中,不斷地迭代,最終達(dá)到最好的體驗。另外算法科學(xué)家和產(chǎn)品工程師必須相互協(xié)作,才能讓不完美的算法有機(jī)會產(chǎn)生完美的用戶體驗。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

算法科學(xué)家和產(chǎn)品工程師相互合作的例子

有一個很明顯的例子就是萌臉?biāo)惴?。之前有很多團(tuán)隊思考通過人臉分析,把人臉進(jìn)行替換,但是這個模式?jīng)]有成功,因為算法不完美,會產(chǎn)生抖動等問題。但是如果只是把一個花環(huán)、帽子或項鏈掛在人的頭上,即使有抖動,用戶的體驗還是非常不錯的。這個就是工程師和科學(xué)家完美合作的結(jié)果。

在工業(yè)界如果要思考產(chǎn)品,一是要考慮應(yīng)用場景能否滿足高頻剛需,二是要思考技術(shù)是否成熟,三是要思考技術(shù)是否能形成壁壘。如果沒有技術(shù)壁壘,你今天做出一個產(chǎn)品,不久之后更大的公司可能會很快做出類似產(chǎn)品,你的生存空間就不存在了。

深度學(xué)習(xí)研發(fā)的目標(biāo)之一:精度極限

把這些觀察放在一起,我們就會發(fā)現(xiàn)深度學(xué)習(xí)的研發(fā)有兩個不同的目標(biāo),第一個目標(biāo)是學(xué)術(shù)界在驅(qū)動,如果用四元分析的方法,即用場景、算法、計算和數(shù)據(jù)分析的方法來看,場景和數(shù)據(jù)是固定的,在不考慮計算資源限制的情況下,去追求算法最優(yōu)能達(dá)到的上限。在這種假設(shè)下很多算法沒法商業(yè)化,因為沒有思考在真實應(yīng)用場景下資源消耗是什么樣的。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

深度學(xué)習(xí)研發(fā)的目標(biāo)之二:產(chǎn)品體驗

另外一方面是追求產(chǎn)品的體驗,這是由業(yè)界在驅(qū)動的。同樣用四元分析的方法,這時候場景和計算已經(jīng)固定。例如要做陪護(hù)機(jī)器人,其應(yīng)用場景和它能提供的計算能力是固定的,這時候唯一的做法就是把算法和數(shù)據(jù)形成閉環(huán),在迭代中去產(chǎn)生最好的體驗。這時候不僅僅只是算法的設(shè)計,有很多方面都需要思考,比如說數(shù)據(jù)的清洗\標(biāo)注、模型速度、各種微創(chuàng)新等等。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

深度學(xué)習(xí)兩種研究目標(biāo)的對比

第一種研究更多的是用腦,第二種研究更多的是用心,它們倆是相輔相成的。比如說在追求精度極限的時候,一些前沿的成果會激發(fā)去設(shè)計一些新穎的產(chǎn)品,同時,在追求產(chǎn)品體驗的時候,也會提煉出很多核心的問題,然后送到學(xué)術(shù)界中做深入的研究。這兩種目標(biāo)都非常重要,很多公司這兩種目標(biāo)都在追求,因此建立了自己的AI lab,一方面去瞄準(zhǔn)前沿研究,為未來打下基礎(chǔ),另一方面追求產(chǎn)品體驗,保證產(chǎn)品能在當(dāng)前的場景落地。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

兩種目標(biāo)結(jié)合的實例

一個具體的例子是物體的分割。在2016年,大家都覺得分類和檢測已經(jīng)可以在工業(yè)界中很好地使用,但是從來沒有人覺得物體分割已經(jīng)到了可以使用的階段。我的研究組以前就做了很多人體分割的工作,任務(wù)是給定一個圖象,輸出每個像素具體是什么東西,我們花了兩年的時間把它的性能從44%提升到了86%。同時領(lǐng)域內(nèi)有很多分割算法取得了很好的成果,去年年底工業(yè)界開始思考,確實有很多的應(yīng)用場景可以受益于這種分割的技術(shù),于是很多人開始思考怎么樣去對模型進(jìn)行加速,保證在一些限定的場景下的性能能滿足產(chǎn)品化的需求。

從今年開始,比如美圖秀秀和Snapchat把人的頭發(fā)和臉分割出來,可以產(chǎn)生很好的頭發(fā)美化的效果,360和其他一些公司則提供人體分割的技術(shù),可以把人實時從自拍的視頻里面分割出來,疊加到動態(tài)的場景,產(chǎn)生很多好玩、好看的效果。這是一個典型的因為追求精度極限達(dá)到一定程度時,就激發(fā)了新的產(chǎn)品形態(tài)的創(chuàng)新。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

下面我將圍繞1×1卷積來做一個深度學(xué)習(xí)研究的漫談。我將仔細(xì)分析1×1卷積是什么、1×1卷積在不同的模型里面能帶來什么有價值的分析結(jié)果,以及1×1卷積可以幫助產(chǎn)生哪些更新的模型結(jié)構(gòu)來進(jìn)一步提升視覺分析的性能。這些工作一部分在追求精度極限,另一部分在追求體驗極限。

1×1卷積

最早的1×1卷積是我的學(xué)生LIN Min博士在Network in Network里面提出來的,當(dāng)時覺得純粹的內(nèi)積不能很好地模擬人的神經(jīng)元的復(fù)雜工作方式,卷積可以用更復(fù)雜的微型網(wǎng)絡(luò)結(jié)構(gòu)來替代,當(dāng)這種復(fù)雜的結(jié)構(gòu)是多層感知機(jī)的時候,對應(yīng)的后面的操作就是1×1卷積。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

當(dāng)1×1卷積跟3×3、5×5卷積疊加在一起,就會產(chǎn)生更復(fù)雜的抽象過程。當(dāng)時的一個好處就是這個模型的參數(shù)可以降到傳統(tǒng)模型的十分之一甚至更少,這樣就為我們把深度學(xué)習(xí)往端上遷移提供了可能性,同時當(dāng)時這個模型也在ImageNet 2014比賽的物體檢測任務(wù)中取得了最好的性能。之后1x1卷積逐步成為各種后續(xù)經(jīng)典深度學(xué)習(xí)模型的標(biāo)準(zhǔn)組件之一,比如說GoogleNet, ResNet, ResNext等。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

用1×1卷積分析傳統(tǒng)網(wǎng)絡(luò)的內(nèi)在機(jī)理

基于1x1卷積的張量逼近分析可以很好地解釋當(dāng)前各種流行網(wǎng)絡(luò)結(jié)構(gòu),如GoogleNet、ResNet、 ResNext,里面局部微觀結(jié)構(gòu)的內(nèi)在合理性。

比如要在一個固定的位置,把一個256個feature maps卷積的空間域是3×3的數(shù)據(jù)塊,卷積完以后變成仍然是256個feature maps。這樣需要的參數(shù)是256×256×3×3這樣一個四階的Tensor,它的參數(shù)量實在太大了。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

學(xué)術(shù)界的一種研究是把一個高階的Tensor用一些小size的Tensor,通過從不同維度做乘積的方式升維到原來size的Tensor。你可以用一個Tensor,也可以用多個Tensor相加的形式來擬合原來的Tensor。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

具體到我們這個問題,如下圖,對應(yīng)的C的部分就等價于從256個feature maps降到更少量的feature maps,G相當(dāng)于在更少量的feature maps的基礎(chǔ)上做3×3的卷積,D等價于把更少量的feature maps升維到更多的feature maps,C和D則對應(yīng)到1×1卷積。360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

有了這種理解之后,ResNet的經(jīng)典版本則對應(yīng)于用一個low-complexity的Tensor來擬合,ResNext則對應(yīng)于用多個low-complexity的Tensor來擬合。同時把多層的卷積Tensors放在一起做low-complexity tensor逼近,我們可以得到一個cross-layer信息共享的網(wǎng)絡(luò),可以減少參數(shù)個數(shù),從而提升模型推廣性能?;谶@種簡單的擴(kuò)展,只需要一個50層的ResNet網(wǎng)絡(luò)的參數(shù)數(shù)目,就能達(dá)到一個200層的ResNet網(wǎng)絡(luò)所能具備的分類性能。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

用1×1卷積分析ResNet和Densely Connected Network

下面我們用1×1卷積來分析ResNet和Densely Connected Network (DenseNet)。ResNet是在當(dāng)前feature maps的基礎(chǔ)上,做1×1卷積、3×3卷積、再1x1卷積,或者運(yùn)行其它微觀結(jié)構(gòu),把出來的結(jié)果跟現(xiàn)有的結(jié)果相加。DenseNet是前面每一層卷積的結(jié)果都要放到后面的層去,跟它拼接起來。假設(shè)給定的feature map在不同層做1×1卷積的參數(shù)是一樣的,你會發(fā)現(xiàn)DenseNet和ResNet是等價的,差別是在于一個是事后計算1×1卷積,一個是事先計算1×1卷積。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

這兩種網(wǎng)絡(luò)的內(nèi)在目標(biāo)完全不一樣。從局部來看,ResNet更多是希望對特征進(jìn)行改進(jìn),DenseNet則更多探索新的特征來補(bǔ)充已有的特征。一種自然的想法是把這兩種特征的優(yōu)勢都利用起來,我們設(shè)計了一個網(wǎng)絡(luò)結(jié)果,通過微觀結(jié)構(gòu)把這兩種網(wǎng)絡(luò)揉和在一起,最后出來的特征,一部分去改進(jìn)已有的特征,一部分作為新特征的探索。很有趣的事情是,雖然ResNet是DenseNet的特例,新提出的網(wǎng)絡(luò)結(jié)構(gòu)是一種新的結(jié)構(gòu),無法再直接解釋成DenseNet。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

這個網(wǎng)絡(luò)結(jié)構(gòu)我們叫Dual-path Network, 實現(xiàn)的時候只需在現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)里加入拼接和分割的操作就可以得到新的模型結(jié)構(gòu)。這種模型結(jié)構(gòu)看似簡單,效果非常明顯。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

在Object Detection任務(wù)上,從ResNet到ResNeXt能升3.7個點的話,在DPN上可以提升達(dá)到6.1個點;在Object Segmentation任務(wù)上,從ResNet到ResNeXt能升0.5個點的話,在DPN上能提升達(dá)到1.7個點。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

當(dāng)前在學(xué)術(shù)界已經(jīng)驗證的最好的單模型精度的網(wǎng)絡(luò)的單模型錯誤率是4.25%,在DPN上如果我們用131層的網(wǎng)絡(luò),它的錯誤率能降到4.16%,同時可以保證這個網(wǎng)絡(luò)的訓(xùn)練和測試時間都比前者要快很多。同時,如果把很多的模型做融合,在ImageNet上的錯誤率就可以從最好的2.99%降到2.74%。在ImageNet的Object Localization任務(wù)上效果也非常明顯,只需要用三個模型的融合,就可以從去年的最好模型(6個模型)得到的結(jié)果7.58% 降到6.03%。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

360的相關(guān)產(chǎn)品

在360,追求精度極限的應(yīng)用主要是放在云端,比如說360小水滴里面的人臉認(rèn)證,我們在保持1%的FAR的情況下,把它的TPR從77%升到98%。雖然只是98%,但在這種監(jiān)控場景下,你可能會碰到不同光照、姿勢、尺度的圖象,分類的難度是非常大的,它與在銀行里面用戶配合的場景下做人臉識別的差別非常大。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

另一方面,360有很多智能硬件。智能硬件的特點是在固定應(yīng)用場景和計算資源受限的情況下,希望把人工智能的技術(shù)應(yīng)用到具體場景里面,這時候在比較低端的芯片上,讓深度學(xué)習(xí)能夠發(fā)揮最好的效能就變得非常重要。所以我們也一直在思考,有哪些方法可以從算法的角度把計算的復(fù)雜度降低下來。我們其中一個工作是用1×1卷積,希望能實現(xiàn)更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),但是計算復(fù)雜度反而會進(jìn)一步降低。這個屬于追求用戶體驗的例子。

利用1×1卷積實現(xiàn):更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)、但更低的計算復(fù)雜度

通過對每一個卷積操作附加一個1x1卷積操作然后再點乘,雖然模型變復(fù)雜了,但可以大幅減少前向傳播的計算量。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

它的思路非常簡單。舉個例子,任何一個卷積,在ReLU完了之后,很多時候你會發(fā)現(xiàn)大概有40%或者更多的位置上它的輸出是0。如果這個位置輸出是0,它原來的值是什么就不那么重要了。進(jìn)一步思考,有沒有可能用更少的computational cost把這些為0的位置快速估計出來,這樣具體的卷積就不用計算了。如果我們有40%的位置是0,上面有40%的計算量就可以忽略,下面因為是1×1卷積,它的計算量只有大概1/9甚至更少,這樣你就用1/9的時間節(jié)省了40%的計算量,所以它是非常值得的。另外一方面,從理論上來說,這種網(wǎng)絡(luò)結(jié)構(gòu)可以保障潛在的最好分類性能不會降低。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

我們在不同的數(shù)據(jù)庫、不同的模型上做了測試,一般情況下都能提升20%到40%的速度,這在追求產(chǎn)品體驗極限上非常重要。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

例如你希望做一個普通老百姓愿意接受的后裝ADAS,要做車輛檢測,或者在手機(jī)APP上,要做實時的人體摳像,動態(tài)疊加到背景中,這時候降低能耗是非常重要的。用芯片來降低能耗成本會貴一些,從深度學(xué)習(xí)研發(fā)的角度來說,如果能從算法維度上降低它的功耗,價值將非常大。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

最后我用這張圖做一個簡單的總結(jié)。深度學(xué)習(xí)的研發(fā)有兩個非常不一樣的目標(biāo),一種是追求算法的精度極限,一種是追求產(chǎn)品的體驗極限。它們的差別是一個專注在用腦,一個是專注在用心,同時它們也是相輔相成、相互促進(jìn)的。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

雷鋒網(wǎng)整理。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

360副總裁顏水成博士:技術(shù)與產(chǎn)品并重,1×1卷積讓深度學(xué)習(xí)更出彩 | CCF-GAIR 2017

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說