2
本文作者: 李尊 | 2016-08-23 18:39 |
本文聯(lián)合編譯:Blake、高斐
雷鋒網(wǎng)注:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,對于大型圖像處理有出色表現(xiàn)。
Yann LeCun出生在法國,曾在多倫多大學跟隨深度學習鼻祖Geoffrey Hinton進行博士后研究。早在20世紀80年代末,Yann LeCun就作為貝爾實驗室的研究員提出了卷積網(wǎng)絡(luò)技術(shù),并展示如何使用它來大幅度提高手寫識別能力。上世紀末本世紀初,當神經(jīng)網(wǎng)絡(luò)失寵時Yann LeCun是少數(shù)幾名一直堅持的科學家之一。他于2003年成為紐約大學教授,并從此引領(lǐng)了深度學習的發(fā)展,目前任職于Facebook FAIR實驗室。本文是Yann LeCun對于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)的演講介紹PPT。
Yann LeCun (信息學與計算機科學)(2015-2016)
首個卷積神經(jīng)網(wǎng)絡(luò)模型(多倫多大學)(LeCun 88,89)
共320個運用反向傳播算法訓練的實例
帶有步幅的卷積(子樣本)
緊密相連的池化過程
在貝爾實驗室建立的首個“真實”卷積神經(jīng)網(wǎng)絡(luò)模型(LeCun et al 89)
運用反向傳播算法進行訓練
USPS 編碼數(shù)字:7300次訓練,2000次測試
帶有步幅的卷積
緊密相連的池化過程
卷積神經(jīng)網(wǎng)絡(luò)(vintage 1990)
濾波-雙曲正切——池化——濾波-雙曲正切——池化
多重卷積網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)的卷積運算過程大致如下:
輸入圖像通過三個可訓練的濾波器組進行非線性卷積,卷積后在每一層產(chǎn)生特征映射圖,然后特征映射圖中每組的四個像素在進行求和、加權(quán)值、加偏置,在此過程中這些像素在池化層被池化,最終得到輸出值。
卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu):
歸一化——濾波器組——非線性計算——池化
歸一化:圖像白化處理的變形(可選擇性)
減法運算:平均去除,高通濾波器進行濾波處理
除法運算:局部對比規(guī)范化,方差歸一化
濾波器組:維度拓展,映射
非線性:稀疏化,飽和,側(cè)抑制
精餾,成分明智收縮,雙曲正切等
池化: 空間或特征類型的聚合
最大化,Lp范數(shù),對數(shù)概率
LeNet5
卷積神經(jīng)網(wǎng)絡(luò)簡化模型
MNIST (LeCun 1998)
階段1:濾波器組——擠壓——最大池化
階段2:濾波器組——擠壓——最大池化
階段3:標準2層 MLP
多特征識別(Matan et al 1992)
每一層都是一個卷積層
單一特征識別器 ——SDNN
滑動窗口卷積神經(jīng)網(wǎng)絡(luò)+加權(quán)有限狀態(tài)機
卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍
信號以(多維度)數(shù)組的形式出現(xiàn)
具有很強局部關(guān)聯(lián)性的信號
特征能夠在任何位置出現(xiàn)的信號
目標物不因翻譯或扭曲而變化的信號
一維卷積神經(jīng)網(wǎng)絡(luò):時序信號,文本
文本分類
音樂體裁分類
用于語音識別的聲學模型
時間序列預測
二維卷積神經(jīng)網(wǎng)絡(luò):圖像,時間-頻率表征(語音與音頻)
物體檢測,定位,識別
三維卷積神經(jīng)網(wǎng)絡(luò):視頻,立體圖像,層析成像
視頻識別/理解
生物醫(yī)學圖像分析
高光譜圖像分析
人臉檢測(Vaillant et al.93, 94)
應(yīng)用于大圖像檢測的卷積神經(jīng)網(wǎng)絡(luò)
多尺度熱量圖
對候選圖像的非最大抑制
對256X256圖像進行6秒稀疏
人臉檢測的藝術(shù)結(jié)果狀態(tài)
卷積神經(jīng)網(wǎng)絡(luò)在生物圖像切割方面的應(yīng)用
生物圖像切割(Ning et al. IEEE-TIP 2005)
運用卷積神經(jīng)網(wǎng)絡(luò)在大背景下進行像素標記
卷積神經(jīng)網(wǎng)絡(luò)擁有一個像素窗口,標記中央像素
運用一個有條件的隨機域進行清除
3D版連接體(Jain et al.2007)
場景解析/標記
場景解析/標記:多尺度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
每一個輸出值對應(yīng)一個大的輸入背景
46X46全像素窗口;92X92 1/2像素窗口;182X182 1/4像素窗口
[7X7卷積運算]->[2X2池化] ->[7X7卷積運算] ->[2X2池化] ->[7X7卷積運算] ->
監(jiān)督式訓練全標記圖像
方法:通過超級像素區(qū)域選出主要部分
輸入圖像——超像素邊界參數(shù)——超像素邊界——通過超像素進行主要部分投票處理——類別與區(qū)域邊界對齊
多尺度卷積網(wǎng)絡(luò)——卷積網(wǎng)絡(luò)特征(每個像素中d=768)卷積分類——“soft”分類得分
場景分析/標記
無前期處理
逐幀進行
在Vittex-6 FPGA硬件上以50ms一幀運行卷積網(wǎng)絡(luò)
但是在以太網(wǎng)上傳輸特征限制了系統(tǒng)的表現(xiàn)
針對遠程自適應(yīng)機器人視覺的卷積網(wǎng)絡(luò)(DARPA LAGR項目2005-2008)
輸入圖像
標記
分類輸出
非常深的卷積網(wǎng)絡(luò)架構(gòu)
小內(nèi)核,較少二次抽樣(小部分二次抽樣)
VGG
GoogleNet
Resnet
使用卷積網(wǎng)絡(luò)進行對象檢測和定位
分類+定位:多重移動窗口
將帶多重滑動窗口的卷積網(wǎng)絡(luò)應(yīng)用到圖像上
重要提示:將卷積網(wǎng)絡(luò)應(yīng)用到一張圖片上非常便宜
只要計算整個圖像的卷積并把全連接層復制
分類+定位:滑動窗口+限定框回歸
將帶多重滑動窗口的卷積網(wǎng)絡(luò)應(yīng)用到圖像上
對每個窗口,預測一個類別和限定框參數(shù)
即便目標不是完全包含在瀏覽窗口中,卷積網(wǎng)絡(luò)也能猜測它認為這個目標是什么。
Deep Face
Taigman等 CVPR 2014
隊列
卷積網(wǎng)絡(luò)
度量學習
Facebook開發(fā)的自動標記方法
每天8億張圖片
使用卷積網(wǎng)絡(luò)進行姿勢預估和屬性恢復
深度屬性模型的姿勢對齊網(wǎng)絡(luò)
Zhang等 CVPR 2014 (Facebook AI Research)
人物檢測和姿勢預估
Tompson,Goroshin,Jain,Lecun,Bregler等 arxiv(2014)
監(jiān)督卷積網(wǎng)絡(luò)畫圖
使用卷積網(wǎng)絡(luò)來畫圖
Dosovitskyi等 arxiv (1411:5928)
監(jiān)督卷積網(wǎng)絡(luò)畫圖
生成椅子
特征空間對椅子進行計算
全局(端對端)學習:能量模型
輸入——卷積網(wǎng)絡(luò)(或其他深度架構(gòu))——能量模塊(潛在變量、輸出)——能量
使得系統(tǒng)中每個模塊都能進行訓練。
所有模塊都是同時訓練的,這樣就能優(yōu)化全局的損失函數(shù)。
包括特征提取器,識別器,以及前后處理程序(圖像模型)。
問題:反向傳播在圖像模型中傾斜
深度卷積網(wǎng)絡(luò)(還有其他深度神經(jīng)網(wǎng)絡(luò))
訓練樣本:(Xi,Yi)k=1 到 k
對象函數(shù)(邊緣型損失= ReLU)
題圖來自newscientist.com
PS : 本文由雷鋒網(wǎng)編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
via Yann Lecun
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。