丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給大牛講堂
發(fā)送

0

微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

本文作者: 大牛講堂 2016-12-21 17:45
導(dǎo)語:所以面部表情識(shí)別技術(shù)到底是什么?

雷鋒網(wǎng)按:本文作者張正友博士,現(xiàn)任微軟研究院視覺技術(shù)組高級(jí)研究員,是世界著名的計(jì)算機(jī)視覺和多媒體技術(shù)的專家,ACM Fellow,IEEE Fellow。他在立體視覺、三維重建、運(yùn)動(dòng)分析、圖像配準(zhǔn)、攝像機(jī)自標(biāo)定等方面都有開創(chuàng)性的貢獻(xiàn)。他發(fā)明的平板攝像機(jī)標(biāo)定法在全世界被普遍采用,被稱之為“張氏標(biāo)定法”。張正友博士參與了多項(xiàng)歐洲及法國(guó)的計(jì)算機(jī)視覺和機(jī)器人重大項(xiàng)目,在Siggraph等國(guó)際學(xué)術(shù)會(huì)議和國(guó)際刊物上發(fā)表論文100余篇。

人臉表情識(shí)別(FER)作為智能化人機(jī)交互技術(shù)中的一個(gè)重要組成部分,近年來得到了廣泛的關(guān)注,涌現(xiàn)出許多新方法。人臉表情識(shí)別(FER)系統(tǒng)由人臉檢測(cè)、表情特征提取表情分類組成。

地平線《大牛講堂》有幸請(qǐng)到了世界著名計(jì)算機(jī)視覺和多媒體技術(shù)專家,微軟研究院視覺技術(shù)組高級(jí)研究員張正友博士,來與大家分享“基于幾何與Gabor小波的多層感知表情識(shí)別”和“基于特征的識(shí)別”兩項(xiàng)面部表情識(shí)別技術(shù)。

一、基于特征的面部表情識(shí)別

張正友博士分享了兩種人臉特征識(shí)別方法:置信點(diǎn)集的幾何位置和這些點(diǎn)的多尺度多方向Gabor小波系數(shù),二者既可以獨(dú)立使用也可以結(jié)合使用。張正友博士的研究結(jié)果表明,Gabor小波系數(shù)更為有效。由于第一層網(wǎng)絡(luò)的作用是非線性降維,張正友博士還研究了隱含單元(Hidden Units)的數(shù)量,也就是面部表情特征表示的維數(shù),得出5-10維足以表達(dá)特征空間的結(jié)果。之后,分析了每個(gè)置信點(diǎn)對(duì)表情表示的重要性,其敏感度分析表明,臉頰和前額上的點(diǎn)包含的有用信息很少,舍去之后,不僅計(jì)算效率會(huì)提升,性能也略有提升。最后,張正友博士研究了圖像尺度的重要性,實(shí)驗(yàn)表明表情主要是低頻過程,空間分辨率64x64就足夠了。

1.1 面部表情識(shí)別(FER)的難點(diǎn)

①不同的人表情變化;②同一人上下文變化。

1.2 自動(dòng)FER系統(tǒng)需要解決

①面部檢測(cè)與定位,②人臉特征提取和表情識(shí)別。

定位問題前人已經(jīng)做得很好,這里不討論。

人臉特征提取是為了找到人臉最合適的表示方式,從而便于識(shí)別。主要有兩種方式:整體模版匹配系統(tǒng)和基于幾何特征的系統(tǒng)。在整體系統(tǒng),模板可以是像素點(diǎn)或是向量。在幾何特征系統(tǒng)中,廣泛采用主成份分析和多層神經(jīng)網(wǎng)絡(luò)來獲取人臉的低維表示,并在圖片中檢測(cè)到主要的特征點(diǎn)和主要部分。通過特征點(diǎn)的距離和主要部分的相對(duì)尺寸得到特征向量。基于特征的方法比基于模板的方法計(jì)算量更大,但是對(duì)尺度、大小、頭部方向、面部位置不敏感。

①首先定位一系列特征點(diǎn):

微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

②再通過圖像卷積抽取特征點(diǎn)的Gabor小波系數(shù),以Gabor特征的匹配距離作為相似度的度量標(biāo)準(zhǔn)。在特征點(diǎn):

微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

③提取特征之后,表情識(shí)別就成為了一個(gè)傳統(tǒng)的分類問題??梢酝ㄟ^多層神經(jīng)網(wǎng)絡(luò)來解決:

微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

準(zhǔn)則是最小化交叉熵(Cross-entropy):

 微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

t是label,y是實(shí)際輸出。

 微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

1.3 實(shí)驗(yàn)結(jié)果

從結(jié)果看,Gabor方法優(yōu)于幾何方法,二者結(jié)合效果更佳微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

可以看到,隱含層單元達(dá)到5-7個(gè)時(shí),識(shí)別率已經(jīng)趨于穩(wěn)定,那就是說5-7個(gè)單元已經(jīng)足夠了。

二、靜態(tài)表情圖像的多層深度網(wǎng)絡(luò)學(xué)習(xí)

2015EmotiW的表情識(shí)別方法,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks (CNN))。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,對(duì)于大型圖像處理有出色表現(xiàn)。卷積神經(jīng)網(wǎng)絡(luò)由一個(gè)或多個(gè)卷積層和頂端的全連通層(對(duì)應(yīng)經(jīng)典的神經(jīng)網(wǎng)絡(luò))組成,同時(shí)也包括關(guān)聯(lián)權(quán)重和池化層(pooling layer)。這一結(jié)構(gòu)使得卷積神經(jīng)網(wǎng)絡(luò)能夠利用輸入數(shù)據(jù)的二維結(jié)構(gòu)。與其他深度學(xué)習(xí)結(jié)構(gòu)相比,卷積神經(jīng)網(wǎng)絡(luò)在圖像和語音識(shí)別方面能夠給出更優(yōu)的結(jié)果。這一模型也可以使用反向傳播算法進(jìn)行訓(xùn)練。相比較其他深度、前饋神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)需要估計(jì)的參數(shù)更少,使之成為一種頗具吸引力的深度學(xué)習(xí)結(jié)構(gòu)。 

2015EmotiW的表情識(shí)別方法,針對(duì)7種基本情感,其中包括一個(gè)人臉檢測(cè)模塊(基于三個(gè)性能很好(state-of-art)的人臉檢測(cè)模塊)。每個(gè)模型都是隨機(jī)初始化并在Facial Expression Recognition (FER) Chal-lenge 2013 上預(yù)訓(xùn)練的,之后在SFEW 2.0訓(xùn)練集上進(jìn)行細(xì)調(diào)。為了結(jié)合多個(gè)CNN模型,張正友博士提出了聯(lián)眾學(xué)習(xí)權(quán)重的策略:1、最小化對(duì)數(shù)似然損失(log like-lihood loss);2、最小化合頁損失(hinge loss) 。

2.1人臉檢測(cè)(定位)

由三部分構(gòu)成:1. 聯(lián)合級(jí)聯(lián)檢測(cè)與校準(zhǔn)(the joint cascade detection and alignment (JDA) detector);2.基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN);3.混合樹(Mot)。

微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂 

2.2 人臉圖像處理

有助于去掉無關(guān)噪聲,統(tǒng)一人臉大小,從而使識(shí)別更準(zhǔn)確。首先轉(zhuǎn)化為48x48的灰度圖。然后標(biāo)準(zhǔn)直方圖均衡化,接著去除不平衡光照。最后,化為0均值,單位方差的向量。

2.3 網(wǎng)絡(luò)模型

基本網(wǎng)絡(luò)模型

包括5個(gè)卷基層,3個(gè)隨機(jī)pooling層(非max pooling層)。隨機(jī)pooling是根據(jù)歸一化輸出的分布得到的概率分布從而隨機(jī)選擇像素點(diǎn)。全連接層包含dropout,隨機(jī)機(jī)制減小了過擬合(over-fitting)的風(fēng)險(xiǎn)。

輸入是處理好的48x48人臉圖像。第二、三曾是隨機(jī)pooling層,在pooling前有兩個(gè)卷基層。卷基層和全連接層的激活函數(shù)都是ReLU。最后階段包括softmax層,之后是負(fù)對(duì)數(shù)似然損失:

微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

網(wǎng)絡(luò)圖如下:

微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

加入隨機(jī)擾動(dòng)

加入隨機(jī)擾動(dòng)可以增加對(duì)臉部偏移和旋轉(zhuǎn)的魯棒性。通過如下隨機(jī)仿射扭曲圖像:

 微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

擾動(dòng)下learning與voting

由于帶有擾動(dòng),損失函數(shù)應(yīng)當(dāng)包含所有擾動(dòng)的情況:

 微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

P是擾動(dòng)種類個(gè)數(shù)。每個(gè)測(cè)試圖像的響應(yīng)是所有對(duì)應(yīng)擾動(dòng)圖像響應(yīng)的average voting。

微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

2.4 多網(wǎng)絡(luò)學(xué)習(xí)

在CNN模型的頂端,放置一個(gè)多網(wǎng)絡(luò)(Multiple Network)增強(qiáng)性能。典型的就是對(duì)輸出求均值。觀察表明,隨機(jī)初始化不僅導(dǎo)致網(wǎng)絡(luò)參數(shù)變化,同時(shí)使得不同網(wǎng)絡(luò)對(duì)不同數(shù)據(jù)的分類能力產(chǎn)生差別。因此,平均權(quán)重可能是次最優(yōu)的因?yàn)関oting沒有變化。更好的方法是對(duì)每個(gè)網(wǎng)絡(luò)適應(yīng)地分配權(quán)重,使得整體網(wǎng)絡(luò)互補(bǔ)。

為了學(xué)習(xí)權(quán)重w,先獨(dú)立地訓(xùn)練不同初始化的CNN。在權(quán)重上輕易損失函數(shù)??紤]如下兩種優(yōu)化框架:

最優(yōu)整體對(duì)數(shù)似然損失

 微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

最優(yōu)整體合頁損失

微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

雷鋒網(wǎng)注:本文由大牛講堂授權(quán)發(fā)布雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者,并注明作者和出處,不得刪減內(nèi)容。有興趣可以關(guān)注公號(hào)【地平線機(jī)器人技術(shù)】,了解最新消息。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

微軟研究院大咖張正友:什么是人臉表情識(shí)別技術(shù)?|大牛講堂

分享:
相關(guān)文章

地平線機(jī)器人技術(shù)

嵌入式人工智能全球領(lǐng)導(dǎo)者
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說