蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

本文作者：楊曉凡

2017-07-20 07:58

導(dǎo)語：蘋果機(jī)器學(xué)習(xí)日記終于上線，大家已經(jīng)等你很久了！

雷鋒網(wǎng) AI 科技評論按：蘋果一出手就要解決人工智能的瓶頸問題，野心不可謂不大，但是效果也不可謂不好，最近的一篇機(jī)器學(xué)習(xí)方面的論文就巧妙地解決了訓(xùn)練數(shù)據(jù)收集方面的大問題，不僅已經(jīng)被CVPR2017收錄，剛剛上線的Apple Machine Learning Journal（機(jī)器學(xué)習(xí)日記）網(wǎng)站上的第一篇博文也就是這篇論文的介紹。

7月19日剛剛上線的“蘋果機(jī)器學(xué)習(xí)日記”網(wǎng)站，相比其它硅谷IT公司的 AI 研究院 Blog 可謂是姍姍來遲，大家等待蘋果正式加入知識開放、動作迅速的 AI 研究大家庭已經(jīng)很久了。不過讓人欣喜的是，第一篇博文就能幫苦于沒有大量訓(xùn)練數(shù)據(jù)的研究者們解決不小的麻煩。雷鋒網(wǎng) AI 科技評論對論文的主要內(nèi)容介紹如下。

蘋果要降低準(zhǔn)備訓(xùn)練數(shù)據(jù)的成本

對于現(xiàn)階段的各種人工智能來說，用數(shù)據(jù)對它們進(jìn)行訓(xùn)練是一個必不可少的環(huán)節(jié)，而且數(shù)據(jù)的質(zhì)量會極大地影響人工智能的表現(xiàn)。比如以4：1擊敗李世石的 AlphaGo 是用海量的人類棋譜訓(xùn)練的，李世石當(dāng)時也評價 AlphaGo 的棋風(fēng)有一些人類的影子；而接近兩個月前以 3：0 戰(zhàn)勝柯潔的 AlphaGo Master 版就是用海量的 AlphaGo 高質(zhì)量自我對局訓(xùn)練的，去年拋出“狂言”的柯潔今年只能甘拜下風(fēng)。

蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

人工智能要先看過很多貓的照片，同時還要告訴它每一張照片里都是貓

圍棋之外還有一個典型的人工智能應(yīng)用是圖像識別，人工智能要先學(xué)習(xí)過成千上萬張人類分好的、已經(jīng)標(biāo)注過“貓”的貓咪照片，才能學(xué)會識別其它圖片里的貓。業(yè)內(nèi)訓(xùn)練圖像識別系統(tǒng)一般用的都是一百萬張級別的帶標(biāo)注圖像，而財(cái)大氣粗的谷歌上周剛剛雄辯地證明了如果用別人的300倍那么多的圖像（3億張），可以讓識別正確率進(jìn)一步上升。只是如此數(shù)量的圖像已經(jīng)沒辦法讓人類親自標(biāo)注了，谷歌也是用了各種手段才湊出了這么多的圖像。

“湊更多的圖像”，或者說數(shù)據(jù)增補(bǔ)，有一種常見的方法是設(shè)計(jì)一個圖像模擬器，讓它仿照手里已有的、分好類的真實(shí)圖像，生成同類的圖像，新生成的圖像就還是帶有標(biāo)注的，可以用于人工智能模型的訓(xùn)練。這種方法的成本就比人低多了，但是用圖像模擬器生成的圖像往往不如原有的圖像真實(shí)，訓(xùn)練出的模型效果就不理想。

選對思路很重要：提高圖像真實(shí)性

所以蘋果的機(jī)器學(xué)習(xí)研發(fā)團(tuán)隊(duì)就琢磨了，既然我能輕松地生成帶有標(biāo)注的圖像，然后它們的真實(shí)性不夠好，那我直接在這些圖像的基礎(chǔ)上提高真實(shí)性行不行呢？整篇論文要解決的就是這個問題。

基于提高真實(shí)性的思路，他們仿照GANs（對抗性生成式網(wǎng)絡(luò)）的模式，設(shè)計(jì)了一種提高圖像真實(shí)性的美化網(wǎng)絡(luò)。這種美化網(wǎng)絡(luò)里包含一個“美化器” R 和一個“鑒別器” D，美化器要想辦法把現(xiàn)有的生成的圖像變得更真實(shí)，然后把經(jīng)過這種美化以后的圖像拿給鑒別器看；鑒別器則掌握著一批真實(shí)圖像，參考真實(shí)圖像鑒別美化以后的圖像是不是真的。

美化器的目的是輸出更真實(shí)的圖像來騙過鑒別器，讓它分不出來真?zhèn)危昏b別器則要不斷提高自己的姿勢水平，不能被美化器騙過了。這兩個角色會交替更新，美化器輸出的圖像越來越逼真，鑒別器的鑒別能力也水漲船高。最終等到鑒別器怎么都區(qū)分不出來真實(shí)的圖像和美化后的圖像了，這個美化網(wǎng)絡(luò)就學(xué)習(xí)完成了。

蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

如圖是美化網(wǎng)絡(luò)的示意圖，圖像模擬器生成的圖像經(jīng)過美化器 R 的處理以后變得更真實(shí)了，鑒別器 D 起到促進(jìn)美化器 R 進(jìn)化的作用。

蘋果論文中的美化網(wǎng)絡(luò)范式與 GANs 有類似之處，都是利用鑒別器 D 的對抗性促進(jìn)網(wǎng)絡(luò)輸出圖像質(zhì)量的提升；不過 GANs 是使用一個生成器 G 從輸入向量完全生成一張新圖像，蘋果論文的美化網(wǎng)絡(luò)中把生成器 G 換成了美化器 R，只是對已有圖像做一些美化調(diào)整。

另一方面，蘋果的機(jī)器學(xué)習(xí)研發(fā)團(tuán)隊(duì)提出這種美化網(wǎng)絡(luò)的目的既然是為了降低“湊圖像”的成本，他們可沒有忘了把降低成本的目的執(zhí)行到底。還記得剛才我們說鑒別者網(wǎng)絡(luò)要手握一批真實(shí)圖像做參考嗎，假如這批用作參考的真實(shí)圖像也全都是有標(biāo)注的，這部分人工費(fèi)就還是要出。能不能把這筆錢也省了呢？蘋果的研究員們告訴你，能！鑒別器參考用的圖像可以是沒有標(biāo)注的！

網(wǎng)絡(luò)設(shè)計(jì)

提高真實(shí)性的想法很好，要怎么引導(dǎo)美化網(wǎng)絡(luò)的學(xué)習(xí)從而得到理想的效果呢？蘋果的研究員們動了這些小心思

關(guān)鍵點(diǎn)1：用新設(shè)計(jì)的鑒別器避免圖像出現(xiàn)瑕疵

以往基于 GANs 的研究中，由于生成器 G 和鑒別器 D 之間是一面對抗一面交替迭代更新的，這就會導(dǎo)致生成器 G 傾向于過分強(qiáng)化圖像中的某一些特征，鑒別器 D 也跟著去重點(diǎn)關(guān)注這些特征，結(jié)果就會造成像素的漂移、在圖像中形成瑕疵。這些瑕疵最終會成為網(wǎng)絡(luò)學(xué)習(xí)結(jié)果的一部分，就降低了輸出圖像的真實(shí)性。

由于蘋果論文的美化網(wǎng)絡(luò)同樣具有“邊對抗邊交替迭代更新”的特點(diǎn)，GANs 上出現(xiàn)的這個問題也很容易出現(xiàn)在美化網(wǎng)絡(luò)里。蘋果的研究員們仔細(xì)研究以后對傳統(tǒng)的鑒別器 D 做了一些調(diào)整，它不再像以往的方法那樣對圖像進(jìn)行整體鑒別，而是把整幅圖像看作許多小塊，然后分別對所有小塊的像素特征進(jìn)行分類，然后統(tǒng)計(jì)每個塊的對抗失真損失；圖像偏離真實(shí)圖像越遠(yuǎn)，損失就越大。這種圖像分割的做法雖然限制了鑒別器的感受野和識別容量，但是對圖像細(xì)節(jié)的關(guān)注更多、更平均，對它對抗的美化器從每幅美化后的圖像接收到的對抗失真損失反饋也是多個局部值的總和，從而能夠獲得更大的提升，訓(xùn)練后生成圖像的效果更好。

蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

局部對抗性失真損失的示意圖。鑒別器對每幅圖像輸出一個與原圖同大小的概率表。對抗性失真損失的損失函數(shù)就是來自所有局部像素塊的交叉熵?fù)p失的和

關(guān)鍵點(diǎn)2：要保持圖像的標(biāo)注

美化網(wǎng)絡(luò)美化之后的圖像是要作為別的模型的訓(xùn)練數(shù)據(jù)的，那么如何保證美化前后的圖像對應(yīng)的標(biāo)注保持不變呢？以這篇論文中所使用的數(shù)據(jù)庫為例，圖像中眼睛注視的角度在美化前后不能有明顯變化，不然就前功盡棄了。

為了保持圖像標(biāo)注，蘋果的研究員們讓網(wǎng)絡(luò)把美化前后的圖像進(jìn)行對比，根據(jù)兩幅圖像間的區(qū)別設(shè)立一個“自我正則L1損失”（self-regularization L1 loss）項(xiàng)；圖像間區(qū)別越大，損失項(xiàng)就越大。

這樣，上文提到的“局部對抗性失真損失”、與這項(xiàng)“自我正則L1損失”組合起來，構(gòu)成了學(xué)習(xí)過程的優(yōu)化目標(biāo)：讓這兩項(xiàng)損失的組合最小。這樣網(wǎng)絡(luò)輸出的圖像就又有高真實(shí)度，又能夠保持標(biāo)注不變。

關(guān)鍵點(diǎn)3：給鑒別器加上記憶功能

抽象一點(diǎn)講，模擬器生成+美化器美化后的圖像并不是真正的真實(shí)圖像，但是只要這樣的圖像的特征分布與真實(shí)圖像的特征分布相同，鑒別器就區(qū)分不出來，就達(dá)到了引導(dǎo)美化網(wǎng)絡(luò)學(xué)習(xí)的目的了。

理論上，以往 GANs 模型中的鑒別器手握著真實(shí)圖像，它就知道真實(shí)圖像的特征分布（目標(biāo)分布），只要生成器拿給鑒別器的圖像不符合真實(shí)圖像的分布，它就能夠辨認(rèn)出來。但是目前的水平上實(shí)際很容易發(fā)生的一件事是，生成器生成的圖像符合的是另一個完全不同的新分布，然后與之對抗的鑒別器不得不學(xué)到一個與之臨近的分布才能進(jìn)行鑒別，這樣的后果就是鑒別器不能保證總是讓生成器生成的分布更靠近目標(biāo)分布。兩者邊對抗邊進(jìn)化的效果很差，就像如下左圖那樣。

蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

利用歷史圖像幫助鑒別器提高的想法的示意圖，生成器和鑒別器的分布分別用橙色和淺藍(lán)色表示。圖示是簡化版本，實(shí)際分布可能是復(fù)雜的、很少連成一片的

為了改善這個問題，蘋果的研究人員們在鑒別器中加入了一個歷史記憶的功能，讓它可以存儲生成器在以前的迭代過程中生成的圖片，這樣鑒別器就更不容易忘記圖像空間中它曾經(jīng)學(xué)過的區(qū)域。那么更強(qiáng)的鑒別器就可以幫助生成器更快地向著目標(biāo)分布前進(jìn)，如上圖的右圖。

把這個想法再說明白一點(diǎn)，就是直到網(wǎng)絡(luò)的訓(xùn)練結(jié)束前，任意時刻、任意一張美化器美化出的圖像對鑒別器來說其實(shí)都是“假圖像”，那么如果鑒別器從來都不會忘記自己曾經(jīng)認(rèn)出來過的假圖像，美化器也就“不得不”生成越來越真實(shí)的圖像。

這種想法在網(wǎng)絡(luò)中的實(shí)現(xiàn)也很簡單，蘋果的研究人員們在鑒別器中設(shè)置了一個隨機(jī)替換緩沖區(qū)，其中存儲了更早的假圖像。鑒別器迭代時所用的 mini-batch 中有一半的圖像會來自這個緩沖區(qū)，另一半來自生成器或者美化器當(dāng)前生成的圖像。這樣相每個 mini-batch 中都包含一定數(shù)量的歷史圖像，經(jīng)過測試表明這樣的做法對訓(xùn)練過程有明顯的提升。

蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

訓(xùn)練鑒別器 D 所用的每個mini-batch都同時含有當(dāng)前迭代的生成器生成的圖像和來自緩沖區(qū)的更早的假圖像

訓(xùn)練過程

蘋果的研究人員們一并介紹了訓(xùn)練過程和其中的一些小技巧供其它的研究人員們參考

只用正則化損失項(xiàng)進(jìn)行初始化

上文提到，網(wǎng)絡(luò)的學(xué)習(xí)優(yōu)化目標(biāo)是“局部對抗性失真損失”與“自我正則L1損失”組合起來最小，不過初始化的階段只使用了“自我正則L1損失”以生成與輸入的生成圖像盡可能接近的圖像，美化器會逐漸生成輸入圖像的模糊版本。根據(jù)論文介紹，經(jīng)他們實(shí)驗(yàn)一般的美化器G需要迭代500到2000輪，然后再加入“局部對抗性失真損失”。（這時候鑒別器D還沒有參與訓(xùn)練）

每輪迭代中步驟數(shù)目不同

在每輪訓(xùn)練迭代中，蘋果的研究人員們對生成器和鑒別器使用的迭代步驟數(shù)目是不同的。對于需要用到深度數(shù)據(jù)的手部姿態(tài)估計(jì)，生成器 G 每迭代2次，鑒別器 D 只迭代一次；在眼部注視方向預(yù)測的實(shí)驗(yàn)中，嘗試調(diào)優(yōu)的最終結(jié)果是，生成器 G 每迭代50次，鑒別器 D 才需要迭代一次。他們發(fā)現(xiàn)鑒別器的收斂速度比生成器更快，有部分原因來自鑒別器的訓(xùn)練批量大小。所以他們的調(diào)優(yōu)辦法是先把鑒別器的迭代次數(shù)鎖定為一次，然后從較小的數(shù)字開始嘗試不同的生成器的迭代次數(shù)，根據(jù)鑒別器的損失函數(shù)逐漸增加，調(diào)整至損失函數(shù)平衡。

蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

損失示意圖

這是訓(xùn)練中不同階段的鑒別器和生成器/美化器損失的圖示。可以看到，鑒別器的損失一開始很小，說明它可以輕易地分辨美化后的圖像和真實(shí)的圖像。然后隨著訓(xùn)練進(jìn)行，鑒別者的損失逐漸上升，生成器的損失逐漸減小，輸出的圖像越來越真實(shí)。

蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

隨著訓(xùn)練進(jìn)行，美化器的輸出不斷變化。一開始是模糊的圖像，然后網(wǎng)絡(luò)逐漸學(xué)會了重現(xiàn)真實(shí)圖像中的細(xì)節(jié)

低學(xué)習(xí)速率；目視作為停止條件

蘋果的研究人員們發(fā)現(xiàn)，用很小的學(xué)習(xí)速率（0.0001左右）學(xué)習(xí)很長時間可以得到比較好的效果。他們猜想這種方法之所以效果不錯可能是因?yàn)樯善骱丸b別器中的任意一個一旦有大的變化都會直接甩開對方，學(xué)習(xí)就難以收斂。對于停止條件，他們則表示很難通過訓(xùn)練損失的值做判定，所以轉(zhuǎn)而選擇了保存訓(xùn)練過程中的所有圖片，然后在網(wǎng)絡(luò)輸出的圖片肉眼看起來與真實(shí)圖像非常相近的時候手工停止訓(xùn)練。

實(shí)驗(yàn)結(jié)果

說了這么多，網(wǎng)絡(luò)的效果到底怎么樣呢？當(dāng)然是很好啦。

首先是一個驗(yàn)證實(shí)驗(yàn)，驗(yàn)證美化后的圖像能夠保留原有的標(biāo)注

蘋果的研究人員們在美化前后的圖像中逐個用橢圓把虹膜圈了出來，然后計(jì)算出兩個橢圓的中心距。美化前后中心距的區(qū)別如下圖圖示。在對應(yīng)的生成圖像和美化后圖像間，用橢圓估計(jì)出的瞳孔位置變化相當(dāng)小，只有1.1+/-0.8像素而已，相對于55像素的眼寬是很小的距離。

蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

生成的圖像和美化后圖像之間瞳孔中心距離的散點(diǎn)圖

然后是定性實(shí)驗(yàn)，驗(yàn)證人類肉眼能否區(qū)分美化后的圖像和真實(shí)圖像

為了評價美化后圖像的視覺質(zhì)量，蘋果的研究人員們設(shè)計(jì)了一個簡單的用戶研究，他們讓一組被試者分辨圖像是真實(shí)的還是生成+美化后的。被試者們表示很難從真實(shí)圖像和美化后的圖像中找到區(qū)別。根據(jù)他們的綜合分析結(jié)果，10個被試者看了1000組測試圖像，其中只有517組正確地分辨出了真實(shí)圖像，這就表明被試者們不能可靠地分辨真實(shí)圖像和美化后的圖像。作為對比，當(dāng)每個被試者看10張美化前的生成圖像和10張真實(shí)圖像的時候，200組測試中有162組都能夠正確分辨出真實(shí)圖像。

蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

一些生成的圖像和對應(yīng)的美化后圖像的例子

最后是定量實(shí)驗(yàn)，用不同的圖像訓(xùn)練一個機(jī)器學(xué)習(xí)模型，測試訓(xùn)練后模型的表現(xiàn)

用美化前后的生成圖片訓(xùn)練的模型做目視方向預(yù)測的結(jié)果對比。測試是用真實(shí)圖像進(jìn)行的。圖中曲線越高越好。

相比與用原始的生成圖像訓(xùn)練，用美化后的生成圖像訓(xùn)練的模型表現(xiàn)得到了提高。圖中有2點(diǎn)值得注意：1，用美化后的圖像訓(xùn)練比用原始的生成圖像訓(xùn)練的效果更好；2，如果用更多的生成數(shù)據(jù)，模型的表現(xiàn)還可以得到進(jìn)一步提高。（比如同樣是用經(jīng)過美化的生成數(shù)據(jù)，用4倍的數(shù)據(jù)訓(xùn)練，模型的表現(xiàn)又得到了大幅提高）

蘋果的研究人員們還拿出了另一項(xiàng)對比結(jié)果：基于同樣的數(shù)據(jù)集，借助生成圖像+美化進(jìn)行數(shù)據(jù)增補(bǔ)的方法，他們創(chuàng)下了識別錯誤率的新記錄。

蘋果機(jī)器學(xué)習(xí)博客姍姍來遲，不過第一篇文章就給緊缺訓(xùn)練數(shù)據(jù)的研究者們發(fā)糖

基于MPIIGaze數(shù)據(jù)集的目視方向預(yù)測，不同方法的測試結(jié)果對比。[2]和[3]分別為來自CVPR2015的「 Appearance-based Gaze Estimation in the Wild」和來自ACM眼動跟蹤研究與應(yīng)用2016的「 Learning an Appearance-based Gaze Estimator from One Million Synthesised Images」

這篇來自蘋果機(jī)器學(xué)習(xí)研發(fā)團(tuán)隊(duì)的論文已經(jīng)被頂級學(xué)術(shù)會議CVPR 2017（IEEE國際計(jì)算機(jī)視覺與模式識別會議）收錄，論文原文地址為 https://arxiv.org/abs/1612.07828 ，歡迎感興趣的讀者詳細(xì)查閱。CVPR2017即將于7月21到26日在夏威夷舉行，雷鋒網(wǎng) AI 科技評論也會派出記者親赴會議現(xiàn)場帶來全方位的報道。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。