0
雷鋒網(wǎng) AI 科技評論按:如今,說到圖像領域的生成式模型,大家往往會想到對抗生成網(wǎng)絡(GAN)和自編碼器(AE)。本文介紹了斯坦福 AI 研究院的研究人員如何從統(tǒng)計壓縮感知技術(shù)中汲取靈感設計出的非確定性自編碼器(該編碼器在自編碼器的潛在空間中對不確定性進行建模),并巧妙地使用變分技術(shù)為其設計目標函數(shù),相較于傳統(tǒng)方法,該模型的性能有巨大的提升。斯坦福 AI 研究院將這一成果進行了介紹,雷鋒網(wǎng) AI 科技評論編譯如下。
壓縮感知技術(shù)能夠通過低維投影有效地采集和恢復稀疏的高維數(shù)據(jù)信號。 我們在 AISTATS 2019發(fā)表的一篇論文(https://arxiv.org/pdf/1812.10539)中提出了非確定性自編碼器(UAE),把低維投影作為自編碼器的帶噪聲的潛在表示,并通過一個可跟蹤的變分信息最大化目標直接對信號采樣(即編碼)和逐步恢復(即解碼)的過程進行學習。實驗表明,我們在高維數(shù)據(jù)的統(tǒng)計壓縮感知任務中相較于其他方法的性能平均提高了 32% 。
無監(jiān)督表示學習的廣泛目標是學習對輸入的數(shù)據(jù)進行變換,從而簡便地捕獲到數(shù)據(jù)分布統(tǒng)計的根本特性。在之前的工作中,研究人員已經(jīng)從潛變量生成建模、降維和其他角度出發(fā),提出了大量的學習目標和算法。在本文中,我們將介紹一個受壓縮感知啟發(fā)而設計出的新的無監(jiān)督表示學習框架。首先,我們將從統(tǒng)計壓縮感知談起。
能夠高效地采集和精確地恢復高維數(shù)據(jù)的系統(tǒng)構(gòu)成了壓縮感知的基礎。這些系統(tǒng)得到了廣泛的應用。例如,壓縮感知技術(shù)已經(jīng)被成功地用于了包括「設計節(jié)能的單像素攝像頭」和「加快核磁共振醫(yī)學成像掃描時間」在內(nèi)的廣泛的應用領域。
壓縮感知的工作流程由兩部分組成:
采集(acquisition):一個從高維信號到測量數(shù)據(jù)
的映射
其中 ? 代表測量過程中任意的外部噪聲。當 m 遠小于 n 時,我們稱采集過程是高效的。
恢復(recovery):一個從測量數(shù)據(jù) y 到恢復的數(shù)據(jù)信號的映射
。當歸一化損失(例如
)很小時,恢復的過程是精確的。
在標準的壓縮感知過程中,采集映射 f 在 x 中是典型的線性變換(即對于某個矩陣
, f(x)=Wx)。在這樣的情況下,由于我們擁有的變量數(shù)(n)比常量數(shù)(m)多,所以該系統(tǒng)是未確定的。為保證得到唯一的、有意義的恢復結(jié)果,我們假設信號在一個合適的基上(例如,用于音頻數(shù)據(jù)的傅里葉基、用于圖像數(shù)據(jù)的小波基)是稀疏的。然后,通過某些類型的隨機矩陣進行信號采集,并通過求解 LASSO 優(yōu)化方法進行信號恢復,這樣便只需使用少量測量數(shù)據(jù)(大概是數(shù)據(jù)維度的對數(shù))就能保證以很高的概率得到唯一的恢復結(jié)果。
在這項工作中,我們考慮統(tǒng)計壓縮感知的情況,其中我們可以訪問一個訓練數(shù)據(jù)信號 x 的數(shù)據(jù)集 D。我們假設對于某些未知的數(shù)據(jù)分布 q_data,有。
在訓練時:
1. 自然環(huán)境向智能體提供一個有限的高維信號數(shù)據(jù)集 D。
2. 智能體通過優(yōu)化一個恰當?shù)哪繕藖韺W習信號采集和恢復的映射 f 和 g。
在測試時:
1.對于一個或多個測試信號 而言,自然環(huán)境向智能體提供壓縮后的測量數(shù)據(jù)
。
2.智能體恢復出信號,并引入一個L2 范數(shù)損失
。
為了實現(xiàn)這個過程,智能體的任務是選取信號采集和恢復的映射 f 和 g,從而最小化測試損失。
實際上,在僅僅根據(jù)測量數(shù)據(jù) y 恢復出信號 x 時,即使智能體可以選出一個信號采集映射 f,仍有兩個不確定性的來源。其一是由于隨機的測量噪聲 ? 引起的。其次,信號采集映射 f 通常被參數(shù)化為一個精度有限的受限映射族(例如,在標準壓縮感知中的線性映射或更一般化的神經(jīng)網(wǎng)絡)。假設測量數(shù)據(jù) y 的維度比信號 x 的維度要小,即使沒有噪聲,這樣的限制也會阻礙我們學到一個雙射映射。
在 f 為線性映射的說明樣例中,我們確信不可能實現(xiàn)完全精確的恢復。那么還有什么高效的方式來采集數(shù)據(jù)呢?在下圖中,我們考慮了一個真實數(shù)據(jù)分布是由兩個沿正交方向延伸的二維高斯分布的混合分布的簡單情況。我們從這個混合分布中采樣出了 100 個點(黑色的點),并考慮了兩種將這些數(shù)據(jù)點的維數(shù)降低到一維的方法。
第一種方法是使用主成分分析(PCA)將數(shù)據(jù)沿著最能導致數(shù)據(jù)中的變化的方向進行投影。對于上述的二維混合高斯分布的情況,這種方法是通過洋紅色線上的藍點表示的。這條洋紅色的線捕獲了數(shù)據(jù)中大部分的變化,但是它將從右下角的高斯分布中采樣得到的數(shù)據(jù)壓縮到了一個狹窄的區(qū)域中。當多個數(shù)據(jù)點在低維空間被壓縮成重疊的、密集的聚類區(qū)域時,在恢復(recovery)過程中就很難消除低維投影與原始數(shù)據(jù)點之間的關聯(lián)。
或者,我們可以考慮在綠色的坐標軸上投影(紅色的點)。這些投影結(jié)果更加分散,這表明恢復過程更加容易(即使與 PCA 相比,這樣做會增加投影空間的總方差)。接下來,我們提出了「UAE」框架,它能夠精確地學習上面提到的低維投影,使恢復更加準確。
從概率意義上說,信號 x 和測量數(shù)據(jù) y 的聯(lián)合分布可以表示為。例如,如果我們將噪聲建模為中心各向同性高斯分布,那么似然概率
就可以被表示為
。為了學習在存在不確定性的情況下最有利于恢復的參數(shù)
,我們考慮下面的目標函數(shù):
上面的目標函數(shù)最大化了從測量數(shù)據(jù) y 中恢復出信號 x 的對數(shù)后驗概率,這與上面提到的智能體在測試時的目標是一致的。
或者,你可以將上述過程解釋為最大化信號 x 和測量數(shù)據(jù) y 之間的互信息。為了查看二者之間的聯(lián)系,請注意數(shù)據(jù)熵 H(x) 是一個常量,它不會影響優(yōu)化過程。因此,我們可以將目標函數(shù)改寫為:
遺憾的是,在當前的情況下,估計(和優(yōu)化)互信息是十分困難和棘手的。為了克服這個困難,同時也能快速地進行恢復,我們建議使用一個互信息變分下界的平攤變體。
特別地,我們考慮一個真實后驗概率的參數(shù)化的變分近似
。在這里,
表示變分參數(shù)。將這個近似帶入變分分布會給出如下所示的原始目標函數(shù)的變分下界:
上面的表達式定義了非確定性自編碼器的學習目標,其中數(shù)據(jù)采集過程可以被看作對數(shù)據(jù)信號進行編碼,而恢復過程則相當于根據(jù)測量數(shù)據(jù)解碼出數(shù)據(jù)信號。
實際上,「UAE」目標函數(shù)的期望值是通過蒙特卡洛方法來估計的:數(shù)據(jù)信號 x 是從訓練數(shù)據(jù)集 D 中采樣得到的,測量數(shù)據(jù) y 是從一個允許重參數(shù)化的假設的噪聲模型(各向同性的高斯分布)中采樣得到的。根據(jù)對恢復過程的準確度的度量,我們可以在平攤變分分布(例如,方差固定為 l2,拉普拉斯算子固定為 l1 的高斯分布)上做出分布假設,并通過恢復映射
將測量數(shù)據(jù) y 映射到
的充分統(tǒng)計量上。
舉例來說,不妨考慮一個帶有已知的標量方差的各向同性的高斯噪聲模型
。如果我們令變分分布
也為一個帶有固定的標量方差的各向同性高斯分布,我們將通過非確定性自編碼器(UAE)得到如下所示的最大化目標函數(shù):
其中 c 為獨立于 φ 和 θ 的正歸一化常數(shù)。
除了對統(tǒng)計壓縮感知的提升,非確定性自編碼器(UAE)為無監(jiān)督表示學習提供了一種替代框架,其中壓縮的測量值可以被解釋為潛在的表示。下面,我們將討論 UAE 與常用的自編碼器在計算方法上有何異同。
標準的自編碼器(AE):當潛在空間中沒有任何的噪聲時,UAE 的學習目標函數(shù)就會退化為 AE 的目標函數(shù)。
去躁自編碼器(DAE):DAE 在觀測空間中添加噪聲(例如,向數(shù)據(jù)信號添加噪聲),然而 UAE 則是在潛在空間中對不確定性建模。
變分自編碼器(VAE):變分自編碼器將潛在空間正則化,使其遵循一個先驗分布。而在 UAE 中則沒有顯式的先驗,因此在潛在空間上沒有 KL 散度正則項(而原始論文中沒有對此進行討論,UAE 的目標函數(shù)可以看做 β=0 時的 β-VAE 的特例)。這樣就避免了使用 VAE 使存在的問題:使用強大的解碼器會忽略潛在的表示。
那么 UAE 是否能像 DAE 和 VAE 那樣,可以進行樣本外的泛化呢?答案是肯定的!在恰當?shù)募僭O下,我們說明了 UAE 學到了一個隱式的數(shù)據(jù)信號分布的生成模型,它可以被用來定義一個馬爾科夫鏈蒙特卡洛(MCMC)采樣。更多細節(jié)請參閱論文「Uncertainty Autoencoders: Learning Compressed Representations via Variational Information Maximization」(https://arxiv.org/pdf/1812.10539.pdf)中的定理 1 和推論 1。
基于 UAE 的用于 q_data 的馬爾科夫鏈采樣器示意圖。
我們展示出了一些在下面的圖像數(shù)據(jù)集上進行統(tǒng)計壓縮感知的實驗結(jié)果。在這些實驗中,測量數(shù)據(jù)的個數(shù) m 會變化,并且使用了隨機高斯噪聲。我們與兩種基線進行了對比:
適當?shù)南∈栊哉T導基礎上的 LASSO
CS-VAE/DCGAN,這是一種最近提出來的壓縮感知方法,它通過搜索預訓練的生成模型(如 VAE 和 GAN)的潛在空間來尋找潛在向量,從而使恢復損失最小。
MNIST
測量數(shù)據(jù)個數(shù) m 變化時的測試的 l2 重建誤差(每張圖像)
測量值的個數(shù)為 m=25 時的重建結(jié)果。
CelebA
測量數(shù)據(jù)個數(shù) m 變化時的測試的 l2 重建誤差(每張圖像)
測量值的個數(shù)為 m=50 時的重建結(jié)果。
平均而言,我們觀察到,對于所有的數(shù)據(jù)集和測量值來說,我們?nèi)〉昧?32% 的提升。關于在更多的數(shù)據(jù)集上的實驗結(jié)果,以及將 UAE 應用到遷移學習和監(jiān)督學習中的任務,請參閱我們的論文:
「Uncertainty Autoencoders: Learning Compressed Representations via Variational Information Maximization」Aditya Grover, Stefano Ermon. AISTATS, 2019。
via http://ai.stanford.edu/blog/uncertainty-autoencoders/ 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。