0
本文作者: 高云河 | 2017-04-18 10:35 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評論按:ICLR 2017 將于4月24-26日在法國土倫舉行,屆時(shí)雷鋒網(wǎng)AI科技評論的編輯們也將前往法國帶來一線報(bào)道。在這個(gè)深度學(xué)習(xí)會(huì)議舉辦之前,雷鋒網(wǎng)也將圍繞會(huì)議議程及論文介紹展開一系列的覆蓋和專題報(bào)道,敬請期待。
數(shù)據(jù)壓縮是一種基礎(chǔ)工程問題,在數(shù)據(jù)存儲(chǔ)和有限容量信道傳輸中有重要的應(yīng)用。圖像作為一種信息載體,數(shù)據(jù)量巨大,因此研究者們對圖像壓縮的研究從未停止過。在ICLR 2017會(huì)議上,來自紐約大學(xué)的Johannes Balle 等研究者提出了一種端到端優(yōu)化的圖像壓縮方法,并發(fā)表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個(gè)過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數(shù)的三個(gè)連續(xù)階段中構(gòu)建的。通過一組測試圖像,該方法的表現(xiàn)通常比標(biāo)準(zhǔn)JPEG和JPEG 2000壓縮方法有更好的rate-distortion性能。更重要的是,在所有比特率的所有圖像中,該方法都實(shí)現(xiàn)了顯著的視覺上質(zhì)量的提升,這點(diǎn)也被客觀的質(zhì)量評測方法MS-SSIM證明。
雷鋒網(wǎng)了解到該論文將會(huì)在2017年4月24號在ICLR會(huì)議上作為第一個(gè)Contributed talk討論。
以下為雷鋒網(wǎng)AI科技評論據(jù)論文內(nèi)容進(jìn)行的部分編譯。
數(shù)據(jù)壓縮是一種被充分研究的基礎(chǔ)工程問題,通常是為具有最小熵的給定離散數(shù)據(jù)集設(shè)計(jì)編碼。解決方案很大程度上依賴于數(shù)據(jù)概率結(jié)構(gòu)的知識(shí),因此問題與概率源建模密切相關(guān)。然而,由于所有的實(shí)際編碼一定具有有限的熵,連續(xù)值的數(shù)據(jù)(例如圖像像素強(qiáng)度的向量)必須被量化為離散的值,這就會(huì)導(dǎo)致誤差。在有損壓縮問題下,必須權(quán)衡兩種損失:離散化表示的熵(rate,壓縮率)和量化導(dǎo)致的誤差(distortion,失真)。不同的壓縮應(yīng)用場景,比如數(shù)據(jù)存儲(chǔ)或者有限容量信道傳輸,需要不同的壓縮率與失真的權(quán)衡。
同時(shí)優(yōu)化壓縮率和失真是困難的。在沒有額外的約束的情況下,在高維空間進(jìn)行最優(yōu)量化是很棘手的。由于這個(gè)原因,目前大多數(shù)的圖像壓縮方法將數(shù)據(jù)向量線性的變換成適當(dāng)?shù)倪B續(xù)值表示,獨(dú)立量化各個(gè)元素,然后使用無損熵編碼對所得到的離散表示進(jìn)行編碼。,由于變換起到的至關(guān)重要的作用,這種方法被稱為變換編碼(transform coding)例如JPEG在分塊像素上使用了離散余弦變換,JPEG 2000使用了多種尺度的正交小波分解。
研究人員基于非線性變換開發(fā)了一種端到端優(yōu)化圖片壓縮的架構(gòu)(如下圖所示)。這是一種通用的非線性變換編碼架構(gòu)。一個(gè)圖像向量x,通過一個(gè)參數(shù)化的分析變換y=ga(x;Φ),映射到編碼空間(code space)中。這個(gè)表示被量化,產(chǎn)生一個(gè)離散值的向量q,接下來q被壓縮。而重建壓縮圖像則與之相反。對于其中的分析變換,研究人員使用了基于級聯(lián)的線性卷積層和非線性層的更靈活的變換,來優(yōu)化均方誤差(mean squared error,MSE)。值得注意的是,研究者使用了generalized divisive normalization(GND)聯(lián)合非線性層,這對高斯圖像密度是很有效的,這是由生物視覺系統(tǒng)神經(jīng)元所啟發(fā)的。
論文中,研究人員將他們的方法與兩個(gè)標(biāo)準(zhǔn)方法JPEG和JPEG 2000進(jìn)行對比。得到結(jié)果如下:
下面是上圖圖像亮度分量的rate-distortion曲線,左側(cè)是感知質(zhì)量,由多尺度結(jié)構(gòu)相似性度量(MS-SSIM)。右側(cè)是峰值信噪比。
下圖為三種比特率下的圖像壓縮。從上到下分別是JPEG,論文中的方法,JPEG 2000,從左到右,比特率一步步增大。
論文中的方法相較于未壓縮的原圖細(xì)節(jié)較少,細(xì)節(jié)紋理和圖案大部分被消除了,但是保留了輪廓的平滑性以及邊緣的銳度,使得圖像擁有自然的感觀。相比之下,JPEG和JPEG 2000有明顯的人工痕跡,這也是所有線性變換編碼方法的問題:由于局部特征(邊緣,輪廓,紋理元素等)是由局部線性基函數(shù)的組合表示的,變換系數(shù)的獨(dú)立標(biāo)量量化導(dǎo)致這些組合不平衡,導(dǎo)致在視覺上反映出潛在的基函數(shù),即圖像混疊和振鈴現(xiàn)象。
值得注意的是,該論文中的方法在所有測試圖像和所有比特率上,都有可察覺的優(yōu)勢。上圖中顯示了從高到低比特率的過程。隨著比特率的降低,JPEG和JPEG 2000通過粗化線性基函數(shù)系數(shù)的精度來降低其對原始圖像的近似,因此暴露出這些基函數(shù)的視覺上的外觀。另一方面,論文中的方法逐漸簡化了輪廓和其他圖像特征,有效隱藏了表示底層的量化。
ICLR委員會(huì)最終決定
評價(jià):這是我們接受的論文中最好的兩篇之一,我推薦它作為oral presentation。審稿人對這個(gè)主題相當(dāng)?shù)闹?jǐn)慎,并進(jìn)行了深入的了解。
決定:接受(Oral)
非常好的論文
打分:9 分:在全部入選論文中排名Top 15%,強(qiáng)烈推薦
評論:這是我目前為止讀過的使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像壓縮的最有說服力的論文。這篇文章寫得非常好,客觀評估中的rate-distortion理論非常好的契合了這個(gè)架構(gòu)。該文章將結(jié)果于一個(gè)合理的基準(zhǔn)進(jìn)行對比(JPEG 2000,先前的文章僅僅與JPEG進(jìn)行對比)。我希望這篇文章能夠有更深遠(yuǎn)的影響。
希望能加入該方法在Lena/Barbare/Baboon圖像上的結(jié)果,并且與更多的效果最好的經(jīng)典方法進(jìn)行對比。能夠清晰地表現(xiàn)出神經(jīng)網(wǎng)絡(luò)方法與先前最好地方法之間的不同是至關(guān)重要的。從目前提交版本的論文看來,我仍然不知道這兩個(gè)范疇的方法哪個(gè)更好。
有極好的性能,但是缺乏細(xì)節(jié)
打分:8分:在全部入選論文中排名Top 50%,確定接收
評論:本文將rate-distortion優(yōu)化的方法拓展到深度編碼器和解碼器,并從簡單的熵編碼方法拓展到自適應(yīng)熵編碼。此外,本文還討論了該方法和變分自動(dòng)編碼器之間的關(guān)系。
由于rete-distortion優(yōu)化的方法已經(jīng)被出版過,這次遞交的文章的新穎性并不是非常高。在某些方面上,這篇文章甚至有退步,由于早期的工作是對perceptual metric進(jìn)行優(yōu)化,而這里使用的是MSE。然而,結(jié)果很明顯的優(yōu)于JPEG 2000,我并不知道目前有哪種其他的學(xué)習(xí)編碼器能夠達(dá)到這種層次的性能。這篇文章寫得非常好。
官方評論
打分:8分:在全部入選論文中排名Top 50%,確定接收
評論:這是一篇很好的文章,它展示了一種端到端訓(xùn)練的圖像壓縮和解壓系統(tǒng),相比于目前的圖像壓縮算法(例如JPEG-2000)實(shí)現(xiàn)了更好的壓縮比和質(zhì)量之間的權(quán)衡。除了展示了深度學(xué)習(xí)在新應(yīng)用下的效率,該論文的一個(gè)關(guān)鍵性貢獻(xiàn)是一種差分形式的“rate”函數(shù),作者展示了它可以被用來有效的訓(xùn)練不同的rate-distortion權(quán)衡。我希望這種方法不僅僅應(yīng)用在圖像壓縮方面發(fā)揮影響,一些其他的差分近似方法可能都會(huì)從中受益。
一個(gè)很好的文章,使用了有趣的前提,一些新穎的方法,得到了很好的結(jié)果
打分:8分:在全部入選論文中排名Top 50%,明確接受
評論:這個(gè)寫得很好的文章提供了一種端到端學(xué)習(xí)的方法進(jìn)行圖像壓縮。通過優(yōu)化rate-distortion性能,該方法能夠通過自然圖像數(shù)據(jù)集上的優(yōu)化實(shí)現(xiàn)高效的圖像壓縮。
由于方法很有趣,結(jié)果吸引人,分析很透徹,因此我推薦接受這篇論文。
想要深入了解該論文中的方法的,請參考原論文:End-to-end Optimized Image Compression
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章