深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

本文作者：末離Dennis

2016-08-18 18:58

導(dǎo)語：一種我們目前研究用于駕駛模擬的方法。

雷鋒網(wǎng)按：本文由末離編譯。

George Hotz及Comma.ai背景：

George Hotz于2007年首度破解iPhone，2010年成為破解索尼PS3第一人。先后在Google，F(xiàn)acebook實習，工作后在Space待了4個月，2015年加入人工智能初創(chuàng)公司Vicarious，同年7月離開并于9月創(chuàng)立Comma.ai，獨自在車庫研究自動駕駛技術(shù)，正式宣布挑戰(zhàn)Google，Mobileye，在今年4月該公司得到了310萬美金的投資。于8月6日，George Hotz開源了其源碼及論文等研究成果。（論文及源碼可點擊下載）

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

本文原作者Eder Santana，George Hotz。以下是編譯全文：

人工智能在自動駕駛上的應(yīng)用，Comma.ai的策略是建立起一個代理（agent），通過模擬預(yù)測出未來路況事件來訓練汽車模仿人類駕駛行為及駕駛規(guī)劃能力。本論文闡述了一種我們目前研究用于駕駛模擬的方法，旨在研究變分自動編碼器（Variational Autoencoder，簡稱VAE）及基于生成式對抗網(wǎng)絡(luò)（generative adversarial network，簡稱GAN），用于實現(xiàn)道路視頻預(yù)測的代價函數(shù)（cost function）。之后，我們訓練了一種在此基礎(chǔ)上結(jié)合了遞歸神經(jīng)網(wǎng)絡(luò)（RNN）的轉(zhuǎn)換模型（transition model）。

該優(yōu)化后的模型在像素空間中雖不存在代價函數(shù)，但我們展示的方法仍能實現(xiàn)對多幀逼真畫面的預(yù)測。

| 簡介

自動駕駛汽車[1]是人工智能研究中短期內(nèi)最有前景的領(lǐng)域之一，現(xiàn)階段該技術(shù)利用了大量駕駛過程中出現(xiàn)的，含標簽且上下文信息豐富的數(shù)據(jù)?？紤]到其感知與控制復(fù)雜性，自動駕駛技術(shù)一旦得以實現(xiàn)，也將拓展出許多有趣的技術(shù)課題，例如視頻中的動作識別以及駕駛規(guī)劃?，F(xiàn)階段，以攝像頭作為主要傳感器，結(jié)合視覺處理及人工智能技術(shù)實現(xiàn)自動駕駛的方式在成本上占盡優(yōu)勢。

由于深度學習、遞歸神經(jīng)網(wǎng)絡(luò)的發(fā)展，虛擬與現(xiàn)實交互（interaction）的愈加便捷，基于視覺的控制與強化學習在以下文獻[7][8][9][10]中都取得了成功。這種交互形式使得我們能以不同策略來重復(fù)測試同一個場景，并能模擬出所有可能發(fā)生的事件來訓練基于神經(jīng)網(wǎng)絡(luò)的控制器。例如，Alpha Go[9]利用深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）通過不斷累積與自己下棋博弈的經(jīng)驗來預(yù)測下次的獲勝概率。Go的游戲引擎能夠模擬出游戲過程中所有可能演變出的結(jié)果，并用來做馬爾科夫鏈樹（Markov Chain Tree）搜索。目前，如讓Go學會用游戲屏幕玩Torcs[7]或者Atari[8]，需進行數(shù)小時的訓練學習。

由于學習代理難以實現(xiàn)與現(xiàn)實的窮舉交互，對此目前大概有兩種解決方案，其一是手動開發(fā)一套模擬器，其二是訓練出預(yù)測未來場景的能力。前者的方案涉及到對物理世界的規(guī)則定義以及將現(xiàn)實的隨機性建模的專業(yè)領(lǐng)域，但此類專業(yè)知識已經(jīng)涵蓋了所有與控制相關(guān)的信息，基本覆蓋了現(xiàn)有如飛行模擬器[11]，機器人行走[12]等領(lǐng)域。

我們重點研究通過設(shè)置人類代理（agent）來使其自己模擬預(yù)測現(xiàn)實世界場景，車前擋風玻璃上安裝前置攝像頭作為視頻流的輸入。

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

早年是基于物理代理的狀態(tài)空間 [13]來進行控制器的訓練模擬，其他僅靠視覺處理的模型又只能適應(yīng)低維度或紋理特征簡單的視頻，如游戲Atari[14][16]。對于紋理特征復(fù)雜的視頻，則是通過被動視頻預(yù)測（passive video prediction）來識別其中動作[17]。

本論文對現(xiàn)有視頻預(yù)測相關(guān)文獻做了補充，我們讓控制器自身去訓練模型并預(yù)測出逼真的視頻場景，計算出低維度的壓縮表示并轉(zhuǎn)換成相應(yīng)動作。在下一節(jié)中，我們描述了用于對實時路況拍攝的視頻進行預(yù)測所用到的數(shù)據(jù)集（dataset）。

| 數(shù)據(jù)集（dataset）

我們開源了本論文中使用到的部分自動駕駛測試數(shù)據(jù)。數(shù)據(jù)集里的測試數(shù)據(jù)與comma.ai的自動駕駛汽車測試平臺使用的是一致的攝像頭與傳感器。我們在謳歌 ILX 2016的前擋風玻璃上安裝了一個Point Grey攝像頭，并以20hz頻率對道路進行圖像采集。釋放的數(shù)據(jù)集中包含共計7.25小時的駕駛數(shù)據(jù)，分11段視頻，視頻幀為從捕獲視頻中間截取160*320像素的畫面。除視頻外，數(shù)據(jù)集中還包括數(shù)個傳感器的數(shù)據(jù)，分別以不同頻率進行測量，其中內(nèi)插了100Hz，示例數(shù)據(jù)包含汽車車速、轉(zhuǎn)向角、GPS、陀螺儀、IMU等。數(shù)據(jù)集以及測量設(shè)備的具體詳情可以通過訪問同步站點獲取。

我們記錄下傳感器測量及捕獲視頻幀時的時間戳，并用測試時間及線性插入來同步傳感器與視頻數(shù)據(jù)。我們還發(fā)布了以HDF5格式存儲的視頻及傳感器原始數(shù)據(jù)，該格式的選擇是由于其較易于在機器學習及控制軟件中使用。

本文中，將重點強調(diào)視頻幀、轉(zhuǎn)向角以及汽車速度。我們通過縮減像素采樣原始數(shù)據(jù)得到了80*160的圖像，并對圖像進行了-1到1的像素微調(diào)重整（renormalizing），至此就完成了預(yù)處理。示例圖像如圖1所示。在下一節(jié)中我們定義了本文旨在研究的難題。

| 問題定義（Problem definition）

xt表示的是數(shù)據(jù)集的第t幀，Xt是幀長為n的視頻表示：

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

St是控制信號，與圖像幀直接相關(guān)：

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

At與車速及轉(zhuǎn)向角（steering angle）相對應(yīng)。

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

預(yù)測道路圖像時定義估值函數(shù)F:

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

下一幀的預(yù)測結(jié)果為：

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

注意，該定義為高維度且各維度之間相互關(guān)聯(lián)，機器學習中類似的問題也會出現(xiàn)如收斂速度慢或數(shù)據(jù)欠擬合（underfit）[26]的情況。

有研究表明[20]，使用卷積動態(tài)神經(jīng)網(wǎng)絡(luò)（convolutional dynamic network）時，若不進行適當正則項調(diào)整（regularization），模型雖對單組數(shù)據(jù)模擬良好但對整體其他數(shù)據(jù)的預(yù)測正確率偏低。

從前的方式都是通過簡單、人造的視頻[14]直接訓練得到估值函數(shù)F，最近，論文[20][17]表明能夠預(yù)測生成紋理復(fù)雜度較高的視頻，但卻沒有解決運動條件轉(zhuǎn)移的問題，也沒有生成數(shù)據(jù)的一個緊湊的中間表示。換句話說，他們的模型未經(jīng)縮減像素采樣也沒有低維度的隱藏編碼，而是完全經(jīng)過卷積變換實現(xiàn)。但由于高維密集空間（dense space）[18]中，概率，過濾器（filter）及控制輸出的定義都模糊不清（ill-defined），緊湊的中間表示（compact intermediate representation）對我們的研究工作至關(guān)重要。

據(jù)我們所知，這是第一篇試圖從現(xiàn)實公路場景來預(yù)測后續(xù)幀視頻的論文，就此，在本文中，我們決定分段學習函數(shù)F，以便能分塊對其進行debug調(diào)試。

首先，我們學習了一個Autoencoder將幀數(shù)據(jù)xt嵌入到高斯隱層Zt（Gaussian latent space），

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

維度2048是由實驗需求決定，變分貝葉斯[1]自編碼（variational Autoencoding Bayes）強制執(zhí)行高斯假設(shè)。第一步是將像素空間的學習轉(zhuǎn)移簡化為了在隱層（latent space）里的學習，除此以外，假設(shè)自編碼器Autoencoder可以正確地學習隱層的高斯特性，那么只要轉(zhuǎn)移模型能保證不離開嵌入空間的高密度區(qū)域，我們就能模擬出逼真的視頻畫面。高密度區(qū)域的超球面半徑為ρ，是嵌入空間維數(shù)和高斯先驗方差的函數(shù)。在下一節(jié)中我們將會開始詳細介紹Autoencoder以及轉(zhuǎn)移模型。

| 駕駛模擬器（Driving simulator）

考慮到問題的復(fù)雜性，我們不考慮端到端（End-to-End）的方法，而是使用分離的網(wǎng)絡(luò)來學習視頻預(yù)測。提出的體系架構(gòu)基于兩種模型：其一是利用Autoencoder來降維，其二是用一個RNN進行轉(zhuǎn)換（transition）學習。完整的模型如圖2所示。

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

自編碼器（Autoencoder）我們選擇了一個隱層為高斯概率分布的模型來學習數(shù)據(jù)嵌入，尤其能夠避免超球體內(nèi)集中在原點的低概率不連續(xù)區(qū)域，這塊區(qū)域的存在會妨礙隱層中對連續(xù)轉(zhuǎn)換模型的學習。變分Autoencoder[1]及相關(guān)工作[19][21]在原始數(shù)據(jù)的隱層中用高斯先驗?zāi)Ｐ屯瓿闪松赡Ｐ停╣enerative model）的學習。然而，在原始數(shù)據(jù)空間中高斯假設(shè)并適用于處理自然圖像，因而VAE預(yù)測得到的結(jié)果看上去會很模糊（見圖三）。另一方面，生成對抗網(wǎng)絡(luò)（GAN）[22]及相關(guān)工作[2][3]會與生成器一起學習生成模型的代價函數(shù)。因此可以對generative與discriminator網(wǎng)絡(luò)交替訓練。

generative生成模型將隱層分布的樣本數(shù)據(jù)轉(zhuǎn)換到了數(shù)據(jù)集中，discriminator判別網(wǎng)絡(luò)則將數(shù)據(jù)集中的樣本從發(fā)生器的所有樣本中判別出來，但generator能夠起到fool discriminator的作用，因此discriminator也可以視作是generator的一個代價函數(shù)。

我們不僅需要學習從隱層到道路圖像空間的發(fā)生器，還要能將道路圖像編碼反饋回給隱層，因此就需要將VAE與GAN網(wǎng)絡(luò)相結(jié)合。直觀地說，一種簡單的方式就是將VAE方法與一個代價函數(shù)直接結(jié)合。在Donahue et.al的文獻[23]中，提出了一種學習生成模型并雙射變換編碼的雙向GAN網(wǎng)絡(luò)。Lamb et. al.[24] 提出了判別生成網(wǎng)絡(luò)（discriminator generative networks），將先前已訓練的分類器特征差異作為代價函數(shù)的一部分。最后，Larsen et.al[25]提出對VAE與GAN網(wǎng)絡(luò)一起進行訓練，這樣編碼器能夠同時優(yōu)化隱層的高斯先驗?zāi)Ｐ鸵约坝蒅AN網(wǎng)絡(luò)提取出特征上的相似性。發(fā)生器會將隱層輸出的隨機樣本作為輸入，并輸出編碼器網(wǎng)絡(luò)，在經(jīng)優(yōu)化后即可fool discriminator，并盡量減少原始圖像與解碼圖像的相似性。判別器則始終訓練以區(qū)分輸入圖片的真實性——判別真?zhèn)巍?/p>

我們用Larsen et.al.[25]的方法來訓練Autoencoder，圖2中原理圖展示了此模型。在其論文中所述[25]，編碼器（Enc），發(fā)生器（Gen）以及判別器（Dis）網(wǎng)絡(luò)優(yōu)化后使得以下代價函數(shù)值最?。?/p>

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

在上面公式中，

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

滿足編碼輸出分布q(z|x)與先驗分布p(z)的Kullback-Liebler發(fā)散，都是VAE正則化矩陣，p(z)滿足N(0,1)高斯分布，我們用reparemetrization來優(yōu)化其regularizer，因此在訓練過程中始終滿足 z = μ + ∈σ ，在測試過程則滿足z = μ（公式中 μ 和σ是編碼網(wǎng)絡(luò)的輸出，∈則是與 μ、σ有相同維度的高斯隨機向量）

第二項是一個由計算得到的誤差值，代表的是判別網(wǎng)絡(luò)中第l層的隱藏activation值，該值用合法圖像x以及對應(yīng)的編碼-再解碼的值Gen(Dis(x))計算得到。

假設(shè)：

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

即可得到：

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

在訓練過程中，為避免步驟過于繁瑣，Dis通常以常量處理。

最后LGAN是生成對抗網(wǎng)絡(luò)（GAN）的代價[22]，代價函數(shù)表示了Gen與Dis之間的博弈關(guān)系。當對Dis進行訓練時，Enc與Gen始終保持固定值：

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

u是滿足正態(tài)分布N(0,1)的隨機變量，公式中的第一部分是Dis的對數(shù)似然函數(shù)，用于判別合法圖像，剩下的兩部分則是隨機向量u或者編碼值z = Enc（x）的對數(shù)值，用來判別是否為偽造的圖像樣本。

在對Gen進行訓練時，Dis與Enc始終保持固定值：

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

表示Gen能夠fool Dis判別網(wǎng)絡(luò)，[25]等式中第二項的Enc(x)在訓練過程中通常設(shè)為0。

我們對Autoencoder的訓練次數(shù)為 200次，每一次迭代中包含10000的梯度更新，增量大小為64，如上一節(jié)中所述，樣本從駕駛數(shù)據(jù)中隨機采樣。我們使用Adam進行優(yōu)化[4]，自編碼器網(wǎng)絡(luò)架構(gòu)參考Radford et.al[3].發(fā)生器由4層去卷基層組成，每層后緊隨樣本的歸一化以及l(fā)eaky-ReLU的激活函數(shù)。判別器與編碼器由多層卷基層組成，而第一層后面緊隨的是樣本的歸一化操作，這里用到的激活函數(shù)則是ReLU。Disl是解碼器第三層卷基層的網(wǎng)絡(luò)輸出，而后再進行樣本的歸一化與ReLU操作。判別器的輸出大小為1，它的代價函數(shù)是二進制交叉熵函數(shù)，編碼網(wǎng)絡(luò)的輸出大小為2048，這樣的緊湊表示（compact representation）壓縮成了原始數(shù)據(jù)維度的1/16。詳細信息可查看圖2或本論文同步代碼，樣本的編碼-再解碼以及目標圖像見圖3。

在訓練好Autoencoder后，我們固定了所有的權(quán)重，并以Enc作為訓練轉(zhuǎn)換模型的預(yù)處理步驟，我們將在下一節(jié)討論轉(zhuǎn)換模型。

轉(zhuǎn)換模型（transition model）

訓練Autoencoder后，我們得到了用于轉(zhuǎn)換的數(shù)據(jù)集，使用Enc將xt -> zt訓練RNN： zt，ht，ct -> Zt+1來表示編碼空間的轉(zhuǎn)換。

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

公式中的W,V,U,A為可訓練的權(quán)值，ht是RNN的隱藏狀態(tài)，ct 直接控制了汽車車速與轉(zhuǎn)向角信號，LSTM,GRU,以及ct與zt之間的乘法迭代將在今后作進一步的研究，現(xiàn)在用來優(yōu)化可訓練權(quán)值的代價函數(shù)即是均方誤差（MSE）：

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

顯然該公式是最優(yōu)的了，因為我們在訓練Autoencoder時，對編碼z的分布強加了Lprior的高斯約束。換句話說，均方誤差會等于一個正態(tài)分布隨機變量的對數(shù)值。假如預(yù)測的編碼值為：

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

預(yù)估的畫面幀就可以被表示為

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

我們用幀長為15的視頻序列來訓練轉(zhuǎn)換模型，前5幀的學習結(jié)果輸出后會作為后10幀學習網(wǎng)絡(luò)的輸入，即在用Enc（xt）函數(shù)計算出z1,…，z5后，繼續(xù)作為后續(xù)輸入，得到

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

再反饋繼續(xù)作為輸入。在RNN的文獻中，將輸出反饋回來繼續(xù)作為輸入被稱作是RNN hallucination。為了避免復(fù)雜運算，我們將前者輸出反饋繼續(xù)作為輸入過程中的梯度設(shè)為0。

| 測試結(jié)果

此次研究中，我們將大部分精力花如何能使Autoencoding架構(gòu)保留住道路的紋理特征上，如上文所提，我們研究了不同的代價函數(shù)，盡管它們的均方誤差都差不多，但使用GAN網(wǎng)絡(luò)的代價函數(shù)還是得到了視覺效果最佳的結(jié)果。如圖3中所示，我們展示了由兩組由對應(yīng)不同代價函數(shù)的訓練模型產(chǎn)生的解碼圖片，不出所料，基于MSE的神經(jīng)網(wǎng)絡(luò)產(chǎn)生的圖像很模糊，使得將多條車道標識線被錯誤識別成了一條長單線車道。

深度： Comma.ai首篇基于道路視頻預(yù)測的自動駕駛論文

此外，模糊重建也無法保留前車圖像的邊緣，因此這種方法無法用于推廣的最主要原因是難以實現(xiàn)測距以及與前車車距的估算。另一方面，用MSE的方式去學習繪制出彎道標識線速度比基于對抗網(wǎng)絡(luò)的模型要快。也許在學習對帶有汽車轉(zhuǎn)向角信息的像素進行編碼時可以可以免這個問題。我們會保留這個問題用以今后研究。

一旦我們得到了性能良好的Autoencoder，就可以開始對轉(zhuǎn)換模型進行訓練。預(yù)測畫面幀結(jié)果如圖4所示，我們用5Hz視頻對轉(zhuǎn)換模型進行訓練，學習后的轉(zhuǎn)換模型甚至在100幀后都能始終保持道路畫面結(jié)構(gòu)。當以不同種子幀從轉(zhuǎn)換模型采樣時，我們觀察到了包括通過車道線、靠近前車，以及前車駛開等駕駛事件，但該模型無法模擬出彎道場景。當我們用在彎道行駛的圖像幀對轉(zhuǎn)換模型進行初始化時，轉(zhuǎn)換模型迅速就將車道線變直，并重新開始模擬直線行駛。在此模型下，盡管像素空間中沒有準確優(yōu)化的代價函數(shù)，我們依然能夠?qū)W習出對視頻的轉(zhuǎn)換。我們也相信依賴更強大的轉(zhuǎn)換模型（如深度RNN、LSTM、GRU）以及上下文編碼contextual encoding（傳感器輔助視頻采樣加上轉(zhuǎn)向角和速度）將會出現(xiàn)更為逼近現(xiàn)實的模擬。

本論文中釋放的數(shù)據(jù)集中包含了這種方法實驗過程中所有必要的傳感器。

| 結(jié)論

本文介紹了comma.ai在學習汽車駕駛模擬器方面的初步研究成果，基于Autoencoder以及RNN的視頻預(yù)測模型。我們并沒有基于端對端（End-to-End）學習與所有事物的關(guān)聯(lián)，而是先用基于生成對抗網(wǎng)絡(luò)（GAN）的代價函數(shù)來訓練Autoencoder，令其產(chǎn)生逼真的道路圖像，而后我們在嵌入空間中訓練了一個RNN轉(zhuǎn)換模型。盡管Autoencoder以及轉(zhuǎn)換模型的結(jié)果看起來都很逼真，但是想要模擬出所有與駕駛過程相關(guān)的事件仍需要做更多的研究。為了刺激自動駕駛上能有更深入的研究，我們發(fā)布了這份包含視頻采樣以及如汽車車速、轉(zhuǎn)向角等傳感器數(shù)據(jù)在內(nèi)駕駛數(shù)據(jù)集，并開源了目前正在訓練的神經(jīng)網(wǎng)絡(luò)源碼。

【參考文獻】

[1] Diederik P Kingma and Max Welling, “Auto-encoding variational bayes,” arXiv preprint
arXiv:1312.6114, 2013.
[2] Emily L Denton, Soumith Chintala, Rob Fergus, et al., “Deep generative image models using laplacian pyramid of adversarial networks,” in Advances in Neural Information Processing Systems, 2015.
[3] Radford, Alec, Luke Metz, and Soumith Chintala. “Unsupervised representation learning with deep convolutional generative adversarial networks.” arXiv preprint arXiv:1511.06434, 2015.
[4] Diederik Kingma and Jimmy Ba, “Adam: A method for stochastic optimization.” arXiv
preprint arXiv:1412.6980, 2014.
[5] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, “Generative adversarial nets,” in Advances in Neural Information Processing Systems, 2014.
[6] Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, and Ian Goodfellow, “Adversarial Autoencoders,” arXiv preprint arXiv:1511.05644, 2015.
[7] Jan Koutn′ ?k, Giuseppe Cuccu, Jurgen Schmidhuber, and Faustino Gomez, “Evolving large- scale neural networks for vision-based reinforcement learning,” Proceedings of the 15th annual conference on Genetic and evolutionary computation, 2013.
[8] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al., “Human-level control through deep reinforcement learning,” Nature, 2015.
[9] David Silver, Aja Huang, Chris Maddison, et al., “Mastering the game of Go with deep neural networks and tree search,” Nature, 2016.
[10] Sergey Levine, Peter Pastor, Alex Krizhevsky, and Deirdre Quillen, “Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection,”
arXiv preprint arXiv:1603.02199, 2016.
[11] Brian L Stevens, Frank L Lewis and Eric N Johnson, “Aircraft Control and Simulation: Dynamics, Controls Design, and Autonomous Systems,” John Wiley & Sons, 2015.
[12] Eric R Westervelt, Jessy W Grizzle, Christine Chevallereau, et al., “Feedback control of dynamic bipedal robot locomotion,” CRC press, 2007.
[13] HJ Kim, Michael I Jordan, Shankar Sastry, Andrew Y Ng, “Autonomous helicopter flight via reinforcement learning,” Advances in neural information processing systems, 2003.
[14] Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, et al., “Action-conditional video prediction using deep networks in atari games,” Advances in Neural Information Processing Systems, 2015.
[15] Manuel Watter, Jost Springenberg, Joschka Boedecker and Martin Riedmiller, “Embed to control: A locally linear latent dynamics model for control from raw images,” Advances in Neural Information Processing Systems, 2015.
[16] Jurgen Schmidhuber, “On learning to think: Algorithmic information theory for novel com- binations of reinforcement learning controllers and recurrent neural world models,” arXiv preprint arXiv:1511.09249, 2015.
[17] Michael Mathieu, Camille Couprie and Yann LeCun, “Deep multi-scale video prediction beyond mean square error,” arXiv preprint arXiv:1511.05440, 2015.7
[18] Ramon van Handel, “Probability in high dimension,” DTIC Document, 2014.
[19] Eder Santana, Matthew Emigh and Jose C Principe, “Information Theoretic-Learning Autoencoder,” arXiv preprint arXiv:1603.06653, 2016.
[20] Eder Santana, Matthew Emigh and Jose C Principe, “Exploiting Spatio-Temporal Dynamics for Deep Predictive Coding,” Under Review, 2016.
[21] Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly and Ian Goodfellow, “Adversarial Autoencoders”, arXiv preprint arXiv:1511.05644, 2015.
[22] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, et al., “Generative adversarial nets,” Advances in Neural Information Processing Systems, 2014.
[23] Jeff Donahue, Philipp Krahenb ¨ uhl and Trevor Darrell, “Adversarial Feature Learning,” ¨ arXiv preprint arXiv:1605.09782, 2016.
[24] Alex Lamb, Vincent Dumoulin Vincent and Aaron Courville, “Discriminative Regularization for Generative Models,” arXiv preprint arXiv:1602.03220, 2016.
[25] Anders Boesen Lindbo Larsen, S?ren Kaae S?nderby, Hugo Larochelle and Ole Winther, “Autoencoding beyond pixels using a learned similarity metric,” arXiv preprint arXiv:1512.09300, 2015.
[26] Jose C Principe, Neil R Euliano, W Cur Lefebvre, “Neural and adaptive systems: fundamentals through simulations with CD-ROM” John Wiley

雷鋒網(wǎng)注：轉(zhuǎn)載請聯(lián)系授權(quán)，并保留出處和作者，不得刪減內(nèi)容。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

相關(guān)文章

末離Dennis

專欄作者

出身IT，目前專注于車聯(lián)網(wǎng)、自動駕駛及整車網(wǎng)絡(luò)安全等汽車電子領(lǐng)域的研究。公眾號：末離說（iov_dennischen）

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章