Paper 研習(xí)社每日精選論文推薦 12.25

本文作者： AI研習(xí)社

2019-12-25 17:06

導(dǎo)語：?Hi 歡迎來到Paper 研習(xí)社每日精選欄目，Paper 研習(xí)社（paper.yanxishe.com）每天都為你精選關(guān)于人工智能的前沿學(xué)術(shù)論文供你參考。

Hi 歡迎來到Paper 研習(xí)社每日精選欄目，Paper 研習(xí)社（paper.yanxishe.com）每天都為你精選關(guān)于人工智能的前沿學(xué)術(shù)論文供你參考，以下是今日的精選內(nèi)容——

Deep Interest Evolution Network for Click--‐Through Rate Prediction
Scene Text Recognition from Two--‐Dimensional Perspective
ColosseumRL: A Framework for Multiagent Reinforcement Learning in N-Player Games
edBB: Biometrics and Behavior for Assessing Remote Education
3D Volumetric Modeling with Introspective Neural Networks
Trainable Undersampling for Class--‐Imbalance Learning
Deep Audio Prior
CNN-generated images are surprisingly easy to spot... for now
UWGAN: Underwater GAN for Real-world Underwater Color Restoration and Dehazing
Learning Singing From Speech

深度興趣演化網(wǎng)絡(luò)用于點擊率預(yù)測

Deep Interest Evolution Network for Click--‐Through Rate Prediction

作者：Guorui Zhou / Na Mou / Ying Fan / Qi Pi / Weijie Bian / Chang Zhou / Xiaoqiang Zhu / Kun Gai

發(fā)表時間：2018/12/12

論文鏈接：https://paper.yanxishe.com/review/7813?from=leiphonecolumn1225

推薦理由：一.解決問題：旨在估計用戶點擊概率的點擊率（CTR）預(yù)測已成為廣告系統(tǒng)的核心任務(wù)之一。對于CTR預(yù)測模型，有必要捕獲用戶行為數(shù)據(jù)背后的潛在用戶興趣。此外，考慮到外部環(huán)境和內(nèi)部認(rèn)知的變化，用戶興趣會隨著時間動態(tài)變化。有多種用于興趣建模的CTR預(yù)測方法，其中大多數(shù)將行為的表示直接視為興趣，而缺乏針對具體行為背后的潛在興趣的專門建模。而且，很少有工作考慮利益的變化趨勢。

二. 創(chuàng)新點在本文中，我們提出了一種新穎的模型，稱為深度興趣演化網(wǎng)絡(luò)（DIEN），用于CTR預(yù)測。具體來說，我們設(shè)計興趣提取器層以從歷史行為序列中捕獲時間興趣。在這一層，我們引入了輔助損失，以監(jiān)督每一步的利息提取。由于用戶興趣的多樣性，尤其是在電子商務(wù)系統(tǒng)中，我們提出了興趣演變層來捕獲相對于目標(biāo)商品的興趣演變過程。在興趣演化層，注意力機制被新穎地嵌入到順序結(jié)構(gòu)中，并且在興趣演化過程中增強了相對興趣的影響。在針對公共和工業(yè)數(shù)據(jù)集的實驗中，DIEN的性能明顯優(yōu)于最新的解決方案。值得注意的是，DIEN已部署到淘寶的展示廣告系統(tǒng)中，其點擊率提高了20.7％。

二維視角的場景文本識別

Scene Text Recognition from Two--‐Dimensional Perspective

作者：Minghui Liao / Jian Zhang

發(fā)表時間：2018/12/20

論文鏈接：https://paper.yanxishe.com/review/7814?from=leiphonecolumn1225

推薦理由：受語音識別的啟發(fā)，最近的最新算法大多將場景文本識別視為序列預(yù)測問題。盡管獲得了優(yōu)異的性能，但是這些方法通常忽略了一個重要事實，即圖像中的文本實際上分布在二維空間中。它與語音本質(zhì)上是完全不同的，語音本質(zhì)上是一維信號。原則上，直接將文本特征壓縮為一維形式可能會丟失有用的信息并引入額外的噪音。在本文中，我們從二維角度處理場景文本識別。設(shè)計了一個簡單但有效的模型，稱為字符注意完全卷積網(wǎng)絡(luò)（CA-FCN），用于識別任意形狀的文本。場景文本識別是通過語義分割網(wǎng)絡(luò)實現(xiàn)的，其中采用了字符的關(guān)注機制。結(jié)合詞形成模塊，CA-FCN可以同時識別腳本并預(yù)測每個字符的位置。實驗表明，該算法在常規(guī)和非常規(guī)文本數(shù)據(jù)集上均優(yōu)于先前的方法。此外，事實證明，在文本檢測階段中精確定位的不精確性更為強大，這在實踐中非常普遍。

ColosseumRL：N個玩家游戲中多智能體強化學(xué)習(xí)的框架

ColosseumRL: A Framework for Multiagent Reinforcement Learning in N-Player Games

作者：Shmakov Alexander /Lanier John /McAleer Stephen /Achar Rohan /Lopes Cristina /Baldi Pierre

發(fā)表時間：2019/12/10

論文鏈接：https://paper.yanxishe.com/review/7827?from=leiphonecolumn1225

推薦理由：在多智能體強化學(xué)習(xí)中，最近的許多成功都發(fā)生在兩人零和游戲中。在這些游戲中，虛擬自我玩法和最小極大樹搜索等算法可以收斂到近似Nash平衡。雖然在兩人零和游戲中玩納什均衡策略是最佳的，但在n人一般和游戲中，它變成了信息量少得多的解決方案概念。盡管缺少令人滿意的解決方案概念，但在現(xiàn)實世界中，n玩家游戲構(gòu)成了絕大多數(shù)的多代理情況。在本文中，我們提出了一個用于研究n玩家游戲中強化學(xué)習(xí)的新框架。我們希望通過分析代理在這些環(huán)境中學(xué)到的行為，社區(qū)可以更好地理解這一重要的研究領(lǐng)域，并朝著有意義的解決方案概念和研究方向發(fā)展。有關(guān)此框架的實現(xiàn)和其他信息，請參見https://colosseumrl.igb.uci.edu/。

edBB：評估遠(yuǎn)程教育的生物識別和行為

edBB: Biometrics and Behavior for Assessing Remote Education

作者：Hernandez-Ortega Javier /Daza Roberto /Morales Aythami /Fierrez Julian /Ortega-Garcia Javier

發(fā)表時間：2019/12/10

論文鏈接：https://paper.yanxishe.com/review/7828?from=leiphonecolumn1225

推薦理由：我們提供了一個用于遠(yuǎn)程教育中學(xué)生監(jiān)控的平臺，該平臺由捕獲生物特征和行為數(shù)據(jù)的傳感器和軟件組成。我們定義了一組任務(wù)來獲取行為數(shù)據(jù)，這些數(shù)據(jù)對于應(yīng)對遠(yuǎn)程評估過程中自動學(xué)生監(jiān)控中的現(xiàn)有挑戰(zhàn)很有用。此外，我們發(fā)布了一個初始數(shù)據(jù)庫，其中包含來自20個不同用戶的數(shù)據(jù)，這些用戶使用一組基本傳感器來完成這些任務(wù)：攝像頭，麥克風(fēng)，鼠標(biāo)和鍵盤；以及更先進(jìn)的傳感器：NIR相機，智能手表，其他RGB相機和EEG頻段。來自計算機的信息（例如系統(tǒng)日志，MAC，IP或Web瀏覽歷史記錄）也將被存儲。在每個獲取會話期間，每個用戶完成三種不同類型的任務(wù)，生成不同性質(zhì)的數(shù)據(jù)：鼠標(biāo)和擊鍵動態(tài)，面部數(shù)據(jù)和音頻數(shù)據(jù)等。設(shè)計任務(wù)時要牢記兩個主要目標(biāo)：i）分析此類生物統(tǒng)計和行為數(shù)據(jù)的能力以在遠(yuǎn)程評估期間檢測異常，并且ii）研究這些數(shù)據(jù)的能力，例如腦電圖，心電圖或近紅外視頻估計有關(guān)用戶的其他信息，例如他們的注意力水平，壓力的存在或他們的脈搏率。

從零-學(xué)習(xí)到冷啟動推薦

3D Volumetric Modeling with Introspective Neural Networks

作者：Jingjing Li / Mengmeng Jing / Ke Lu / Lei Zhu / Yang Yang / Zi Huang

發(fā)表時間：2018/12/20

論文鏈接：https://paper.yanxishe.com/review/7829?from=leiphonecolumn1225

推薦理由：零樣本學(xué)習(xí)（ZSL）和冷啟動推薦（CSR）分別是計算機視覺和推薦系統(tǒng)中的兩個難題。通常，在不同社區(qū)中對它們進(jìn)行獨立調(diào)查。但是，本文揭示了ZSL和CSR是相同意圖的兩個擴展。例如，它們都試圖預(yù)測看不見的類，并涉及兩個空間，一個空間用于直接特征表示，另一個空間用于補充描述。但是，沒有從ZSL角度解決CSR的現(xiàn)有方法。

這項工作首次將CSR公式化為ZSL問題，并提出了量身定制的ZSL方法來處理CSR。具體來說，我們提出了一種低階線性自動編碼器（LLAE），它在本文中挑戰(zhàn)了三個關(guān)鍵點，即域移位，偽相關(guān)和計算效率。LLAE由兩部分組成，低級編碼器將用戶行為映射為用戶屬性，對稱解碼器根據(jù)用戶屬性重建用戶行為。在ZSL和CSR任務(wù)上進(jìn)行的大量實驗證明了該方法是雙贏的，即，不僅ZSL模型可以處理CSR，而且與幾種傳統(tǒng)的最新方法相比，其性能也得到了顯著改善。CSR的考慮也可以使ZSL受益。

可訓(xùn)練的欠采樣，用于類別不平衡學(xué)習(xí)

Trainable Undersampling for Class--‐Imbalance Learning

作者：Minlong Peng1 / Qi Zhang1 / Xiaoyu Xing1 / Tao Gui1 / Xuanjing Huang1 Yu-Gang Jiang1

發(fā)表時間：2018/12/20

論文鏈接：https://paper.yanxishe.com/review/7830?from=leiphonecolumn1225

推薦理由：

一解決問題

欠采樣已廣泛應(yīng)用于班級不平衡學(xué)習(xí)領(lǐng)域。大多數(shù)現(xiàn)有欠采樣方法的主要缺陷是它們的數(shù)據(jù)采樣策略是基于啟發(fā)式的，并且與所使用的分類和評估指標(biāo)無關(guān)。因此，他們可能會在數(shù)據(jù)采樣過程中為分類器丟棄翔實的實例

二創(chuàng)新點

在這項工作中，我們提出了一種基于欠采樣的元學(xué)習(xí)方法來解決此問題。該方法的關(guān)鍵思想是對數(shù)據(jù)采樣器進(jìn)行參數(shù)設(shè)置，并對其進(jìn)行訓(xùn)練，以優(yōu)化評估指標(biāo)上的分類性能。我們通過強化學(xué)習(xí)解決了用于訓(xùn)練數(shù)據(jù)采樣器的不可微優(yōu)化問題。通過將評估指標(biāo)優(yōu)化合并到數(shù)據(jù)采樣過程中，所提出的方法可以了解對于給定的分類和評估指標(biāo)應(yīng)丟棄哪個實例。另外，作為數(shù)據(jù)級別的操作，此方法可以輕松地應(yīng)用于任意評估指標(biāo)和分類，包括非參數(shù)評估指標(biāo)和分類（例如C4.5和KNN）。

深度音頻優(yōu)先

Deep Audio Prior

作者：Tian Yapeng /Xu Chenliang /Li Dingzeyu

發(fā)表時間：2019/12/21

論文鏈接：https://paper.yanxishe.com/review/7831?from=leiphonecolumn1225

推薦理由：眾所周知，深度卷積神經(jīng)網(wǎng)絡(luò)擅長從大量數(shù)據(jù)中提取緊湊而強大的數(shù)據(jù)。我們有興趣在沒有訓(xùn)練數(shù)據(jù)集的情況下應(yīng)用深度網(wǎng)絡(luò)。

在本文中，作者介紹了深音頻先驗（DAP），它利用了網(wǎng)絡(luò)的結(jié)構(gòu)和單個音頻文件中的時間信息。具體而言，作者證明了在解決具有挑戰(zhàn)性的音頻問題（例如通用盲源分離，交互式音頻編輯，音頻紋理合成和音頻共分離）之前，可以將隨機初始化的神經(jīng)網(wǎng)絡(luò)與經(jīng)過精心設(shè)計的音頻一起使用。為了了解先驗音頻的魯棒性，作者構(gòu)建了一個基準(zhǔn)數(shù)據(jù)集\ emph {Universal-150}，用于使用各種聲源進(jìn)行通用聲源分離。在定性和定量評估方面，其顯示出比以前的作品更好的音頻結(jié)果。作者還將進(jìn)行徹底的消融研究，以驗證我們的設(shè)計選擇。

CNN生成的圖像現(xiàn)在非常容易發(fā)現(xiàn)...

CNN-generated images are surprisingly easy to spot... for now

作者：Wang Sheng-Yu /Wang Oliver /Zhang Richard /Owens Andrew /Efros Alexei A.

發(fā)表時間：2019/12/23

論文鏈接：https://paper.yanxishe.com/review/7834?from=leiphonecolumn1225

推薦理由：在這項工作中，作者詢問是否有可能創(chuàng)建一個“通用”檢測器，以區(qū)分CNN生成的真實圖像，而與所使用的體系結(jié)構(gòu)或數(shù)據(jù)集無關(guān)。

為了測試這一點，作者收集了一個由11種不同的基于CNN的圖像生成器模型生成的偽圖像組成的數(shù)據(jù)集，這些模型被選擇來跨越當(dāng)今常用架構(gòu)的空間（ProGAN，StyleGAN，BigGAN，CycleGAN，StarGAN，GauGAN，DeepFakes，級聯(lián)精煉）網(wǎng)絡(luò)，隱式最大似然估計，二階注意力超分辨率，黑暗中看到）。

作者證明，經(jīng)過精心的預(yù)處理和后處理以及數(shù)據(jù)增強，僅在一個特定的CNN生成器（ProGAN）上進(jìn)行訓(xùn)練的標(biāo)準(zhǔn)圖像分類器就可以令人驚奇地將其很好地推廣到看不見的架構(gòu)，數(shù)據(jù)集和訓(xùn)練方法（包括剛剛發(fā)布的StyleGAN2）。我們的發(fā)現(xiàn)表明，當(dāng)今的CNN生成的圖像存在一些常見的系統(tǒng)缺陷，從而阻止了它們實現(xiàn)逼真的圖像合成，這是一種令人著迷的可能性。

UWGAN：水下GAN，用于真實世界的水下顏色恢復(fù)和去霧

UWGAN: Underwater GAN for Real-world Underwater Color Restoration and Dehazing

作者：Wang Nan /Zhou Yabin /Han Fenglei /Zhu Haitao /Zheng Yaojing

發(fā)表時間：2019/12/21

論文鏈接：https://paper.yanxishe.com/review/7835?from=leiphonecolumn1225

推薦理由：在現(xiàn)實世界的水下環(huán)境中，海底資源的勘探，水下考古學(xué)和水下捕魚都依賴于各種傳感器，視覺傳感器由于其信息量高，非侵入性和被動性而成為最重要的傳感器。但是，與波長有關(guān)的光衰減和反向散射會導(dǎo)致顏色失真和霧度效應(yīng)，從而降低圖像的可見性。

為了解決這個問題，首先，作者提出了一種無監(jiān)督的生成對抗網(wǎng)絡(luò)（GAN），用于基于改進(jìn)的水下成像模型從空中圖像和深度圖對生成逼真的水下圖像（顏色失真和霧度效果）。其次，采用合成水下數(shù)據(jù)集進(jìn)行有效訓(xùn)練的U-Net，用于色彩還原和除霧。作者的模型使用端到端自動編碼器網(wǎng)絡(luò)直接重建水下清晰圖像，同時保持場景內(nèi)容結(jié)構(gòu)的相似性。

通過作者的方法獲得的結(jié)果定性和定量地與現(xiàn)有方法進(jìn)行了比較。通過該模型獲得的實驗結(jié)果證明了在開放的現(xiàn)實世界水下數(shù)據(jù)集上的良好性能，并且在一個NVIDIA 1060 GPU上運行時，處理速度可以達(dá)到125FPS。源代碼和示例數(shù)據(jù)集可通過此https URL公開獲得。

通過語音學(xué)習(xí)唱歌

Learning Singing From Speech

作者：Zhang Liqiang /Yu Chengzhu /Lu Heng /Weng Chao /Wu Yusong /Xie Xiang /Li Zijin /Yu Dong

發(fā)表時間：2019/12/20

論文鏈接：https://paper.yanxishe.com/review/7836?from=leiphonecolumn1225

推薦理由：作者提出了一種算法，該算法能夠在僅給出正常語音樣本的情況下合成高質(zhì)量目標(biāo)說話者的歌聲。提出的算法首先將語音和歌唱合成整合到一個統(tǒng)一的框架中，并學(xué)習(xí)語音和歌唱合成任務(wù)之間可共享的通用說話人嵌入。具體而言，在統(tǒng)一的訓(xùn)練框架中，將通過語音合成目標(biāo)從正常語音中學(xué)到的說話者嵌入與通過語音合成目標(biāo)從演唱樣本中學(xué)習(xí)的說話者共享。這使得有經(jīng)驗的演講者可以嵌入可口述的演講和演唱形式。

作者評估了所提出算法在歌唱語音轉(zhuǎn)換任務(wù)上的效果，該算法的原始歌唱內(nèi)容被純粹從正常說話樣本中獲悉的另一位演講者的聲音音色所覆蓋。作者的實驗表明，所提出的算法會產(chǎn)生高質(zhì)量的歌聲，聽起來僅與目標(biāo)說話者的語音（僅給出正常語音樣本）高度相似。作者相信，提出的算法將為更廣泛的用戶和應(yīng)用打開唱歌合成和轉(zhuǎn)換的新機會。