0
本文作者: AI研習社 | 2020-04-01 11:19 |
用于場景文本識別的高效骨干搜索
學習擴充:用于文本識別的聯(lián)合數(shù)據(jù)增強和網(wǎng)絡(luò)優(yōu)化
KPNet:最小人臉檢測器
DEPARA:深度知識可遷移性的深度屬性圖
用于任意形狀文本檢測的深度關(guān)系推理圖網(wǎng)絡(luò)
論文名稱:Efficient Backbone Search for Scene Text Recognition
作者:Zhang Hui /Yao Quanming /Yang Mingkun /Xu Yongchao /Bai Xiang
發(fā)表時間:2020/3/14
論文鏈接:https://paper.yanxishe.com/review/14658?from=leiphonecolumn_paperreview0401
推薦原因
這篇論文要解決的是場景文本識別(Scene Text Recognition, STR)的問題。過去的研究更加重視通過改進預(yù)處理圖像模塊來提高性能,比如校正和去模糊,或者序列轉(zhuǎn)換器。然而,另一個關(guān)鍵模塊,即特征序列提取器,還沒有得到廣泛的研究。這篇論文提出了一個自動化場景文本識別(AutoSTR)方法來搜索依賴于數(shù)據(jù)的主干模型,以提高文本識別性能。首先,新方法為STR設(shè)計了一個特定于域的搜索空間,其中包含了各種運算的選擇和下采樣路徑的約束。然后,新方法使用了一個兩步搜索算法,它解耦了操作和下采樣路徑,可以在給定的空間中進行有效的搜索。實驗表明,通過搜索依賴于數(shù)據(jù)的主干,AutoSTR可以在更少錯誤和模型參數(shù)的情況下,在標準基準數(shù)據(jù)集上超越最先進的方法。
論文名稱:Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition
作者:Luo Canjie /Zhu Yuanzhi /Jin Lianwen /Wang Yongpan
發(fā)表時間:2020/3/14
論文鏈接:https://paper.yanxishe.com/review/14657?from=leiphonecolumn_paperreview0401
推薦原因
這篇論文被CVPR 2020接收,要解決的是文本識別問題。
這篇論文提出了一種新的文本圖像數(shù)據(jù)增強方法。與傳統(tǒng)增強方法(例如旋轉(zhuǎn)、縮放和透視變換)不同,新方法旨在掌握適當而高效的數(shù)據(jù)增強方法,對于訓練健壯的識別器更有效而具體。新方法通過使用一組自定義基準點變得靈活而可控,并通過聯(lián)合學習彌合了孤立數(shù)據(jù)增強過程與網(wǎng)絡(luò)優(yōu)化之間的鴻溝。代理網(wǎng)絡(luò)從識別網(wǎng)絡(luò)的輸出中學習并控制基準點,從而為識別網(wǎng)絡(luò)生成更合適的訓練樣本。在包括常規(guī)場景文本、不規(guī)則場景文本、手寫文本在內(nèi)的各種基準上進行的大量實驗表明,這篇論文提出的增強方法和聯(lián)合學習策略顯著提高了識別網(wǎng)絡(luò)的性能。
論文名稱:KPNet: Towards Minimal Face Detector
作者:Song Guanglu /Liu Yu /Zang Yuhang /Wang Xiaogang /Leng Biao /Yuan Qingsheng
發(fā)表時間:2020/3/17
論文鏈接:https://paper.yanxishe.com/review/14656?from=leiphonecolumn_paperreview0401
推薦原因
這篇論文發(fā)表于AAAI 2020,考慮的是人臉檢測的問題。
這篇論文發(fā)現(xiàn)臉部外觀特征具有足夠的判別力,用微型淺層神經(jīng)網(wǎng)絡(luò)也可以從背景中進行檢測。與大多數(shù)自上而下聯(lián)合面部檢測和對齊方法不同,所提KPNet以自下而上的方式檢測較小的面部關(guān)鍵點,而非整個面部。KPNet首先通過精心設(shè)計的細粒度比例逼近和比例自適應(yīng)Soft-argmax運算符從低分辨率圖像預(yù)測面部界標。無需任何復(fù)雜的頭部架構(gòu)或精心的網(wǎng)絡(luò)設(shè)計,KPNet只需約1M參數(shù)即可實現(xiàn)通用人臉檢測和對齊基準的當前最佳準確率,在GPU上的運行速度為1000fps,且易于在大多數(shù)前端芯片上實時執(zhí)行。
論文名稱:DEPARA: Deep Attribution Graph for Deep Knowledge Transferability
作者:Song Jie /Chen Yixin /Ye Jingwen /Wang Xinchao /Shen Chengchao /Mao Feng /Song Mingli
發(fā)表時間:2020/3/17
論文鏈接:https://paper.yanxishe.com/review/14655?from=leiphonecolumn_paperreview0401
推薦原因
這篇論文被CVPR 2020接收,提出了名為DEPARA的深度屬性圖模型,以研究從預(yù)訓練的深度神經(jīng)網(wǎng)絡(luò)(PRe-trained Deep Neural Networks,PR-DNN)中獲得的知識的可遷移性。在DEPARA中,節(jié)點對應(yīng)于輸入,并由它們在PR-DNN的輸出的向量化屬性圖表示。邊表示輸入之間的相關(guān)性,并通過從PR-DNN中提取的特征相似度來衡量。兩個PR-DNN的知識可遷移性是通過它們對應(yīng)的DEPARA的相似性來衡量的。這篇論文將DEPARA應(yīng)用于遷移學習中的預(yù)訓練模型選擇和層選擇問題,并通過大量實驗證明所提方法在解決這兩個問題上的有效性和優(yōu)越性。
論文名稱:Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection
作者:Zhang Shi-Xue /Zhu Xiaobin /Hou Jie-Bo /Liu Chang /Yang Chun /Wang Hongfa /Yin Xu-Cheng
發(fā)表時間:2020/3/17
論文鏈接:https://paper.yanxishe.com/review/14654?from=leiphonecolumn_paperreview0401
推薦原因
這篇論文已經(jīng)被CVPR 2020接收,要解決的是任意形狀的文本檢測。
這篇論文提出了一種用于任意形狀文本檢測的新統(tǒng)一關(guān)系推理圖網(wǎng)絡(luò)。在該方法中,局部圖通過卷積神經(jīng)網(wǎng)絡(luò)橋接了文本提議模型,并通過圖卷積網(wǎng)絡(luò)跨越深度關(guān)系推理網(wǎng)絡(luò),從而使所提網(wǎng)絡(luò)端到端可訓練。具體而言,每個文本實例將被分成一系列小的矩形組件,并且這些小組件的幾何屬性(如高度、寬度和方向)將由文本提案模型估算。給定幾何屬性,本地圖構(gòu)造模型可以大致建立不同文本組件之間的鏈接。為進一步推理并推論組件與其鄰居之間鏈接的可能性,這篇論文采用基于圖的網(wǎng)絡(luò)對局部圖執(zhí)行深度關(guān)系推理。公開數(shù)據(jù)集上的實驗證明了所提方法具有當前最佳性能。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
今日 Paper | RevealNet;時間序列預(yù)測;無監(jiān)督問答;實時語義立體匹配等
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。