0
本文作者: 溫曉樺 | 2017-08-10 14:31 |
雷鋒網(wǎng)AI科技評論報道,2017年計算機視覺領域頂級學術會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition)剛剛結束,今年CVPR上,一共783篇論文被收錄,錄取率29%,口頭報告錄取率僅2.65%。作為國內(nèi)著名的人工智能研究機構,騰訊AI Lab(騰訊人工智能實驗室)共有六篇論文入選CVPR。它們是:
論文一:Real Time Neural Style Transfer for Videos
本文用深度前向卷積神經(jīng)網(wǎng)絡探索視頻藝術風格的快速遷移,提出了一種全新兩幀協(xié)同訓練機制,能保持視頻時域一致性并消除閃爍跳動瑕疵,確保視頻風格遷移實時、高質(zhì)、高效完成。
論文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images
論文首次提出一種全尺寸、無標注、基于病理圖片的病人生存有效預測方法WSISA,在肺癌和腦癌兩類癌癥的三個不同數(shù)據(jù)庫上性能均超出基于小塊圖像方法,有力支持大數(shù)據(jù)時代的精準個性化醫(yī)療。
論文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
針對圖像描述生成任務,SCA-CNN基于卷積網(wǎng)絡的多層特征來動態(tài)生成文本描述,進而建模文本生成過程中空間及通道上的注意力模型。
論文四:Deep Self-Taught Learning for Weakly Supervised Object Localization
本文提出依靠檢測器自身不斷改進訓練樣本質(zhì)量,不斷增強檢測器性能的一種全新方法,破解弱監(jiān)督目標檢測問題中訓練樣本質(zhì)量低的瓶頸。
論文五:Diverse Image Annotation
本文提出了一種新的自動圖像標注目標,即用少量多樣性標簽表達盡量多的圖像信息,該目標充分利用標簽之間的語義關系,使得自動標注結果與人類標注更加接近。
論文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images
基于曼哈頓結構與對稱信息,文中提出了單張圖像三維重建及多張圖像Structure from Motion三維重建的新方法。
騰訊AI Lab于2016年4月正式成立,主要圍繞圖像識別、語音識別、自然語言處理和機器學習4個方向進行研究。在今年3月第10屆UEC杯世界計算機圍棋賽決賽中,騰訊 AI Lab研發(fā)的圍棋人工智能程序“絕藝”(Fine Art)擊敗日本開發(fā)的“DeepZenGo”,以11戰(zhàn)全勝的戰(zhàn)績奪冠,就瀟灑地展示了實驗室的算法實力。
騰訊副總裁姚星曾表示,和集團其他更多針對于產(chǎn)品應用而展開研究的團隊不同,騰訊AI Lab 的目標是增強騰訊的人工智能原創(chuàng)性、基礎性研究。從上述入選論文主題也可以看出,研究主題更多體現(xiàn)為方法論的突破。其中,雷鋒網(wǎng)此前報道《深度學習集體瓶頸,產(chǎn)業(yè)化加速時代CV研究出路在哪里?| CVPR 2017》指出,「Diverse Image Annotation」用少量多樣性標簽表達盡量多的圖像信息,以及「Deep Self-Taught Learning for Weakly Supervised Object Localization」討論的弱監(jiān)督學習等作品,體現(xiàn)了當前CV研究遭遇瓶頸而又晨光微啟的時代中一個創(chuàng)新突破的方向。
那么,這些論文成果背后的想法,以及騰訊AI Lab對未來CV未來研究創(chuàng)新的判斷是怎樣的呢?CVPR 2017期間,雷鋒網(wǎng)AI科技評論與AI Lab 計算機視覺中心總監(jiān)劉威博士進行了交流,以下是對話實錄(有刪減):
劉威:我參加CVPR有超過10年歷史,最早一次是2005年。
劉威:在本屆CVPR里,錄取論文涉及的領域占比最高的五類是:計算機視覺中的機器學習(24%)、物體識別和場景理解(22%)、3D視覺(13%)、低級和中級視覺(12%)、分析圖像中的人類(11%)。
從我們研究方向和興趣出發(fā),團隊也非常關注其中的五個前沿領域:低中層視覺、圖像描述生成、3D視覺、計算機視覺與機器學習、弱監(jiān)督下的圖像識別等。
劉威:團隊在本屆CVPR上有六篇文章被錄取,雖然數(shù)量不多,但我對質(zhì)量還算滿意。這篇論文所研究的實時視頻濾鏡技術,已在騰訊QQ手機版上線,實現(xiàn)基礎研究到應用的迅速轉(zhuǎn)化,形成了一個較好的閉環(huán),與我們“學術有影響,工業(yè)有產(chǎn)出”的研究目標相契合。
劉威:該研究成果表明在訓練時加入對視頻時域一致性的考慮,能夠約束前向神經(jīng)網(wǎng)絡生成時域一致的編輯結果。
在過去很長一段時間內(nèi),業(yè)界流行的圖像濾鏡通常只是對全局顏色屬性的調(diào)整,比如亮度、色相、飽和度等。在2016年的CVPR,Gatys等人首創(chuàng)性地提出將深度神經(jīng)網(wǎng)絡應用于圖像的藝術風格遷移,使得輸入圖像能夠模仿如梵高的星空、莫奈的日出印象等任何類型的藝術風格,效果驚艷。
Gatys等人工作雖然取得了非常好的效果,但是缺點是基于優(yōu)化,非常耗時;到2016 ECCV時,Johnson等人提出了使用深度前向神經(jīng)網(wǎng)絡替代優(yōu)化過程,實現(xiàn)了實時的圖像風格遷移,修圖工具Prisma隨之風靡一時。但直接將圖像風格遷移的方法應用到視頻上,卻會使得原本連貫的視頻內(nèi)容在不同幀中轉(zhuǎn)化為不一致的風格,造成視頻的閃爍跳動,嚴重影響觀感體驗。為了解決閃爍問題,Ruder等人加入了對時域一致性的考慮,提出了一種基于優(yōu)化的視頻藝術濾鏡方法,但速度極慢遠遠達不到實時。
騰訊AI Lab使用深度前向卷積神經(jīng)網(wǎng)絡,探索視頻藝術風格快速遷移的可能,提出了一種全新的兩幀協(xié)同訓練機制,保持了視頻時域一致性,消除了閃爍跳動瑕疵,同時保證視頻風格遷移能夠?qū)崟r完成,兼顧了視頻風格轉(zhuǎn)換的高質(zhì)量與高效率。
類似的方法也有望能夠助力其他圖像編輯方法向視頻推廣。
劉威:在基礎和前沿研究方向上,CV團隊目前聚焦中高層視覺,尤其視頻等可視結構數(shù)據(jù)的深度理解,同時也在重要的交叉領域發(fā)力,如視覺+NLP、視覺+信息檢索等。
正在進行或計劃中的研究項目兼具了挑戰(zhàn)性和趣味性,包括超大規(guī)模圖像分類、視頻編輯與生成、時序數(shù)據(jù)建模和增強現(xiàn)實,這些項目吸引了哥倫比亞和清華等海內(nèi)外知名大學的優(yōu)秀實習生參與。
雷鋒網(wǎng):實際應用中,似乎很多時候?qū)D像的處理不只是視覺問題,更多可能是涉及NLP的方法,對于這些交叉的現(xiàn)象,能否結合實際應用來談談您的看法?
劉威:現(xiàn)在互聯(lián)網(wǎng)上的數(shù)據(jù)很多都是視覺與文本信號共同出現(xiàn),譬如騰訊視頻,不僅有視頻信息,還有音頻信息,還有相應的字幕、評論和彈幕等信息——如何挖掘或者學習它們之間的相關性也是業(yè)界的研究熱點。近年來計算機視覺+NLP相結合,出現(xiàn)了很多熱點的研究問題,譬如圖像文本匹配、圖像描述生成、圖像問答等。
今年的CVPR的其中一個keynote也是邀請了NLP領域斯坦福大學的知名教授Dan Jurafsky,討論了language方面的研究進展。因此,多個交叉領域的研究,更能推動研究成果在實際業(yè)務場景中的應用。
劉威:我認為這在研究的實用價值上實現(xiàn)了一定突破。以第一篇文章為例,它描述的是從較少的、質(zhì)量低下的數(shù)據(jù)中進行的模型學習。模型在不斷學習后,性能增強,從而能自主地選擇更多數(shù)據(jù)、并選取其中質(zhì)量更高的進行模型訓練,提升模型性能,從而實現(xiàn)模型的自主學習。
這種依靠模型自身達到數(shù)據(jù)從少到多,從差到好的自主獲取過程,在如今海量數(shù)據(jù)且質(zhì)量良莠不齊的情況下更具有實用指導價值。
劉威:2012年深度學習技術的興起,讓計算機視覺自此有了長足發(fā)展。除了物體檢測與識別這類經(jīng)典的中層視覺問題,在圖像去噪、去模糊、超分辨率和語義分割等低層視覺問題解決上也有了很大的飛躍。
從最近兩屆 CVPR 廣受關注的論文來看,未來CV領域的研究除了會繼續(xù)提升經(jīng)典視覺問題的算法性能,伴隨著新數(shù)據(jù)集設計及細分研究領域上的新挑戰(zhàn),一些有趣且有挑戰(zhàn)的研究問題也將會受到更大關注。我個人認為,視覺+NLP的交叉將持續(xù)升溫,視頻分析理解(包括視頻分類、視頻物體分割等)的研究將再上一個臺階。
AI慕課學院近期推出了《NLP工程師入門實踐班:基于深度學習的自然語言處理》課程!
三大模塊,五大應用,海外博士講師手把手教你入門NLP,更有豐富項目經(jīng)驗相授;算法+實踐,搭配典型行業(yè)應用;隨到隨學,專業(yè)社群,講師在線答疑!
課程地址:http://www.mooc.ai/course/427
加入AI慕課學院人工智能學習交流QQ群:624413030,與AI同行一起交流成長
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。