1
本文作者: 宗仁 | 2016-07-03 18:31 |
過去一周,CVPR 2016向我們展示了其龐大的演講嘉賓,多樣的大會主題,豐富的圓桌會議以及全球化的CV贊助商,不管是從演講嘉賓上還是贊助商上,我們都看到了全球科技企業(yè)對于這次大會的重視程度,而大會上頻頻涌現(xiàn)的亮點(diǎn),更是讓參加這次大會的人覺得不枉此行。
下面我們先從黑科技這個亮點(diǎn)說起。
CVPR2016上,麻省理工學(xué)院計算機(jī)科學(xué)和人工智能實驗室(CSAIL)將發(fā)布一份關(guān)于可預(yù)測人類行為的算法的研究報告。通過給此算法導(dǎo)入近600小時的電視秀(其中包括《生活大爆炸》《絕望主婦》《辦公室》等劇集),來測試機(jī)器是否能準(zhǔn)確預(yù)測人類在各場景互動中的行為。此次實驗數(shù)據(jù)是人工智能“預(yù)測想象力”技術(shù)的顯著進(jìn)步。
真正的飛躍大概會在2021年到來,按我們的分級方法,那時候的自動駕駛等級大概會在Lv.4到Lv.5之間了,能實現(xiàn)真正的全自動駕駛。那時預(yù)計社會將會慢慢接受自動駕駛系統(tǒng)的存在,可能在一段時間內(nèi),還是會有司機(jī)坐在駕駛座上以防萬一算法出錯。而這時的自動駕駛系統(tǒng)可能主要在公共交通或出租車等方式、如Uber等之間流行,私家車司機(jī)還是會傾向于手動駕車出行。
Jitendra Malik為加州伯克利大學(xué)分校的教授,1985年畢業(yè)于美國斯坦福大學(xué),現(xiàn)任加州大學(xué)伯克利分校電子工程與計算機(jī)科學(xué)系的資深教授,曾于2004年~2006年任該系系主任。Jitendra Malik教授主要研究方向為計算機(jī)視覺和生理認(rèn)知建模,涉及圖像分割、視覺組織、紋理分析、立體視覺、物體識別、智能交通系統(tǒng)等廣泛內(nèi)容,在這些領(lǐng)域發(fā)表了超過150篇文章,其中有五篇文章引用率超過1000。Jitendra Malik教授已培養(yǎng)了26位博士生,其中不乏國際研究界和工業(yè)界的知名教授與專家。
深度學(xué)習(xí)有很多優(yōu)勢,但在視覺識別領(lǐng)域它能做的工作還不算太多,此次Piotr Dollar和Jitendra Malik在論壇上,主要討論,目前深度學(xué)習(xí)用于視覺識別領(lǐng)域優(yōu)點(diǎn)和缺點(diǎn),以及如何通過反饋和記憶網(wǎng)絡(luò),能讓前饋視覺架構(gòu)有所改善。
面部追蹤技術(shù)并不是什么新鮮的技術(shù),但是今年3月公布的Face2Face無疑徹底改變了它的意義。這項技術(shù)可以非常逼真的將一個人的面部表情、說話時面部肌肉的變化完美的實時復(fù)制到另一個視頻中的角色上。它由德國紐倫堡大學(xué)的科學(xué)家Justus Thies領(lǐng)銜完成,技術(shù)上來說,這不僅是第一個能實時進(jìn)行面部轉(zhuǎn)換的模型(以前的都有或多或少的延遲)。而且準(zhǔn)確率和真實度比以前那些模型高得多。最終效果看起來大概就是下面這個樣子:
……
摘要
在現(xiàn)有基礎(chǔ)下,想要進(jìn)一步訓(xùn)練更深層次的神經(jīng)網(wǎng)絡(luò)是非常困難的。我們提出了一種減輕網(wǎng)絡(luò)訓(xùn)練負(fù)擔(dān)的殘差學(xué)習(xí)框架,這種網(wǎng)絡(luò)比以前使用過的網(wǎng)絡(luò)本質(zhì)上層次更深。我們明確地將這層作為輸入層相關(guān)的學(xué)習(xí)殘差函數(shù),而不是學(xué)習(xí)未知的函數(shù)。同時,我們提供了全面實驗數(shù)據(jù),這些數(shù)據(jù)證明殘差網(wǎng)絡(luò)更容易優(yōu)化,并且可以從深度增加中大大提高精度。我們在ImageNet數(shù)據(jù)集用152 層--比VGG網(wǎng)絡(luò)深8倍的深度來評估殘差網(wǎng)絡(luò),但它仍具有較低的復(fù)雜度。在ImageNet測試集中,這些殘差網(wǎng)絡(luò)整體達(dá)到了3.57%的誤差。該結(jié)果在2015年大規(guī)模視覺識別挑戰(zhàn)賽分類任務(wù)中贏得了第一。此外,我們還用了100到1000層深度分析了的CIFAR-10。
對于大部分視覺識別任務(wù),深度表示是非常重要的。僅由于極深的表示,在COCO對象檢查數(shù)據(jù)時,我們就得到了近28%相關(guān)的改進(jìn)。深度剩余網(wǎng)絡(luò)是我們提交給ILSVRC和COCO2015競賽的基礎(chǔ),而且在ImageNet檢測任務(wù),ImageNet定位,COCO檢測和COCO分割等領(lǐng)域贏我們獲得了第一。
小結(jié):
相比其它的學(xué)術(shù)會議,CVPR的黑科技更多,獲獎?wù)撐母荜P(guān)注,領(lǐng)域大牛更加受矚目,參加的贊助商陣容更龐大,相信是因為計算機(jī)視覺和模式識別這個領(lǐng)域本身今年的大熱導(dǎo)致的,AI科技評論君也希望這個勢頭延續(xù)到下一個頂級國際人工智能聯(lián)合大會(IJCAI)學(xué)術(shù)會議中。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。