0
本文作者: 汪思穎 | 編輯:郭奕欣 | 2017-07-10 11:11 | 專題:GAIR 2017 |
7月9日,由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的CCF-GAIR 2017全球人工智能與機(jī)器人峰會(huì)進(jìn)入了第三天。在CV+專場(chǎng)首場(chǎng),微軟亞洲研究院資深研究員梅濤博士為大會(huì)帶來了題為《Video Content 3C: Creation, Curation, Consumption》的分享,即視頻的創(chuàng)造、處理和消費(fèi)。雷鋒網(wǎng)對(duì)梅濤博士的演講內(nèi)容梳理如下:
為什么要講視頻的內(nèi)容,梅濤博士提到如下幾點(diǎn)。
一,視頻跟圖像相比信息更豐富,處理起來也更富挑戰(zhàn)性;
二,大家近來看到比較多的是視覺領(lǐng)域比如人臉、安防方面的進(jìn)展,而視頻(尤其是短視頻)相對(duì)來說是比較嶄新的領(lǐng)域;
三,他本人從事視頻分析的研究和產(chǎn)品已經(jīng)十多年了,在這十幾年里,幾乎人人都說視頻是下一個(gè)風(fēng)口,今天看來這個(gè)說法似乎也是成立的。
在傳統(tǒng)的視覺理解的方法里,要做視覺問題基本上分三個(gè)步驟:
第一,理解一個(gè)物體,比如說識(shí)別一個(gè)桌子,首先要檢測(cè)一個(gè)關(guān)鍵點(diǎn)(比如角、邊、面等);
第二,人為設(shè)計(jì)一些特征來描述這些點(diǎn)的視覺屬性;
第三,采用一些分類器將這些人為設(shè)計(jì)的特征作為輸入進(jìn)行分類和識(shí)別。
“現(xiàn)在的深度學(xué)習(xí),尤其是在2012開始,圖像理解的錯(cuò)誤率在不斷降低,深度神經(jīng)網(wǎng)絡(luò)也從最早的8層到20多層,到現(xiàn)在能達(dá)到152層。我們最新的工作也表明,視頻理解的深度神經(jīng)網(wǎng)絡(luò)也可以從2015年3D CNN的11層做到現(xiàn)在的199層?!?/p>
梅濤博士也在演講中表示,視頻內(nèi)容的生命周期大致可以分為三個(gè)部分,即視頻的創(chuàng)作、處理和消費(fèi):
creation
要討論視頻的創(chuàng)作,這里面涉及到一個(gè)基本概念,那就是視頻的產(chǎn)生原理?!癡ideo的產(chǎn)生是先把Video切成一個(gè)一個(gè)的鏡頭,可以看成是一個(gè)一個(gè)斷碼,然后每一個(gè)鏡頭再組合編成一個(gè)故事或場(chǎng)景,每一個(gè)鏡頭還可以再細(xì)成子鏡頭,每個(gè)子鏡頭可以用一個(gè)關(guān)鍵幀來代表。通過這種分層式結(jié)構(gòu)可以把一段非線性的視頻流像切分文章一樣進(jìn)行結(jié)構(gòu)化,這種結(jié)構(gòu)化是后面做視頻處理和分析的基礎(chǔ)。通過這種結(jié)構(gòu)化將視頻分解成不同的單元,就可以做視頻的自動(dòng)摘要,即將一段長(zhǎng)視頻自動(dòng)剪輯為精彩的短視頻,或?qū)⒁欢伍L(zhǎng)視頻用一些具有高度視覺代表性的關(guān)鍵幀表示。這些摘要使得用戶對(duì)長(zhǎng)視頻的非線性快速瀏覽成為可能?!?/p>
梅濤博士表示,微軟目前將視頻摘要的技術(shù)用在了Bing的視頻搜索里,現(xiàn)在全世界有八百萬的Bing用戶通過一種叫multi-thumb的技術(shù),可以快速預(yù)覽每一個(gè)視頻搜索結(jié)果。
此外,微軟研究院研發(fā)的PIX是一個(gè)全新的相機(jī)app,它可以在你按下拍攝按鍵的同時(shí)就對(duì)拍攝的視頻進(jìn)行實(shí)時(shí)處理,可以將一段抖動(dòng)的視頻變得平穩(wěn),還可以自動(dòng)判斷視頻中靜止和動(dòng)態(tài)的像素,生成 loopy video animation。
curation
當(dāng)用戶有了視頻之后,研究者要做的事情是給視頻片段打上標(biāo)簽,這樣后面的搜索就可以基于標(biāo)簽搜到視頻的內(nèi)容里面去?!拔覀冏罱墓ぷ骺梢詫?duì)視頻內(nèi)容打上1000多個(gè)靜態(tài)標(biāo)簽和超過500個(gè)以上的動(dòng)作標(biāo)簽。我們?cè)O(shè)計(jì)的P3D(pseudo 3D resent)是專門為視頻內(nèi)容理解而精心設(shè)計(jì)的3D殘差網(wǎng)絡(luò)?!?/p>
做圖像分析目前最好的深度神經(jīng)網(wǎng)絡(luò)是微軟亞洲研究院在2015年提出的152層的殘差網(wǎng)絡(luò)(ResNet),目前最深可以做到1000層。但是在視頻領(lǐng)域,專門為視頻設(shè)計(jì)的最有效的3D CNN目前才11層。為了解決這一問題,梅濤博士表示,團(tuán)隊(duì)最近借用ResNet的思想,將3D CNN的層數(shù)做到了199,識(shí)別率能在UCF 101數(shù)據(jù)集上比之前的3D CNN提高6到7個(gè)百分點(diǎn)。這一對(duì)視頻進(jìn)行自動(dòng)標(biāo)簽的技術(shù),將會(huì)被使用在微軟的Azure云服務(wù)中。
實(shí)現(xiàn)了視頻自動(dòng)標(biāo)簽技術(shù)外,梅濤博士還闡述了團(tuán)隊(duì)“更進(jìn)一步”的研究工作:用一段連貫通順的自然語言,而不是孤立的單個(gè)標(biāo)簽,來描述一段視頻內(nèi)容。
“比如給定這段視頻,我們能不能生成一句話來描述這個(gè)Video?以前我們說這個(gè)Video是一個(gè)舞蹈,現(xiàn)在可以告訴你這是一群人在跳一段什么舞蹈,這個(gè)技術(shù)就叫Video Captioning。這個(gè)技術(shù)使得自動(dòng)生成視頻的標(biāo)題成為可能。”
微軟亞洲研究院目前把這個(gè)技術(shù)用在了聊天機(jī)器人的自動(dòng)評(píng)價(jià)功能里,例如微軟小冰,當(dāng)用戶上傳視頻給小冰,它會(huì)夸贊對(duì)方。在這個(gè)技術(shù)上線一個(gè)月后,小冰在某視頻網(wǎng)站上的粉絲數(shù)漲了60%。當(dāng)然,小冰現(xiàn)在還可以根據(jù)圖片內(nèi)容寫現(xiàn)代詩,將來我們希望小冰能夠根據(jù)視頻來寫詩。
“我們也可以將Video進(jìn)行編輯,加上濾鏡,或是做風(fēng)格的轉(zhuǎn)換,把自然的Video變得非??ㄍ?。Video中的人物分割出來可以放到另外一個(gè)虛擬的場(chǎng)景里面去。你可以想象,當(dāng)兩個(gè)人在異地談戀愛的時(shí)候,我們能夠給他一個(gè)房間,讓他們?cè)谕粋€(gè)房間里、在星空下、在安靜湖面上的一艘小船上進(jìn)行聊天。
另外,我們也可以提供storytelling的服務(wù),讓原始的、沒有經(jīng)過任何編輯和處理的image、video集合變成一段非常吸引人的、有一定設(shè)計(jì)感和視覺感的故事,這段視頻demo就是機(jī)器自動(dòng)產(chǎn)生的效果。加上人工的處理,視頻就可以變得更加時(shí)尚?!?/p>
consumption
視頻的消費(fèi)往往和廣告緊密相關(guān)。梅濤提到,做Video廣告有兩個(gè)問題需要解決:第一個(gè)問題是廣告到底放在Video的什么位置;第二個(gè)問題是選什么樣的廣告,這個(gè)廣告跟你插入點(diǎn)的信息是不是相關(guān),使得用戶接受度更加好。
他們的解決方案是將Video進(jìn)行分解,并計(jì)算出兩種度量,一個(gè)是discontinuity,衡量一個(gè)廣告插入點(diǎn)的故事情節(jié)是否連續(xù);另一個(gè)是attractiveness,衡量一段原始視頻的內(nèi)容是否精彩。對(duì)這兩種度量進(jìn)行不同的組合就可以滿足符合廣告商(advertiser)或用戶(viewer)的需求。
最后梅濤總結(jié)道,在做科研的人看來,AI也好,深度學(xué)習(xí)也好,落地都有很長(zhǎng)的路要走?!半m然計(jì)算機(jī)視覺已經(jīng)發(fā)展了50多年,雖然現(xiàn)在AI炒的很火熱,但做科研和技術(shù)的,還是要腳踏實(shí)地去解決一個(gè)個(gè)的場(chǎng)景和一個(gè)個(gè)底層的基礎(chǔ)難題?!?/p>
雷鋒網(wǎng)AI科技評(píng)論原創(chuàng)文章,更多詳細(xì)的演講內(nèi)容參見雷鋒網(wǎng)AI科技評(píng)論后續(xù)報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章