搶視頻小編飯碗？微軟亞研新技術(shù)可自動(dòng)為視頻寫(xiě)標(biāo)題

本文作者：老王

2016-10-11 16:55

導(dǎo)語(yǔ)：微軟聯(lián)合臺(tái)灣清華大學(xué)教授創(chuàng)建了一套系統(tǒng)，利用計(jì)算機(jī)視覺(jué)技術(shù)來(lái)確定視頻里的主要內(nèi)容，并為其添加標(biāo)題。

近日，臺(tái)灣清華大學(xué)電子工程系教授林嘉文及孫敏宣布，他們與微軟亞洲研究院的陶玫博士合作研發(fā)利用計(jì)算機(jī)視覺(jué)技術(shù)為視頻內(nèi)容添加標(biāo)簽和標(biāo)題。

據(jù)悉，陶玫博士曾參與了微軟 COCO 的研發(fā)。微軟 COCO 是一套全新的圖像識(shí)別、分類(lèi)、說(shuō)明的數(shù)據(jù)集，為識(shí)別多個(gè)物體設(shè)計(jì)而出。被業(yè)內(nèi)熟知的是微軟 COCO 圖像說(shuō)明大賽，參賽者利用自主研發(fā)的圖像識(shí)別系統(tǒng)并結(jié)合微軟 COCO 對(duì)指定圖像進(jìn)行文字說(shuō)明。結(jié)果則根據(jù)系統(tǒng)說(shuō)明的準(zhǔn)確率、詳細(xì)程度以及跟人類(lèi)描述的相似度進(jìn)行評(píng)估。

微軟表示，臺(tái)灣清華大學(xué)兩名教授借助微軟 COCO 數(shù)據(jù)集創(chuàng)建了一套系統(tǒng)，利用計(jì)算機(jī)視覺(jué)技術(shù)來(lái)確定視頻里的主要內(nèi)容，并為其添加標(biāo)題。

微軟在博文中指出：

孫教授基于深度學(xué)習(xí)來(lái)自動(dòng)找到視頻中的特殊時(shí)刻或重要內(nèi)容，并創(chuàng)建了一個(gè)視頻標(biāo)題生成新方法，基于視頻中的這些重要內(nèi)容產(chǎn)生準(zhǔn)確及有趣的標(biāo)題。與此同時(shí)，林教授則研發(fā)了一種能自動(dòng)在視頻中檢測(cè)人臉的方法，并為分享這些視頻的用戶(hù)提供更豐富的總結(jié)及相關(guān)建議。通過(guò)合作，他們的算法能檢測(cè)并描述出重要內(nèi)容，同時(shí)生成標(biāo)簽及標(biāo)題。

孫敏教授和他的學(xué)生還通過(guò)參加 VideoToText challenge 大賽來(lái)改善這一系統(tǒng)。消息稱(chēng)，他們將在歐洲計(jì)算機(jī)視覺(jué)會(huì)議（ECCV）上展示最新研究成果。

解釋和描述視頻/圖片畫(huà)面中的內(nèi)容，不僅需要了解圖片中是什么，更要了解圖像中的對(duì)象有什么聯(lián)系。利用算法識(shí)別視頻內(nèi)容然后生產(chǎn)標(biāo)題或者標(biāo)簽相對(duì)來(lái)說(shuō)難度和計(jì)算量更為龐大，而識(shí)別圖片內(nèi)容從而生成標(biāo)簽或畫(huà)面描述文字已愈加成熟。

上個(gè)月谷歌發(fā)布了最新機(jī)器學(xué)習(xí)系統(tǒng)，通過(guò)識(shí)別圖像中的內(nèi)容，配上對(duì)應(yīng)文字，目前算法描述圖像的準(zhǔn)確率已經(jīng)高達(dá) 93.9%。

搶視頻小編飯碗？微軟亞研新技術(shù)可自動(dòng)為視頻寫(xiě)標(biāo)題

得益于 COCO，微軟在圖片描述上也有著一定的積累，其中被廣泛應(yīng)用地就是 One Drive 中的相冊(cè)歸類(lèi)功能。該功能可以讓用戶(hù)有效分類(lèi)并展示照片，還能從圖片中識(shí)別文字。當(dāng)然，最重要的是它還能對(duì)圖片特征進(jìn)行識(shí)別分析并進(jìn)行自動(dòng)標(biāo)記。

搶視頻小編飯碗？微軟亞研新技術(shù)可自動(dòng)為視頻寫(xiě)標(biāo)題

除了微軟、谷歌外，F(xiàn)acebook 也在今年發(fā)布了類(lèi)似的系統(tǒng)，該系統(tǒng)可以了解照片中正在發(fā)生的事情，并且將內(nèi)容轉(zhuǎn)換成自然語(yǔ)言來(lái)描述。Facebook 演示了一個(gè)人玩滑板的照片。算法把照片內(nèi)容分解成“一個(gè)滑板，一個(gè)男人，一個(gè)絕招，他的滑板”，它認(rèn)為可能已經(jīng)發(fā)生的事情是“做的，玩滑板，正在做”。用戶(hù)可借助 VPN 翻墻到 iPhone 版 Facebook 后使用，同時(shí)也能利用 iPhone 自帶的 voiceover 功能對(duì)于本來(lái)有文字描述的東西都能讀出來(lái)。

搶視頻小編飯碗？微軟亞研新技術(shù)可自動(dòng)為視頻寫(xiě)標(biāo)題

無(wú)論是圖片描述還是視頻描述，在消費(fèi)級(jí)層面：其不僅可幫助用戶(hù)自動(dòng)管理相冊(cè)（視頻集）。此外，該技術(shù)可以幫助盲人用戶(hù)用語(yǔ)音解讀照片和視頻中的內(nèi)容。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

老王

編輯

微信 wangyafeng123456

發(fā)私信

當(dāng)月熱門(mén)文章