1
本文作者: 老王 | 2016-10-11 16:55 |
近日,臺(tái)灣清華大學(xué)電子工程系教授林嘉文及孫敏宣布,他們與微軟亞洲研究院的陶玫博士合作研發(fā)利用計(jì)算機(jī)視覺技術(shù)為視頻內(nèi)容添加標(biāo)簽和標(biāo)題。
據(jù)悉,陶玫博士曾參與了微軟 COCO 的研發(fā)。微軟 COCO 是一套全新的圖像識(shí)別、分類、說明的數(shù)據(jù)集,為識(shí)別多個(gè)物體設(shè)計(jì)而出。被業(yè)內(nèi)熟知的是微軟 COCO 圖像說明大賽,參賽者利用自主研發(fā)的圖像識(shí)別系統(tǒng)并結(jié)合微軟 COCO 對(duì)指定圖像進(jìn)行文字說明。結(jié)果則根據(jù)系統(tǒng)說明的準(zhǔn)確率、詳細(xì)程度以及跟人類描述的相似度進(jìn)行評(píng)估。
微軟表示, 臺(tái)灣清華大學(xué)兩名教授借助微軟 COCO 數(shù)據(jù)集創(chuàng)建了一套系統(tǒng), 利用計(jì)算機(jī)視覺技術(shù)來確定視頻里的主要內(nèi)容,并為其添加標(biāo)題。
微軟在博文中指出:
孫教授基于深度學(xué)習(xí)來自動(dòng)找到視頻中的特殊時(shí)刻或重要內(nèi)容,并創(chuàng)建了一個(gè)視頻標(biāo)題生成新方法,基于視頻中的這些重要內(nèi)容產(chǎn)生準(zhǔn)確及有趣的標(biāo)題。與此同時(shí),林教授則研發(fā)了一種能自動(dòng)在視頻中檢測(cè)人臉的方法,并為分享這些視頻的用戶提供更豐富的總結(jié)及相關(guān)建議。 通過合作,他們的算法能檢測(cè)并描述出重要內(nèi)容,同時(shí)生成標(biāo)簽及標(biāo)題。
孫敏教授和他的學(xué)生還通過參加 VideoToText challenge 大賽來改善這一系統(tǒng)。消息稱,他們將在歐洲計(jì)算機(jī)視覺會(huì)議(ECCV)上展示最新研究成果。
解釋和描述視頻/圖片畫面中的內(nèi)容,不僅需要了解圖片中是什么,更要了解圖像中的對(duì)象有什么聯(lián)系。利用算法識(shí)別視頻內(nèi)容然后生產(chǎn)標(biāo)題或者標(biāo)簽相對(duì)來說難度和計(jì)算量更為龐大,而識(shí)別圖片內(nèi)容從而生成標(biāo)簽或畫面描述文字已愈加成熟。
上個(gè)月谷歌發(fā)布了最新機(jī)器學(xué)習(xí)系統(tǒng),通過識(shí)別圖像中的內(nèi)容,配上對(duì)應(yīng)文字,目前算法描述圖像的準(zhǔn)確率已經(jīng)高達(dá) 93.9%。
得益于 COCO,微軟在圖片描述上也有著一定的積累,其中被廣泛應(yīng)用地就是 One Drive 中的相冊(cè)歸類功能。該功能可以讓用戶有效分類并展示照片,還能從圖片中識(shí)別文字。當(dāng)然,最重要的是它還能對(duì)圖片特征進(jìn)行識(shí)別分析并進(jìn)行自動(dòng)標(biāo)記。
除了微軟、谷歌外,F(xiàn)acebook 也在今年發(fā)布了類似的系統(tǒng),該系統(tǒng)可以了解照片中正在發(fā)生的事情,并且將內(nèi)容轉(zhuǎn)換成自然語言來描述。Facebook 演示了一個(gè)人玩滑板的照片。算法把照片內(nèi)容分解成“一個(gè)滑板,一個(gè)男人,一個(gè)絕招,他的滑板”,它認(rèn)為可能已經(jīng)發(fā)生的事情是“做的,玩滑板,正在做”。用戶可借助 VPN 翻墻到 iPhone 版 Facebook 后使用,同時(shí)也能利用 iPhone 自帶的 voiceover 功能對(duì)于本來有文字描述的東西都能讀出來。
無論是圖片描述還是視頻描述,在消費(fèi)級(jí)層面:其不僅可幫助用戶自動(dòng)管理相冊(cè)(視頻集)。此外,該技術(shù)可以幫助盲人用戶用語音解讀照片和視頻中的內(nèi)容。
相關(guān)閱讀:
親測(cè):讓盲人“看見”圖片 我們離這項(xiàng)黑科技有多遠(yuǎn)
谷歌發(fā)布最新版 AI 系統(tǒng),圖像配文準(zhǔn)確率高達(dá) 93.9%
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。