丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給camel
發(fā)送

0

ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類

本文作者: camel 2019-11-29 11:12 專題:ICCV 2019
導語:更懂車,更懂人~

語音播放文章內容

由深聲科技提供技術支持

本文由汽車之家 王磊向雷鋒網(wǎng)AI科技評論投稿,未經(jīng)允許禁止轉載。

作者 | 王磊

本文介紹了汽車之家團隊在ICCV 2019一篇關于視頻理解論文相關的工作。針對視頻多標簽分類的問題,論文提出了將視頻多標簽之間相關性特征加入到網(wǎng)絡之中,結果證明該方法可以顯著的提高視頻多標簽分類效果。

一、背景介紹

隨著視頻應用的不斷普及,視頻內容理解與分析成為計算機視覺領域的一個熱門研究方向。2017年,Google開源了其大規(guī)模視頻內容數(shù)據(jù)集Youtube8M,鼓勵研究者通過該數(shù)據(jù)集利用深度學習技術進行視頻理解的研究。

最新的Youtube-8M數(shù)據(jù)集包括兩部分,第一部分為video-level(視頻層級)的標注,該部分總計包含610萬個已標注的視頻,3862個分類,平均每個視頻標注了3個標簽;第二部分為segment-level(視頻片段標注),該部分挑選了1000個分類,對視頻中隨機抽取的5秒片段進行標注,該部分總共有23.7萬個標注數(shù)據(jù);值得注意的是,segment-level的數(shù)據(jù)標注僅標注了抽取的5秒視頻片段是否屬于某一特定標簽,并沒有標識該視頻片段的所有標簽。


二、標簽相關性

近年來,視頻理解成為計算機視覺領域的一個熱點方向。相比較圖像內容,視頻內容更為復雜多樣,因此對于視頻內容而言,單個標簽很難完整的表征視頻的內容,對于視頻內容理解分析大多為多標簽的分類問題。

在視頻標簽中,很多標簽之間會有一定的相關性并成對出現(xiàn);如圖一所示(標簽從Youtube8M數(shù)據(jù)集中選?。?,當寶馬(BMW)、發(fā)動機(Engine)的標簽出現(xiàn)時,汽車(Car)的標簽大概率也會出現(xiàn);但是當汽車的標簽出現(xiàn)時,寶馬標簽出現(xiàn)的可能性則非常低。

ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類

圖1.標簽有向圖示例

通過對Youtube8M數(shù)據(jù)集的部分標簽數(shù)據(jù)進行分析,可以得到一個圖來表征各個標簽之間的關系,如圖二所示。圖二中每個不同顏色的節(jié)點代表一個獨立的標簽類別,不同節(jié)點之間的連線代表著兩個節(jié)點之間是否有相關性,節(jié)點之間連線上的數(shù)值則代表了不同的標簽之間聯(lián)系的緊密程度,數(shù)值越大,則聯(lián)系越高;沒有聯(lián)系的節(jié)點之間則不會有線連接。

通過對視頻的多標簽之間的相關性進行建模分析,并通過圖神經(jīng)網(wǎng)絡將標簽類別映射為對應類別分類器加入到最終的視頻多標簽分類網(wǎng)絡之中,可以提升整體模型的學習分類能力。


ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類

圖2.標簽相關性Wighted-Graph表示


三、圖卷積神經(jīng)網(wǎng)絡

如何有效獲取目標標簽之間的相關性?如何利用這些標簽相關性提升網(wǎng)絡的特征學習以及分類表現(xiàn)?這是視頻多標簽分類的兩個重要問題。由于圖的特點可以很好的表征各個標簽之間的相互依賴性,因此我們選擇基于圖神經(jīng)網(wǎng)絡進行建模學習,并用于最終視頻分類網(wǎng)絡中。一個圖神經(jīng)網(wǎng)絡的基本結構如圖三所示:

ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類圖3.圖神經(jīng)網(wǎng)絡基本結構

Input輸入有兩個,一個為特征描述矩陣H(n*d),另一個為相關系數(shù)矩陣A(n*n),其中n為節(jié)點個數(shù),即所有標簽的個數(shù),d為特征的維度,特征維度根據(jù)采用的CNN結構決定。

相關系數(shù)矩陣是GCN網(wǎng)絡中表征標簽關系的一個矩陣,因此如何構建相關系數(shù)矩陣 A 就成了GCN 模型中一個非常重要的問題。由于Youtube8M數(shù)據(jù)集有超過600萬的video-level的視頻標注數(shù)據(jù),因此我們可以通過挖掘標簽在數(shù)據(jù)集中的共現(xiàn)情況來初始化相關系數(shù)矩陣A。 ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類為標簽i在數(shù)據(jù)中出現(xiàn)的次數(shù), ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類 為標簽i和標簽j兩個標簽一起出現(xiàn)的概率,兩者相除便可以得到不同標簽之間的條件概率矩陣P。

ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類

考慮到標注數(shù)據(jù)中可能存在不準確的情況以及標簽在訓練和測試集中共現(xiàn)的次數(shù)可能會相差比較大,因此我們設置了一個閾值剔除相關性比較弱的噪聲的影響。對于上面得到的矩陣P,只有其值大于某特定值(論文中為0.5)的時候才會考慮,否則矩陣中這兩個標簽的相關度會設置為0,因此優(yōu)化后的條件概率矩陣如下所示:

ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類

Hidden Layer用來學習節(jié)點之間的相關信息并更新節(jié)點表示,每一個Hidden Layer都可以用一個非線性函數(shù)表示:

ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類

Hidden Layer可以有多層,堆疊多個 GCN 層來對節(jié)點之間交織的復雜關系進行建模。在本論文中Hidden Layer為兩層,通過訓練學習便可以得到優(yōu)化后的表征標簽相關性的矩陣Output,并用于幫助視頻標簽分類。


四、整體網(wǎng)絡

最終的完整網(wǎng)絡結構如圖四所示,我們使用InceptionV3來提取輸入視頻的特征;NeXtVLAD網(wǎng)絡是第二屆Youtube8M比賽單模型冠軍網(wǎng)絡,該網(wǎng)絡可以很好的視頻的多維度特征進行聚合,并且在降低特征維度的同時還能很好的保證模型性能;在網(wǎng)絡的下半部分,我們用一個雙層的GCN網(wǎng)絡來幫助進行最后的視頻標簽分類。最終的對比實驗中,加入GCN后的視頻多標簽分類網(wǎng)絡MAP(Mean-Average-Precision)提高了接近一個百分點,GCN網(wǎng)絡的加入顯著性顯著的提高了視頻多標簽的分類能力;也證明了對于多標簽分類任務,通過研究多標簽之間的相關依賴關系提升網(wǎng)絡分類能力是一個很好的方向。


ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類

圖四.整體網(wǎng)絡結構


五、結論

視頻理解與分析是計算機視覺領域的一個熱門問題,針對視頻的特征提取以及特征聚合全世界的研究已經(jīng)做了大量的工作。本文提出了從多標簽相關性的視角來提升視頻的多標簽分類能力并進行了有效的實驗驗證。通過對視頻的圖像特征、時序特征、標簽相關性特征進行融合的分類網(wǎng)絡可以很好的增強神經(jīng)網(wǎng)絡的視頻理解能力。



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

ICCV 2019 論文解讀:用圖神經(jīng)網(wǎng)絡改善視頻的多標簽分類

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說