解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

本文作者： AI科技評(píng)論

2018-07-14 08:20

導(dǎo)語：本文以美拍業(yè)務(wù)為例，介紹美圖團(tuán)隊(duì)在海量短視頻數(shù)據(jù)的內(nèi)容分析理解和大規(guī)模檢索技術(shù)方向的探索和實(shí)踐。

美圖云視覺技術(shù)部門

AI影響因子

活動(dòng)

企業(yè)：美圖

操作：論文獨(dú)家解讀

事項(xiàng)：解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù)

雷鋒網(wǎng)AI科技評(píng)論按，本文為美圖云視覺技術(shù)部門哈希項(xiàng)目團(tuán)隊(duì)向AI科技評(píng)論提供的獨(dú)家稿件，未經(jīng)許可不得轉(zhuǎn)載。

「美圖短視頻實(shí)時(shí)分類挑戰(zhàn)賽 MTSVRC」也于近日正式啟動(dòng)，本次挑戰(zhàn)賽由中國模式識(shí)別與計(jì)算機(jī)視覺學(xué)術(shù)會(huì)議主辦，由美圖公司承辦，中科院自動(dòng)化所協(xié)辦，詳情可點(diǎn)擊往期內(nèi)容了解。在雷鋒網(wǎng)旗下學(xué)術(shù)頻道AI科技評(píng)論數(shù)據(jù)庫產(chǎn)品「AI 影響因子」中，美圖云視覺技術(shù)部門憑借 AAAI 2018 oral 論文和舉辦相關(guān)賽事表現(xiàn)不俗，本次憑借獨(dú)家技術(shù)解讀也獲得了相應(yīng)加分。

美圖是一家擁有海量多媒體數(shù)據(jù)的公司，如何有效分析理解這些數(shù)據(jù)內(nèi)容并從中挖掘出有效信息，對(duì)我們提出了重大挑戰(zhàn)。本文以美拍業(yè)務(wù)為例，介紹我們?cè)诤Ａ慷桃曨l數(shù)據(jù)的內(nèi)容分析理解和大規(guī)模檢索技術(shù)方向的探索和實(shí)踐。

多媒體數(shù)據(jù)相似性檢索可以簡單理解為用不同媒體素材將其進(jìn)行特征表達(dá)，然后在相應(yīng)的特征空間里進(jìn)行查找和排序。特征表達(dá)有兩種方式：一種是通過傳統(tǒng)方法提取的視覺特征，比如關(guān)鍵點(diǎn)特征、顏色直方圖等；另一個(gè)是基于深度學(xué)習(xí)提取它的底層基礎(chǔ)特征或高層語義特征（深度特征）。美圖 DeepHash 是基于深度哈希技術(shù)的大規(guī)模多媒體數(shù)據(jù)檢索系統(tǒng)。系統(tǒng)依托于海量多媒體數(shù)據(jù)，分為算法和服務(wù)兩大模塊。

/ DeepHash 視頻哈希算法 /

我們針對(duì)美拍短視頻內(nèi)容特性，從標(biāo)簽制定，數(shù)據(jù)處理到算法網(wǎng)絡(luò)設(shè)計(jì)等層面提出一系列定制化的算法優(yōu)化策略。

在討論具體技術(shù)方案之前，我們先來思考一個(gè)問題：如何描述一個(gè)視頻？在使用視頻哈希技術(shù)之前，我們采用的是用標(biāo)簽體系來描述視頻。圖 1 所展示的是美拍最常見的標(biāo)簽體系，音樂、寵物、舞蹈、教程等，用標(biāo)簽體系描述視頻的缺陷是：標(biāo)簽主要是對(duì)視頻內(nèi)容進(jìn)行概括、描述性的詞匯，包含信息量較少，一些細(xì)節(jié)的信息是無法體現(xiàn)的，標(biāo)簽是離散型的描述。而人類是如何描述一個(gè)視頻呢？以左上角視頻截圖為例，人類看了會(huì)說：它是兩個(gè)穿著淡藍(lán)色衣服的小女孩在彈著吉他唱歌。由此可發(fā)現(xiàn)，人類是用視覺特征來描述視頻，所包含的信息豐富、維度多樣，是連續(xù)型的描述，顯然這是一種更合理的描述方式。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 1

進(jìn)一步說，用標(biāo)簽來描述視頻存在以下問題。

1. 信息表達(dá)能力弱，無法體現(xiàn)更細(xì)粒度的信息。如圖 2 所示的視頻截圖，是一個(gè)穿著綠色漢服的女生在公園里跳舞。它的內(nèi)容標(biāo)簽是舞蹈，很難通過標(biāo)簽讀取出其他信息。如果嘗試更復(fù)雜的標(biāo)簽體系，比如加上場(chǎng)景、物體、性別等維度，可以發(fā)現(xiàn)很難窮舉出所有的狀況，即使做到標(biāo)注成本也非常大。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 2

2. 很難比較信息之間的相似性，信息難以度量。如圖 3 所示的三個(gè)視頻標(biāo)簽都是「狗」，很難通過標(biāo)簽去辨別哪兩個(gè)視頻更相似，如果用視覺特征很容易就發(fā)現(xiàn)左邊的視頻與右上角的視頻更相似。當(dāng)然我們可以用狗的種類和數(shù)量來計(jì)算兩幅圖之間的相似性，但是當(dāng)圖片內(nèi)容比較復(fù)雜，物體較多時(shí)，這種方式難以適用。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 3

使用特征表達(dá)視頻

視頻哈希算法使用視覺特征來描述視頻，它具有以下幾個(gè)特性：

1. 多樣性。特征包含更多維度的信息，信息量更多，可表達(dá)的內(nèi)容是多樣的；
2. 魯棒性。如果兩個(gè)視頻比較相似，它們表達(dá)出來的特征也比較相似，提取出來的特征也應(yīng)該是穩(wěn)定的；
3. 距離可計(jì)算。特征之間是可以計(jì)算距離的，用距離描述兩個(gè)特征的相似性，距離越小，視頻內(nèi)容越相似。

基于特征的視頻檢索技術(shù)的應(yīng)用場(chǎng)景廣泛，如視覺相似視頻推薦，特定視頻檢索，視頻審核，視頻去重等等；此外，還可以利用提取的視頻特征進(jìn)行特征聚類和內(nèi)容挖掘，挖掘其中的熱點(diǎn)內(nèi)容和發(fā)現(xiàn)新類。

特征表達(dá)方式

常用特征表達(dá)方式有兩種：浮點(diǎn)型特征和二進(jìn)制特征。

二進(jìn)制特征在存儲(chǔ)、檢索速度兩方面有顯著優(yōu)勢(shì)：使用二進(jìn)制存儲(chǔ)，十分高效；計(jì)算距離使用漢明距離，檢索速度更快。而浮點(diǎn)型特征距離計(jì)算一般使用歐式距離或余弦距離，計(jì)算復(fù)雜度較高，檢索速度較慢；另外浮點(diǎn)特征還存在極值干擾的問題，會(huì)影響距離計(jì)算。二進(jìn)制特征都是 0 和 1，特征較為穩(wěn)定。基于以上情況，我們業(yè)務(wù)中采取了基于二進(jìn)制形式的特征表達(dá)方式。

哈希特征提取

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 4

視頻哈希特征的一般提取流程為：卷積神經(jīng)網(wǎng)絡(luò)提取視頻特征，將特征映射成固定長度的浮點(diǎn)型特征，在浮點(diǎn)型特征后面接 sigmoid 層映射到 [0,1] 區(qū)間范圍內(nèi)，通過閾值化量化為二進(jìn)制形式。

用于提取哈希特征的網(wǎng)絡(luò)模型的訓(xùn)練可以分為有監(jiān)督和無監(jiān)督兩種形式。有監(jiān)督學(xué)習(xí)基于有標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練，加以特定的損失函數(shù)提升特征的表達(dá)能力。它的特點(diǎn)是特征表達(dá)是可控的，可以通過標(biāo)簽來告訴這個(gè)網(wǎng)絡(luò)重點(diǎn)學(xué)習(xí)哪些特征；無監(jiān)督學(xué)習(xí)基于無標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練，通常通過圖像自身變換學(xué)習(xí)特征表達(dá)能力，所以特點(diǎn)就是特征表達(dá)不好控制，較難干預(yù)網(wǎng)絡(luò)應(yīng)該學(xué)習(xí)哪種特征。無監(jiān)督學(xué)習(xí)目前還處于學(xué)術(shù)研究階段，業(yè)務(wù)難以直接應(yīng)用。因此，我們當(dāng)前采用的方案也是基于有監(jiān)督的視頻哈希算法。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 5

美拍視頻哈希算法流程主要分為五個(gè)模塊：標(biāo)簽、數(shù)據(jù)、網(wǎng)絡(luò)、訓(xùn)練和預(yù)測(cè)。對(duì)于每個(gè)模塊，我們都基于美拍的數(shù)據(jù)特點(diǎn)和業(yè)務(wù)邏輯做出了一些定制化的優(yōu)化策略。下面分別介紹這五個(gè)模塊的相關(guān)工作。

標(biāo)簽

美拍有上百類的標(biāo)簽體系用于內(nèi)容運(yùn)營，涵蓋了美拍短視頻常見的內(nèi)容和類別。但這些現(xiàn)業(yè)務(wù)標(biāo)簽并不適合直接拿來做算法的訓(xùn)練，主要存在以下問題：

1. 數(shù)據(jù)不均衡

圖 6 是美拍熱門視頻的標(biāo)簽分布，可以看出各個(gè)類別數(shù)據(jù)量極度不均衡。而在算法訓(xùn)練的時(shí)候如果有一些類別數(shù)據(jù)量比較小，那么網(wǎng)絡(luò)就很難學(xué)習(xí)到這些類別的特征學(xué)習(xí)表達(dá)能力。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 6

2. 視覺不可分

業(yè)務(wù)標(biāo)簽體系沒有針對(duì)視覺特性進(jìn)行劃分，造成不同類別的視頻在視覺上不可分。直接拿這種標(biāo)簽進(jìn)行訓(xùn)練就會(huì)造成很多誤分，網(wǎng)絡(luò)難以學(xué)到各個(gè)類別之間的特點(diǎn)。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 7

3. 維度單一

業(yè)務(wù)標(biāo)簽體系是針對(duì)最主要語義內(nèi)容上的劃分，無法體現(xiàn)其它維度的信息。如服飾、場(chǎng)景、性別等維度不能通過這個(gè)標(biāo)簽體系來體現(xiàn)。通過這個(gè)標(biāo)簽體系訓(xùn)練網(wǎng)絡(luò)無法學(xué)習(xí)到其它維度的特征表達(dá)。

針對(duì)以上三個(gè)問題我們提出了多維度多級(jí)標(biāo)簽體系。「多維度」指可以根據(jù)業(yè)務(wù)需求給標(biāo)簽體系增加維度；「多級(jí)」體現(xiàn)在它是分級(jí)的，建立第一層級(jí)時(shí)要在視覺上是可分的，如刺繡、美妝、手指舞等這些類別在視覺上都和自拍比較相似，就將這些類別在第一層級(jí)分為一個(gè)類，保證視覺可分性。

但是，多維度多級(jí)標(biāo)簽體系會(huì)帶來一些新的問題。首先，海量數(shù)據(jù)都進(jìn)行多維度打標(biāo)，標(biāo)注成本太高。其次，我們采取的模型網(wǎng)絡(luò)結(jié)構(gòu)是級(jí)聯(lián)的方式，每個(gè)第一層級(jí)的類別都有相應(yīng)的第二層級(jí)模型進(jìn)行特征提取，模型數(shù)量很多，計(jì)算復(fù)雜度也會(huì)很高。為解決這兩個(gè)問題，我們?cè)跀?shù)據(jù)標(biāo)注和網(wǎng)絡(luò)設(shè)計(jì)兩方面進(jìn)行了優(yōu)化。

數(shù)據(jù)

數(shù)據(jù)方面我們采用自動(dòng)標(biāo)注的方法，降低標(biāo)注成本。如對(duì)一批已經(jīng)標(biāo)注了內(nèi)容標(biāo)簽的視頻數(shù)據(jù)，我們需要對(duì)它進(jìn)行服飾維度的打標(biāo)。那么自動(dòng)標(biāo)注的流程是：

1. 標(biāo)注少量的數(shù)據(jù)。

2. 用少量數(shù)據(jù)訓(xùn)練單獨(dú)的分類器，通過調(diào)整置信度等方式使分類器的準(zhǔn)確率在 99% 以上，即該分類器輸出結(jié)果置信度高于某閾值則結(jié)果是可信的。

3. 用這個(gè)分類器對(duì)數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注，置信度高的部分保留它們的服飾標(biāo)簽。置信度低的這部分由于不確信服飾標(biāo)簽是否準(zhǔn)確，所以服飾標(biāo)簽統(tǒng)一記為 -1。在網(wǎng)絡(luò)更新的時(shí)候這部分?jǐn)?shù)據(jù)只更新內(nèi)容標(biāo)簽的損失，不更新服飾標(biāo)簽損失。

網(wǎng)絡(luò)

為了使視頻特征可以包含多維度的信息，訓(xùn)練時(shí)采用多標(biāo)簽聯(lián)合訓(xùn)練的方法，減少多維度的模型復(fù)雜度。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 8

針對(duì)上文提到的二級(jí)模型計(jì)算復(fù)雜度高的問題，我們采用共享特征的方法進(jìn)行優(yōu)化。即對(duì)視頻網(wǎng)絡(luò)提取共享的基礎(chǔ)特征，共享特征先送入一級(jí)類目模型進(jìn)行分類和特征提取，根據(jù)一級(jí)類目模型分類結(jié)果調(diào)用相應(yīng)的二級(jí)類目模型進(jìn)行特征提取。采用 MobileNet 作為基礎(chǔ)網(wǎng)絡(luò)，每個(gè)視頻提取 5 幀數(shù)據(jù)，推理兩級(jí)模型，在 Titan X 上可以到達(dá) 100 個(gè)視頻/秒的處理速度。

訓(xùn)練

在網(wǎng)絡(luò)訓(xùn)練的階段采取 Triplet loss 的方式增強(qiáng)特征的表達(dá)能力。Triplet loss 會(huì)拉近相似視頻之間特征的距離，拉遠(yuǎn)不相似視頻間的距離。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 9

訓(xùn)練 Triplet loss 的時(shí)候如何有效選取正負(fù)樣本對(duì)是一個(gè)比較關(guān)鍵的問題。我們通過提取間隔幀的方式選取正樣本視頻，假設(shè)一個(gè)視頻提取 10 幀，其中第 1、3、5、7 、9 幀作為目標(biāo)視頻截幀，第 2、4、6、8、10 幀作為正樣本視頻截幀，而負(fù)樣本視頻截幀來自不同類別的其它視頻。這樣做的好處有兩點(diǎn)：1. 正樣本視頻與目標(biāo)視頻比較相似，容易收斂；2. 無需標(biāo)注，減少標(biāo)注成本。

預(yù)測(cè)

在得到特征哈希碼之后，我們通過類別掩碼的處理方式提高檢索準(zhǔn)確率。類別掩碼的作用是隱去低貢獻(xiàn)度的特征位，保留重要的特征位。解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 10

如圖 10 所示，我們認(rèn)為特征不同的位置之間存在分工。而找到重要特征的比特位置所需要的信息保存在網(wǎng)絡(luò)最后一層的權(quán)重參數(shù)里。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 11

圖 11 展示了類別掩碼的提取方法，中間部分是網(wǎng)絡(luò)的分類層權(quán)重參數(shù)。它的形狀等于類別個(gè)數(shù)乘以特征長度，權(quán)重的每一列都代表著相應(yīng)的類別。當(dāng)我們把視頻輸入到網(wǎng)絡(luò)里得到它的類別后就可以找出相對(duì)應(yīng)的類別權(quán)重，對(duì)這列權(quán)重值取絕對(duì)值，從大到小進(jìn)行排序，我們發(fā)現(xiàn)這些絕對(duì)值比較大的權(quán)重位置就是哈希特征中比較重要的位置。

關(guān)于類別掩碼的細(xì)節(jié)描述可參考論文《Deep Hashing with Category Mask for Fast Video Retrieval》

論文地址：https://arxiv.org/pdf/1712.08315.pdf

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 12

圖 12 展示了網(wǎng)絡(luò)的整體流程。采用多標(biāo)簽聯(lián)合訓(xùn)練的方式，加上 Triplet loss 提升表達(dá)能力，網(wǎng)絡(luò)結(jié)構(gòu)采用級(jí)聯(lián)模型以及共享特征的方法。最后采用類別掩碼提高檢索精度。

效果

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 13

圖 13 展示了該模型的準(zhǔn)確率和檢索效果圖。其中檢索效果圖里左上角的視頻為目標(biāo)視頻，其后為檢索結(jié)果。

/ DeepHash 多媒體檢索服務(wù) /

前面提到 DeepHash 系統(tǒng)包含兩大模塊：算法和服務(wù)。前面以美拍視頻為例，介紹了我們視頻哈希特征提取算法。接下來我們介紹 DeepHash 系統(tǒng)的服務(wù)部分。

DeepHash 服務(wù)分為離線任務(wù)和在線任務(wù)。離線任務(wù)負(fù)責(zé)生成海量視頻數(shù)據(jù)的哈希碼，作為目標(biāo)特征庫。具體內(nèi)容包括模型訓(xùn)練和特征生成兩個(gè)模塊。UGC 短視頻數(shù)據(jù)具有較強(qiáng)的時(shí)效性，不同時(shí)間段的視頻主題內(nèi)容不同，所以業(yè)務(wù)上需要使用最新數(shù)據(jù)定期訓(xùn)練并更新模型。在得到新的網(wǎng)絡(luò)模型之后，需要批量處理歷史視頻生成新的哈希碼，并更新到目標(biāo)特征庫中。

在線任務(wù)負(fù)責(zé)實(shí)時(shí)處理檢索請(qǐng)求，并將相似結(jié)果返回給調(diào)用方。當(dāng)一個(gè)檢索請(qǐng)求過來，查詢模塊會(huì)先去海量目標(biāo)特征庫中查詢當(dāng)前請(qǐng)求的視頻哈希是否存在，如果存在，則使用當(dāng)前哈希碼，與目標(biāo)特征庫的哈希碼計(jì)算距離，返回 top 相似結(jié)果；如果不存在，那么服務(wù)會(huì)調(diào)用預(yù)測(cè)模型，提取該視頻的哈希碼，使用該哈希碼到目標(biāo)庫里檢索，同時(shí)將預(yù)測(cè)得到的哈希碼加入目標(biāo)特征庫。

架構(gòu)演化

DeepHash 服務(wù)從最初的單庫熱門池視頻支持到最新版本能支撐全量視頻檢索，經(jīng)歷了三個(gè)階段的版本迭代和優(yōu)化。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 14

V1.0 最初版本運(yùn)行在單節(jié)點(diǎn)上，只對(duì)于特征庫進(jìn)行分片、并行查找的優(yōu)化，該版本支持百萬以內(nèi)的基礎(chǔ)特征庫檢索。

V2.0 版本支持更多形態(tài)的媒體數(shù)據(jù)的檢索，在這個(gè)版本我們接入了音頻特征提取算法。同時(shí)支持視頻和音頻兩種形式的相似檢索。為了支持多種類型的媒體特征，V2.0 進(jìn)行了索引統(tǒng)一，對(duì)于基礎(chǔ)特征庫進(jìn)行分組分片 (分組：分類，先定位到類別，再進(jìn)行數(shù)據(jù)分片查詢)，同時(shí)提高檢索穩(wěn)定性。視頻截幀采用異步調(diào)用方式減少 IO 阻塞。

V3.0 是目前正在開發(fā)的版本，運(yùn)行在容器化集群上，同時(shí)進(jìn)行了檢索集群化的優(yōu)化，目標(biāo)是支持億級(jí)的海量特征基礎(chǔ)庫的實(shí)時(shí)檢索。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash

圖 15

圖 15 是檢索集群的業(yè)務(wù)邏輯分層結(jié)構(gòu)。其中，代理層負(fù)責(zé)請(qǐng)求分發(fā)，高并發(fā)時(shí)可無狀態(tài)擴(kuò)容；業(yè)務(wù)層對(duì)數(shù)據(jù)進(jìn)行預(yù)處理包裝、調(diào)用數(shù)據(jù)層的檢索服務(wù)，并把結(jié)果封裝成用戶可讀的形式；數(shù)據(jù)層運(yùn)行檢索算法，分片加載特征庫數(shù)據(jù)，進(jìn)行并行檢索，保證檢索的時(shí)效性、穩(wěn)定性。

性能

接下來我們展示 DeepHash 系統(tǒng)的檢索性能。存儲(chǔ)性能上，使用一個(gè) 128 位的哈希碼表示一個(gè)視頻，存儲(chǔ) 1 億條視頻，需要的存儲(chǔ)空間只有不到 1.5 GB。檢索速度上，運(yùn)行 8 個(gè)實(shí)例，對(duì) 100 萬的基礎(chǔ)特征庫進(jìn)行全量視頻檢索，需要 0.35 S；使用 50 個(gè)實(shí)例，對(duì) 3 億的基礎(chǔ)特征庫進(jìn)行全量視頻檢索，只需要 3 秒。

解密美圖大規(guī)模多媒體數(shù)據(jù)檢索技術(shù) DeepHash