Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述

本文作者： skura

2020-03-06 14:17

導(dǎo)語：對注釋進行了極大的擴展

近日，Google AI 宣布發(fā)布 Open Images V6，和 V5 版本相比，它極大地擴展了 Open Images 數(shù)據(jù)集的注釋，增加了大量新的視覺關(guān)系（例如，「狗抓飛盤」）、人類動作注釋（例如，「女人跳躍」）和水平圖像標簽（例如，「paisley」）。

值得注意的是，該版本還添加了本地化敘述，這是一種全新的多模態(tài)注釋形式，由同步的語音、文本和鼠標跟蹤所描述的對象組成。在 OpenImagesV6 中，這些本地化的敘述可用于 500k 圖像。此外，為了便于與之前的工作進行比較，Google 還為 COCO 數(shù)據(jù)集的全部 123k 圖像發(fā)布了本地化的敘述注釋。

Open Images V6 網(wǎng)址：https://g.co/dataset/openimages

COCO 數(shù)據(jù)集網(wǎng)址：http://cocodataset.org/

Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述

Open Images V5 中的注釋模式：水平圖像標簽、邊界框、實例分段和視覺關(guān)系。圖片來源：1969 年 D.Miller 的 Camaro RS/SS、anita kluska 的 the house、Ari Helminen 的 Cat Cafe Shinjuku calico、Andrea Sartorati 的 Radiofiera-Villa Cordellina Lombardi、Montecchio Maggiore（VI）-agosto 2010。

從很多方面來講，Open Images 是最大的帶注釋圖像數(shù)據(jù)集，用來訓練用于計算機視覺任務(wù)的最新深度卷積神經(jīng)網(wǎng)絡(luò)。

視頻網(wǎng)址：https://youtu.be/mZqHVUstmIQ

Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述

本地化敘述的例子。圖片來源：Kasia 的 Spring is here

本地化敘述

本地化敘述背后的動機之一是研究、利用視覺和語言之間的聯(lián)系，通常是通過圖像字幕加上人的文本描述完成。然而，圖像字幕的局限性之一是缺乏視覺基礎(chǔ)，即我們不知道文本描述的是圖像中的哪一塊。為了減輕這一問題，以前的一些數(shù)據(jù)集對文本描述中出現(xiàn)的名詞畫了一個后驗框。相反，在本地化的敘述中，文本描述的每個詞都是有對應(yīng)位置的。

Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述

圖像內(nèi)容和字幕之間的不同層次的對應(yīng)。從左到右：整個圖像的標題（COCO）；矩形框的名詞（Flickr30k 實體）；鼠標跟蹤段的每個單詞（本地化敘述）。圖片來源：COCO，F(xiàn)lickr30k Entities，和 Rama 的 Sapa。

本地化的敘述是由注釋者生成的，他們提供圖像的口頭描述，同時將鼠標懸停在所描述的區(qū)域上。語音注釋是其方法的核心，它直接將描述與其所引用的圖像區(qū)域連接起來。為了使描述更易于訪問，注釋者將自動語音轉(zhuǎn)錄結(jié)果與手動轉(zhuǎn)錄結(jié)果對齊。這恢復(fù)了描述的時間戳，確保語音、文本和鼠標跟蹤這三種模式正確且同步。

Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述

手動和自動轉(zhuǎn)錄的對齊，圖像是基于 Freepik 的原創(chuàng)作品設(shè)計的。

在說話的同時進行指示是非常直觀的，為研究人們描述圖像創(chuàng)造了更多方法。例如，我們觀察到，在表示對象的空間范圍時有不同風格的線條——環(huán)繞、劃滿線條、下劃線等等——對這些風格的研究可以為新用戶界面的設(shè)計帶來有價值的見解。

Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述

鼠標跟蹤與圖像下面的單詞對應(yīng)的區(qū)域。圖片來源：Via Guglielmo Marconi，Elliott Brown 的 Positano-Hotel Le Agavi-boat，vivek jena的air frame，以及弗吉尼亞州立公園的 CL P1050512。

這些本地化的敘述所代表的額外數(shù)據(jù)量到底有多大？據(jù)了解，鼠標軌跡的總長度約為 6400 公里，如果不停地朗讀，所有的敘述將需要約 1.5 年的時間讀完！

新的視覺關(guān)系、人類行為和水平圖像注釋

除了本地化的敘述之外，在 OpenImagesV6 中，Google 將視覺關(guān)系注釋的類型增加了一個數(shù)量級（高達 1.4k），例如添加了「男人滑滑板」、「男人和女人牽著手」和「狗抓飛盤」等。

Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述

圖片來源：IMG 作者 James Buck，DSC 作者 Quentin Meulepas，dsc06464 作者 sally9258。

自從計算機視覺誕生以來，圖像中的人就一直是其研究的核心領(lǐng)域之一，理解這些人在做什么對許多應(yīng)用來說至關(guān)重要。因此，Open Images V6 還包含了 250 萬個人類執(zhí)行獨立動作的注釋，比如跳躍、微笑或躺下。

Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述

圖片來源：Boo Ph 的 DSCs1341（2），Johannes Gardner 的 Richard Wagner Spile 2015。

最后，Google 還添加了 2350 萬個新的人工驗證的水平圖像標簽，有接近 20000 個類別，大小超過 59.9M。

Open Images 挑戰(zhàn)賽

在去年 5 月發(fā)布的第 5 版 Open Images V5 中包含 9M 圖像，并有 36M 的水平圖像標簽、15.8M 的邊界框、2.8M 的分段實例和 391k 的視覺關(guān)系。

與數(shù)據(jù)集本身一樣，2019 年 Google舉辦了 Open Images 挑戰(zhàn)賽，比賽分為目標檢測、實例分割和視覺關(guān)系檢測三個賽道，對這三個方向技術(shù)的最新進展起到了積極的推動作用。

大賽介紹

目標檢測賽道

目標檢測賽道要求預(yù)測對象實例周圍的邊界框。

訓練集包含 12.2M 的邊界框，跨越 500 個類別，覆蓋 170 萬張圖片。為了確保準確性和一致性，這些邊界框大部分是由專業(yè)注釋員手工繪制的。數(shù)據(jù)集圖像非常多樣化，通常包含多個對象的復(fù)雜場景——平均每張圖像有 7 個對象。

Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述

示例圖片：Rhys A 的作品 Mark Paul Gosselaar 彈吉他

比賽網(wǎng)址：https://www.kaggle.com/c/open-images-2019-object-detection

實例分割賽道

實例分割賽道要求提供對象的分段掩碼。

訓練集包含 300 個類別中 2.1M 分段實例掩碼；驗證集包含額外的 23k 掩碼。訓練集掩碼是由最先進的交互式分割過程產(chǎn)生的，在這個過程中，專業(yè)的人類注釋者迭代地校正分割神經(jīng)網(wǎng)絡(luò)的輸出。為保證質(zhì)量，驗證和測試集掩碼是手動注釋的。

Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述

訓練組注釋示例。左圖：Gary Stevens 1995 年拍攝的無錫科技園；右圖：Ari Helminen 拍攝的咖啡館的貓咪

比賽網(wǎng)址：https://www.kaggle.com/c/open-images-2019-instance-segmentation

視覺關(guān)系檢測賽道

視覺關(guān)系檢測賽道要求檢測對象對以及連接它們的關(guān)系。

訓練集包含 329 個關(guān)系（三對三）和 375k 訓練樣本。這些關(guān)系既包括人與物的關(guān)系（例如「女人彈吉他」、「男人拿麥克風」），也包括物與物的關(guān)系（例如「桌子上的啤酒」、「車里的狗」），還包括物與物的屬性關(guān)系（例如「手提包是皮革做的」和「長凳是木制的」）。

Google更新最大的帶注釋圖像數(shù)據(jù)集，添加本地化敘述