近億級數(shù)據(jù)集下線，MIT道歉，ImageNet 亦或遭殃

本文作者：青暮

編輯：劉曉坤

2020-07-02 10:14

導(dǎo)語：持續(xù)的沉默只會在將來造成更多的傷害

作者 | 青暮、陳大鑫

編輯 | 叢末

麻省理工學院（MIT）已永久刪除包含8000萬張圖像的Tiny Images數(shù)據(jù)集。

此舉是論文《Large image datasets: A pyrrhic win for computer vision?》中的發(fā)現(xiàn)導(dǎo)致的結(jié)果。論文作者在數(shù)據(jù)集中發(fā)現(xiàn)了許多有危害類別，包括種族歧視和性別歧視。這是依賴WordNet名詞來確定可能的類別而沒有檢查圖像標簽帶來的結(jié)果。他們還確定ImageNet中也有類似的問題，包括非自愿的色情材料等。

在The Register向MIT發(fā)出警示之后，該數(shù)據(jù)集已于本周刪除。MIT還敦促研究人員和開發(fā)人員停止使用該數(shù)據(jù)集，并刪除任何副本。CSAIL的電氣工程和計算機科學教授Antonio Torralba表示：“實驗室根本不知道這些令人反感的圖像和標簽存在于數(shù)據(jù)集中。”他告訴The Register：“很明顯，我們應(yīng)該手動篩選它們。為此，我們深表歉意?！?/span>

由于MIT在采集數(shù)據(jù)集時使用不當?shù)姆椒?，這些系統(tǒng)可能將女性標記為“ji女”或“biao子”，而對黑人和亞裔的描述則帶有貶義。該數(shù)據(jù)庫還包含標有“cunt”的女性生殖器特寫圖片，此外還包括帶有“nigger”（黑鬼）標記的黑人和猴子的圖片，穿著比基尼或抱著孩子的婦女，被貼上“ji女”的標簽，將日常圖像與誹謗、令人反感的語言聯(lián)系起來，并把偏見引入AI模型。

該圖展示了MIT數(shù)據(jù)集中標有問題單詞的圖片數(shù)量。

Tiny Images數(shù)據(jù)集可視化下線之前的屏幕快照。它展示了標簽“ji女”的數(shù)據(jù)集示例，出于法律原因，已將其像素化。圖片包括母親抱著嬰兒的照片、圣誕老人的爆頭照片、色情女演員和穿著比基尼的女人的照片。

如今，Tiny Images數(shù)據(jù)集與更知名的ImageNet數(shù)據(jù)集都成為了評估計算機視覺算法的基準。但是，與ImageNet不同，到目前為止，還沒有人檢查過Tiny Images中有問題的內(nèi)容。

ImageNet也存在相同的問題，因為它也使用WordNet進行了標記。名為ImageNet Roulette的實驗讓人們將照片提交到ImageNet訓練的神經(jīng)網(wǎng)絡(luò)，一些人上傳了自拍照，但是當軟件使用種族主義和冒犯性標簽描述他們時，他們感到震驚。

在這些龐大的數(shù)據(jù)集中，有問題的圖像和標簽所占的比例很小，很容易將它們當作異?，F(xiàn)象而忽視掉。這部分數(shù)據(jù)集在AI訓練過程中通常不能得到均衡的分配。這就是面部識別算法難以識別女性和膚色較深的人的原因。底特律的一個黑人在今年早些時候被面部識別軟件誤認為是可疑小偷后，被警察誤捕。近期頗有爭議的圖像翻譯算法PULSE則將奧巴馬的模糊照片變成了白種人。

禍起WordNet

Torralba教授介紹了Tiny Images數(shù)據(jù)集的構(gòu)建方式：獲得大量單詞（包括貶義詞），然后編寫代碼以使用這些單詞在網(wǎng)絡(luò)上搜索圖像并將其結(jié)合在一起。

Torralba教授說：“數(shù)據(jù)集包含直接從WordNet復(fù)制的53,464個不同名詞”然后，這些數(shù)據(jù)被用來從互聯(lián)網(wǎng)搜索引擎自動下載相應(yīng)名詞的圖像，最后使用當時可用的過濾器來收集8000萬張圖片。”

WordNet于1980年代中期在普林斯頓認知科學實驗室建立，由George Armitage Miller創(chuàng)立，他是認知心理學的創(chuàng)始人之一。“ Miller著迷于單詞之間的關(guān)系，Prabhu說：“數(shù)據(jù)庫本質(zhì)上反映了單詞如何相互關(guān)聯(lián)?！?/span>

例如，“貓”和“狗”比“貓”和“傘”更緊密相關(guān)。不幸的是，WordNet中的某些名詞是種族歧視的和侮辱性的。幾十年后的今天，這些術(shù)語困擾著現(xiàn)代機器學習。

“在構(gòu)建龐大的數(shù)據(jù)集時，需要某種結(jié)構(gòu)，” Birhane說：“這就是WordNet有效的原因。它為計算機視覺研究人員提供了一種對圖像進行分類和標記的方法。當可以使用WordNet時，為什么要自己手動做呢？”

Tiny Images和ImageNet的批判研究

回到這件事的起因上，該論文的兩位作者是來自硅谷一家隱私初創(chuàng)公司UnifyID的首席科學家Vinay Prabhu和愛爾蘭都柏林大學的博士學位候選人Abeba Birhane，他們在研究了MIT數(shù)據(jù)庫之后發(fā)現(xiàn)了成千上萬張帶有針對黑人和亞洲人的種族主義誹謗和用于描述女性的貶義詞標簽的圖像。之后他們以ImageNet-ILSVRC-2012數(shù)據(jù)集為例做了一些研究并發(fā)表了本篇論文。

作者調(diào)查了由于不嚴格且考慮不周的數(shù)據(jù)集管理做法而導(dǎo)致的整個社會以及個人所面臨的危害和威脅的情況，并且提出可能的糾正方法，并批評這些方法的利弊。作者適當開源了在此努力中生成的所有代碼和普查元數(shù)據(jù)集，以使計算機視覺社區(qū)得以建立。通過揭露威脅的嚴重性，作者希望激發(fā)大型數(shù)據(jù)集管理流程的強制性機構(gòu)審查委員會（IRB）的組成。

作者認為在大數(shù)據(jù)時代，個人知情同意、隱私權(quán)或代理權(quán)的基本原則已逐漸被侵蝕。機構(gòu)、學術(shù)界和工業(yè)界，在未經(jīng)同意的情況下收集了數(shù)以百萬計的人的圖像。如表1所示，在同行評議的文獻中發(fā)現(xiàn)了數(shù)以千萬計的人物形象。這些圖片是在未經(jīng)個人同意或知情的情況下獲得的，也未經(jīng)IRB批準收集。

作者對ImageNet數(shù)據(jù)集進行了批判：

ImageNet數(shù)據(jù)集的出現(xiàn)被廣泛認為是深度學習革命中的一個關(guān)鍵時刻，它改變了計算機視覺和人工智能。從圖像的可疑方式的來源，到圖像中人物的標記，再到使用這些圖像訓練人工智能模型的下游效果，ImageNet和大規(guī)模視覺數(shù)據(jù)集（LSVD）總體上構(gòu)成了計算機視覺的一個代價高昂的勝利。這場勝利是以傷害少數(shù)群體為代價的，并進一步助長了對個人和集體的隱私和知情權(quán)的逐漸侵蝕。當更廣泛的計算機視覺社區(qū)缺乏對ImageNet數(shù)據(jù)集的審查，這只會鼓勵學術(shù)和商業(yè)機構(gòu)在沒有審查的情況下建立更大的數(shù)據(jù)集。

隨之作者又進行了一些反思：

大型圖像數(shù)據(jù)集，如果沒有仔細考慮社會影響，就會對個人的福利和福利構(gòu)成威脅。允許人臉搜索的反向圖像搜索引擎在過去的一年里取得了顯著而令人擔憂的效率。只需支付少量費用，任何人都可以使用他們的門戶或API來運行一個自動化程序以發(fā)現(xiàn)ImageNet數(shù)據(jù)集中人類的“真實”身份。例如，在性工作受到社會譴責或法律定罪的社會中，通過圖像搜索重新識別性工作者，對受害者個人來說確實是一種危險。

說到這里我們額外提一句，以上事情在中國也切切實實的正在發(fā)生著，國內(nèi)某家搜索引擎巨頭的老板曾在前年中國發(fā)展高層論壇現(xiàn)場就人們關(guān)心的數(shù)據(jù)和隱私問題談到：“中國人更加開放，對隱私問題沒有那么敏感，如果他們可以用隱私交換便捷性，很多情況下他們是愿意的?！?/span>

哦，怪不得他之后在自家公司的大會上被人潑了"宏顏禍水"，另外這家公司出品的“百毒”識圖相信大家也都用過。

最后作者給了一些解決方案建議：

1、合成真實和數(shù)據(jù)集蒸餾

這里的基本思想是在模型訓練期間使用（或增強）合成圖像來代替真實圖像。方法包括使用手繪草圖圖像（imagenet sketch），使用GAN生成的圖像和數(shù)據(jù)集蒸餾等技術(shù)，其中一個數(shù)據(jù)集或一個數(shù)據(jù)集的子集被提煉成幾個具有代表性的合成樣本。這是一個新興的領(lǐng)域，在跨視覺域的無監(jiān)督域適應(yīng)和通用數(shù)字分類方面有一些有希望的結(jié)果。

2、對數(shù)據(jù)集強化倫理過濾

3、定量數(shù)據(jù)集審計：以ImageNet為模板

作者對ImageNet進行了跨范疇的定量分析，以評估道德違規(guī)的程度和基于模型注釋的方法的可行性。這導(dǎo)致了ImageNet普查，需要對57個不同指標進行圖像級和類級分析，這些指標包括計數(shù)、年齡和性別（CAG）、NSFW評分、類別標簽的語義和使用預(yù)先訓練的模型分類的準確性。

結(jié)論與討論

作者試圖引起機器學習界對大規(guī)模數(shù)據(jù)集的社會和倫理影響的關(guān)注，例如非一致同意的圖像問題和經(jīng)常隱藏的分類問題一直被認為是計算機視覺和人工智能領(lǐng)域最令人難以置信的突破之一。

ImageNet的成就確實值得慶祝，并且創(chuàng)造者們?yōu)榻鉀Q一些倫理問題所做的努力也值得認可。盡管如此，ImageNet以及其他大型圖像數(shù)據(jù)集仍然很麻煩。持續(xù)的沉默只會在將來造成更多的傷害而不是帶來好處。在這方面，作者概述了一些解決辦法，包括審計卡，可以考慮改善提出的一些關(guān)切。作者還策劃了元數(shù)據(jù)集，并將代碼開源，以ILSVRC2012數(shù)據(jù)集為模板進行定量審計。

作者敦促機器學習界密切關(guān)注他們的工作對社會，特別是對弱勢群體的直接和間接影響。在這方面，必須意識到當前工作的歷史前因、背景和政治層面。作者希望這項工作有助于提高人們的意識，并為繼續(xù)討論機器學習中的倫理和正義提供幫助。

一些其他觀點

1、副本無處不在

即便MIT主動下線了Tiny Images數(shù)據(jù)集，但是數(shù)據(jù)副本無處不在。很多用戶都下載過這些副本到本地，如何保證這些副本不會被再次上傳到網(wǎng)絡(luò)呢？在reddit上有網(wǎng)友表示知道該數(shù)據(jù)集的副本地址。

2、人工智能鑒黃系統(tǒng)的工作還能繼續(xù)嗎？

如果想要訓練一個人工智能鑒黃系統(tǒng)，那么必須要先人為的制作數(shù)據(jù)集也就是要對一些圖片打上標簽說這是色情圖片。

問題是這些圖片從何而來呢？

如果是用爬蟲程序從色情網(wǎng)站上收集，那么怎么保證這些圖片當中哪些能用呢？比方說有些無辜受害的情侶被偷拍的照片被不法分子上傳到色情網(wǎng)站，然后爬蟲程序又把它們下載下來，我們難道可以哪怕是為了開發(fā)鑒黃系統(tǒng)而理所當然的使用這樣照片嗎？這難道不是對無辜受害者的隱私再一次侵犯嗎？

另外如果說收集的是色情從業(yè)者（他們的國家合法化這項職業(yè)）的視頻和圖片，那TA們的肖像權(quán)就不值得尊重和保護了？

所以說一旦考慮到要嚴格遵守隱私權(quán)和肖像權(quán)，人工智能鑒黃系統(tǒng)就難以為繼。

3、利用人工智能程序自動判斷種族、性別等歧視是個矛盾

因為如果我們要考慮制造一個AI系統(tǒng)來自動幫助我們判別某些圖片是不是存在某種歧視，那么我們同樣需要收集和利用這些有歧視的圖片，可是在得不到本人允許的情況下我們又何以冠冕堂皇的利用這些圖片來做成“典型"來告訴人工智能說：嗨AI，快看！這個就是XX歧視的圖片，你可得“記住”哈！

那就讓我們“愉快”地拋棄人工智障回到農(nóng)耕（手工）時代吧！

可是，難道個人或者企業(yè)私自收集并利用這些包含隱私/歧視的數(shù)據(jù)就合法了嗎？？？

所以，如何建立一個公開的征得當事人同意的令公眾信服的數(shù)據(jù)集就成為了當前和未來的一大難點。

參考內(nèi)容：

https://www.reddit.com/r/MachineLearning/comments/hjelz4/n_mit_permanently_pulls_offline_tiny_images/

https://arxiv.org/abs/2006.16923

https://www.theregister.com/2020/07/01/mit_dataset_removed/

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)