0
人臉識別技術發(fā)展到今天,已經不僅僅在技術發(fā)展層面受到關注,實際上,在政策和用戶隱私層面,它引起的爭議越來越多,在某些區(qū)域或者領域也頗不受待見(參見雷鋒網此前報道);比如說,2019 年 5 月,舊金山市對人臉識別技術發(fā)出了禁令,禁止該技術在政府機關和執(zhí)法機關中使用,從而成為全球首個對人臉識別技術發(fā)出禁令的城市。
近日,微軟公司悄然刪除了該公司于 2016 年發(fā)布的人臉識別數據庫 MS-Celeb-1M——該數據庫是全球最大的公開人臉識別數據庫。
2016 年 8 月,微軟在官網中公布了一篇題為《MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition》的論文,論文作者包括來自微軟研究院的 Yandong Guo(郭彥東,目前他已經離開微軟加入到小鵬汽車), Lei Zhang(張磊), Yuxiao Hu, Xiaodong He, Jianfeng Gao 等人。
在這篇論文中,微軟介紹了一個名為 MS-Celeb-1M 的人臉識別挑戰(zhàn)賽,參賽者需要根據微軟提供的數據集作為訓練數據來開發(fā)自己的圖像識別系統(tǒng),以便從 100 萬個名人名單中進行人臉識別。
與此同時,隨著這一挑戰(zhàn)賽,微軟也發(fā)布了一個面向公眾開放下載的大規(guī)模人臉識別數據集 MS-Celeb-1M,其中第一個版本包含了 10 萬個名人(根據他們的受歡迎程度,從上述 100 萬個名人名單中選擇而來)的 1000 萬張臉部照片,來供研究者開發(fā)自己的人臉識別技術——微軟宣稱,這些照片來自于人們常用的搜索引擎,也就是公開渠道。
以 Lady Gaga 為例,我們來看一下數據庫中的相關照片:
微軟宣稱,該數據庫是全球最大的公開人臉識別數據庫。
微軟技術與研究院首席研究員 / 研究經理張磊(即上述論文作者中的 Lei Zhang)博士曾對外表示,MS-Celeb-1M 的目標是識別百萬人臉,是計算機視覺內最大規(guī)模的分類問題,并且其中一個人物對應一個 entity,綁定了知識庫,并且知識庫中提供了每個人的職業(yè),性別等等豐富的信息,從而解決了人物重名的問題,可以從識別達到認知。
基于這一數據庫,微軟舉行了 MS-Celeb-1M 百萬名人識別競賽,這一競賽被業(yè)界認為是人臉識別的年度 “世界杯”。雷鋒網了解到,在 2017 年的微軟百萬名人識別競賽中:Panasonic-新加坡國立大學合作奪得第一,CIGIT(中科院重慶綠色智能技術研究院)和中科院合作隊伍位列第二,美國東北大學位列第三。
雖然在微軟的認知中,最開始這個數據集是面向學術界做的,但后來,這一數據集被許多工業(yè)界的同行所使用。
根據相關的引文資料,MS-Celeb-1M 數據庫已經被多商業(yè)機構所使用,比如說 IBM、松下電氣、阿里巴巴、輝達、日立、商湯科技、曠視科技等,甚至有消息稱,也有相關的軍事研究人員采用了這一數據庫來訓練面部識別系統(tǒng)。
然而,伴隨著人臉識別技術的發(fā)展,人們對相關隱私的關注和擔憂越來越多增加,也有人認為微軟的這一數據庫涉嫌侵犯隱私,比如說來自德國柏林的藝術家和技術專家 Adam Harvey,他在自己的 Megapixel 項目中記載了包括 MS-Celeb-1M 在內的數據庫的詳細信息以及使用用戶。
Adam Harvey 認為,微軟用 Celebrity 一詞指的是那些在網上工作并且在數字世界具備知名度的人,而不僅僅是 Lady Gaga、Steve Jobs 這樣的名人。
比如說,有媒體在針對 MS-Celeb-1M 數據庫中的人臉進行核實后發(fā)現,MS-Celeb-1M 的確包含了不少名人的照片,比如說 Lady Gaga、Steve Jobs 等,但是也包含一些媒體人的信息,比如說《連線》雜志負責報道網絡犯罪、網絡安全、隱私等問題的高級記者 Kim Zetter。
實際上,針對微軟涉嫌侵犯隱私問題,英國《金融時報》也設法聯(lián)系了被收錄在 MS-Celeb-1M 數據庫的當事人,某些當事人甚至根本不知道自己的照片已經被收錄——比如說科技作家 Adam Greenfield;他在接受采訪時表示,自己絕不是公眾人士,無法放棄自己的隱私權。
也就是說,微軟在數據庫中使用的照片,并沒有征得當事人的同意,即使他們是名人。
當然,微軟自己也意識到了這個問題,目前它已經刪除了 MS-Celeb-1M 數據庫;在對英國《金融時報》的回應中,微軟表示:
這個網站原本是用于學術目的,它是由微軟的一個前員工來運營的。目前,該員工已經離開微軟,因此我們也已經移除了它。
值得一提的是,伴隨著微軟刪除了 MS-Celeb-1M 數據庫,另外兩個學術單位也刪除了它們旗下的類似相關數據庫,包括由杜克大學研究人員建造的 Duke MTMC 監(jiān)控數據庫和斯坦福大學的 Brainwash 數據庫。
就目前的情況來看,微軟用來介紹 MS-Celeb-1M 項目的網站還在,但是數據集本身已經不能下載;然而,據雷鋒網搜索發(fā)現,相關的數據庫資源依然可以從其他網站進行下載。更重要的是,作為一個公開下載的數據集,MS-Celeb-1M 實際上已經存在于不少企業(yè)或機構的本地硬盤中,被用作各類的用途,而照片當事人卻無法左右。
正如,Adam Harvey 所言:
一旦你發(fā)布了它,人們下載了它,那它就會存在于全世界的硬盤里。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。