1
本文作者: 亞萌 | 2016-07-28 18:28 |
也許讀者還能記得,不久前一個(gè)人工智能少女之死。她的名字叫“Tay.ai“,是微軟的人工智能研究成果。Tay在推特上有一個(gè)自己的賬號(hào),用戶(hù)只要發(fā)推艾特她一下,就能收到她的即時(shí)回復(fù)。
Tay初初以一個(gè)清新可愛(ài)的少女形象出現(xiàn),但是由于她的算法設(shè)定是通過(guò)學(xué)習(xí)網(wǎng)友的對(duì)話來(lái)豐富自己的語(yǔ)料庫(kù),很快她被網(wǎng)友充斥著激烈偏見(jiàn)的話語(yǔ)”帶壞“,變成了一個(gè)徹底的仇視少數(shù)族裔、仇視女性、沒(méi)有任何同情心的種族主義者。她成了這個(gè)社會(huì)一切偏見(jiàn)的集合體。
最終,為了平息公眾的憤怒,微軟選擇把她”殺“死。
因?yàn)闄C(jī)器學(xué)習(xí)的目的本來(lái)就是理解人、模仿人,發(fā)展的過(guò)程中必定會(huì)帶有人類(lèi)社會(huì)里不那么光明的一面??梢哉f(shuō),在機(jī)器學(xué)習(xí)中存在著很多人類(lèi)社會(huì)帶來(lái)的偏見(jiàn)影響,然而并不是所有的都像Tay這么明顯罷了。
最近,谷歌的一款數(shù)據(jù)庫(kù)中,就被人發(fā)現(xiàn)了其微妙的”性別歧視“現(xiàn)象。
事情要回到兩年前,谷歌的幾個(gè)研究員啟動(dòng)了一個(gè)神經(jīng)網(wǎng)絡(luò)項(xiàng)目,目標(biāo)是找出單詞相鄰組合的各種模式,而所要使用的語(yǔ)料庫(kù)來(lái)自谷歌新聞文本中的300萬(wàn)個(gè)單詞。
最終得出的研究結(jié)果很復(fù)雜,但團(tuán)隊(duì)人員發(fā)現(xiàn)可以用向量空間圖來(lái)展示這些模式,其中大約有300個(gè)維度。
在向量空間中,具有相似意義的單詞會(huì)占據(jù)同一塊位置,而單詞間的關(guān)系,可以通過(guò)簡(jiǎn)單的向量代數(shù)來(lái)捕捉。例如,“男人與國(guó)王就相當(dāng)于女人與王后”,可以使用符號(hào)表示為“男人:國(guó)王::女人:王后”。相似的例子有,“姐妹:女人::兄弟:男人”等等。這種單詞之間的關(guān)系被稱(chēng)為”單詞嵌入“。
最后,蘊(yùn)含了諸多單詞嵌入的數(shù)據(jù)庫(kù)被稱(chēng)為 Word2vec,非常強(qiáng)大。大量研究人員開(kāi)始使用它幫助自己的工作,比如機(jī)器翻譯和智能網(wǎng)頁(yè)搜索。這個(gè)數(shù)據(jù)庫(kù)就這么被用了好幾年。
但是有一天,波士頓大學(xué)的 Tolga Bolukbasi的和幾位來(lái)自微軟研究院的人員發(fā)現(xiàn),這個(gè)數(shù)據(jù)庫(kù)存在一個(gè)很大的問(wèn)題:露骨的性別歧視。
他們出具了很多證據(jù)。如果你在數(shù)據(jù)庫(kù)里詢(xún)問(wèn)”巴黎:法國(guó)::東京:x“,那么系統(tǒng)給你的答案是 x=日本。但是,如果問(wèn)題變?yōu)椤备赣H:醫(yī)生::母親:x“時(shí),給出的答案是 x=護(hù)士。再比如問(wèn)題”男人:程序員::女人:x“,答案為 x=主婦。
這是非??膳碌男詣e歧視了。出現(xiàn)這個(gè)現(xiàn)象的原因是Word2vec語(yǔ)料庫(kù)里的文本本身帶有性別偏見(jiàn),之后的向量空間圖隨之也受到影響。 Bolukbasi不無(wú)失望地說(shuō)道:”我們?cè)詾閬?lái)自谷歌新聞的單詞嵌入會(huì)較少有性別偏見(jiàn),因?yàn)檫@些文章都是由專(zhuān)業(yè)的新聞?dòng)浾咦珜?xiě)的?!?/span>
要知道,谷歌的這個(gè)數(shù)據(jù)庫(kù)已經(jīng)被各行各業(yè)的研究開(kāi)發(fā)人員使用,比如網(wǎng)頁(yè)搜索引擎。在原本的Word2vec 中,“程序員”這個(gè)單詞與男人的關(guān)系比女人的關(guān)系更強(qiáng),那么如果雇主在尋找人才時(shí)輸入“程序員簡(jiǎn)歷”,搜索結(jié)果里顯示的男性簡(jiǎn)歷就要遠(yuǎn)遠(yuǎn)排在女性簡(jiǎn)歷的前面,而這顯然極為不公平。而這一切都在不知不覺(jué)中發(fā)生。就像Bolukbasi所說(shuō)的:“單詞嵌入不僅僅反映了現(xiàn)有的偏見(jiàn)現(xiàn)象,而且還進(jìn)一步放大了偏見(jiàn)?!?/span>
Bolukbasi 和他的同事們給出了一個(gè)方案:理論上,可以把性別歧視看作是這個(gè)向量空間的一種彎曲變形,找出導(dǎo)致這種變形的源頭,糾正它,同時(shí)保持整個(gè)系統(tǒng)的完整性。
在實(shí)際操作中,最困難的部分就是找出這種變形,本質(zhì)上指的是哪些單詞嵌入關(guān)系?
他們采取的方法是,在數(shù)據(jù)庫(kù)里找出與“她:他 ”這兩個(gè)單詞產(chǎn)生關(guān)系的一系列單詞,由此產(chǎn)生一幅巨大的性別類(lèi)比的列表。比如:助產(chǎn)士:醫(yī)生 、縫紉:木工、 專(zhuān)業(yè)護(hù)士:物理學(xué)家、 妓女:懦夫、美發(fā)師:理發(fā)師、裸體:赤膊、 巨乳:屁股、咯咯笑:咧嘴笑、保姆:司機(jī)等等。
接下來(lái),他們需要回答的問(wèn)題是,這些類(lèi)比是恰當(dāng)?shù)倪€是不恰當(dāng)?shù)摹_@樣海量的判斷任務(wù)擺在面前,研究人員遂采取了“眾包”--在亞馬遜土耳其機(jī)器人(Amazon’s Mechanical Turk)的平臺(tái)上發(fā)布任務(wù)。亞馬遜土耳其機(jī)器人是一個(gè)人工智能類(lèi)的眾包平臺(tái),研究機(jī)構(gòu)在上面發(fā)布任務(wù),普通人上這個(gè)平臺(tái)攬活并賺取一定的報(bào)酬,比如調(diào)查問(wèn)卷這種任務(wù)就比較常見(jiàn)。
Bolukbasi 團(tuán)隊(duì)將每一個(gè)類(lèi)比,比如“她:他 ::助產(chǎn)士:醫(yī)生”交給10個(gè)任務(wù)者,讓他們來(lái)判定這個(gè)關(guān)系是否是恰當(dāng)?shù)摹H绻^(guò)半數(shù)的人認(rèn)為該關(guān)系存在偏見(jiàn),那么就認(rèn)定這個(gè)類(lèi)比關(guān)系不恰當(dāng),需要修改。
由此,研究人員繪制了一個(gè)完整的性別偏見(jiàn)單詞關(guān)系數(shù)據(jù)集,他們弄清楚這些數(shù)據(jù)是如何影響了向量空間的形狀,以及通過(guò)移除這個(gè)變形,最終向量空間的形狀會(huì)發(fā)生怎樣的改變。 他們把這個(gè)過(guò)程稱(chēng)為“硬去偏”( hard de-biasing)。
改善的最終結(jié)果令人滿意。研究人員使用經(jīng)過(guò)修繕的向量空間,測(cè)試產(chǎn)生了一系列新的跟”她:他“有關(guān)的類(lèi)比,得出的結(jié)果有母雞:公雞、女孩們:男孩們、女兒:兒子等。這個(gè)向量空間的性別偏見(jiàn)大大減少了。
研究結(jié)果如下圖所示,綠色線條顯示經(jīng)過(guò)“硬去偏”之后的帶有偏見(jiàn)的單詞關(guān)系數(shù)量顯著減少。
Bolukbasi 說(shuō):”通過(guò)實(shí)證評(píng)估,我們的的算法顯著降低了無(wú)論是直接的還是間接的性別偏見(jiàn),同時(shí)保留了單詞嵌入的有效性。“
有一種觀點(diǎn)認(rèn)為,單詞嵌入僅僅反映了社會(huì)中已存的偏見(jiàn),因此人們應(yīng)該試圖去糾正社會(huì)而不是糾正單詞嵌入。 Bolukbasi和他的同事們認(rèn)為自己的行為恰好蘊(yùn)含在糾正整個(gè)社會(huì)的過(guò)程之中?!叭缃竦挠?jì)算機(jī)系統(tǒng)越來(lái)越依賴(lài)于單詞嵌入,我們?cè)趩卧~嵌入上的小小努力最終希望能改善整個(gè)社會(huì)的性別偏見(jiàn)現(xiàn)象?!?/span>
這是非??删吹哪繕?biāo)。就像他們團(tuán)隊(duì)最終總結(jié)的,“至少,機(jī)器學(xué)習(xí)不應(yīng)該被用于放大這些偏見(jiàn),即使是無(wú)心的?!?/span>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。