3
在網(wǎng)上聊天,沒有人知道你是否是一只狗。偷情網(wǎng)站Ashley Madison的信息泄漏之后,人們才發(fā)現(xiàn)男女比例非但沒有網(wǎng)站說的9:1,而且還有一大半是公司偽造的。聊了半天,才發(fā)現(xiàn)自己在搞基……
如果給你一篇文章或是一段話,你能判斷它出自男性還是女性之手嗎?我們可能只能靠蒙,然而電腦可以。
研究人員用一個叫Winnow的軟件分析了566份出版的文檔,這些文檔主要為英式英語。該軟件首先經(jīng)過了“調(diào)教”,收錄了一批已經(jīng)標(biāo)明作者為“男性”或是“女性”的文章。從中,研究人員從詞性特點進(jìn)行統(tǒng)計,特別是一些在英語句子里不表示意義的虛詞;或是一些短語,如“above the table”這樣的用法。
然后,研究人員開始用未注明性別的文章來測試,涵蓋了多種體裁。據(jù)稱,準(zhǔn)確程度達(dá)到了98%。
在研究中,研究者發(fā)現(xiàn)出自男性之手的小說多會出現(xiàn)以下詞語:“a”、“the”和“as”;而更能證明作者是女性的詞語是:“she”、“for”、“with”和“not”。而在非小說的文章里,男性更喜歡用“that”、“one”,而女性更常用“for”、“with”、“not”還有“in”等詞。
雖然這樣的研究還比較粗淺,但對于信息匿名的網(wǎng)絡(luò)世界而言,這可以為“偷情成功”提供必要的性別判斷依據(jù)(微笑臉)。
via nytimes
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。