6
本文作者: 溫曉樺 | 2016-03-18 15:08 |
世界上比酒后發(fā)短信更危險的事,就是酒后發(fā)(ren)推(jin)文(jie)了(zhi)吧。公開廣播自己醉酒顯然不是拓展社交應該有的動作,然而還是有很多人無法克制住吹噓他們的酒后越軌行為。而科學家為此也是操碎了心,據(jù)外媒報道,科學家已經訓練出一套算法,能夠識別出與“醉酒推文”,甚至還能知道發(fā)推時是否正在喝酒。
據(jù)悉,美國羅徹斯特大學 研究員Nabil Hossain決定在Twitter和機器學習結合起來,以在特定群體中跟蹤監(jiān)測醉酒用戶和推文。
為了進行訓練,Nabil Hossain收集2013年7月至2014年7月之間成千上萬被標記的推文,然后將包含與豪飲相關關鍵字的推文篩選出來。
隨后,他們通過亞馬遜土耳其機器人(Mechanical Turk)的眾包服務將1.1萬條推文混合起來,每一條推文都要通過三個提問:
Q1:這條推文有任何與酒精相關的跡象嗎?
Q2:如果有,推文內容是關于酒醉的發(fā)推者本身的嗎?
Q3:如果是,推文有可能是在發(fā)推者喝酒所在的時間地點發(fā)出的嗎?
Hossain用答案來訓練三套不同的算法——“線性支持向量機”(SVM)——來回答每一個問題。
準確率(識別出醉酒推文)——機器學習的準確率和Turkers的結果——算法回答Q1的準確率為92%,Q3準確率則為82%。
然而,該團隊進行了更深入的研究,試圖定位推文的發(fā)文地點,是在家里還是其他什么地方。為了鎖定用戶的發(fā)推地點,研究者將一些與家庭相關的關鍵字搜羅起來,比如沐浴、沙發(fā)、電視、睡覺以及家等,然后進行推文篩選。
以同樣的訓練方法,研究團隊聲稱成功創(chuàng)建一套準確率達到80%的算法來識別發(fā)推地點。
根據(jù)研究結果,該團隊勾勒出紐約州居民喜好的喝酒地點——家里,俱樂部等等。這是一個有趣的發(fā)現(xiàn), 因為有了這些數(shù)據(jù),研究者可以描繪出一種模式,比如紐約市的人們喜歡在家里附近喝酒,而其他某個地區(qū)的人喜歡在郊區(qū)喝酒,這樣的統(tǒng)計可以反饋酒類飲品消費聚集地。
“未來我們可以利用這項技術來對社交媒體上的飲酒消費進行全面的研究?!?/p>
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。