0
毫無疑問,馬蜂窩剛剛度過一個(gè)黑色周末。
10月20號(hào)微信公眾號(hào)“小聲比比”發(fā)表了一篇名為《獨(dú)家|估值175億的旅游獨(dú)角獸,是一座僵尸和水軍構(gòu)成的鬼城》的文章,直指旅游網(wǎng)站馬蜂窩評(píng)論抓取抄襲其他旅游平臺(tái),大量內(nèi)容和抽獎(jiǎng)涉嫌造假。
作者宛如手提一把98K的剛槍王,一槍一靶,甩出了馬蜂窩與點(diǎn)評(píng),攜程、藝龍、美團(tuán)、Agoda、Yelp等網(wǎng)站評(píng)論對(duì)比圖,操作堪稱一流。
這篇文章以朋友圈為擴(kuò)散中心,迅速開啟病毒式傳播,短時(shí)間內(nèi)達(dá)到10W+閱讀量。馬蜂窩隨后在10月22日也就是今天一早,發(fā)出了一則聲明稱,該自媒體文章所述的馬蜂窩用戶數(shù)量與事實(shí)和第三方機(jī)構(gòu)數(shù)據(jù)都嚴(yán)重不符,并存在誤導(dǎo)傾向,已被查證為有組織攻擊行為,將采取法律手段維護(hù)自身權(quán)益。
馬蜂窩與爆料自媒體的口水戰(zhàn)還在繼續(xù),圍觀群眾也保持著吃瓜激情,支持者有,吐槽者有,抖機(jī)靈甩段子的也有。
比如知乎用戶羅一覺提出了一個(gè)有意思的細(xì)節(jié),馬蜂窩的這些假評(píng)論,主要是在工作日、工作時(shí)間發(fā)出來的。而不是和別的正常網(wǎng)站一樣,集中在飯點(diǎn)、休息日。
這說明:
馬蜂窩在抄襲的時(shí)候,沒有考慮到正常用戶的行為方式。如果程序員稍微動(dòng)一下腦筋,把抄好的評(píng)論在飯點(diǎn)發(fā)出去,那就沒這么大的問題。
這些評(píng)論很可能是員工在工作時(shí)間一個(gè)一個(gè)抄過來的,而不是有什么自動(dòng)化的軟件在抄襲。因?yàn)槌绦驊?yīng)該是不需要休息的。而且從數(shù)據(jù)來看,一萬五千活躍用戶,有三四年的時(shí)間,完全是一個(gè)人工團(tuán)隊(duì)可以進(jìn)行的工作量。所以,在馬蜂窩就有一個(gè)團(tuán)隊(duì),十來上百人,每天的任務(wù)就是把別家的評(píng)論抄到自己家的網(wǎng)站上。我無法想象這種工作的枯燥程度,簡直就是《城市之光》里的工人。他們可能拿著最低工資,但他們的產(chǎn)出,卻是馬蜂窩估值100億+人民幣的核心競爭力。
另一位知乎網(wǎng)友Windfury則聊到一些技術(shù)問題,
馬蜂窩上的攻略雷同的太多了,就像搜索引擎搜編程問題一樣,結(jié)果大都是機(jī)器人的互相拷貝,一個(gè)后果是錯(cuò)誤的引導(dǎo)被復(fù)制來復(fù)制去。
馬蜂窩的問題對(duì)用戶來說除了相似內(nèi)容太多,還有一個(gè)時(shí)效性問題,比如說很多景區(qū)當(dāng)前在修路或者現(xiàn)在那個(gè)省份有票價(jià)優(yōu)惠,這對(duì)游客來說其實(shí)是很重要的信息,缺失了會(huì)導(dǎo)致行程出現(xiàn)嚴(yán)重問題,而這個(gè)問題在馬蜂窩現(xiàn)在這種社區(qū)模式下無法解決。
還有網(wǎng)友則認(rèn)為爆料方是有備而來,
能把馬蜂窩,點(diǎn)評(píng),攜程、藝龍、美團(tuán)、Agoda、Yelp這些網(wǎng)站全部爬一遍,他背后的團(tuán)隊(duì)技術(shù)實(shí)力肯定很強(qiáng)悍,肯定也花費(fèi)了不少時(shí)間和金錢做這件事。不過我很好奇作者花費(fèi)了這么多資源做這件事,僅僅是為了打假?我覺得原因沒那么簡單。
要么作者夸大了他的爬蟲數(shù)據(jù)量,要么作者也準(zhǔn)備開一家馬蜂窩,手動(dòng)狗頭。
也有網(wǎng)友認(rèn)為這一連串都是套路,熟悉的配方多家使用,
沒有內(nèi)容來源→爬蟲扒其他網(wǎng)站→數(shù)據(jù)量暴增→報(bào)表好看→估值暴增→風(fēng)投(人傻錢多)源源不斷→IPO→套現(xiàn)
知乎網(wǎng)友 Lincoin 認(rèn)為機(jī)器人創(chuàng)造內(nèi)容,乃是業(yè)內(nèi)的常見操作,沒什么新鮮的。
淘寶剛上線的時(shí)候,缺少種子用戶(小白鼠),馬老板帶著員工自己買自家商品寫評(píng)論打分,創(chuàng)業(yè)初期都是這么過來的。但是「抄襲」的這么明顯,還當(dāng)自家資產(chǎn)來賣,這確實(shí)就有點(diǎn)不厚道了。
微博網(wǎng)友:
馬蜂窩:我們不生產(chǎn)內(nèi)容,我們只是內(nèi)容的搬運(yùn)工;
從螞蜂窩改到馬蜂窩,怪不得會(huì)捅馬蜂窩……
當(dāng)然還有一些網(wǎng)友情不自禁甩出了諸多表情包
……
關(guān)于數(shù)據(jù)挖掘這事兒
事實(shí)上,數(shù)據(jù)挖掘這件事兒一直都存有爭議,一方面平臺(tái)認(rèn)為利用技術(shù)爬取數(shù)據(jù)可以完善功能提高用戶使用感,另一方面卻被質(zhì)疑爬取的數(shù)據(jù)是否侵犯作者權(quán)益。
也有人好奇報(bào)道中稱馬蜂窩2100萬條“真實(shí)點(diǎn)評(píng)”中,有1800萬條都是通過機(jī)器人從競品網(wǎng)站抄襲過來的,這是如何做到的。
來自邦盛科技機(jī)器防御專家告訴雷鋒網(wǎng)宅客頻道,目前平臺(tái)均是通過網(wǎng)絡(luò)機(jī)器人技術(shù)從其他網(wǎng)站爬取信息,并抄襲到自己的平臺(tái)。
網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則,自動(dòng)地抓取網(wǎng)絡(luò)信息的程序或者腳本。當(dāng)前大部分的網(wǎng)絡(luò)機(jī)器人是通過直接發(fā)起http請(qǐng)求的方式獲取網(wǎng)頁資源,無js引擎,會(huì)進(jìn)行一定的偽裝,并使用動(dòng)態(tài)IP來躲避反爬蟲措施。隨著網(wǎng)站防護(hù)能力的不斷提升,網(wǎng)絡(luò)爬蟲會(huì)逐漸向?yàn)g覽器內(nèi)核型進(jìn)化,從而具備執(zhí)行js的能力,并進(jìn)一步的擬人化,增加被識(shí)別的難度。
總之,機(jī)器人創(chuàng)造內(nèi)容已經(jīng)不新鮮了,以馬蜂窩風(fēng)波中的刷評(píng)為例,就是通過爬取競品的商家評(píng)論數(shù)據(jù),以預(yù)定義的一些隨機(jī)替換規(guī)則(比如稱謂,地點(diǎn),時(shí)間等等)構(gòu)造新的評(píng)論,最后利用馬蜂窩平臺(tái)設(shè)立的大批機(jī)器人賬號(hào),發(fā)布在自己平臺(tái)的對(duì)應(yīng)商家評(píng)論里。
當(dāng)然,類似馬蜂窩去抓取其他網(wǎng)絡(luò)預(yù)訂同行的內(nèi)容數(shù)據(jù)這種情況在業(yè)內(nèi)很是常見,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)機(jī)器人也越來越普遍。
根據(jù)之前國外網(wǎng)絡(luò)安全公司的研究報(bào)告,50%左右的網(wǎng)絡(luò)流量來自網(wǎng)絡(luò)機(jī)器人,遍布各類網(wǎng)站,包括出行、社交、OTA、電商、招聘、銀行、政府等。例如出行類中的12306票務(wù)信息被各類搶票軟件瘋狂地爬取,高峰時(shí)刻每天的訪問量達(dá)到千億次。在社交類中,通過網(wǎng)絡(luò)爬蟲技術(shù)可以指揮一幫網(wǎng)絡(luò)機(jī)器人關(guān)注某人的微博、公眾號(hào)等,進(jìn)行點(diǎn)贊、關(guān)注或者留言,制造大量的僵尸粉。
(因此諸多吃瓜群眾表示:知乎、微博大V軟文贊評(píng)都是刷的,大家彼此彼此。)
在問到最關(guān)鍵的被爬取內(nèi)容網(wǎng)站是否能發(fā)覺并采取反爬手段時(shí),專家告訴我們,針對(duì)爬蟲,常規(guī)的反爬蟲手段包括驗(yàn)證碼、HTTP Header校驗(yàn)、代理IP識(shí)別等。
隨著爬蟲技術(shù)的演進(jìn),常規(guī)的反爬蟲手段已經(jīng)無法有效阻止爬蟲的訪問。近年來通過多維度、多層次的檢測(cè),并輔以后端大數(shù)據(jù)分析來識(shí)別網(wǎng)絡(luò)機(jī)器人逐漸興起并成為主流。
利用設(shè)備指紋技術(shù)從設(shè)備維度定位網(wǎng)絡(luò)機(jī)器人,人機(jī)識(shí)別技術(shù)從操作行為判別機(jī)器人點(diǎn)擊和自動(dòng)化點(diǎn)擊,而后端大數(shù)據(jù)實(shí)時(shí)分析技術(shù)可根據(jù)長周期數(shù)據(jù)進(jìn)行復(fù)雜規(guī)則決策。綜合以上手段,可有效偵測(cè)爬蟲行為,保護(hù)網(wǎng)站的信息資產(chǎn)不被爬取和泄露。
手段想有都可以有,但平臺(tái)用不用就不知道了。
可惜,對(duì)于深陷輿論中心的馬蜂窩來說,黑色周末依然在延續(xù)。
參考來源:知乎
雷鋒網(wǎng)宅客頻道(微信公眾號(hào):letshome),專注先鋒科技,講述黑客背后的故事,歡迎關(guān)注雷鋒網(wǎng)宅客頻道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。