2
本文作者: 史中 | 2016-12-12 11:19 |
網(wǎng)絡(luò)世界,就像一道無(wú)盡的步行街。
而不同的網(wǎng)址,就像一扇扇大門(mén),分列在街道左右。這些門(mén)背后,有摩天大廈,也有木屋小宅。
例如:
你推開(kāi)“www.taobao.com”這扇門(mén) ,就走入了琳瑯滿目的商場(chǎng)。
你推開(kāi)“www.baidu.com”這扇門(mén),就可以輕松把你傳送到想去的門(mén)前。
你推開(kāi)“www.icbc.com.cn”這扇門(mén),就能進(jìn)入“愛(ài)存不存”的錢(qián)莊。
你推開(kāi)“m.ozgbdpf.cn”這扇門(mén),就可以看到讓自己死而無(wú)憾的最前沿科技新聞。
然而,驚悚的故事總需要一些反派。在林立的大門(mén)中,有一些不太利于社會(huì)主義和諧社會(huì)的建設(shè)。
例如:
有些門(mén)看起來(lái)樸實(shí)無(wú)華,一旦吃瓜群眾誤入,里面的木馬病毒就會(huì)趁機(jī)“上身”。
有些門(mén)掛著很像銀行的招牌,甚至走進(jìn)去看也很相似。事實(shí)上那卻是騙人錢(qián)財(cái)?shù)尼烎~(yú)網(wǎng)站。
有些門(mén)通向地下賭場(chǎng),人們錦衣玉食進(jìn)去,光著屁屁出來(lái)。
有些門(mén)口點(diǎn)著粉色小燈,里面卻是讓你 喜聞樂(lè)見(jiàn) 灰飛煙滅的小發(fā)廊。
【不知為什么,突然想貼一張圖】
當(dāng)你推開(kāi)一扇門(mén)的時(shí)候,很可能并不知道自己將會(huì)身處險(xiǎn)境。這時(shí),你可能需要一只“上帝之手”,在你誤入歧途的一瞬間,把你拉回人間。
這位“全知全能”的上帝,就是百度網(wǎng)址安全中心所扮演的角色。
百度,注定不能做一個(gè)安靜的推薦者。因?yàn)槿藗兤诖⑶乙笏鼮橥扑]的結(jié)果負(fù)責(zé)。所以,在把網(wǎng)址鏈接呈現(xiàn)給用戶之前,即使是刀山油鍋,網(wǎng)址安全中心的童鞋們也要為用戶“嘗試”一下。
坐鎮(zhèn)國(guó)內(nèi)最大的搜索引擎旗下,百度網(wǎng)址安全中心可謂“閱人無(wú)數(shù)”。
那么,這個(gè)安全中心究竟如何運(yùn)作,其中又有什么有趣的技術(shù)呢?雷鋒網(wǎng)宅客頻道采訪到了百度商業(yè)安全研發(fā)部技術(shù)總監(jiān)馮景輝,他負(fù)責(zé)百度安全旗下企業(yè)安全產(chǎn)品的研發(fā)工作。
【百度商業(yè)安全研發(fā)部技術(shù)總監(jiān) 馮景輝】
馮景輝告訴我們,一般情況下惡意網(wǎng)址分為以下幾類(lèi):
這類(lèi)網(wǎng)頁(yè)會(huì)隱藏惡意腳本,利用你的系統(tǒng)漏洞安裝木馬病毒。如果你的系統(tǒng)沒(méi)有升級(jí)到最新版本,有可能被木馬“鉆”進(jìn)來(lái)。木馬一旦“進(jìn)駐”就會(huì)進(jìn)而獲取你的隱私信息,或者遠(yuǎn)端控制你的電腦。
這三類(lèi)網(wǎng)址可以統(tǒng)一歸為違法網(wǎng)址。它們所宣揚(yáng)的內(nèi)容本身并不合法,嚴(yán)重影響社會(huì)安定,所以顯然屬于惡意網(wǎng)址范疇。
而且這類(lèi)網(wǎng)站中,很大一部分也隱藏著病毒木馬。
嚴(yán)格地說(shuō),這類(lèi)網(wǎng)址本身的存在并不違法,但它們是詐騙環(huán)節(jié)的一部分。例如:仿冒的銀行網(wǎng)頁(yè),虛假的中獎(jiǎng)信息網(wǎng)頁(yè)。騙子會(huì)通過(guò)各種渠道把這些網(wǎng)址發(fā)送給受害人,誘騙他們填入密碼等信息,進(jìn)而盜取銀行欠款,或者進(jìn)一步詐騙。
【虛假的《奔跑吧兄弟》中獎(jiǎng)網(wǎng)站截圖】
這些惡意網(wǎng)站,背后被不同的經(jīng)濟(jì)模式所驅(qū)動(dòng)。在金錢(qián)的誘惑面前,總會(huì)有人鋌而走險(xiǎn)。中國(guó)境內(nèi)惡意網(wǎng)址的數(shù)量,甚至超過(guò)了我們的人口。
根據(jù)團(tuán)隊(duì)的研究,馮景輝總結(jié)了惡意網(wǎng)址的一些特點(diǎn):
1、所有惡意網(wǎng)址中,數(shù)量最大的是釣魚(yú)網(wǎng)址。這些頁(yè)面中,有70%是“虛假中獎(jiǎng)”“虛假購(gòu)物”這類(lèi)詐騙網(wǎng)頁(yè),而其余30%則是針對(duì)銀行或電商的“仿冒網(wǎng)站”。
和所有詐騙一樣,這類(lèi)網(wǎng)址一般是“打一槍換一個(gè)地方”。網(wǎng)址鏈接(URL)的平均存活時(shí)間,國(guó)際上是29小時(shí),而在中國(guó)是33小時(shí)。
2、黃賭毒網(wǎng)頁(yè)的絕對(duì)數(shù)量不多,但是訪問(wèn)量在所有惡意網(wǎng)址中所占的比例最高。和釣魚(yú)網(wǎng)站不同,這類(lèi)網(wǎng)站需要“長(zhǎng)期運(yùn)營(yíng)”。(看來(lái),和人性的斗爭(zhēng)確實(shí)艱苦卓絕。)
3、掛馬網(wǎng)頁(yè)的絕對(duì)數(shù)量最少。
看上去,惡意網(wǎng)址都是那么地“個(gè)性鮮明”,判斷一個(gè)網(wǎng)址是不是屬于惡意網(wǎng)址似乎很簡(jiǎn)單。但是仔細(xì)分析,你會(huì)發(fā)現(xiàn)至少面臨兩個(gè)巨大的技術(shù)困難。
1、在浩若煙海的網(wǎng)絡(luò)空間中,怎樣找到要檢測(cè)的目標(biāo)?
2、面對(duì)數(shù)以億計(jì)的目標(biāo)網(wǎng)址,如何在可控的時(shí)間內(nèi)完成檢測(cè)?
馮景輝向雷鋒網(wǎng)宅客頻道介紹了團(tuán)隊(duì)用來(lái)完成檢測(cè)任務(wù)的兩大“法寶”。
你可能會(huì)熟悉“搜索引擎爬蟲(chóng)”,也就是百度搜索產(chǎn)品的重要技術(shù)。
回到最初的比喻,如果用街道上的門(mén)來(lái)比喻一個(gè)個(gè)網(wǎng)址,搜索引擎爬蟲(chóng)的主要任務(wù)是把那些“門(mén)”里的大致情景記下來(lái),然后在需要的時(shí)候呈現(xiàn)給用戶。為了精確,有事還會(huì)推開(kāi)門(mén)拍一張廳堂的“快照”(網(wǎng)頁(yè)快照)。
但是,這樣的爬蟲(chóng)并不能“感受”到在房間內(nèi)部究竟有怎樣的“機(jī)關(guān)暗道”。這時(shí),你需要“戰(zhàn)斗爬蟲(chóng)”。
“戰(zhàn)斗爬蟲(chóng)”不僅僅是“看一眼”或“拍張照”這么簡(jiǎn)單,而是把所有的門(mén)都探索一遍。一些網(wǎng)頁(yè)會(huì)存在跳轉(zhuǎn)、加密?!皯?zhàn)斗爬蟲(chóng)”要做的,就是利用種種技術(shù)手段,把房間中的暗門(mén)和夾層全部記錄下來(lái)。
【爬蟲(chóng)基本原理】
另外,系統(tǒng)還面臨一個(gè)任務(wù),那就是盡可能多地找到不同的網(wǎng)址用于鑒定。
馮景輝說(shuō),
爬蟲(chóng)系統(tǒng)的輸入源,包括百度搜索的結(jié)果內(nèi)容,還包括百度內(nèi)部的貼吧等內(nèi)容,也有手機(jī)衛(wèi)士安全客戶端報(bào)告的高危網(wǎng)址,還包括合作方提供的URL。
資料齊備,接下來(lái)就到了另一個(gè)關(guān)鍵時(shí)刻:檢測(cè)。
當(dāng)然,檢測(cè)惡意網(wǎng)址最可靠的方法就是交給人工。但是,面對(duì)如此龐大的網(wǎng)址數(shù)量,全國(guó)人民一起上陣都未必忙得過(guò)來(lái)。
所以,這些資料會(huì)統(tǒng)統(tǒng)交給一位經(jīng)驗(yàn)豐富的“老刑警”來(lái)搞定,這個(gè)老刑警就是“網(wǎng)址安全檢測(cè)引擎”。
網(wǎng)址安全檢測(cè)引擎對(duì)于不同種類(lèi)的惡意網(wǎng)址,有不同的鑒定流程。
對(duì)于惡意掛馬網(wǎng)頁(yè)的檢測(cè)方式,和對(duì)病毒的檢測(cè)方式非常類(lèi)似。
木馬傳播到電腦上,一般都會(huì)利用漏洞,而這些漏洞都有“特征內(nèi)容”。利用對(duì)這些特征的識(shí)別,就可以判斷出網(wǎng)頁(yè)是否有掛馬行為。但是,很多黑產(chǎn)也會(huì)采用加密、變形等手段增加我們的檢測(cè)難度。我們主要在對(duì)抗這些手段。
馮景輝說(shuō)。
有些網(wǎng)頁(yè)在腳本中隱藏了惡意木馬,但是這種隱蔽方法和一些病毒類(lèi)似,需要在真實(shí)的網(wǎng)頁(yè)環(huán)境中才會(huì)被觸發(fā)。對(duì)于這類(lèi)“嫌疑網(wǎng)頁(yè)”,百度網(wǎng)址安全中心的童鞋們會(huì)利用類(lèi)似“沙箱”的系統(tǒng),讓網(wǎng)頁(yè)腳本跑在虛擬機(jī)中,讓它露出“真面目”。
對(duì)于“黃賭毒”內(nèi)容的檢測(cè),和傳統(tǒng)反病毒所需的技術(shù)差別很大。實(shí)際上,引擎所要做的基本任務(wù),就是根據(jù)網(wǎng)頁(yè)內(nèi)容把它進(jìn)行分類(lèi)。
這里面主要用到了一種數(shù)學(xué)技術(shù):TF-IDF 算法。
所謂 TF-IDF 算法,簡(jiǎn)單說(shuō)來(lái)就是提取網(wǎng)頁(yè)內(nèi)能夠表述網(wǎng)頁(yè)內(nèi)容的關(guān)鍵詞,找到在這個(gè)網(wǎng)頁(yè)中出現(xiàn)頻繁,但是其他網(wǎng)頁(yè)中并不普遍的詞匯。
這種技術(shù),往往可以幫助系統(tǒng)判斷一個(gè)網(wǎng)頁(yè)的“中心思想”,判定“黃賭毒”再適合不過(guò)。
仿冒正規(guī)網(wǎng)站的釣魚(yú)網(wǎng)站,精髓就在于“像”。
既然黑產(chǎn)的目的是“像”,那么對(duì)抗的技術(shù)就是“對(duì)比相似性”。這其中又主要用到一種數(shù)學(xué)算法:SIMHASH 算法。
簡(jiǎn)單說(shuō)來(lái),SIMHASH 算法就是把一個(gè)網(wǎng)頁(yè)內(nèi)容轉(zhuǎn)換成一個(gè)64位的“特征字”,如果兩個(gè)內(nèi)容的特征字距離小于規(guī)定值,那么就判定二者相似度極高。這種算法最早由谷歌研發(fā),用于網(wǎng)頁(yè)搜索去重。
寫(xiě)過(guò)畢業(yè)論文的童鞋都知道,從網(wǎng)上 Down 哪怕一段內(nèi)容,都會(huì)被論文查重系統(tǒng)的火眼金睛發(fā)現(xiàn)。沒(méi)錯(cuò),老師們正是用 SIMHASH 這種“人類(lèi)智慧的結(jié)晶”在和“不法學(xué)生”對(duì)抗。
然而,在釣魚(yú)網(wǎng)頁(yè)中,還有70%的“虛假中獎(jiǎng)”類(lèi)頁(yè)面,它們并沒(méi)有仿冒其他網(wǎng)頁(yè),這對(duì)于馮景輝和團(tuán)隊(duì)來(lái)說(shuō),是一個(gè)不大不小的難題。
對(duì)于這樣的問(wèn)題,他們手里還有一樣“秘密武器”。
判斷一個(gè)網(wǎng)頁(yè)是不是“虛假中獎(jiǎng)”頁(yè)面,對(duì)于一個(gè)人來(lái)說(shuō),可能是小菜一碟。如果可以訓(xùn)練機(jī)器來(lái)模擬人的判斷,問(wèn)題就會(huì)迎刃而解。
人工智能,可是百度的“招牌菜”。
馮景輝告訴雷鋒網(wǎng)宅客頻道,
除了一些司法上的特征,很多“虛假中獎(jiǎng)”頁(yè)面還會(huì)有其他的特征,例如:
網(wǎng)頁(yè)中的圖片比例很高,呈現(xiàn)瀑布流狀;
而這類(lèi)網(wǎng)頁(yè)鏈接由于頻繁變動(dòng),經(jīng)常是一些和正常網(wǎng)址不一樣的奇怪域名。
這類(lèi)網(wǎng)站也會(huì)引用大量的外部鏈接。
類(lèi)似的特征還有很多,把這些特征參數(shù)放到深度學(xué)習(xí)引擎中,機(jī)器就可以自己總結(jié)出一套判定“虛假中獎(jiǎng)”頁(yè)面的標(biāo)準(zhǔn),實(shí)現(xiàn)自動(dòng)的智能識(shí)別。
【虛假中獎(jiǎng)網(wǎng)頁(yè)】
識(shí)別“高段位”的黃賭毒網(wǎng)頁(yè),同樣需要這種深度學(xué)習(xí)的方法。
例如一些小說(shuō)站和圖片站。對(duì)于描寫(xiě)的尺度、內(nèi)衣的高度(為了防止本文被判定為黃賭毒網(wǎng)頁(yè),就不多說(shuō)了)這些擦邊程度的判斷,只能人為地劃定標(biāo)準(zhǔn)(參考車(chē)展和 ChinaJoy 為美女“量身定做”的“兩厘米”規(guī)則。。。),然后把這些標(biāo)準(zhǔn)輸入深度學(xué)習(xí)系統(tǒng),把這種讓人“心力交瘁”的工作甩給機(jī)器。
以上這種深度學(xué)習(xí)的方法, 被稱為“有監(jiān)督學(xué)習(xí)”,簡(jiǎn)單來(lái)說(shuō),就是需要人類(lèi)不斷提供一些特征標(biāo)準(zhǔn),機(jī)器根據(jù)這些特征進(jìn)行下一步總結(jié)。但是馮景輝說(shuō),他們下一步想要搞的,是“無(wú)監(jiān)督學(xué)習(xí)”。
無(wú)監(jiān)督學(xué)習(xí),就是根本不告訴人工智能系統(tǒng)任何“人類(lèi)總結(jié)出的特征”,僅僅是給它大量的黑白樣本,讓系統(tǒng)自動(dòng)抽象出一些特征。人類(lèi)只負(fù)責(zé)告訴機(jī)器它的判斷是對(duì)還是錯(cuò),機(jī)器根據(jù)這個(gè)結(jié)果來(lái)改進(jìn)它總結(jié)的特征。
這些特征往往非常奇葩,有些以人類(lèi)大腦的邏輯并不容易總結(jié)和表述。但是,這類(lèi)“無(wú)法描述”的特征往往一針見(jiàn)血,精準(zhǔn)異常。
連人工智能這種“原子彈”級(jí)別的武器都被抬出來(lái)了,這下該天下太平了吧?哈哈,圖樣圖森破。
充斥著黑產(chǎn)的賽博世界從來(lái)都是“Hard”模式。要知道,馮景輝和團(tuán)隊(duì)面對(duì)的是無(wú)數(shù)“老司機(jī)”,“束手就擒”這四個(gè)字從來(lái)就不在他們的字典里。
馮景輝舉了一個(gè)最簡(jiǎn)單的例子:
很多黑產(chǎn)為了躲避對(duì)違法文本內(nèi)容的打擊,會(huì)把這些文本做成圖片的形式。當(dāng)然,圖片上的 OCR 文字識(shí)別技術(shù)已經(jīng)很成熟了。我們需要做的,就是把這種技術(shù)重新部署進(jìn)我們的系統(tǒng),不斷升級(jí)對(duì)抗的手段。
然而,一言不合黑產(chǎn)老司機(jī)就腦洞大開(kāi),新玩法層出不窮。
不要低估黑產(chǎn)的嗅覺(jué)。
在“林丹”事件被爆出的那一刻,反應(yīng)最快的不是林丹,不是謝杏芳,而是黑產(chǎn)。他們手中控制了一個(gè)僵尸網(wǎng)站群,在第一時(shí)間把這一站群的集中引用頁(yè)面的關(guān)鍵詞都改為“林丹”,這樣,這一站群的關(guān)鍵詞都會(huì)成為林丹,被搜索引擎自動(dòng)匹配關(guān)聯(lián)。
這樣,在有關(guān)林丹的消息還沒(méi)有大規(guī)模爆發(fā)的時(shí)間窗口,惡意網(wǎng)站就會(huì)占領(lǐng)搜索引擎的最佳位置。
由于平時(shí)這些黃色網(wǎng)站群處于“蟄伏”狀態(tài),不一定被“戰(zhàn)斗爬蟲(chóng)”和“檢測(cè)引擎”發(fā)現(xiàn)。此時(shí)它們突然大規(guī)模跳出,借助人們對(duì)于林丹的“如火熱情”,可以大賺一票。
當(dāng)然,“林丹”顯然是躺槍。最近每出現(xiàn)一個(gè)爆炸性的新聞,黑產(chǎn)都會(huì)利用流量效應(yīng)迅速“撈一把”。
另外,百度搜索引擎有聯(lián)想功能,可以關(guān)聯(lián)兩個(gè)相關(guān)的詞匯。例如:人們會(huì)搜索某個(gè)明星的名字,但是名字比較復(fù)雜,很多人第一次輸入錯(cuò)誤,搜索之后又更正為正確的重新搜索。這時(shí),搜索引擎就會(huì)自動(dòng)關(guān)聯(lián)這兩個(gè)詞匯。
【黑客利用木馬組建受自己控制的僵尸網(wǎng)絡(luò),為黑產(chǎn)“顧客”提供服務(wù)】
黑產(chǎn)會(huì)利用機(jī)器學(xué)習(xí)的這一特性,發(fā)動(dòng)手上的肉雞不斷同時(shí)搜索兩個(gè)關(guān)鍵詞,這兩個(gè)關(guān)鍵詞,一個(gè)是正常的熱點(diǎn)詞,另一個(gè)就是黑產(chǎn)頁(yè)面的關(guān)鍵詞。這樣的話,每當(dāng)用戶搜索熱門(mén)關(guān)鍵詞的時(shí)候,就有可能搜索到黑產(chǎn)相關(guān)的頁(yè)面。
在搜索引擎改進(jìn)對(duì)抗機(jī)制的同時(shí),網(wǎng)址安全中心的技術(shù)團(tuán)隊(duì)也會(huì)優(yōu)先排查和熱點(diǎn)詞相關(guān)聯(lián)的頁(yè)面是否安全。
有一些開(kāi)放的平臺(tái),允許用戶上傳信息。這時(shí),如果黑產(chǎn)在上面發(fā)表了帶有有害鏈接的帖子評(píng)論,就會(huì)引發(fā)大量的點(diǎn)擊。這種鏈接傳播更廣,危害也會(huì)更大,需要在第一時(shí)間篩查,我們必須優(yōu)先保證可能被訪問(wèn)最多的網(wǎng)頁(yè)是最安全的。
馮景輝說(shuō)。
其實(shí),黑產(chǎn)早就意識(shí)到了百度網(wǎng)址安全中心這類(lèi)機(jī)構(gòu)對(duì)于他們的圍堵,所以早就開(kāi)始玩起了貓鼠游戲。
馮景輝舉了一個(gè)簡(jiǎn)單的例子。
有些網(wǎng)頁(yè)在被加載之后,可能會(huì)靜默兩秒,之后惡意腳本才會(huì)執(zhí)行。
這樣的玩法,正是為了躲避檢測(cè)引擎中“沙盒”的虛擬執(zhí)行。而在得知黑產(chǎn)采用這種對(duì)抗策略后,馮景輝和童鞋們就在檢測(cè)方法中增加了針對(duì)性的策略。
在之后的對(duì)抗中,惡意網(wǎng)址從失敗中汲取了經(jīng)驗(yàn),“進(jìn)化”得更加智能。
例如:
某些惡意網(wǎng)頁(yè)會(huì)把百度和其他安全公司的 IP 列為“黑名單”,一旦發(fā)現(xiàn)被這些 IP 訪問(wèn),就裝作“乖寶寶”,自始至終不展開(kāi)惡意行為。
于是我們發(fā)現(xiàn),通過(guò)公司內(nèi)部的單點(diǎn)去爬,可能會(huì)“中招”,于是變換 IP 繼續(xù)爬。
到后來(lái),黑產(chǎn)甚至把這些大安全公司所在的省份所有的 IP 直接加入“黑名單”,
全省的 IP 都被黑產(chǎn)屏蔽,這時(shí)我們就利用分布在全國(guó)的機(jī)房去爬。
在對(duì)抗中,黑產(chǎn)發(fā)現(xiàn)安全人員總能找到新的方法來(lái)對(duì)抗,于是干脆采用了“斷臂求生”的方法,網(wǎng)頁(yè)在白天關(guān)閉,只在夜間開(kāi)放。
惡意網(wǎng)頁(yè)分時(shí)開(kāi)放的策略,在提高安全系統(tǒng)檢測(cè)難度的同時(shí),意味著他們?cè)p騙的受眾面也變小了。
馮景輝不無(wú)驕傲。
目前,百度網(wǎng)址安全中心的檢測(cè)結(jié)果會(huì)提供給微軟、百度、愛(ài)奇藝、小米路由器、火狐瀏覽器、新浪微博等合作伙伴。由這些終端來(lái)執(zhí)行彈窗提示、網(wǎng)頁(yè)屏蔽或者實(shí)時(shí)阻斷。
自由是互聯(lián)網(wǎng)的姿態(tài)。
互聯(lián)網(wǎng)的自由在于,你可以不受限制地推開(kāi)每一扇門(mén)。但一扇扇形形色色的門(mén)背后,可能是溫馨浪漫的花園,也可能是蛇蝎暗藏的幻境。
存在著欺騙和攫取的互聯(lián)網(wǎng),并不是天堂,它只是我們的現(xiàn)實(shí)在賽博世界的翻版。我們?cè)诖蠖鄶?shù)時(shí)候?qū)ψ约旱呐袛嗔ψ孕艧o(wú)比,但我們的父母,我們的孩子卻可能墜落陷阱。
如馮景輝所說(shuō),
百度網(wǎng)址安全中心,也許還沒(méi)辦法做到對(duì)惡意網(wǎng)址 100% 的判定。但所有的人的努力,都是為了逼迫惡意網(wǎng)址的領(lǐng)地不斷減少。
面對(duì)丑惡,埋怨從來(lái)無(wú)濟(jì)于事。在洪荒的世界里,哪怕邁出重構(gòu)秩序的一小步,都值得贊嘆。
文/史中(微信ID:Fungungun,歡迎講述你的故事)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。