2
本文作者: 史中 | 2016-12-12 11:19 |
網(wǎng)絡世界,就像一道無盡的步行街。
而不同的網(wǎng)址,就像一扇扇大門,分列在街道左右。這些門背后,有摩天大廈,也有木屋小宅。
例如:
你推開“www.taobao.com”這扇門 ,就走入了琳瑯滿目的商場。
你推開“www.baidu.com”這扇門,就可以輕松把你傳送到想去的門前。
你推開“www.icbc.com.cn”這扇門,就能進入“愛存不存”的錢莊。
你推開“m.ozgbdpf.cn”這扇門,就可以看到讓自己死而無憾的最前沿科技新聞。
然而,驚悚的故事總需要一些反派。在林立的大門中,有一些不太利于社會主義和諧社會的建設。
例如:
有些門看起來樸實無華,一旦吃瓜群眾誤入,里面的木馬病毒就會趁機“上身”。
有些門掛著很像銀行的招牌,甚至走進去看也很相似。事實上那卻是騙人錢財?shù)尼烎~網(wǎng)站。
有些門通向地下賭場,人們錦衣玉食進去,光著屁屁出來。
有些門口點著粉色小燈,里面卻是讓你 喜聞樂見 灰飛煙滅的小發(fā)廊。
【不知為什么,突然想貼一張圖】
當你推開一扇門的時候,很可能并不知道自己將會身處險境。這時,你可能需要一只“上帝之手”,在你誤入歧途的一瞬間,把你拉回人間。
這位“全知全能”的上帝,就是百度網(wǎng)址安全中心所扮演的角色。
百度,注定不能做一個安靜的推薦者。因為人們期待并且要求它為推薦的結果負責。所以,在把網(wǎng)址鏈接呈現(xiàn)給用戶之前,即使是刀山油鍋,網(wǎng)址安全中心的童鞋們也要為用戶“嘗試”一下。
坐鎮(zhèn)國內(nèi)最大的搜索引擎旗下,百度網(wǎng)址安全中心可謂“閱人無數(shù)”。
那么,這個安全中心究竟如何運作,其中又有什么有趣的技術呢?雷鋒網(wǎng)宅客頻道采訪到了百度商業(yè)安全研發(fā)部技術總監(jiān)馮景輝,他負責百度安全旗下企業(yè)安全產(chǎn)品的研發(fā)工作。
【百度商業(yè)安全研發(fā)部技術總監(jiān) 馮景輝】
馮景輝告訴我們,一般情況下惡意網(wǎng)址分為以下幾類:
這類網(wǎng)頁會隱藏惡意腳本,利用你的系統(tǒng)漏洞安裝木馬病毒。如果你的系統(tǒng)沒有升級到最新版本,有可能被木馬“鉆”進來。木馬一旦“進駐”就會進而獲取你的隱私信息,或者遠端控制你的電腦。
這三類網(wǎng)址可以統(tǒng)一歸為違法網(wǎng)址。它們所宣揚的內(nèi)容本身并不合法,嚴重影響社會安定,所以顯然屬于惡意網(wǎng)址范疇。
而且這類網(wǎng)站中,很大一部分也隱藏著病毒木馬。
嚴格地說,這類網(wǎng)址本身的存在并不違法,但它們是詐騙環(huán)節(jié)的一部分。例如:仿冒的銀行網(wǎng)頁,虛假的中獎信息網(wǎng)頁。騙子會通過各種渠道把這些網(wǎng)址發(fā)送給受害人,誘騙他們填入密碼等信息,進而盜取銀行欠款,或者進一步詐騙。
【虛假的《奔跑吧兄弟》中獎網(wǎng)站截圖】
這些惡意網(wǎng)站,背后被不同的經(jīng)濟模式所驅動。在金錢的誘惑面前,總會有人鋌而走險。中國境內(nèi)惡意網(wǎng)址的數(shù)量,甚至超過了我們的人口。
根據(jù)團隊的研究,馮景輝總結了惡意網(wǎng)址的一些特點:
1、所有惡意網(wǎng)址中,數(shù)量最大的是釣魚網(wǎng)址。這些頁面中,有70%是“虛假中獎”“虛假購物”這類詐騙網(wǎng)頁,而其余30%則是針對銀行或電商的“仿冒網(wǎng)站”。
和所有詐騙一樣,這類網(wǎng)址一般是“打一槍換一個地方”。網(wǎng)址鏈接(URL)的平均存活時間,國際上是29小時,而在中國是33小時。
2、黃賭毒網(wǎng)頁的絕對數(shù)量不多,但是訪問量在所有惡意網(wǎng)址中所占的比例最高。和釣魚網(wǎng)站不同,這類網(wǎng)站需要“長期運營”。(看來,和人性的斗爭確實艱苦卓絕。)
3、掛馬網(wǎng)頁的絕對數(shù)量最少。
看上去,惡意網(wǎng)址都是那么地“個性鮮明”,判斷一個網(wǎng)址是不是屬于惡意網(wǎng)址似乎很簡單。但是仔細分析,你會發(fā)現(xiàn)至少面臨兩個巨大的技術困難。
1、在浩若煙海的網(wǎng)絡空間中,怎樣找到要檢測的目標?
2、面對數(shù)以億計的目標網(wǎng)址,如何在可控的時間內(nèi)完成檢測?
馮景輝向雷鋒網(wǎng)宅客頻道介紹了團隊用來完成檢測任務的兩大“法寶”。
你可能會熟悉“搜索引擎爬蟲”,也就是百度搜索產(chǎn)品的重要技術。
回到最初的比喻,如果用街道上的門來比喻一個個網(wǎng)址,搜索引擎爬蟲的主要任務是把那些“門”里的大致情景記下來,然后在需要的時候呈現(xiàn)給用戶。為了精確,有事還會推開門拍一張廳堂的“快照”(網(wǎng)頁快照)。
但是,這樣的爬蟲并不能“感受”到在房間內(nèi)部究竟有怎樣的“機關暗道”。這時,你需要“戰(zhàn)斗爬蟲”。
“戰(zhàn)斗爬蟲”不僅僅是“看一眼”或“拍張照”這么簡單,而是把所有的門都探索一遍。一些網(wǎng)頁會存在跳轉、加密?!皯?zhàn)斗爬蟲”要做的,就是利用種種技術手段,把房間中的暗門和夾層全部記錄下來。
【爬蟲基本原理】
另外,系統(tǒng)還面臨一個任務,那就是盡可能多地找到不同的網(wǎng)址用于鑒定。
馮景輝說,
爬蟲系統(tǒng)的輸入源,包括百度搜索的結果內(nèi)容,還包括百度內(nèi)部的貼吧等內(nèi)容,也有手機衛(wèi)士安全客戶端報告的高危網(wǎng)址,還包括合作方提供的URL。
資料齊備,接下來就到了另一個關鍵時刻:檢測。
當然,檢測惡意網(wǎng)址最可靠的方法就是交給人工。但是,面對如此龐大的網(wǎng)址數(shù)量,全國人民一起上陣都未必忙得過來。
所以,這些資料會統(tǒng)統(tǒng)交給一位經(jīng)驗豐富的“老刑警”來搞定,這個老刑警就是“網(wǎng)址安全檢測引擎”。
網(wǎng)址安全檢測引擎對于不同種類的惡意網(wǎng)址,有不同的鑒定流程。
對于惡意掛馬網(wǎng)頁的檢測方式,和對病毒的檢測方式非常類似。
木馬傳播到電腦上,一般都會利用漏洞,而這些漏洞都有“特征內(nèi)容”。利用對這些特征的識別,就可以判斷出網(wǎng)頁是否有掛馬行為。但是,很多黑產(chǎn)也會采用加密、變形等手段增加我們的檢測難度。我們主要在對抗這些手段。
馮景輝說。
有些網(wǎng)頁在腳本中隱藏了惡意木馬,但是這種隱蔽方法和一些病毒類似,需要在真實的網(wǎng)頁環(huán)境中才會被觸發(fā)。對于這類“嫌疑網(wǎng)頁”,百度網(wǎng)址安全中心的童鞋們會利用類似“沙箱”的系統(tǒng),讓網(wǎng)頁腳本跑在虛擬機中,讓它露出“真面目”。
對于“黃賭毒”內(nèi)容的檢測,和傳統(tǒng)反病毒所需的技術差別很大。實際上,引擎所要做的基本任務,就是根據(jù)網(wǎng)頁內(nèi)容把它進行分類。
這里面主要用到了一種數(shù)學技術:TF-IDF 算法。
所謂 TF-IDF 算法,簡單說來就是提取網(wǎng)頁內(nèi)能夠表述網(wǎng)頁內(nèi)容的關鍵詞,找到在這個網(wǎng)頁中出現(xiàn)頻繁,但是其他網(wǎng)頁中并不普遍的詞匯。
這種技術,往往可以幫助系統(tǒng)判斷一個網(wǎng)頁的“中心思想”,判定“黃賭毒”再適合不過。
仿冒正規(guī)網(wǎng)站的釣魚網(wǎng)站,精髓就在于“像”。
既然黑產(chǎn)的目的是“像”,那么對抗的技術就是“對比相似性”。這其中又主要用到一種數(shù)學算法:SIMHASH 算法。
簡單說來,SIMHASH 算法就是把一個網(wǎng)頁內(nèi)容轉換成一個64位的“特征字”,如果兩個內(nèi)容的特征字距離小于規(guī)定值,那么就判定二者相似度極高。這種算法最早由谷歌研發(fā),用于網(wǎng)頁搜索去重。
寫過畢業(yè)論文的童鞋都知道,從網(wǎng)上 Down 哪怕一段內(nèi)容,都會被論文查重系統(tǒng)的火眼金睛發(fā)現(xiàn)。沒錯,老師們正是用 SIMHASH 這種“人類智慧的結晶”在和“不法學生”對抗。
然而,在釣魚網(wǎng)頁中,還有70%的“虛假中獎”類頁面,它們并沒有仿冒其他網(wǎng)頁,這對于馮景輝和團隊來說,是一個不大不小的難題。
對于這樣的問題,他們手里還有一樣“秘密武器”。
判斷一個網(wǎng)頁是不是“虛假中獎”頁面,對于一個人來說,可能是小菜一碟。如果可以訓練機器來模擬人的判斷,問題就會迎刃而解。
人工智能,可是百度的“招牌菜”。
馮景輝告訴雷鋒網(wǎng)宅客頻道,
除了一些司法上的特征,很多“虛假中獎”頁面還會有其他的特征,例如:
網(wǎng)頁中的圖片比例很高,呈現(xiàn)瀑布流狀;
而這類網(wǎng)頁鏈接由于頻繁變動,經(jīng)常是一些和正常網(wǎng)址不一樣的奇怪域名。
這類網(wǎng)站也會引用大量的外部鏈接。
類似的特征還有很多,把這些特征參數(shù)放到深度學習引擎中,機器就可以自己總結出一套判定“虛假中獎”頁面的標準,實現(xiàn)自動的智能識別。
【虛假中獎網(wǎng)頁】
識別“高段位”的黃賭毒網(wǎng)頁,同樣需要這種深度學習的方法。
例如一些小說站和圖片站。對于描寫的尺度、內(nèi)衣的高度(為了防止本文被判定為黃賭毒網(wǎng)頁,就不多說了)這些擦邊程度的判斷,只能人為地劃定標準(參考車展和 ChinaJoy 為美女“量身定做”的“兩厘米”規(guī)則。。。),然后把這些標準輸入深度學習系統(tǒng),把這種讓人“心力交瘁”的工作甩給機器。
以上這種深度學習的方法, 被稱為“有監(jiān)督學習”,簡單來說,就是需要人類不斷提供一些特征標準,機器根據(jù)這些特征進行下一步總結。但是馮景輝說,他們下一步想要搞的,是“無監(jiān)督學習”。
無監(jiān)督學習,就是根本不告訴人工智能系統(tǒng)任何“人類總結出的特征”,僅僅是給它大量的黑白樣本,讓系統(tǒng)自動抽象出一些特征。人類只負責告訴機器它的判斷是對還是錯,機器根據(jù)這個結果來改進它總結的特征。
這些特征往往非常奇葩,有些以人類大腦的邏輯并不容易總結和表述。但是,這類“無法描述”的特征往往一針見血,精準異常。
連人工智能這種“原子彈”級別的武器都被抬出來了,這下該天下太平了吧?哈哈,圖樣圖森破。
充斥著黑產(chǎn)的賽博世界從來都是“Hard”模式。要知道,馮景輝和團隊面對的是無數(shù)“老司機”,“束手就擒”這四個字從來就不在他們的字典里。
馮景輝舉了一個最簡單的例子:
很多黑產(chǎn)為了躲避對違法文本內(nèi)容的打擊,會把這些文本做成圖片的形式。當然,圖片上的 OCR 文字識別技術已經(jīng)很成熟了。我們需要做的,就是把這種技術重新部署進我們的系統(tǒng),不斷升級對抗的手段。
然而,一言不合黑產(chǎn)老司機就腦洞大開,新玩法層出不窮。
不要低估黑產(chǎn)的嗅覺。
在“林丹”事件被爆出的那一刻,反應最快的不是林丹,不是謝杏芳,而是黑產(chǎn)。他們手中控制了一個僵尸網(wǎng)站群,在第一時間把這一站群的集中引用頁面的關鍵詞都改為“林丹”,這樣,這一站群的關鍵詞都會成為林丹,被搜索引擎自動匹配關聯(lián)。
這樣,在有關林丹的消息還沒有大規(guī)模爆發(fā)的時間窗口,惡意網(wǎng)站就會占領搜索引擎的最佳位置。
由于平時這些黃色網(wǎng)站群處于“蟄伏”狀態(tài),不一定被“戰(zhàn)斗爬蟲”和“檢測引擎”發(fā)現(xiàn)。此時它們突然大規(guī)模跳出,借助人們對于林丹的“如火熱情”,可以大賺一票。
當然,“林丹”顯然是躺槍。最近每出現(xiàn)一個爆炸性的新聞,黑產(chǎn)都會利用流量效應迅速“撈一把”。
另外,百度搜索引擎有聯(lián)想功能,可以關聯(lián)兩個相關的詞匯。例如:人們會搜索某個明星的名字,但是名字比較復雜,很多人第一次輸入錯誤,搜索之后又更正為正確的重新搜索。這時,搜索引擎就會自動關聯(lián)這兩個詞匯。
【黑客利用木馬組建受自己控制的僵尸網(wǎng)絡,為黑產(chǎn)“顧客”提供服務】
黑產(chǎn)會利用機器學習的這一特性,發(fā)動手上的肉雞不斷同時搜索兩個關鍵詞,這兩個關鍵詞,一個是正常的熱點詞,另一個就是黑產(chǎn)頁面的關鍵詞。這樣的話,每當用戶搜索熱門關鍵詞的時候,就有可能搜索到黑產(chǎn)相關的頁面。
在搜索引擎改進對抗機制的同時,網(wǎng)址安全中心的技術團隊也會優(yōu)先排查和熱點詞相關聯(lián)的頁面是否安全。
有一些開放的平臺,允許用戶上傳信息。這時,如果黑產(chǎn)在上面發(fā)表了帶有有害鏈接的帖子評論,就會引發(fā)大量的點擊。這種鏈接傳播更廣,危害也會更大,需要在第一時間篩查,我們必須優(yōu)先保證可能被訪問最多的網(wǎng)頁是最安全的。
馮景輝說。
其實,黑產(chǎn)早就意識到了百度網(wǎng)址安全中心這類機構對于他們的圍堵,所以早就開始玩起了貓鼠游戲。
馮景輝舉了一個簡單的例子。
有些網(wǎng)頁在被加載之后,可能會靜默兩秒,之后惡意腳本才會執(zhí)行。
這樣的玩法,正是為了躲避檢測引擎中“沙盒”的虛擬執(zhí)行。而在得知黑產(chǎn)采用這種對抗策略后,馮景輝和童鞋們就在檢測方法中增加了針對性的策略。
在之后的對抗中,惡意網(wǎng)址從失敗中汲取了經(jīng)驗,“進化”得更加智能。
例如:
某些惡意網(wǎng)頁會把百度和其他安全公司的 IP 列為“黑名單”,一旦發(fā)現(xiàn)被這些 IP 訪問,就裝作“乖寶寶”,自始至終不展開惡意行為。
于是我們發(fā)現(xiàn),通過公司內(nèi)部的單點去爬,可能會“中招”,于是變換 IP 繼續(xù)爬。
到后來,黑產(chǎn)甚至把這些大安全公司所在的省份所有的 IP 直接加入“黑名單”,
全省的 IP 都被黑產(chǎn)屏蔽,這時我們就利用分布在全國的機房去爬。
在對抗中,黑產(chǎn)發(fā)現(xiàn)安全人員總能找到新的方法來對抗,于是干脆采用了“斷臂求生”的方法,網(wǎng)頁在白天關閉,只在夜間開放。
惡意網(wǎng)頁分時開放的策略,在提高安全系統(tǒng)檢測難度的同時,意味著他們詐騙的受眾面也變小了。
馮景輝不無驕傲。
目前,百度網(wǎng)址安全中心的檢測結果會提供給微軟、百度、愛奇藝、小米路由器、火狐瀏覽器、新浪微博等合作伙伴。由這些終端來執(zhí)行彈窗提示、網(wǎng)頁屏蔽或者實時阻斷。
自由是互聯(lián)網(wǎng)的姿態(tài)。
互聯(lián)網(wǎng)的自由在于,你可以不受限制地推開每一扇門。但一扇扇形形色色的門背后,可能是溫馨浪漫的花園,也可能是蛇蝎暗藏的幻境。
存在著欺騙和攫取的互聯(lián)網(wǎng),并不是天堂,它只是我們的現(xiàn)實在賽博世界的翻版。我們在大多數(shù)時候對自己的判斷力自信無比,但我們的父母,我們的孩子卻可能墜落陷阱。
如馮景輝所說,
百度網(wǎng)址安全中心,也許還沒辦法做到對惡意網(wǎng)址 100% 的判定。但所有的人的努力,都是為了逼迫惡意網(wǎng)址的領地不斷減少。
面對丑惡,埋怨從來無濟于事。在洪荒的世界里,哪怕邁出重構秩序的一小步,都值得贊嘆。
文/史中(微信ID:Fungungun,歡迎講述你的故事)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。