黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

本文作者：史中

2017-01-21 21:36

導語：當電信詐騙遇到黑客，當套路遇到人工智能。知道創(chuàng)宇的反詐騙系統(tǒng)，用機器學習的方法反電信詐騙。論套路，我只服人工智能。

國產(chǎn)電影的劇情蒼白無力？
因為中國最好的編劇，都在給電信詐騙團伙編劇本。

如果你“有幸”走過電信詐騙的種種套路，一定會被他們?nèi)仗斓乃悸?，大開大合的劇本所征服。

然而，對付套路，永遠有更深的套路。黑客大神發(fā)現(xiàn)，騙子的套路在人工智能和機器學習面前，簡直就像三歲熊孩子的詭計。

知道創(chuàng)宇，被稱作網(wǎng)絡世界的特種兵，是很多人心中最酷的安全公司。潘少華，正是這支特種兵的“參謀長”。他帶領(lǐng)黑客們研發(fā)出了一套逆天的反詐騙系統(tǒng)，可以在騙子掄錘的關(guān)鍵時刻，飛身救險，拯救被害者，讓騙子在寒風中淚奔凌亂，在暗夜里決定從良。

本期硬創(chuàng)公開課，雷鋒網(wǎng)邀請到了知道創(chuàng)宇威脅情報中心的負責人、北京研發(fā)中心總監(jiān)，顏值和智慧并存的網(wǎng)絡安全特種兵潘少華。他為我們講述的主題是——黑客特種兵如何用人工智能套路電信詐騙的騙子。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

【潘少華】

公開課全文整理

▼

大家好，我是北京知道創(chuàng)宇信息技術(shù)有限公司的潘少華。我們團隊的主要研究方向是電信網(wǎng)絡安全，主要集中在在電信反欺詐和業(yè)務反欺詐。

我個人從 2001 年開始，對網(wǎng)絡安全感興趣。從2008年加入知道創(chuàng)宇，我一直致力于讓互聯(lián)網(wǎng)變得更好更安全。

我很欣賞愛因斯坦的一句話：

這個世界很危險，不是因為那些邪惡的人，而是因為哪些無動于衷的人。

這也是我在前沿對抗黑產(chǎn)的一個動力。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

800億的大“生意”——詐騙

互聯(lián)網(wǎng)帶來了很多便利，但是也被壞人利用。在互聯(lián)網(wǎng)上獲得一些不合法收益的產(chǎn)業(yè)，我們都叫他們黑色或灰色產(chǎn)業(yè)鏈。早些年，黑產(chǎn)分子因為網(wǎng)上支付和個人隱私泄露沒有現(xiàn)在普遍。但這兩年，在詐騙方面的報案數(shù)量真的是越來越多。

例如：

XX車主，你今天在XX路口有交通違章行為。點擊鏈接查看詳情。

如果我們用手機一點，打開這個木馬鏈接，就會直接中招。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

這是一個簡單的統(tǒng)計。僅僅 2015 年的報案數(shù)據(jù)，例如“猜猜我是誰”，“冒充公檢法”這類涉及電話詐騙的案件，全國群眾的損失就大概在 220 億左右。加上一些基于網(wǎng)址的詐騙，再加上手機病毒盜竊，實際總損失應該在 800億人民幣以上。目測在詐騙分子背后提供技術(shù)能力的人員，全國應該上百萬。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

【部分詐騙短信展示】

大家很普遍的想法是把這些詐騙歸罪于運營商，他們收了這么多錢，卻讓壞人肆虐。運營商當然有自己的問題，但是它也有無奈。

例如電話卡實名制，主要就是為了打擊電信詐騙而施行的。但是詐騙分子很快就找到了一些變通的辦法。所以目前來看，實名制在詐騙短信這方面，效果并不理想。

這是為什么呢？

詐騙分子背后，有一個完整的黑色產(chǎn)業(yè)鏈，這其中包括：

病毒制作，
惡意網(wǎng)站制作，
提供黑手機卡，
改號線路、
偽基站設備（需要相關(guān)的專業(yè)工廠去制作），
短信群發(fā)平臺（短信代發(fā)本身是一個灰色地帶，很多黑產(chǎn)技術(shù)人員也會直接給詐騙分子提供技術(shù)支持），
洗錢相關(guān)工作（進賬一百萬，他們會快速把錢分成小筆，多次交易，洗成一筆合法的錢然后轉(zhuǎn)出去）

每個團隊只是專業(yè)做黑產(chǎn)鏈條上的一個環(huán)節(jié)，對他來講，不僅可以規(guī)避法律風險，還可以專注在某個特定的“黑技術(shù)領(lǐng)域”。

這一整條產(chǎn)業(yè)鏈，只靠運營商自己很難去打擊，就連公安能發(fā)動的資源也是有限的。所以這件事需要民間各方來參與努力。

我們也做了很多和技術(shù)不相關(guān)的工作，例如聯(lián)合騰訊和百度發(fā)起了安全聯(lián)盟公益組織。我們共享了8億條惡意網(wǎng)址數(shù)據(jù)庫，每天日均交換 5000 萬次的惡意網(wǎng)址數(shù)據(jù)。所有的數(shù)據(jù)都在系統(tǒng)里機器篩查，然后進入人工審核平臺，確定拉黑的數(shù)據(jù)都是沒有問題的。

另外我們還利用機器學習的方法，利用大量的計算資源來檢測識別互聯(lián)網(wǎng)上的惡意數(shù)據(jù)。

兩種反詐騙手段的對比

某些地方上的網(wǎng)民可以感受到，當你訪問一個網(wǎng)址的時候，也許會彈出一個安全告警，提示你不要訪問。在你收到詐騙電話之后，可能會收到運營商或公安機關(guān)的短信提醒，告訴你可能受到了詐騙騷擾，不要相信。這其中可能就用到了我們的技術(shù)。

反詐騙手段有一個演進的過程。

一、事后處置

運營商黑名單制度

以前我們會基于運營商黑名單來做攔截。例如我們發(fā)現(xiàn)一個電話是詐騙電話。我們經(jīng)過人工審核，確認它是一個詐騙電話。于是在幾天之后把它加入黑名單。

運營商有一些技術(shù)手段對抗詐騙。例如國際端局封堵。運營商可以對特定開頭的國際長途號碼一刀切，卡掉。例如“0002”,這本身就是一個不規(guī)范的國際呼叫。另外還有一些 0057、0058 這類開頭，但是長度小于 10 位的主叫號碼也很可能存在問題。

但對于死板的規(guī)則，詐騙分子有應對之道：

例如運營商設定了五條檢測規(guī)則。但是他會嘗試新的策略突破，例如在本地落地。在找到一種可行的方法之后，詐騙分子就可以一直利用這個方法繞過攔截。

最大的問題是，基于黑名單的攔截系統(tǒng)，沒有辦法對詐騙騷擾號碼做實時更新。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

繁復的報案流程

先要受害者去報案，然后公安機關(guān)做技術(shù)咨詢和偵查工作。確認有問題之后，公安機關(guān)會協(xié)調(diào)銀行凍結(jié)資金，最后是破案環(huán)節(jié)。

但是這樣的處理方法存在很多弊端：

往往被騙以后，黑產(chǎn)馬上把錢轉(zhuǎn)走。真正銀行凍結(jié)的時候，已經(jīng)撲空了。另外全國每年有幾十萬次的通信詐騙，民警的力量很難覆蓋。去年徐玉玉案件成為了全民事件，所以很快就被破掉了。但是平常如果你被詐騙一萬塊，而公安破案成本可能是幾十萬元?？陀^上就很難把單個案件都查得水落石出。

二、實時阻斷的方法

我們會分析最近熱門的詐騙類型。例如這張圖里展示的，大概分以下幾種：

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

【熱門詐騙類型】

對于用戶接打電話，我們通過機器學習的方法，能夠?qū)崟r發(fā)現(xiàn)這個電話很可能是詐騙電話，所以需要馬上發(fā)出實時告警。

在用戶上網(wǎng)的時候，我們?nèi)绻麢z測到了他正在訪問釣魚或詐騙網(wǎng)站，也可以立即對這個網(wǎng)站進行阻斷。總體的方法就是，在最終損失到來之前截斷詐騙過程。

接下來我詳細說一下實時阻斷在技術(shù)上是如何實現(xiàn)的。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

我們會在運營商網(wǎng)絡里部署一個實時監(jiān)測系統(tǒng)。

1、話單采集。我們會從通話記錄設備里采集實時話單。

2、話單脫敏。由于誰給誰打電話這類信息是敏感信息，我們會通過特定的加密算法進行脫敏處理，從這些脫敏的數(shù)據(jù)里，無法得知特定的通話記錄。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

【脫敏之后的電話列表】

接收的電話，我們會進行哈希處理。對端的號碼，我們會保留明文（因為可能是詐騙電話）。

3、輸入機器學習系統(tǒng)。對于機器學習系統(tǒng)來說，它并不用知道電話是由哪個具體的號碼撥打的，它只需要判斷這種行為是不是詐騙。

通過提取數(shù)據(jù)特征，輸入機器學習系統(tǒng)，就可以用事件模型來加以判斷，最終可以分辨出哪些通話行為是詐騙行為。在這個過程中，我們不斷地用云端數(shù)據(jù)和參數(shù)調(diào)整來保證檢測結(jié)果的準確——誤報率低的同時，盡可能多地檢測出詐騙電話。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

4、數(shù)據(jù)解密。把處理好的數(shù)據(jù)輸入運營商的數(shù)據(jù)，進行對稱解密。

5、告警提示。判斷出詐騙電話之后，運營商可以做選擇，利用自己的工單系統(tǒng)提示用戶。

短信提醒：你剛才接的是詐騙電話，千萬不要上當。
閃信提醒：通過手機彈窗方式，提醒用戶遭遇了詐騙。
電話提醒：給用戶撥打電話提示。
彩印提醒：為用戶下發(fā)和號碼關(guān)聯(lián)的彩印。

機器學習的核心技術(shù)實現(xiàn)

一、數(shù)據(jù)

對于機器學習系統(tǒng)來說，最重要的是數(shù)據(jù)。這些數(shù)據(jù)來自云端的 250 萬活躍詐騙號碼庫，包括網(wǎng)民舉報和歷史案件數(shù)據(jù)，這些作為訓練樣本來讓機器學會如何識別一個正在撥打的電話是詐騙電話。

由于這些數(shù)據(jù)很多都來自手機客戶端，所以信息更新比較及時，所以這 250 萬數(shù)據(jù)是最新的。

二、機器學習系統(tǒng)

大數(shù)據(jù)機器學習以前高高在上，但是現(xiàn)在已經(jīng)在很多領(lǐng)域得到了應用。我們對于機器學習，也是開箱即用的方法，在反詐騙的特定領(lǐng)域進行工作。

我們在里面內(nèi)置了超過五十種詐騙電話的話單模型。這其中包括幾個要素，包括：

用戶被叫地的分布
被叫時長分布
被叫時間分布（早晚、半夜）
用戶特征
。。。

我們也并不知道這些要素和詐騙這個行為哪個是最強相關(guān)的。所以我們把數(shù)據(jù)扔到機器學習系統(tǒng)里，進行有監(jiān)督或者半監(jiān)督的學習，自動找出相關(guān)性來。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

號碼數(shù)據(jù)特征，大概分了六個方向。

1、號碼活躍特征數(shù)據(jù)

例如日呼叫次數(shù)，平均通話時長，最早最晚通話時間等等基本的統(tǒng)計屬性。正常的一個號碼，應該是呼入和呼出次數(shù)差不多，并且不會每天連續(xù)撥打。

2、號碼的社交網(wǎng)絡

例如號碼的好友數(shù)，陌生人通話比例，你的號碼曾經(jīng)給多少人打過等等。同樣，社交網(wǎng)絡還包括被撥打的號碼它有哪些好友，好友和呼叫號碼之間是否具有相關(guān)性等等。

3、號碼的行為事件流

一個號碼，前后干過什么事請，我們會作為一個事件流來分析。例如五分鐘之前打了號碼，過了四分鐘又打了一個。其中有多少是正常通話，有多少是不正常的。例如一個呼叫三秒鐘就掛斷，或者連續(xù)通話十分鐘，都是比較極端的不正常情況。

4、號碼的行為特征

例如，用戶和海外號碼通話次數(shù)，和固話或短號通話的次數(shù)等等。有的詐騙分子專門打座機號來騙老師，有的詐騙分子專門打手機號。數(shù)據(jù)量大了之后，統(tǒng)計特征還是非常明顯的。

5、號碼信用度

當我們的數(shù)據(jù)積累一定量之后，我們可以建立號碼信用度。正常用戶的行為會被識別為白名單，而和這種行為模式不相符的號碼，就可以被認為號碼信用度低。

6、號碼異常度

例如，號碼的異常行為、呼叫異常號碼，會被計入異常行為檔案。對于我們認為有問題的號碼，會進行重點的監(jiān)測分析。

事件模型和機器學習模型交叉驗證

一、突增模型

例如詐騙號碼都是突然間開始使用的，可能用了一段時間就突然消失。（因為換了新的號碼）

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

【詐騙號碼通話量突增模型】

這是我們監(jiān)測到的一個詐騙號碼。15年1月12號這一天還基本沒有撥通記錄，到了第二天的時候，它的撥打電話達到了一百多，第三天達到了一千個。而過了一周左右，它的撥打號碼就直接降為零。這種特征很明顯。

二、事件模型

詐騙分子也有時間成本。對于他來說就是要在最短的時間里盡可能多地撥出號碼，撈出盡可能多能上鉤的魚。所以不可能一個號碼專門騙一個人然后就廢棄不用。所以他的套路我們總是可以歸納分析出來。

我們來看一個經(jīng)典的詐騙劇本：

五六個詐騙分子坐在一間屋子里，啟動詐騙流程

1、先用+185這個自動語音系統(tǒng)撥打電話，告訴你有文件沒投遞成功，讓你按9轉(zhuǎn)人工。如果你響應了，后面的“服務流程”就跟上了。如果你不接或者兩秒鐘就掛斷，后面的行為就取消了。

2、幾分鐘后，另外一個冒充警官的人打過來，他的目的是信息作證，讓你相信這個騙局。他會引導你去“官網(wǎng)”查詢信息，你去網(wǎng)上果然發(fā)現(xiàn)了這個信息。

3、一個小時之后，用戶接到仿冒公安局的電話。

4、用戶根據(jù)公安局的電話指示，撥打114來確認檢察院電話。

5、“經(jīng)過確認的”檢察院打來電話。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

【一個經(jīng)典詐騙套路背后，有哪些規(guī)律？】

這其中越到后來的步驟，越是騙子“老司機”，也就是團隊 leader 來操作。根據(jù)這樣的事件模型，可以把看起來獨立的行為串起來。

三、基于通話行為的模式的智能分析

電信詐騙可以跟刑事案件進行類比。

例如發(fā)現(xiàn)了一個殺人案，我們可以用不同的維度來縮小懷疑范圍。例如目擊證人發(fā)現(xiàn)這是個男性，發(fā)生事件時早上九點，根據(jù)探頭發(fā)現(xiàn)作案的交通工具，最后從被害人的社交關(guān)系里來判斷哪些人和被害人有矛盾。

同樣詐騙電話我們也可以用類似方法來縮小包圍圈。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

如果一個號碼連續(xù)通話，很少撥入只有播出，通話時長很長，經(jīng)常給一大波分散的陌生人打電話。每觸發(fā)一個規(guī)則，我們就打一個分值。如果全部觸發(fā)，這個分值就會高一些。

邏輯上來講，一個正常的通話，很難同時觸發(fā)這么多的異常事件。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

【異常事件累加的“黑天鵝”事件概率非常低】

利用這種方式，我們可以區(qū)分出“淺層詐騙”和“深層詐騙”。淺層詐騙是隨意打電話碰運氣，如果你愿意搭理就中招了。而深層詐騙就是剛才提到的好幾個人分工合作，用“一整套服務”來騙你。

反詐騙技術(shù)的誤報和困難

對于誤報，我們會進行驗證工作。

1、歷史檢測結(jié)果。對于歷史檢測結(jié)果，我們會輸送云端，利用第三方數(shù)據(jù)，例如騰訊手機管家來進行校驗，看是不是相匹配。由于二者判斷邏輯不同，所以可以用來校驗。

2、最新檢測結(jié)果。公安和運營商會進行抽樣回查。例如對于一百位發(fā)送了告警短信的用戶，抽取其中的三十個進行電話回訪，確認是否真的接到了“我是你領(lǐng)導”或者“猜猜我是誰”的電話。

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

【接到詐騙電話的人對客服的反饋】

通過以上介紹的技術(shù)，實際的檢測準確率大概如下：

冒充公檢法的騙術(shù)，準確率大概是 99%，因為這種騙術(shù)存在一整套流程，更加利于判斷。
仿冒熟人的騙術(shù)，準確率稍微差一些，是97%。
仿冒客服的騙術(shù)，準確率也可以達到 99%。

根據(jù)一個城市試用半年的情況，用戶被騙金額下降了 70% 以上。

但是我們的系統(tǒng)也存在一些問題，例如對于仿冒公檢法的詐騙沒辦法做到全覆蓋。因為第一個打進的騙子會給受騙者洗腦，讓他不要再接聽任何電話，只能和“警方”單線聯(lián)系，或者干脆讓被害人電話一直占線。所以有時我們做電話回訪，根本打不進去。當我們能接通的時候，被害人的錢已經(jīng)被轉(zhuǎn)走了。

前一段時間清華大學教授被騙的事件。當時北京公安已經(jīng)發(fā)現(xiàn)了這個情況，警察叔叔給老師連打了三個電話。但是詐騙分子給老師下的套太厲害，讓老師一定不要再接聽其他人的電話，老師相信騙子才是真正的公安，最終上當。

這里我要提醒一下大家，不要輕易去騷擾詐騙分子。為什么呢？對你來講，如果你不理他，你就是他無數(shù)的沉沒成本之一。如果你勾搭他，他就會認為你是可能上鉤的目標之一，會盯上你。如果你把他惹惱了，他有的是精力陪你玩。

前一陣子有一個用戶調(diào)戲了詐騙分子，過了兩天，他的手機號碼突然被各大安全公司攔截，運營商也把他拉黑了。原因是詐騙分子為了報復，仿造了他的手機號碼進行了大量垃圾信息的發(fā)送。

最后我想說，雖然大家從旁觀者的角度，感覺被騙的人有點傻。但是當你處在騙局中的時候，有時真的很難繞出來。每當我看到這些技術(shù)可以真正阻斷詐騙的發(fā)生，都會覺得團隊付出的努力是值得的。

接下來是雷鋒網(wǎng)文末福利時間。

福利1：完整 PPT 下載

關(guān)注雷鋒網(wǎng)旗下微信公眾號“宅客頻道”并且回復“反詐騙”獲得公開課完整 PPT。

福利2：本次公開課完整視頻

▼

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

專題

雷峰網(wǎng)公開課

本專題其他文章

史中

編輯

雷鋒網(wǎng)編輯，關(guān)注科技人文，安全、黑客及芯片。

發(fā)私信

當月熱門文章

黑客特種兵潘少華：如何用人工智能“套路”一個騙子 | 雷鋒網(wǎng)公開課

公開課全文整理

800億的大“生意”——詐騙

兩種反詐騙手段的對比

一、事后處置

運營商黑名單制度

繁復的報案流程

二、實時阻斷的方法

機器學習的核心技術(shù)實現(xiàn)

一、數(shù)據(jù)

二、機器學習系統(tǒng)

1、號碼活躍特征數(shù)據(jù)

2、號碼的社交網(wǎng)絡

3、號碼的行為事件流

4、號碼的行為特征

5、號碼信用度

6、號碼異常度

事件模型和機器學習模型交叉驗證

一、突增模型

二、事件模型

三、基于通話行為的模式的智能分析

反詐騙技術(shù)的誤報和困難

福利1：完整 PPT 下載

福利2：本次公開課完整視頻

▼

雷峰網(wǎng)公開課

一、事后處置

二、實時阻斷的方法

一、數(shù)據(jù)

1、號碼活躍特征數(shù)據(jù)

2、號碼的社交網(wǎng)絡

3、號碼的行為事件流

4、號碼的行為特征

一、突增模型