0
本文作者: 李勤 | 2017-09-06 17:32 |
你滴鵝幾在我手上,嫖娼被抓的,你看要不要打點關(guān)系疏通一下?
好的,請你轉(zhuǎn)告他,本爸爸不要他了。
這個不好玩?再來一個:
【圖片來源:山東商報】
雖然,面臨騙子的短信和詐騙電話,搞一出“反調(diào)戲”看上去大快人心,但是像雷鋒網(wǎng)宅客頻道編輯這種被人懟了,十分鐘之后才能想出懟回去的話的人,要想出如此機智回復(fù),實在有心無力。還有那些可能連騙局都無法識破的人,他們?nèi)绾蚊鎸μ茁飞畹氖澜纾?/p>
還好,想必你以前體驗過,手機可能會自帶一款軟件或者你安裝了一些軟件,可以自動識別一些電信詐騙電話。
為什么一個陌生來電能被這些軟件識破?雷鋒網(wǎng)特地請教了國務(wù)院聯(lián)席辦錢盾反詐平臺的專家——阿里巴巴集團安全部的兩位安全工程師:李裕宏和侯冬梅。
[李裕宏和侯冬梅]
李裕宏擅長進行時間序列的數(shù)據(jù)挖掘,比如股票、心電圖以及走路的軌跡等,當(dāng)年,他曾開創(chuàng)一個算法模式比國外的大拿教授的模式提速了10-1000倍。在微軟研究院實習(xí)時,又進行過位置和軌跡的相關(guān)研究。
侯冬梅則對數(shù)據(jù)應(yīng)用、大數(shù)據(jù)及機器學(xué)習(xí)感興趣,目前負責(zé)欺詐電話的相關(guān)數(shù)據(jù)及算法研究。
他們對三個月內(nèi)的 10 億通電話進行了研究,共同產(chǎn)出的惡意電話識別論文“DeMalC: A Feature-rich Machine Learning Framework for Malicious Call Detection” 被機器學(xué)習(xí)的頂級會議CIKM 2017收錄,2017年工業(yè)界能被這個會議收錄的論文在全球范圍內(nèi)僅有 24 篇。
雷鋒網(wǎng)編輯在 8 月底提前閱讀了這篇本該在11月發(fā)布的論文,發(fā)現(xiàn)兩人提出了 11 個能夠辨別一個陌生來電是否為惡意電話的維度。出于保密及降低對抗幾率的緣故,李裕宏和侯冬梅在此只介紹了 7個維度。
為了防止惡意號碼的侵?jǐn)_,一般有兩類方案:基于用戶打標(biāo)的黑名單;利用機器學(xué)習(xí)算法對號碼進行風(fēng)險打分。
第一種方案需要全民安裝反欺詐軟件,且及時、準(zhǔn)確地匯報惡意號碼的標(biāo)簽;第二種方案則需要系統(tǒng)能夠抽取一堆具有區(qū)分度的特征用于模型的訓(xùn)練。
李裕宏和侯冬梅認為,因為數(shù)據(jù)缺失且不均衡、有限且懶散的用戶,以及不可信任的用戶標(biāo)簽、無時不在的對抗,惡意號碼的檢測依然具有非常大的挑戰(zhàn)性。
因此,他們在該論文中提出了一個 DeMalC 系統(tǒng),對惡意號碼進行檢測。DeMalC系統(tǒng)主要包含兩步:第一,利用特征工程對號碼進行多維度、全方位的畫像;第二,基于號碼畫像,利用機器學(xué)習(xí)的算法計算每個號碼的風(fēng)險分,最終給出號碼的標(biāo)簽建議。
用通俗的話來說,就是先找出一個嫌疑人,然后再與一些證據(jù)進行比對,判斷嫌疑人是否為真的“罪犯”。
機器學(xué)習(xí)算法取得成功的一個重要因素就是挑選出來的特征在正負樣本中具有足夠的區(qū)分度,因此, 在 DeMalC 系統(tǒng)中,李裕宏和侯冬梅提取了號碼的 7 大維度的特征,包括號碼屬性、通話頻次、通話時長、號碼活躍度、空間分布、設(shè)備分布以及歷史通話號碼間的社交關(guān)系。
1.號碼屬性有三部分:類型、運營商、歸屬地,屬性本身不會隨著號碼發(fā)生變化。但是,屬性可以把號碼切成很多空間,比如,北京的固話,是哪個運營商的(運營商不止是三大運營商)。電話號碼可以分成一小塊一小塊的,每一小塊的欺詐的方式可能都不大一樣。
2.一個號碼在過去三個月呼入呼出的頻次,還有呼入呼出的比例。
李裕宏說:“呼入或呼出的單一比例占比特別大,可能是個問題。第一,可能這個電話號碼是放在惡意網(wǎng)頁上,誘騙人們撥打,這樣呼入比例特別高;第二,主動實施電信詐騙的呼出率比較高。”
3.一個電話打進來,你有沒有接通代表了你的態(tài)度,通話時長更代表你對這個電話的態(tài)度。
按照雷鋒網(wǎng)編輯的個人經(jīng)歷,陌生電話打進來,如果是推銷,或者一聽就是匪夷所思的電話,一般會立馬掛掉。
據(jù)李裕宏介紹,一個讓人哭笑不得的案例是,據(jù)說,電信詐騙人員手中也有一份名錄,如果一個詐騙電話打進來,你接了很久還舍不得放下,那么接下來你收到詐騙電話的幾率更高——騙子覺得,接到電信詐騙電話后,通話時間更長的用戶更是潛在受害者。
叫你喜歡嘮嗑。
4.號碼活躍度。一個正常號碼每天撥打頻率不會太高,如果一些號碼利用率很高,看上去又是正常號碼,就需要根據(jù)其它維度區(qū)分。比如,外賣、推銷小哥打電話的頻率很高,還有膩歪的異地戀小情侶。
5. 一個號碼撥打過多少城市也是特征之一。撥打到這些城市后,在這些城市的分布是怎樣的?比如,一個號碼撥打了全國 33 個城市,但在這些城市的撥打次數(shù)平均分布,與撥打了 33 個城市,但是集中在北京,這兩種情況是不一樣的。
6. 呼叫了 100 通電話,撥打給一個設(shè)備和撥打給一百個設(shè)備是不一樣的,記錄設(shè)備的 ID,研究到底一個號碼給多少不同設(shè)備撥打了電話。
7. 一個號碼撥打給幾個人,但是,這幾個人之間沒有任何關(guān)系,這不是很奇怪嗎?所以,需要指標(biāo)計算這個號碼撥打出去的設(shè)備之間聯(lián)系強不強。
侯冬梅稱,在此基礎(chǔ)上,一些用戶通過軟件反饋,給陌生來電貼上標(biāo)簽,以及收集合作方提供的數(shù)據(jù)和標(biāo)簽,建立一個分類器,對尚未打標(biāo)簽的號碼進行標(biāo)記,然后就可以對一些陌生來電進行在線甄別,推送提醒。
以錢盾的內(nèi)部系統(tǒng)為例,此前舉報三次后,才能認定這個號碼是一個欺詐號碼,現(xiàn)在只要到接入到這個模型,可能用戶舉報一次,這個模型又判斷它是高風(fēng)險號碼,就可以給用戶推送提醒,不需要再等用戶打足夠多與精準(zhǔn)的標(biāo)簽。
這樣解釋看上去很簡單,但還是有一股腦的問題需要回答。
李裕宏:會的,我們根據(jù)這七個緯度的特征對用戶的風(fēng)險程度打分,打了分以后,我們會再結(jié)合用戶的舉報次數(shù)。因為我們的用戶是不能覆蓋全中國,而且用戶有一定惰性,你接到欺詐號碼,不一定愿意幫我們舉報。
實際上,我們正在做這方面的激勵機制,讓用戶更好地參與到這個過程來,幫我們做惡意號碼的舉報,但是這塊還是有一定局限性,用戶本身有一定延遲,甚至有一些人不愿意舉報。比如,這個號碼現(xiàn)在只收集到一個用戶的打標(biāo),用戶只舉報了一次,我們不是很確定地說他舉報的是不是真的電話詐騙號碼。因為又一些意外的情況:今天有個朋友打電話給你,你對他有點不爽(雷鋒網(wǎng)編輯注:尤其是正在生氣的女朋友,可能一言不合就舉報拉黑),或者運營商打電話給你,干擾了你,你可能會用工具打標(biāo)成欺詐號碼。
我們結(jié)合號碼行為的打分情況,做一個綜合模型,這樣,可以讓標(biāo)注情況提早生效。
李裕宏:外賣小哥在中午、傍晚、深夜等時段打電話的頻率較高,這是他“固定”打電話的一個方法,我們會根據(jù)這個特別的曲線來刻畫和區(qū)分。
李裕宏:電商行業(yè)的數(shù)據(jù)某種程度上能幫我們更好地提供服務(wù),因為我們有很大的用戶量,他們在電商上的行為我們都知道,某種程度上我們可以刻畫哪些人是好人,但是壞人有很多種,這個比較難區(qū)分。
侯冬梅:確定在詐騙的黑名單上,我們是直接攔截的,沒有犯過案、沒有給用戶造成過傷害的一些騷擾電話,我們則是提醒。如果用戶設(shè)置了攔截騷擾,我們也是直接攔截的。
侯冬梅:對抗的方式有很多,比如說現(xiàn)在的改號軟件,現(xiàn)在我們這個模型沒有辦法去對抗,但是我們也有一些專門的安全團隊進行對抗,包括 IP 或者是修改設(shè)備號,或者是試圖修改設(shè)備號,我們有專門的方法。
李裕宏:有的,有次我和同事買了同一批打折的東西,結(jié)果接到了同一個詐騙電話。
李裕宏:我很興奮地跟他聊了好久,因為我就是做這個事的,我很想知道他欺詐的手段,也想看看我們錢盾在未來有沒有可能把它檢測出來。
李裕宏:這個號碼是剛用來做的,所以我們把這個模型結(jié)合上用戶的打標(biāo),我們想更快的讓這個號碼生效,如果我們一直在等著用戶打標(biāo)的話,可能得過三四個禮拜。如果結(jié)合他的行為、用戶的舉報可能就能生效了,所以我當(dāng)時一直在看欺詐的模式,我們系統(tǒng)內(nèi)部可以追蹤到這個號碼,也可以進一步確認。
李裕宏:我舉報他了。
李裕宏:我只是一個人舉報他,之前不是說我們內(nèi)部也有一個同事收到同一個電話了嘛,他也舉報了。
李裕宏:那我直接把它拖到數(shù)據(jù)庫吧哈哈哈哈。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。