丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

本文作者: 汪思穎 編輯:郭奕欣 2017-09-25 09:45
導(dǎo)語:清華大學(xué)交叉信息研究院博士后、物理學(xué)博士王書浩對(duì)最新交易欺詐檢測系統(tǒng)的分享。

雷鋒網(wǎng) AI 科技評(píng)論按:交易欺詐對(duì)電子商務(wù)帶來了巨大的威脅,來自清華大學(xué)交叉信息研究院博士后、物理學(xué)博士王書浩近日在AI研習(xí)社的青年分享會(huì)上介紹了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的交易欺詐檢測系統(tǒng)——時(shí)間偵探(CLUE),他重點(diǎn)講解了電商欺詐檢測這一場景下的三個(gè)主要技術(shù)難點(diǎn):非平衡樣本學(xué)習(xí)、實(shí)時(shí)檢測系統(tǒng)、增量模型更新。

以下為他的分享內(nèi)容,雷鋒網(wǎng) AI 科技評(píng)論編輯整理如下:

很高興在這里與大家分享我們跟京東金融合作的一篇論文,這篇論文已經(jīng)被ECML-PKDD2017接收。我們的工作一句話就可以概括,即通過深度學(xué)習(xí)的方法來進(jìn)行電商欺詐的檢測。我想講的更多的是從工業(yè)落地的角度,去建立一套完整的系統(tǒng)來解決問題。

研究背景

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

首先介紹一下背景。在電商網(wǎng)站里面,我們經(jīng)常會(huì)遇到兩種欺詐。

  • 第一種欺詐是指用戶的賬戶被竊取了,竊取者可能還會(huì)得到用戶的支付密碼,之后他很有可能登錄這個(gè)用戶的賬戶進(jìn)行一些欺詐活動(dòng),比如說會(huì)購買一些商品進(jìn)行變現(xiàn),間接的把用戶賬戶里的余額取走。

  • 第二種是現(xiàn)在黑市上可以買到一些假的卡片,比如說假的信用卡,如果這個(gè)人能夠注冊(cè)一個(gè)新的賬戶,然后把卡綁定到他的賬戶名下,他就可以使用這個(gè)卡來買商品,然后把商品進(jìn)行變現(xiàn)。

這兩種欺詐有一個(gè)共同點(diǎn),即欺詐用戶都會(huì)進(jìn)行商品的購買和變現(xiàn)。這些欺詐用戶的行為是不是有一些共同的特點(diǎn),是否可以通過一種手段去觀察整個(gè)瀏覽路徑?我們通過交易之前發(fā)生的一系列的動(dòng)作,可以判斷出這個(gè)用戶到底是正常用戶還是被懷疑為欺詐的用戶。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

上面這個(gè)表左邊展示的是正常用戶的瀏覽路徑,可以看到這個(gè)用戶最后買了一個(gè)128G的wifi版玫瑰金iPad Pro,整個(gè)瀏覽路徑非常有規(guī)律。對(duì)于欺詐用戶而言,看右邊這兩個(gè)用戶,從統(tǒng)計(jì)上來說有兩個(gè)比較鮮明的特點(diǎn)。

  • 第一個(gè)是用戶非常簡單粗暴,購買的都是一些虛擬物品,因?yàn)樘摂M物品可以隨時(shí)變現(xiàn)。

  • 第二個(gè)是用戶的瀏覽行為沒有邏輯性,他首先訪問京東,然后搜索蘋果,瀏覽了一堆蘋果的商品,但可以看到瀏覽的這些商品沒有太大的關(guān)聯(lián)性,我們系統(tǒng)中會(huì)記錄這是一次欺詐行為。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

整個(gè)系統(tǒng)的中文名叫做時(shí)間偵探,時(shí)間是指觀察用戶在整個(gè)瀏覽序列里面的時(shí)序數(shù)據(jù),然后用深入學(xué)習(xí)的辦法來對(duì)它進(jìn)行建模。我們所能拿到的數(shù)據(jù)就是京東上產(chǎn)生的用戶的瀏覽歷史,再加上我們的系統(tǒng)去觀察,之后系統(tǒng)會(huì)給出對(duì)整個(gè)瀏覽行為的風(fēng)險(xiǎn)判定,我們得到的其實(shí)是風(fēng)險(xiǎn)評(píng)分。處于用戶隱私角度的考慮,我們的瀏覽歷史里面沒有關(guān)于這個(gè)用戶ID的任何信息。

技術(shù)挑戰(zhàn)

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

一個(gè)非常直接的挑戰(zhàn)首先是我們拿到的樣本是一個(gè)非常不平衡的樣本,這就是所謂的非平衡樣本的學(xué)習(xí)問題。從上面這幅圖中可以明顯看到欺詐用戶和正常用戶的占比大概是千分之一, 非常小。在研究過程里面,我們固定了千分之一的欺詐占比,又稱異常占比。異常占比小的問題會(huì)對(duì)系統(tǒng)的學(xué)習(xí)造成很大的干擾。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

第二個(gè)非常嚴(yán)峻的問題就是訪問量太大了。京東現(xiàn)在有超過2.2億的活躍用戶,單就PC端來說,每天session的數(shù)目大概都是在千萬的量級(jí),真正發(fā)生交易的session數(shù)目大概也有百萬量級(jí)。這個(gè)系統(tǒng)其實(shí)只看發(fā)生交易的session,一天大概要處理掉百萬的訪問,這對(duì)系統(tǒng)壓力是非常大的。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

在欺詐領(lǐng)域還有一個(gè)非常有意思的現(xiàn)象。欺詐其實(shí)是人產(chǎn)生的,既然有人在,整個(gè)欺詐行為就會(huì)隨時(shí)間發(fā)生變化。上面這幅圖里展示的就是欺詐用戶喜歡購買的商品。比如在1月份可以看到欺詐用戶特別喜歡2號(hào)商品,但隨著時(shí)間發(fā)展,到10月份時(shí),這些用戶對(duì)2號(hào)商品就沒那么感興趣了。我們的系統(tǒng)需要去適應(yīng)用戶行為的改變,我們需要周期性的對(duì)模型進(jìn)行不斷的更新。

建模方法

接下來講對(duì)這個(gè)問題的建模方法。我們文章里面只是做了一個(gè)欺詐檢測,但出現(xiàn)的建模方法同樣可以用在商品推薦或是商品建模等其他領(lǐng)域,包括用戶畫像。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

細(xì)化我們面臨的問題。上圖展示的是用戶在京東的整個(gè)瀏覽行為序列,首先訪問主頁,他可能會(huì)看一些促銷頁,然后可能會(huì)看一些列表頁,然后瀏覽各種商品,最后進(jìn)行結(jié)算??梢宰⒁獾皆谡麄€(gè)URL里面,商品列表頁和商品的詳情頁是最難編碼的。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

我們的服務(wù)器在用戶每次點(diǎn)擊的時(shí)候都會(huì)記錄下這些信息,比如用戶IP,訪問了哪個(gè)URL,包括用戶瀏覽器、操作系統(tǒng)的信息。對(duì)這些信息進(jìn)行編碼之后就可以讓機(jī)器去學(xué)習(xí)。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

怎么進(jìn)行編碼?其實(shí)模型輸入的并不是原始信息,在實(shí)際操作過程中需要用一些方法來把這些信息變成機(jī)器能夠認(rèn)識(shí)的信息。我們采用的方法比較簡單。可以先忽略URL,進(jìn)行One-Hot編碼。One-Hot編碼指的是在一個(gè)向量里面只有一位是1,其他的位都是0。

在用戶瀏覽行為里有一個(gè)非常重要的信息叫停留時(shí)間,停留時(shí)間比較難獲取,我們采用了統(tǒng)計(jì)上比較符合常理的做法——把下一個(gè)頁面點(diǎn)擊的時(shí)間和上一個(gè)頁面點(diǎn)擊的時(shí)間減一下,然后認(rèn)為是用戶在這個(gè)頁面上整體停留時(shí)間。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

對(duì)URL的編碼我寫了兩種編碼方式,在URL里面很多頁面都可以歸為Category或Item這兩個(gè)門類。商品的列表頁和詳情頁實(shí)在太龐大了,如果用one-hot編碼將是一個(gè)非常大的數(shù)目。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

京東上商品的瀏覽特別符合非常陡峭的冪律分布,我們可以對(duì)采集到session里面的大部分瀏覽行為進(jìn)行item編碼,如果瀏覽的商品沒出現(xiàn)在編碼過的item里面,我們就單獨(dú)進(jìn)行編碼。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

我們編碼采用的方式是Item2Vec,這種方法的思路和Word2Vec一樣,Word2Vec相當(dāng)于把出現(xiàn)在相同語境下的詞之間的距離進(jìn)行最小化。Item2Vec是先給這個(gè)商品賦一個(gè)隨機(jī)向量,然后根據(jù)商品在不同語義中出現(xiàn)的情況,對(duì)我們賦的向量進(jìn)行優(yōu)化。我們?cè)谘芯恐胁捎昧艘粋€(gè)25位的向量,能覆蓋大概90%我們所研究的商品。上表展示的就是Item2Vec的一個(gè)結(jié)果。

 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

我們來看一個(gè)更為廣泛的例子,隨機(jī)在三個(gè)品類里面找出若干個(gè)商品,然后進(jìn)行Item2Vec編碼再進(jìn)行降維。我們采用了汽車用品、手機(jī)和附件、個(gè)人護(hù)理這三個(gè)類別??梢钥吹竭@三種類型的商品在這個(gè)二維的空間里面比較明顯的被分割到三個(gè)不同的區(qū)域,這說明Item2Vec的有效性還是很強(qiáng)的。我們做的Item2Vec編碼參考的完全是用戶的瀏覽行為,沒有跟商品的標(biāo)題做語意上的匹配。

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

我們可以把URL的編碼劃分成三部分,第一部分是URL的類型,第二部分是category,第三部分是item Vector。我們把所有用戶的點(diǎn)擊行為做完了編碼之后,每一次點(diǎn)擊都可以得到一個(gè)編碼后的向量,用戶的整個(gè)瀏覽行為就可以看成一個(gè)向量的組合,最后我們?cè)購臄?shù)據(jù)表里面去找這個(gè)session是正常的還是被舉報(bào)過的。

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

還有一個(gè)問題需要解決。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)候,每一個(gè)session的長度都可能是不固定的,可能第一個(gè)session的點(diǎn)擊數(shù)是六個(gè),第二個(gè)session的點(diǎn)擊數(shù)只有三個(gè),那么怎么來處理這種不相等的問題?首先我們確定一個(gè)最大點(diǎn)擊數(shù)目,在文章中我們?cè)O(shè)置這個(gè)數(shù)目為50,也就是說從checkout的頁面往前數(shù)50個(gè)點(diǎn)擊,進(jìn)行一個(gè)截取之后,然后把長度沒有達(dá)到50的后面全都補(bǔ)0。在取最后結(jié)果的時(shí)候,一定要在checkout位置去取,如果在最后一個(gè)位置取的話,會(huì)出現(xiàn)錯(cuò)誤。 

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

最后把這些送到RNN里面學(xué)習(xí)。我們?cè)谘芯坷锩娌捎玫目蚣苁荰ensorFlow,所用到的東西都是TensorFlow定義好的。我們采用的是如上圖LSTM的結(jié)構(gòu),可以采用多層的LSTM結(jié)構(gòu)。

如何解決技術(shù)難題

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

接下來講一下怎么去解決剛才說的那些技術(shù)難題。

第一是解決非平衡樣本問題。在這個(gè)工作里面采用兩個(gè)比較簡單的方法,第一個(gè)方法是從數(shù)據(jù)的層面,我們直接把正常用戶的數(shù)目隨機(jī)減去4/5。對(duì)于欺詐用戶,我們沒有做任何操作。在訓(xùn)練數(shù)據(jù)里原來的占比是1‰,經(jīng)過采樣之后把數(shù)目調(diào)整到5‰。在驗(yàn)證集和測試集上還是保持原來1‰的占比。

在模型層面,我們采用Thresholding法,它的思路非常簡單。我們的模型是一個(gè)二分類問題,要么欺詐,要么正常,模型輸出的是一個(gè)連續(xù)變量,如果更偏重于1,我們認(rèn)為它是欺詐用戶的可能性更大。

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

第二個(gè)問題就是如何解決龐大的訪問量,我們整個(gè)系統(tǒng)的架構(gòu)如上圖所示。架構(gòu)分成兩部分,下面是訓(xùn)練,上面是進(jìn)行預(yù)測,訓(xùn)練采用的是Tensorflow,預(yù)測用了Tensorflow Serving的開源模塊。下面是模型進(jìn)行滾動(dòng)更新的部分,更新后的模型會(huì)送到上面,然后會(huì)有QA模塊進(jìn)行決定是否切換掉現(xiàn)有的模型。 電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

我們有兩種模型更新的辦法——全量數(shù)據(jù)更新和增量數(shù)據(jù)更新。全量數(shù)據(jù)的好處在于每次模型優(yōu)化能夠達(dá)到一個(gè)比較好的結(jié)果,增量數(shù)據(jù)的好處是不需要把歷史數(shù)據(jù)全都拿過來。從時(shí)間上來看,增量更新會(huì)比較節(jié)省時(shí)間和計(jì)算資源,我們?cè)谶@個(gè)研究里面采用的是增量更新的辦法。

研究成果展示

最后給大家展示一下我們研究的一些結(jié)果。

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

對(duì)于非平衡樣本問題,用PR曲線能有效的看出模型性能。圖中是初期的一個(gè)結(jié)果,現(xiàn)在的準(zhǔn)確率比圖中高很多。采用4-64的性能最好。

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

我們還有一個(gè)更詳細(xì)的表,固定recall是30%,異常占比為1‰??梢钥吹诫S著層數(shù)的增加,性能還是有一些增加的,但是隨著unit數(shù)目的增加,在有些地方可能就會(huì)產(chǎn)生一些過擬合。

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

如上圖,通過跟傳統(tǒng)的一些方法的對(duì)比也展示了RNN的優(yōu)越性。

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

我們也做了一些實(shí)驗(yàn)來對(duì)比增量模型更新與全量模型更新。我們把數(shù)據(jù)分成若干時(shí)間段,然后用下一個(gè)時(shí)間段來測試當(dāng)前時(shí)間段模型的性能,橙色線是初始的模型,我們只用第一個(gè)時(shí)間段的數(shù)據(jù)訓(xùn)練好模型,后面不進(jìn)行優(yōu)化,可以看到橙色線跟另外兩條線的差距越來越大,也即隨著用戶行為的變化,第一個(gè)時(shí)間段訓(xùn)練的模型越來越不能在實(shí)際中使用了。

結(jié)果展示

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

最后展示的是我們做的比較有意思的一個(gè)結(jié)果。這幅圖里用戶的行為可以比較明顯的區(qū)分出來。例如右上角,這部分樣本表示在session里面沒有發(fā)現(xiàn)用戶在瀏覽商品,而直接進(jìn)行了付款,這是為什么?因?yàn)槲覀儾]有把用戶從第一個(gè)商品瀏覽到最后全部采集下來。后續(xù)我們把用戶的瀏覽行為拼接起來,找到之前的session,這樣的話性能會(huì)更好。

雷鋒網(wǎng) AI科技評(píng)論整理

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

電商交易欺詐層出不窮,如何用深度學(xué)習(xí)系統(tǒng)布下天羅地網(wǎng)?

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說