0
本文作者: 溫曉樺 | 2016-12-07 15:59 |
編者按:去年P2P公司遇冷后,紛紛轉型稱會用大數(shù)據、機器學習等科技手段服務金融,搖身一變成為時髦的Fintech金融科技公司。但實現(xiàn)過程并不簡單,讓機器代替人去處理數(shù)據做判斷,在國內金融領域才剛剛起步。
CreditX氪信是雷鋒網接觸的一家用機器學習做風控的公司,在金融領域擁有不少實驗經驗和思考。本文援引CreditX氪信在招商銀行信用卡中心年度務虛會培訓干貨內容為例, 來解析人工智能和機器學習將會如何登上金融風控的主要舞臺。
對于躲在觸屏手機背后的客戶,更廣范圍缺失征信數(shù)據的客戶,金融風控體系已愈發(fā)難以通過傳統(tǒng)風控手段去判斷用戶是謙謙君子還是騙子流氓,而人工智能作為過去互聯(lián)網搜索、推薦處理上百萬維數(shù)據的最重要手段,在處理新金融業(yè)務萬維數(shù)據方面,正形成有效的降維顛覆。
在談及機器學習在金融場景中的實際應用之前,首先我們以金融風控信用貸業(yè)務流程舉例進行梳理,通常一個風控業(yè)務包括前端頁面用戶資料申請?zhí)峤缓褪占?,反欺詐、合規(guī)、邏輯校驗,核心決策授信包括申請評分和電調,以及最后的催收。
面對這套業(yè)務流程, 新金融風控領域面對的數(shù)據痛點,一般有幾大類:
業(yè)務流程上,機器學習已經在每個風控節(jié)點發(fā)揮作用。比如反欺詐環(huán)節(jié),在泛互聯(lián)網的環(huán)境里, 金融風控面臨的傳統(tǒng)個體欺詐已迅速演變?yōu)橛薪M織、有規(guī)模的群體欺詐和關聯(lián)風險。而傳統(tǒng)反欺詐還停留在識別一度風險等這種簡單規(guī)則方式,如聯(lián)系人中借貸人個數(shù)等,對于二度、三度乃至更廣范圍的網絡全局風險苦無良策。機器學習里面基于圖的半監(jiān)督算法很好地解決了這一訴求,基于申請人、手機號、設備、IP地址等各類信息建立節(jié)點,再根據其申請關系、電話關系、擁有關系等生成邊,我們就可以構建龐大網絡圖并在此之上可進行基于規(guī)則和機器學習的反欺詐模型實時識別。
在申請評分環(huán)節(jié),傳統(tǒng)金融風控往往是基于評分卡體系對強征信數(shù)據如銀行借貸記錄等進行建模,而新金融的業(yè)務下,客群的進一步“下沉”,覆蓋更多收入群體,新增群體的強征信數(shù)據往往大量缺失,金融機構不得不使用更多弱金融數(shù)據, 辟如消費數(shù)據、運營商數(shù)據、互聯(lián)網行為數(shù)據等。這類底層數(shù)據的改變,對傳統(tǒng)信用評分卡造成了巨大的困難,具體體現(xiàn)在:
1.諸如互聯(lián)網行為、運營商數(shù)據很多都是非結構化數(shù)據,數(shù)據繁雜, 建模前的特征工程很難用傳統(tǒng)人工的方式完成加工。
2.由于數(shù)據類型和范圍的大幅擴大,新模型面對的往往是加工出來的上千維弱變量特征,評分卡體系根本無法融合吸收這些特征。
3.機器學習先進風控技術也帶來了模型“黑盒”的問題,如何理解和把控黑盒結果與風險之間的關系已成為AI技術在金融領域應用的一大門檻。
人工智能和機器學習對上述問題有獨到處理:
面對數(shù)據繁雜的問題,基于深度學習的特征生成框架已被成熟運用于大型風控場景中,通過如RNN、詞嵌入、LSTM、CNN等深度學習神經網絡可成熟實現(xiàn)對時序、文本、圖像等稀疏屬性數(shù)據的特征逐層提取。僅以CNN或LSTM提取短信文本特征為例,文本通過訓練好的詞向量模型映射到嵌入向量,通過CNN完成特征提取,最終進入分類器網絡即可將文本數(shù)據與違約風險實現(xiàn)深度掛鉤。
而成熟場景上的實踐也證明,機器生成特征正顯現(xiàn)出對模型效果超出想象的提升,深度學習對于挖掘深層時序關系,文本內容深層含義等都超越了人工定義的深度。
【圖注】上圖為大型信用貸場景中模型重要性特征列表,機器學習特征比例已經超過專家人工特征。
針對數(shù)據駕馭難的挑戰(zhàn),由于傳統(tǒng)評分卡模型在面對上千維度弱變量且存在大量缺失值的情況下無法應對,目前氪信在大型金融場景核心風控系統(tǒng)中的成熟實踐經驗是復雜集成模型。通過對機器學習特征和專家人工特征構建規(guī)則模型、機器學習模型、深度學習模型等并進行復雜集成,即可靈活應對客戶全方位需求,實現(xiàn)對不同用戶的高度差異化定價,同時充分利用不斷產生的數(shù)據和監(jiān)控模型性能持續(xù)進行模型在線快速自迭代,為客戶實現(xiàn)自適應的外部風險變化。
此外,我們知道金融風控專家都很關心模型的可解釋性,而機器學習是一個“黑盒”,其中的風險很難去把控和估計,這與金融場景的訴求是矛盾的。目前氪信通過不斷地驗證,已成熟實現(xiàn)LIME模型解釋器在風控場景中的應用。其原理在于對局部分界面以線性函數(shù)擬合部分曲線,就能夠做到捕獲影響結果的關鍵變量,并展示給我們的風控專家讓其迅速理解結果和特征之間的內在聯(lián)系。
事實上,機器學習要解決的問題很清晰,所有的這一套數(shù)據適配融合、群體反欺詐、特征工程、模型構建和訓練、性能監(jiān)控與自迭代的機制,包括深度學習,半監(jiān)督學習,在線學習等技術,核心都是為了將互聯(lián)網級別的機器學習技術“降維”應用到金融領域,解決新金融場景上數(shù)據的獨特性,一方面可用數(shù)據比互聯(lián)網要少,另一方面又比傳統(tǒng)評分卡體系多了很多不可解釋、高維稀疏的大數(shù)據。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。