0
本文作者: 黃善清 | 2019-08-19 21:26 | 專題:IJCAI 2019 |
雷鋒網(wǎng) AI 開發(fā)者按:作為技術(shù)驅(qū)動型企業(yè),冰鑒科技致力于為金融機構(gòu)提供獨立第三方智能風控服務,鑒于其過往在信用評估領域的積累,今年 IJCAI 大會特別邀請了冰鑒科技CEO顧凌云在 Industry day 環(huán)節(jié)里作了題為《AI Meets Risk》的大會演講。
在演講開始前,雷鋒網(wǎng) AI 開發(fā)者有幸對CEO顧凌云進行了專訪,向其請教幾個開發(fā)者們最關(guān)心的問題,其中包括金融征信領域的前景、企業(yè)技術(shù)實力的評判標準、冰鑒科技的人才觀等等。
以下為專訪全文。
技術(shù)!技術(shù)!
AI 開發(fā)者:我們都知道,冰鑒科技是一家技術(shù)驅(qū)動型企業(yè),作為中國金融風控領域的佼佼者之一,可以向我們介紹一下智能風控領域所涉及的技術(shù)內(nèi)容嗎?
顧凌云:我這里舉幾個例子:
在訓練樣本有限的情況下,能不能把一個模型建好?
當數(shù)據(jù)已經(jīng)足夠多的情況下,卻面臨背后物理含義不清晰時,你該如何對其特征變量進行清洗?
當所有變量都已經(jīng)出現(xiàn)時,你如何確保一些在傳統(tǒng)變量選擇中未被選中的弱變量,通過變量整合與特征工程,將之變成一個強變量。
一個單一模型一旦效果不佳,你應該如何把模型給集連起來?
面對大量底層數(shù)據(jù),該如何自動篩選出模型中的變量?
當你處理數(shù)據(jù)變得很慢時,該如何通過提高或者改變 cost function來提升收斂速度?
當所有的結(jié)構(gòu)化數(shù)據(jù)都處理穩(wěn)妥時,該如何處理半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)?
當所有數(shù)據(jù)都處理妥當時,該如何去擴展數(shù)據(jù)的更多邊界?
AI 開發(fā)者:在評價一個模型時,你們一般會使用哪些評判指標?
顧凌云:一個建模做得好不好,是可以直接由客觀標準去判別的,比如借助AUC、Gini score、Precision、Recall、KS的數(shù)字去衡量模型的最終效果。
AI 開發(fā)者:在你看來,技術(shù)與數(shù)據(jù)之間是一種什么樣的關(guān)系?
顧凌云:如果給二者之間求極限,一定是數(shù)據(jù)勝出,因為沒有數(shù)據(jù),就什么都做不了。任一行業(yè)在早期發(fā)展時,都是從數(shù)據(jù)開始發(fā)展,然后慢慢演變成數(shù)據(jù)被濫用,侵犯了用戶隱私,然后監(jiān)管機構(gòu)開始進入,數(shù)據(jù)的開源由此受到約束。
所幸,中國開始慢慢從數(shù)據(jù)為王階段,慢慢開始過度到技術(shù)為王階段。這是因為數(shù)據(jù)越來越難被獲得,或者說可獲得的數(shù)據(jù)正在變得越來越公開化。
這就是數(shù)據(jù)和技術(shù)二者之間的關(guān)系。
信用評估領域的水多深?
AI 開發(fā)者:冰鑒科技經(jīng)常強調(diào)自己的“第三方”屬性,這個該如何理解?
顧凌云:我在美國生活這么些年,逐漸曉得“征信”與“增信”其實是兩碼事,前者屬于國家范疇,需要持有牌照且被嚴格監(jiān)管;后者則應該以技術(shù)為主,讓更多科技企業(yè)參與進來。在過去這些年,相信并沒有太多企業(yè)能將兩者區(qū)分清楚。數(shù)據(jù)固然好,但我希望只把它當作建模的原材料,而不是去獲取、存儲這些原材料。
“第三方”這三個字的定位其實是非常清晰的,所以在過去幾年中,我們有三件事絕對不做:
買賣數(shù)據(jù)
碰業(yè)務端(借貸)
發(fā)數(shù)字貨幣
即使上述事情對我們來說其實游刃有余。
AI 開發(fā)者:你認為當下的中國征信領域面臨著哪些轉(zhuǎn)變趨勢?
顧凌云:在我看來,中國現(xiàn)在的這幾個趨勢是不會改變的:
第一、獨有數(shù)據(jù)今后只有兩條路,第一條由于灰色且非法,最后一定會被關(guān)停;第二條由于允許數(shù)據(jù)曝光在在陽光底下,這也意味著最后一定全部變成市場化、透明化。
第二、從借貸角度來講,所有機構(gòu)最后一定會變得兩極化,一方是以流量為側(cè)重點的借貸機構(gòu);另一方則依然以銀行體系內(nèi)自有資金作為優(yōu)勢來取得競爭優(yōu)勢。
第三、獨立第三方技術(shù)平臺會變得越來越有優(yōu)勢,各自的定位將變得越來越清晰——做流量的專心做流量、主攻資金成本也會變成一件極其專注的事情。
怎樣才算優(yōu)秀的技術(shù)企業(yè)/人才
AI 開發(fā)者:您認為優(yōu)秀的技術(shù)公司應該具有哪些特點?
顧凌云:要想判斷是否是真正的技術(shù)企業(yè),只要看這幾個指標,就可以判斷得出來:
算法是不是自己原創(chuàng)的?所謂原創(chuàng),不是說一定要做一個跟教科書上完全不同的算法,而是能不能從底層開源開始,就自己寫代碼,然后可以任意調(diào)整其中的收斂函數(shù)、cost function,以及對于數(shù)據(jù)變量的處理等。
公司有沒有足夠比例的科技人員?一家說自己是高科技公司的企業(yè),結(jié)果銷售占了員工總數(shù)的80%,而研發(fā)人員只占10%,研發(fā)經(jīng)費連3%都不到,那就肯定不是一家真正的技術(shù)公司。
能否在任一技術(shù)領域做到“常戰(zhàn)常新”。也就是說在戰(zhàn)斗過程中,保持對于科研第一線的敏銳觸覺。今天別人正在做的事情并不重要,重要的是現(xiàn)在正在被研發(fā),處于萌芽階段的算法,你能否第一時間快速地了解,并應用到自己的工程當中。
只有滿足這些條件,我才覺得這是一家真正意義上的科技公司。
放眼中國來看,稱得上“科技公司”的企業(yè)其實是不多的。
AI 開發(fā)者:您認為一家技術(shù)公司有沒有可能存在技術(shù)上的絕對壁壘?
顧凌云:其實上,每隔十年,能有一個算法思路取得突破性進展,就已經(jīng)相當不錯了?;氐秸餍蓬I域,能在保證隱私獲得保護、數(shù)據(jù)使用得當?shù)那疤嵯?,在反欺詐、貸前貸中貸后的客戶沉睡 & 喚醒以及在前端精準營銷等幾個方向上都做好,其實已經(jīng)是一件相當不容易的事情。
很多人會問,既然你是一家科技公司,那有沒有可能做到降維打擊,僅憑一個算法就輕松擊敗其他企業(yè)?這是一件不可能的事情。
我一直強調(diào),這是一個自由競爭的社會,它的流動性是很明顯的。人員的流動、思想的碰撞、學術(shù)交流,最后會慢慢把你科技中的領先部分慢慢給抹平。
AI 開發(fā)者:既然您強調(diào)“常戰(zhàn)常新”,那么在研發(fā)與產(chǎn)業(yè)的結(jié)合方面往往會存在一個矛盾點,你們是通過什么樣的一個機制去平衡這件事情的?
顧凌云:我們有一個AI實驗室,主要起到一個承前啟后的作用。我要求里面供職的必須全是博士,而且在選人過程中還有相應標準:
第一、留美畢業(yè)的博士。
第二、我們希望不要博士一畢業(yè)就直接就回到中國來,最好在美國能有一到兩年的工作經(jīng)驗,但也不要時間過長。
第三,最好從美國有過一兩年工作經(jīng)驗后回到中國,還能在其他家公司干過半年到一年時間,再到我們這里來。
這其實是一種理想狀態(tài),但招到的人基本上都會符合其中的幾點標準。然后我們會要求他們:
第一,需要能夠聽懂大型頂會的內(nèi)容,而且能自己發(fā)文章。
第二,對于每一場頂會中的best paper,我們會有專門的人員去對文章做出復述——我們所謂的復述,是需要對算法進行復現(xiàn)的,來判斷在我們自己的領域中這個算法的效果。
只有把這些全部做完后,我們才會讓工程團隊進駐,進而判斷這些算法可以被運用在在哪些場景里頭。
AI 開發(fā)者:冰鑒科技目前一共有多少技術(shù)人員?
顧凌云:我們300人不到,科技人員大概占到240-250人左右的比例。
AI 開發(fā)者:冰鑒科技目前主要缺哪一方面的人才?
顧凌云:我們的數(shù)據(jù)科學家崗位全年都在招人,而且這個位置是不設限的。只要是對我們公司或者所處行業(yè)感興趣的數(shù)據(jù)科學家們,我們都歡迎。尤其是對于算法相對比較了解,或者對于Python、R這些數(shù)據(jù)處理工具使用得比較熟練的。
第二是BusinessAnalyst的人才,主要涉及模型的后續(xù)的分析。比如模型出來以后,他要分析具體怎么去應用。比如我的cut-off放在什么地方?我的季節(jié)性分析應該是怎么樣的?定額定價模型具體應該怎么做等等。這部分崗位對專業(yè)不做限制,我們更看重Brain power,只要你聰明,同時對于新領域能夠保持足夠的觸覺就可以。
第三是純粹的IT,包括對于大數(shù)據(jù)平臺、Java、C、Spark等這些相對來說比較熟悉的人。
這些都是我們正在尋找的人才。
雷鋒網(wǎng) AI 開發(fā)者雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。