0
本文作者: 劉偉 | 2019-07-16 12:01 | 專題:CCF-GAIR 2019 |
雷鋒網(wǎng) AI 掘金志按:7 月 12 日-7 月 14 日,2019 第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)于深圳正式召開。峰會由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機器人研究院協(xié)辦。
在大會第三天的〖智能商業(yè)專場〗,阿里巴巴集團副總裁、CEO助理肖利華,京東零售首席科學(xué)家兼技術(shù)副總裁胡魯輝,美國德州農(nóng)工大學(xué)數(shù)據(jù)挖掘?qū)嶒炇抑魅魏鷤b,蘇寧零售技術(shù)研究院院長王俊杰,TCL研究院 (香港)研究所總經(jīng)理俞大海,擴博智能CTO柯嚴(yán)先后登臺發(fā)表精彩演講,分享了各自對智能商業(yè)的理解與實踐。
其中美國德州農(nóng)工大學(xué)數(shù)據(jù)挖掘?qū)嶒炇抑魅魏鷤b教授以《增強人工? 促進(jìn)智能??》為主題,分享了他在深度學(xué)習(xí)可解釋性與自動機器學(xué)習(xí)方面的最新研究成果。
胡俠教授表示,AI要真正落地為人所用,必須要有另外一個“AI”的支撐,其中其中A代表Automation(自動化),I代表Interpreation(可解釋性)。
他指出,深度學(xué)習(xí)的發(fā)展給各行各業(yè)帶來了巨大的便利,但如果解決不了深度學(xué)習(xí)算法的可解釋性問題,它的價值就會大大受限。
比如在用深度學(xué)習(xí)處理醫(yī)保騙保問題時,光分析出哪一樁理賠可能存在問題還不夠,還必須精準(zhǔn)定位出上千頁的理賠文件中究竟是哪一頁出了問題,這樣才能幫助專家快速符合,這就需要算法的可解釋性。
同時,自動機器學(xué)習(xí)也是行業(yè)目前非常熱門的方向。它主要有兩重價值:一是幫助沒有很強數(shù)據(jù)科學(xué)背景的用戶更好地利用AI這一工具;二是幫助專業(yè)的數(shù)據(jù)科學(xué)家提高效率,畢竟現(xiàn)實生活中千變?nèi)f化,光靠科學(xué)家應(yīng)付不過來。
以下是胡俠教授的全部演講內(nèi)容,雷鋒網(wǎng)做了不改變原意的整理與編輯:
報告開始前先給大家講一個故事。兩年前,一位叫Ali Rahimi的谷歌研究員在機器學(xué)習(xí)頂會NIPS上獲得了“Test of Time”論文獎?!癟est of Time”論文獎是NIPS為過去十年發(fā)表的論文中的最優(yōu)者頒發(fā)的獎項,可以說分量十足。當(dāng)時,Ali Rahimi在頒獎典禮上發(fā)表演講,將深度學(xué)習(xí)比作煉金術(shù),指出了這項技術(shù)的缺陷
在歐洲歷史上,煉金術(shù)和占星術(shù)一樣,都屬于神學(xué)的范疇。所以Ali Rahimi把深度學(xué)習(xí)比作煉金術(shù),是一種非常嚴(yán)厲的抨擊。
Ali Rahimi抨擊深度學(xué)習(xí)的主要論據(jù)是,深度學(xué)習(xí)算法缺乏可解釋性。算法的可解釋性為什么如此重要呢?我將用幾個行業(yè)案例來說明。
先說保險行業(yè)。我們跟美國最大的一家保險公司合作,希望用人工智能技術(shù)做反欺詐。因為在美國保險業(yè),一些小診所的醫(yī)生會聯(lián)合病人騙保。我們的做法是用人工智能分析某個理賠案例跟其他案例在特征上是否有顯著不同,如果有則說明它存在欺詐的風(fēng)險,我們會將它移交給專家復(fù)核。
這件事的難點在于,理賠涉及的文檔多達(dá)上千頁,復(fù)核難度非常大。所以我們必須讓算法精準(zhǔn)定位出究竟是哪一頁文檔存在問題,這樣算法才有意義。
再比如醫(yī)院場景。假如人工智能系統(tǒng)預(yù)測病人得了糖尿病,卻說不出依據(jù)是什么,病人肯定不會買單,醫(yī)生也無法對癥下藥采取措施。
還有自動駕駛。前兩年自動駕駛汽車出了不少事故,這是一件很嚴(yán)肅的事情。我們必須對自動駕駛系統(tǒng)進(jìn)行檢查,分析這個軟件是怎么寫成的,為什么它會在事故發(fā)生的瞬間做出錯誤判斷。要回答這些問題,就必須依靠算法的可解釋性。
深度學(xué)習(xí)算法的可解釋性非常復(fù)雜。因為它的目標(biāo)(分類、排序)、模型(CNN、RNN、CF)和數(shù)據(jù)類型(文本數(shù)據(jù)、圖片數(shù)據(jù))都很豐富。
我們在深度學(xué)習(xí)算法的可解釋性方面做了大量工作,總結(jié)出了三大解決方向:
一是從模型架構(gòu)入手。傳統(tǒng)的深度學(xué)習(xí)架構(gòu)缺乏可解釋性,但我們可以對它進(jìn)行修改,增加可解釋性的元素?;谶@種方法,你可以根據(jù)自身業(yè)務(wù)靈活調(diào)整模型,但它對模型設(shè)計能力的要求也比較高,而且每來一個新任務(wù),都需要重新設(shè)計模型。
二是重新設(shè)計一套驗證模型。很多時候我已經(jīng)有了一個模型,運行效果非常好,那么我就不需要去改動它,而是重新設(shè)計一個模型去對它進(jìn)行驗證。比如在醫(yī)院場景中。醫(yī)生診斷糖尿病的思路就相當(dāng)于獨立于算法外的驗證模型。
三是去解釋預(yù)測的對象本身。比如一個得了病,我們需要去定義的是他本身,而不是判定他得病的過程。大家有興趣可以去搜索《Techniques for Interpretable Machine Learning》這篇論文。
下面舉例說明怎么做可解釋的CNN模型。下面這張幻燈片的圖片里有一頭大象和一匹斑馬,我們想知道CNN模型是如何運作的,它是根據(jù)圖片中的哪些部分判斷出誰是大象誰是斑馬的。
解決這個問題主要有兩項挑戰(zhàn):一是怎么找出圖片中的重點(大象和斑馬),我們很容易就能判斷,但機器不是;二是圖片中的哪些部分使系統(tǒng)識別了大象或辦法。
為了解決這些問題,我們提出了遮罩的辦法,即把圖片中的某些部分去掉,分析它對系統(tǒng)輸出結(jié)果產(chǎn)生了多大的影響。比如我們把關(guān)于大象部分的圖片去掉,對結(jié)果影響巨大,這就說明它是圖片中非常重要的部分。
我們很快將推出一個叫做XDeep的軟件包,里面包含了目前市場上比較重要的深度學(xué)習(xí)可解釋性方案。我上面提到的三種方案,在里面都有開源代碼供大家嘗試。
前面介紹了“人工”的部分,即深度學(xué)習(xí)可解釋性的重要性,下面再講講“智能”的部分,即自動機器學(xué)習(xí)。
自動機器學(xué)習(xí)是所有大廠都在密切關(guān)注的話題,比如谷歌就正在大力推廣它的Automated系統(tǒng)。在座很多人都聽說過自動機器學(xué)習(xí)的概念,我簡單介紹下它在各個行業(yè)的應(yīng)用。
自動機器學(xué)習(xí)在金融、醫(yī)療、零售等領(lǐng)域都有廣泛的應(yīng)用,它只需要少量數(shù)據(jù)就能迅速輸出結(jié)果。雖然結(jié)果的準(zhǔn)確性可能比不過專業(yè)人士,但至少在某些任務(wù)上是旗鼓相當(dāng)?shù)摹?/p>
自動機器學(xué)習(xí)一是允許你在某個方向上進(jìn)行快速嘗試;二是可以讓你在這個方向有比較好的基礎(chǔ),不必從頭開始研究。
比如在零售領(lǐng)域,商品推薦通常有兩種做法:一是不分品類,把所有商品混在一起,做一個協(xié)同過濾系統(tǒng);二是針對商品大類做更精細(xì)化的推薦。后者的效果顯然優(yōu)于前者,但工作量也更大,有了自動機器學(xué)習(xí),問題便迎刃而解。
再比如我們跟LG合作的案例。LG的中央空調(diào)中有三個很重要的指標(biāo),控制著空調(diào)的運行狀態(tài),把它們設(shè)置在一個合適的值,就能提高空調(diào)的能效和使用壽命。但空調(diào)的安裝位置不同,外界的環(huán)境也在不斷變化,這三個指標(biāo)對應(yīng)的最佳數(shù)值也是變化的。我們不可能安排工程師一天到晚守著它,還好自動機器學(xué)習(xí)可以解決這個問題?,F(xiàn)在LG的空調(diào)只需要安裝好就行,不必人工再去管理了。
通過上面兩個案例,我們可以總結(jié)出自動機器學(xué)習(xí)的兩大優(yōu)勢:一是能讓沒有很強數(shù)據(jù)科學(xué)背景的用戶更好地利用這一工具;二是可以幫助專業(yè)的數(shù)據(jù)科學(xué)家提高效率,畢竟現(xiàn)實生活中千變?nèi)f化,光靠科學(xué)家應(yīng)付不過來。
當(dāng)然,如果你的業(yè)務(wù)提升0.1%的準(zhǔn)確率就能帶來上億元收入,那么自動機器學(xué)習(xí)對你就沒有那么重要,因為你完全可以雇全世界最優(yōu)秀的人來做。
自動機器學(xué)習(xí)同樣可以從類型(AutoFE、AutoMHL、AutoDL)、技術(shù)路線(BO、RL、EA)和框架(AutoKeras、AutoSklearn)幾個維度來衡量。
簡單介紹下我們是如何實現(xiàn)AutoDL的,主要分三個步驟:
一是用訓(xùn)練中的歷史數(shù)據(jù)更新替代模型。自動深度學(xué)習(xí)無外乎要解決兩個問題:一是確定搜索空間,二是確定搜索方法;也就是在哪搜、怎么搜的問題?,F(xiàn)有的方法主要有遺傳算法和強化學(xué)習(xí),但這兩種算法都要多次搜索才能取得比較理想的效果。
二是生成新的架構(gòu)用于評估。
三是評估新的架構(gòu),決定下一步搜哪里,如此循環(huán),不斷地去嘗試。
我們在這個過程中引入了一項叫做貝葉斯優(yōu)化的技術(shù),它只需要極少量數(shù)據(jù)就能取得很好的效果,在藥物研發(fā)等諸多領(lǐng)域都具備顯著優(yōu)勢。
另外,即使我們已經(jīng)確定了用某個算法,訓(xùn)練的過程還是非常慢;如果能充分利用歷史上訓(xùn)練好的模型就能加速這一進(jìn)程。為此,我們開發(fā)了一個叫做Autokeras的自動深度學(xué)習(xí)系統(tǒng)。
AutoKeras自去年七八月份發(fā)布以來廣受歡迎,很多人在用。兩個月前AutoKeras已經(jīng)和谷歌Keras團隊正式合并,目前正在做基于Keras的優(yōu)化,很快就有新版本出來。
由于精力有限,我們的首要目標(biāo)是基于現(xiàn)有的任務(wù)做好優(yōu)化,真正把它應(yīng)用到企業(yè)級的系統(tǒng)當(dāng)中。同時我們也希望能和大公司合作,開發(fā)面向更多任務(wù)的應(yīng)用。
AutoKeras之外我們還做了一個叫做AutoKaggle的軟件包。我們做這個軟件包是因為Kaggle上有豐富的數(shù)據(jù)資源,代表了很多現(xiàn)實中的應(yīng)用場景。
我們希望在AutoKeras的深度學(xué)習(xí)之外,也嘗試做Automated的機器學(xué)習(xí),覆蓋不同類型和形態(tài)的數(shù)據(jù)。因為我們在實驗中發(fā)現(xiàn),深度學(xué)習(xí)并不是放之四海而皆準(zhǔn)的工具,在很多任務(wù)中,傳統(tǒng)的機器學(xué)習(xí)算法反而效率更高,效果也更好。
最后我想用下圖中的公式來結(jié)束今天的演講。這里我提出了一個AI POW的概念,POW在科學(xué)計算中相當(dāng)于乘方的概念,也就是說AI之上還有一個AI。人工智能要真正落地為人所用,就必須有另外一個AI支撐,其中A代表Automation(自動化),I代表Interpreation(可解釋性)。希望在大家的共同努力下,人工智能能在各行各業(yè)落地開花。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章