美國德州農(nóng)工大學(xué)胡俠教授：機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

本文作者：劉偉

2018-07-03 16:16

專題：2018 CCF-GAIR 全球人工智能與機器人峰會

導(dǎo)語：機器學(xué)習(xí)要被各行各業(yè)普遍接受和應(yīng)用，前提是要具有可解釋性。

雷鋒網(wǎng)按：2018 全球人工智能與機器人峰會（CCF-GAIR）在深圳召開，峰會由中國計算機學(xué)會（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）承辦，得到了寶安區(qū)政府的大力指導(dǎo)，是國內(nèi)人工智能和機器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會，旨在打造國內(nèi)人工智能領(lǐng)域最具實力的跨界交流合作平臺。

雷鋒網(wǎng) CCF-GAIR 2018 延續(xù)前兩屆的“頂尖”陣容，提供 1 個主會場和 11 個專場（仿生機器人專場，機器人行業(yè)應(yīng)用專場，計算機視覺專場，智能安全專場，金融科技專場，智能駕駛專場，NLP 專場，AI+ 專場，AI 芯片專場，IoT 專場，投資人專場）的豐富平臺，意欲給三界參會者從產(chǎn)學(xué)研多個維度，呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會議內(nèi)容與現(xiàn)場體驗。

大會最后一天的AI+專場匯聚了美國德州農(nóng)工大學(xué)數(shù)據(jù)挖掘?qū)嶒炇抑魅巍⒂嬎銠C學(xué)院終身教職系列助理教授胡俠，永輝云計算聯(lián)合創(chuàng)始人兼CTO胡魯輝，乂學(xué)教育首席科學(xué)家崔煒，中興力維首席技術(shù)官曹友盛，清華大學(xué)未來實驗室博士后、博云視覺聯(lián)合創(chuàng)始人高峰等重量級嘉賓。他們就各自在零售、教育、安防、藝術(shù)等領(lǐng)域的人工智能探索與實踐做了精彩分享。

其中，胡俠教授作為開場嘉賓，發(fā)表了題為“Human-Centric Machine Learning”的精彩演講。

胡俠教授表示，機器學(xué)習(xí)要被各行各業(yè)普遍接受和應(yīng)用，前提是要具有可解釋性。

賦予機器學(xué)習(xí)可解釋性是一個非常難的問題。第一，可解釋性沒有明確的定義，可能是系統(tǒng)的可解釋性，也可能是預(yù)測結(jié)果的可解釋性，甚至可能是系統(tǒng)中某一個部分的可解釋性。第二，如果做深度學(xué)習(xí)的可解釋工作，現(xiàn)有的深度學(xué)習(xí)系統(tǒng)千千萬，我們沒辦法對每一個系統(tǒng)都做。第三，讓機器學(xué)習(xí)系統(tǒng)具有可解釋性，必須大量HCI、Visualization專家跨學(xué)科合作，是一項巨大的挑戰(zhàn)。

為解決這個問題，胡俠教授提出，將性能強大、不可解釋的深度學(xué)習(xí)系統(tǒng)學(xué)到的知識，遷移到性能較弱但可解釋的淺度學(xué)習(xí)系統(tǒng)中。

除了機器學(xué)習(xí)的可解釋性，自動機器學(xué)習(xí)也是業(yè)界關(guān)注的重點。在這方面，胡俠教授帶領(lǐng)的團隊也做了很多工作。

他們挑選了約300個UCI的數(shù)據(jù)，重新采樣形成了4000個數(shù)據(jù)。然后把能找到的20多個分類的package全部應(yīng)用到這4000個數(shù)據(jù)上去，觀察效果如何。新的數(shù)據(jù)進來后，他們就找出矩陣中和新數(shù)據(jù)最像的Dataset，將這個Dataset上歷史表現(xiàn)最好的模型推薦給用戶。通過這種方法，將機器學(xué)習(xí)效果提升了很多。

以下是胡俠教授的全部分享內(nèi)容，雷鋒網(wǎng)做了不改變原意的整理與編輯：

感謝雷鋒網(wǎng)的邀請！今天是大會最后一天，很高興看到臺下還有這么多人傾聽我的演講。

今天主要想給大家介紹一個概念——Human-Centric，以及它如何在機器學(xué)習(xí)領(lǐng)域落地。機器學(xué)習(xí)大家已經(jīng)談?wù)摰暮芏嗔?，今天我想介紹什么是基于用戶的機器學(xué)習(xí)。

基于用戶的機器學(xué)習(xí)主要分兩方面：一、機器學(xué)習(xí)的入口。機器學(xué)習(xí)廣泛應(yīng)用于各行各業(yè)，但要用好一個機器學(xué)習(xí)系統(tǒng)，把效果提升上去，就必須要有數(shù)據(jù)科學(xué)的背景。這大大阻礙了機器學(xué)習(xí)在各行各業(yè)的落地前景。二、數(shù)據(jù)的入口。如何做好自動的機器學(xué)習(xí)，即給定一個數(shù)據(jù)，系統(tǒng)自動推薦相應(yīng)的深度學(xué)習(xí)算法，這是我想講的第二個問題。

機器學(xué)習(xí)的可解釋性

機器學(xué)習(xí)或深度學(xué)習(xí)被各行各業(yè)接受，前提是要具有可解釋性。什么叫做可解釋性？下面用幾個例子來說明。

第一個例子是醫(yī)療健康領(lǐng)域。如果一位病人去醫(yī)院檢查，醫(yī)生告訴他，“機器學(xué)習(xí)系統(tǒng)推算你三個月后會得糖尿病，五個月后會得癌癥，但我們也不知道為什么”，病人和病人家屬不會認可，甚至醫(yī)生也不敢用這個系統(tǒng)。所以我們必須知道機器學(xué)習(xí)系統(tǒng)是怎么工作的。為什么病人會得糖尿??？是因為血糖過高還是CT掃描中出現(xiàn)了腫瘤？

第二個例子是自動駕駛行業(yè)?，F(xiàn)在的自動駕駛還無法完全離開陪駛員，每隔一段時間就需要陪駛員把控一下方向盤。我們要理解這次bug，理解機器學(xué)習(xí)系統(tǒng)和視覺系統(tǒng)出了什么問題。只有這樣才能不斷提高自動駕駛的效率和準確率，最后真正實現(xiàn)自動駕駛。

再舉個風(fēng)控的例子。我們跟美國最大的醫(yī)療保險公司之一UnitedHealth合作了一個項目。美國很多醫(yī)生和病人會聯(lián)合起來騙保險公司的錢。我們希望通過異常檢測，檢測出這些醫(yī)生和病人的異常行為。但即使我們找出了這些異常行為并把它交給保險公司，后者也很難進行人為篩選。（我們的系統(tǒng)準確率做不到100%，所以還需要人為篩選。）如果保險公司決定起訴或采取其他進一步?jīng)Q策，就必須理解為什么這個醫(yī)生或病人會被檢測出來。但是每個醫(yī)生和病人的案例文檔都超過百頁，非常難以理解。如何將這一百多頁文檔濃縮成一頁，明確指出他們?yōu)槭裁打_保，就顯得十分重要。

還有一個例子，大家可以看看下面這張圖片。

美國德州農(nóng)工大學(xué)胡俠教授：機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

圖片中上面是浣熊的照片，下面是小熊貓的照片，系統(tǒng)把浣熊錯認成了小熊貓，為什么？我們可以看到，浣熊的形象很像小熊貓，而且它有一個很強的特征——露出了紅色的舌頭。這是小熊貓非常喜歡做的動作，所以系統(tǒng)把它誤認為小熊貓。如果我們理解系統(tǒng)是怎么工作的，就可以對其進行人為干預(yù)，提高系統(tǒng)的學(xué)習(xí)效果。

怎么賦予機器學(xué)習(xí)可解釋性，這是一個非常難的問題。第一，可解釋性沒有明確的定義，可能是系統(tǒng)的可解釋性，也可能是預(yù)測結(jié)果的可解釋性，甚至可能是系統(tǒng)中某一個部分的可解釋性。第二，如果做深度學(xué)習(xí)的可解釋工作，現(xiàn)有的深度學(xué)習(xí)系統(tǒng)千千萬，我們沒辦法對每一個系統(tǒng)都做。第三，讓機器學(xué)習(xí)系統(tǒng)具有可解釋性，必須大量HCI、Visualization專家跨學(xué)科合作，是一項巨大的挑戰(zhàn)。

美國德州農(nóng)工大學(xué)胡俠教授：機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

下面介紹我們的一個設(shè)想，這個想法非常簡單。我們有深度學(xué)習(xí)系統(tǒng)，它很強大，可以做很多預(yù)測；我們也有淺度學(xué)習(xí)系統(tǒng)，它比較簡單且具備可解釋性，但預(yù)測精度不如深度學(xué)習(xí)系統(tǒng)。我們的想法就是，將深度學(xué)習(xí)系統(tǒng)學(xué)到的知識遷移到淺度學(xué)習(xí)系統(tǒng)中。我們將深度學(xué)習(xí)系統(tǒng)稱作老師模型，淺度學(xué)習(xí)系統(tǒng)稱作學(xué)生模型，通過Soft labels把二者結(jié)合起來。

給大家介紹兩個案例：

一、怎么做好CNN的可解釋性工作。下圖中有兩個目標——斑馬和大象，傳統(tǒng)目標檢測就可以發(fā)現(xiàn)這兩個部分。但我們做預(yù)測和分類時，希望系統(tǒng)不僅能區(qū)分斑馬和大象，還能標注出大象和斑馬的部分，分別放到對應(yīng)的分類里。我們的論文和系統(tǒng)已經(jīng)上線，大家感興趣可以查一下。

美國德州農(nóng)工大學(xué)胡俠教授：機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

二、假新聞的分類，這個話題在中、美兩國都很受關(guān)注。假新聞檢測本身并不是我們的重點，我們的研究重點是讓你知道為什么某條新聞會被判定成假新聞。我們有很多新聞內(nèi)容和新聞相關(guān)信息，新聞內(nèi)容包括的常用詞匯和相應(yīng)的語法信息，新聞相關(guān)信息包括是誰說的、什么時候發(fā)表的、在哪個刊物發(fā)表、聚焦什么話題等。我們希望借此提供更多可解釋性，了解一條新聞為什么會被判定為假新聞。

自動機器學(xué)習(xí)

除了機器學(xué)習(xí)的可解釋性，自動機器學(xué)習(xí)也是業(yè)界關(guān)注的重點。這方面，學(xué)術(shù)界無法跟Google競爭，所以我們只做了其中一個很小的點。

介紹我們的研究成果前，先簡要介紹一下什么叫做自動的機器學(xué)習(xí)。

深度學(xué)習(xí)系統(tǒng)涉及大量Primitivs，沒有非常強的數(shù)據(jù)科學(xué)背景很難訓(xùn)練出好的深度學(xué)習(xí)系統(tǒng)，也很難應(yīng)用好。我們的愿景是人人都可以用得起深度學(xué)習(xí)系統(tǒng)。

下圖是最原始、最簡單的機器學(xué)習(xí)系統(tǒng)。我們有一組數(shù)據(jù)，想知道它是文本還是數(shù)值，具體是用Text mining、Classification還是Regression。如果用Classification，效果還不錯，系統(tǒng)就會推薦給你。這是最原始的現(xiàn)有產(chǎn)品能實現(xiàn)的功能，給定一些數(shù)據(jù)后可以推薦相應(yīng)的系統(tǒng)給大家。

美國德州農(nóng)工大學(xué)胡俠教授：機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

這方面我們也做了相應(yīng)的工作。我們挑選了約300個UCI的數(shù)據(jù)，重新采樣形成了4000個數(shù)據(jù)。我們的做法很簡單，把能找到的20多個分類的package全部應(yīng)用到這4000個數(shù)據(jù)上去，看效果怎么樣。這樣一來形成了4000×20的矩陣，我就大略知道什么樣的分類算法在怎樣的數(shù)據(jù)上會取得什么樣的效果。新進來一個數(shù)據(jù)后，我們就找出矩陣中和它最像的Dataset，將這個Dataset上歷史表現(xiàn)最好的模型推薦給用戶。通過這個工作，效果提升了很多。

美國德州農(nóng)工大學(xué)胡俠教授：機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

剛才介紹了非常原始、基礎(chǔ)的自動機器學(xué)習(xí)系統(tǒng)。我們正在做的工作是研究怎樣做好神經(jīng)結(jié)構(gòu)的搜索。有了數(shù)據(jù)后，系統(tǒng)可以自動推薦一個相應(yīng)的深度學(xué)習(xí)結(jié)構(gòu)給該數(shù)據(jù)。在沒有資源，沒有大量深度學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家的情況下，這樣一個結(jié)構(gòu)或許可以初步滿足初創(chuàng)公司、社會學(xué)科和醫(yī)生的數(shù)據(jù)探索需求。

具體怎么做呢？第一步，我們要根據(jù)相應(yīng)模型，通過遺傳算法或者強化學(xué)習(xí)來做。這一步非常耗時耗力。

第二步，有了結(jié)構(gòu)后，還要從頭開始訓(xùn)練這個深度學(xué)習(xí)系統(tǒng)，這樣它才能應(yīng)用到相應(yīng)的工作中去。

美國德州農(nóng)工大學(xué)胡俠教授：機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

無論第一步的遺傳算法、強化學(xué)習(xí)，還是第二步的從頭開始訓(xùn)練深度學(xué)習(xí)系統(tǒng)，都非常耗時耗力。一個簡單的datasets我們都要幾天才能完成。

有了深度學(xué)習(xí)系統(tǒng)的原始結(jié)構(gòu)后，還可以將它變寬、變深、加速，讓它的速度更快。

美國德州農(nóng)工大學(xué)胡俠教授：機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

我們采用了Bayesian Optimization替代傳統(tǒng)強化學(xué)習(xí)和遺傳算法，讓這一步變得比較快。

美國德州農(nóng)工大學(xué)胡俠教授：機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

我們所有的學(xué)習(xí)都是基于上一步，所以第二步也能讓速度非常快。我可以把時間從原始的幾天壓縮到一個小時內(nèi)。你給定一個數(shù)據(jù)，我們很快就能推薦相應(yīng)的深度學(xué)習(xí)結(jié)構(gòu)給你。

下圖展示了我們一個月前發(fā)布的package，我們稱它Auto-Keras。大家有興趣可以嘗試一下。

美國德州農(nóng)工大學(xué)胡俠教授：機器學(xué)習(xí)的可解釋性與自動機器學(xué)習(xí) | CCF-GAIR 2018

現(xiàn)場有很多企業(yè)界的朋友，所以我也分享下我們實驗室跟企業(yè)合作的經(jīng)驗。這里主要以異常檢測為例，這方面我們做了大量可解釋性的工作。比如我們跟阿里巴巴合作檢測異常購買行為。阿里巴巴沉淀了大量購買歷史記錄，如果是不良商家和用戶，他的行為就會產(chǎn)生異常，系統(tǒng)很容易就能夠檢測出來。但系統(tǒng)的準確率做不到100%，如果無緣無故封錯用戶的賬號，就會流失大量用戶，所以在不確定的情況下，我們需要額外雇傭人員審核用戶，這時候就需要可解釋性。

我們還跟全球最大的空調(diào)公司之一合作。美國很多家庭安裝了中央空調(diào)，價值小一萬美金，非常昂貴。如果等到你感覺不到空調(diào)制冷的時候再修就晚了，還不如重新買一個?，F(xiàn)在的中央空調(diào)都部署了大量傳感器，先是一個小部件壞了，用戶感覺不出來；接著會引發(fā)小系統(tǒng)到整個系統(tǒng)的崩潰。如果我們能在較早的階段檢測出異常，就能減小損失。異常檢測也需要可解釋性，因此我們在指揮系統(tǒng)方面做了大量工作。

此外，我們跟蘋果合作，一起檢測系統(tǒng)入侵，準確率還是做不到100%。舉一個簡單的例子，我們發(fā)現(xiàn)檢測結(jié)果中有人前一秒還在北京，下一秒就在別的地方訪問系統(tǒng)。我們認為這是異常，把結(jié)果提交到蘋果運營團隊，結(jié)果他們告訴我，這是一個VPN在操作。所以一定要有可解釋性，異常檢測才能在各個行業(yè)的不同任務(wù)中落地。

以上是我的全部分享內(nèi)容，謝謝大家。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章