丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
AI+ 正文
發(fā)私信給劉偉
發(fā)送

0

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

導語:機器學習要被各行各業(yè)普遍接受和應用,前提是要具有可解釋性。

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

雷鋒網按:2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,得到了寶安區(qū)政府的大力指導,是國內人工智能和機器人學術界、工業(yè)界及投資界三大領域的頂級交流盛會,旨在打造國內人工智能領域最具實力的跨界交流合作平臺。

雷鋒網 CCF-GAIR 2018 延續(xù)前兩屆的“頂尖”陣容,提供 1 個主會場和 11 個專場(仿生機器人專場,機器人行業(yè)應用專場,計算機視覺專場,智能安全專場,金融科技專場,智能駕駛專場,NLP 專場,AI+ 專場,AI 芯片專場,IoT 專場,投資人專場)的豐富平臺,意欲給三界參會者從產學研多個維度,呈現(xiàn)出更富前瞻性與落地性相結合的會議內容與現(xiàn)場體驗。

大會最后一天的AI+專場匯聚了美國德州農工大學數(shù)據(jù)挖掘實驗室主任、計算機學院終身教職系列助理教授胡俠,永輝云計算聯(lián)合創(chuàng)始人兼CTO胡魯輝,乂學教育首席科學家崔煒,中興力維首席技術官曹友盛,清華大學未來實驗室博士后、博云視覺聯(lián)合創(chuàng)始人高峰等重量級嘉賓。他們就各自在零售、教育、安防、藝術等領域的人工智能探索與實踐做了精彩分享。

其中,胡俠教授作為開場嘉賓,發(fā)表了題為“Human-Centric Machine Learning”的精彩演講。

胡俠教授表示,機器學習要被各行各業(yè)普遍接受和應用,前提是要具有可解釋性。

賦予機器學習可解釋性是一個非常難的問題。第一,可解釋性沒有明確的定義,可能是系統(tǒng)的可解釋性,也可能是預測結果的可解釋性,甚至可能是系統(tǒng)中某一個部分的可解釋性。第二,如果做深度學習的可解釋工作,現(xiàn)有的深度學習系統(tǒng)千千萬,我們沒辦法對每一個系統(tǒng)都做。第三,讓機器學習系統(tǒng)具有可解釋性,必須大量HCI、Visualization專家跨學科合作,是一項巨大的挑戰(zhàn)。

為解決這個問題,胡俠教授提出,將性能強大、不可解釋的深度學習系統(tǒng)學到的知識,遷移到性能較弱但可解釋的淺度學習系統(tǒng)中。

除了機器學習的可解釋性,自動機器學習也是業(yè)界關注的重點。在這方面,胡俠教授帶領的團隊也做了很多工作。

他們挑選了約300個UCI的數(shù)據(jù),重新采樣形成了4000個數(shù)據(jù)。然后把能找到的20多個分類的package全部應用到這4000個數(shù)據(jù)上去,觀察效果如何。新的數(shù)據(jù)進來后,他們就找出矩陣中和新數(shù)據(jù)最像的Dataset,將這個Dataset上歷史表現(xiàn)最好的模型推薦給用戶。通過這種方法,將機器學習效果提升了很多。

以下是胡俠教授的全部分享內容,雷鋒網做了不改變原意的整理與編輯:

感謝雷鋒網的邀請!今天是大會最后一天,很高興看到臺下還有這么多人傾聽我的演講。

今天主要想給大家介紹一個概念——Human-Centric,以及它如何在機器學習領域落地。機器學習大家已經談論的很多了,今天我想介紹什么是基于用戶的機器學習。

基于用戶的機器學習主要分兩方面:一、機器學習的入口。機器學習廣泛應用于各行各業(yè),但要用好一個機器學習系統(tǒng),把效果提升上去,就必須要有數(shù)據(jù)科學的背景。這大大阻礙了機器學習在各行各業(yè)的落地前景。二、數(shù)據(jù)的入口。如何做好自動的機器學習,即給定一個數(shù)據(jù),系統(tǒng)自動推薦相應的深度學習算法,這是我想講的第二個問題。

機器學習的可解釋性

機器學習或深度學習被各行各業(yè)接受,前提是要具有可解釋性。什么叫做可解釋性?下面用幾個例子來說明。

第一個例子是醫(yī)療健康領域。如果一位病人去醫(yī)院檢查,醫(yī)生告訴他,“機器學習系統(tǒng)推算你三個月后會得糖尿病,五個月后會得癌癥,但我們也不知道為什么”,病人和病人家屬不會認可,甚至醫(yī)生也不敢用這個系統(tǒng)。所以我們必須知道機器學習系統(tǒng)是怎么工作的。為什么病人會得糖尿病?是因為血糖過高還是CT掃描中出現(xiàn)了腫瘤?

第二個例子是自動駕駛行業(yè)。現(xiàn)在的自動駕駛還無法完全離開陪駛員,每隔一段時間就需要陪駛員把控一下方向盤。我們要理解這次bug,理解機器學習系統(tǒng)和視覺系統(tǒng)出了什么問題。只有這樣才能不斷提高自動駕駛的效率和準確率,最后真正實現(xiàn)自動駕駛。

再舉個風控的例子。我們跟美國最大的醫(yī)療保險公司之一UnitedHealth合作了一個項目。美國很多醫(yī)生和病人會聯(lián)合起來騙保險公司的錢。我們希望通過異常檢測,檢測出這些醫(yī)生和病人的異常行為。但即使我們找出了這些異常行為并把它交給保險公司,后者也很難進行人為篩選。(我們的系統(tǒng)準確率做不到100%,所以還需要人為篩選。)如果保險公司決定起訴或采取其他進一步決策,就必須理解為什么這個醫(yī)生或病人會被檢測出來。但是每個醫(yī)生和病人的案例文檔都超過百頁,非常難以理解。如何將這一百多頁文檔濃縮成一頁,明確指出他們?yōu)槭裁打_保,就顯得十分重要。

還有一個例子,大家可以看看下面這張圖片。

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

圖片中上面是浣熊的照片,下面是小熊貓的照片,系統(tǒng)把浣熊錯認成了小熊貓,為什么?我們可以看到,浣熊的形象很像小熊貓,而且它有一個很強的特征——露出了紅色的舌頭。這是小熊貓非常喜歡做的動作,所以系統(tǒng)把它誤認為小熊貓。如果我們理解系統(tǒng)是怎么工作的,就可以對其進行人為干預,提高系統(tǒng)的學習效果。

怎么賦予機器學習可解釋性,這是一個非常難的問題。第一,可解釋性沒有明確的定義,可能是系統(tǒng)的可解釋性,也可能是預測結果的可解釋性,甚至可能是系統(tǒng)中某一個部分的可解釋性。第二,如果做深度學習的可解釋工作,現(xiàn)有的深度學習系統(tǒng)千千萬,我們沒辦法對每一個系統(tǒng)都做。第三,讓機器學習系統(tǒng)具有可解釋性,必須大量HCI、Visualization專家跨學科合作,是一項巨大的挑戰(zhàn)。

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

下面介紹我們的一個設想,這個想法非常簡單。我們有深度學習系統(tǒng),它很強大,可以做很多預測;我們也有淺度學習系統(tǒng),它比較簡單且具備可解釋性,但預測精度不如深度學習系統(tǒng)。我們的想法就是,將深度學習系統(tǒng)學到的知識遷移到淺度學習系統(tǒng)中。我們將深度學習系統(tǒng)稱作老師模型,淺度學習系統(tǒng)稱作學生模型,通過Soft labels把二者結合起來。

給大家介紹兩個案例:

一、怎么做好CNN的可解釋性工作。下圖中有兩個目標——斑馬和大象,傳統(tǒng)目標檢測就可以發(fā)現(xiàn)這兩個部分。但我們做預測和分類時,希望系統(tǒng)不僅能區(qū)分斑馬和大象,還能標注出大象和斑馬的部分,分別放到對應的分類里。我們的論文和系統(tǒng)已經上線,大家感興趣可以查一下。

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

二、假新聞的分類,這個話題在中、美兩國都很受關注。假新聞檢測本身并不是我們的重點,我們的研究重點是讓你知道為什么某條新聞會被判定成假新聞。我們有很多新聞內容和新聞相關信息,新聞內容包括的常用詞匯和相應的語法信息,新聞相關信息包括是誰說的、什么時候發(fā)表的、在哪個刊物發(fā)表、聚焦什么話題等。我們希望借此提供更多可解釋性,了解一條新聞為什么會被判定為假新聞。

自動機器學習

除了機器學習的可解釋性,自動機器學習也是業(yè)界關注的重點。這方面,學術界無法跟Google競爭,所以我們只做了其中一個很小的點。

介紹我們的研究成果前,先簡要介紹一下什么叫做自動的機器學習。

深度學習系統(tǒng)涉及大量Primitivs,沒有非常強的數(shù)據(jù)科學背景很難訓練出好的深度學習系統(tǒng),也很難應用好。我們的愿景是人人都可以用得起深度學習系統(tǒng)。

下圖是最原始、最簡單的機器學習系統(tǒng)。我們有一組數(shù)據(jù),想知道它是文本還是數(shù)值,具體是用Text mining、Classification還是Regression。如果用Classification,效果還不錯,系統(tǒng)就會推薦給你。這是最原始的現(xiàn)有產品能實現(xiàn)的功能,給定一些數(shù)據(jù)后可以推薦相應的系統(tǒng)給大家。

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

這方面我們也做了相應的工作。我們挑選了約300個UCI的數(shù)據(jù),重新采樣形成了4000個數(shù)據(jù)。我們的做法很簡單,把能找到的20多個分類的package全部應用到這4000個數(shù)據(jù)上去,看效果怎么樣。這樣一來形成了4000×20的矩陣,我就大略知道什么樣的分類算法在怎樣的數(shù)據(jù)上會取得什么樣的效果。新進來一個數(shù)據(jù)后,我們就找出矩陣中和它最像的Dataset,將這個Dataset上歷史表現(xiàn)最好的模型推薦給用戶。通過這個工作,效果提升了很多。

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

剛才介紹了非常原始、基礎的自動機器學習系統(tǒng)。我們正在做的工作是研究怎樣做好神經結構的搜索。有了數(shù)據(jù)后,系統(tǒng)可以自動推薦一個相應的深度學習結構給該數(shù)據(jù)。在沒有資源,沒有大量深度學習工程師和數(shù)據(jù)科學家的情況下,這樣一個結構或許可以初步滿足初創(chuàng)公司、社會學科和醫(yī)生的數(shù)據(jù)探索需求。

具體怎么做呢?第一步,我們要根據(jù)相應模型,通過遺傳算法或者強化學習來做。這一步非常耗時耗力。

第二步,有了結構后,還要從頭開始訓練這個深度學習系統(tǒng),這樣它才能應用到相應的工作中去。

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

無論第一步的遺傳算法、強化學習,還是第二步的從頭開始訓練深度學習系統(tǒng),都非常耗時耗力。一個簡單的datasets我們都要幾天才能完成。

有了深度學習系統(tǒng)的原始結構后,還可以將它變寬、變深、加速,讓它的速度更快。

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

我們采用了Bayesian Optimization替代傳統(tǒng)強化學習和遺傳算法,讓這一步變得比較快。

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

我們所有的學習都是基于上一步,所以第二步也能讓速度非常快。我可以把時間從原始的幾天壓縮到一個小時內。你給定一個數(shù)據(jù),我們很快就能推薦相應的深度學習結構給你。

下圖展示了我們一個月前發(fā)布的package,我們稱它Auto-Keras。大家有興趣可以嘗試一下。

美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 | CCF-GAIR 2018

現(xiàn)場有很多企業(yè)界的朋友,所以我也分享下我們實驗室跟企業(yè)合作的經驗。這里主要以異常檢測為例,這方面我們做了大量可解釋性的工作。比如我們跟阿里巴巴合作檢測異常購買行為。阿里巴巴沉淀了大量購買歷史記錄,如果是不良商家和用戶,他的行為就會產生異常,系統(tǒng)很容易就能夠檢測出來。但系統(tǒng)的準確率做不到100%,如果無緣無故封錯用戶的賬號,就會流失大量用戶,所以在不確定的情況下,我們需要額外雇傭人員審核用戶,這時候就需要可解釋性。

我們還跟全球最大的空調公司之一合作。美國很多家庭安裝了中央空調,價值小一萬美金,非常昂貴。如果等到你感覺不到空調制冷的時候再修就晚了,還不如重新買一個?,F(xiàn)在的中央空調都部署了大量傳感器,先是一個小部件壞了,用戶感覺不出來;接著會引發(fā)小系統(tǒng)到整個系統(tǒng)的崩潰。如果我們能在較早的階段檢測出異常,就能減小損失。異常檢測也需要可解釋性,因此我們在指揮系統(tǒng)方面做了大量工作。

此外,我們跟蘋果合作,一起檢測系統(tǒng)入侵,準確率還是做不到100%。舉一個簡單的例子,我們發(fā)現(xiàn)檢測結果中有人前一秒還在北京,下一秒就在別的地方訪問系統(tǒng)。我們認為這是異常,把結果提交到蘋果運營團隊,結果他們告訴我,這是一個VPN在操作。所以一定要有可解釋性,異常檢測才能在各個行業(yè)的不同任務中落地。

以上是我的全部分享內容,謝謝大家。

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說