0
本文作者: 恒亮 | 2017-01-17 09:43 |
提起Jeremy Howard,人工智能和大數(shù)據(jù)領(lǐng)域的從業(yè)者們可謂無人不知無人不曉。
他是Enlitic、FastMail、Optimal Decisions Group三家科技公司的創(chuàng)始人兼CEO,是大數(shù)據(jù)競賽平臺Kaggle的前主席和首席科學家,是美國奇點大學(Singularity University)最年輕的教職工,是在2014達沃斯論壇上發(fā)表主題演講的全球青年領(lǐng)袖,他在 TED 上的演講《The wonderful and terrifying implications of computers that can learn》收獲了近200萬的點擊…
顯然,他是一個閑不住的人。為了讓深度學習技術(shù)被更多的人理解和使用,Jeremy Howard近期又創(chuàng)立了一個名為 fast.ai 的技術(shù)分享平臺。該平臺不但免費提供關(guān)于深度學習技術(shù)的系列視頻教程(例如由Jeremy Howard本人講授的“Practical Deep Learning For Coders”),同時也可以直接幫助從業(yè)者和用戶開發(fā)簡單快捷的軟件產(chǎn)品。近日,Jeremy Howard在采訪中就 fast.ai、深度學習、Kaggle 和大數(shù)據(jù)等話題發(fā)表了自己的看法,以下為采訪原文,由雷鋒網(wǎng)編譯。
問題1:能否為大家介紹一下您最近創(chuàng)立的fast.ai平臺及其未來規(guī)劃?還有就是“Practical Deep Learning For Coders”系列教程和一般的深度學習教程究竟有何不同?
網(wǎng)上有許多深度學習的課程,但我認為其中沒有一個能滿足我們目前最重要的需求。我們想向人們展示如何選擇和使用最有效的深度學習技術(shù)來解決他們的特定問題。我們想讓課程盡可能地容易接受,深入淺出,而不是把簡單問題復(fù)雜化。
此前的教學方式要么需要深厚的數(shù)學積累(如牛津的課程),要么就跳過了基礎(chǔ)性的講解,試圖直接用深度學習技術(shù)來解決高階的問題(如Udacity的課程),這兩種類型的教程顯然都不是最好的。
從團隊成員自身的科研經(jīng)歷中我們發(fā)現(xiàn),雖然深度學習技術(shù)的確可以提供許多高水平的運算結(jié)果,但獲得這些結(jié)果的過程其實是需要大量的細節(jié)處理的。通常情況下,處理這些細節(jié)問題的關(guān)鍵點并不會出現(xiàn)在相關(guān)的論文、書籍或者在線教程中,而是直接在從業(yè)人員之間通過口頭交流和討論的方式分享。同時我們還發(fā)現(xiàn)了一些這種討論的局限性,例如很少見到從業(yè)者們討論諸如:“如何在最合理的時間內(nèi)訓練模型”、“如何最合理地規(guī)劃科研經(jīng)費的使用”,這類非?,F(xiàn)實的問題。
實際上,通過一些科研經(jīng)歷和項目,我們發(fā)現(xiàn)目前最需要教授的內(nèi)容其實是遷移學習。即如何基于已經(jīng)在大數(shù)據(jù)集上訓練完成的現(xiàn)有模型,找到一個最有利的分析起始點。如何利用遷移學習提高訓練的效率,提供更精準的模型,以及減少數(shù)據(jù)的使用量。
我們的思路是:教授實用的東西。在fast.ai的平臺上,我們將通過系列課程為大家分享那些我們在工程實踐中真正使用過,并證明有效的東西,而不僅僅是那些理論上的定義和公式。據(jù)許多開發(fā)者反映,通過學習fast.ai提供的深度學習慕課,他們已經(jīng)大大提高了模型的準確性和訓練效率,這似乎能證明我們的思路是正確的。
問題2:在fast.ai之前,2014年您還創(chuàng)辦過一家名為Enlitic的科技公司,主要的研究方向是利用深度學習的技術(shù)幫助放射科的醫(yī)生更快更準確地進行醫(yī)學診斷。我想問一下這方面Enlitic取得了怎樣的成績?和受過專業(yè)訓練的放射科醫(yī)生相比,Enlitic的技術(shù)究竟表現(xiàn)如何?
我并不知道最近的情況,因為已經(jīng)好幾個月沒去過Enlitic了。但通過此前在Enlitic的研發(fā)經(jīng)歷,我認為深度學習技術(shù)在未來醫(yī)療領(lǐng)域的發(fā)展?jié)摿κ呛艽蟮?。而且最重要的是,這方面的研究可以挽救病人的生命,降低發(fā)展中國家的醫(yī)療成本,這需要我們投入巨大的努力。
雷鋒網(wǎng)注:據(jù)悉尼先驅(qū)晨報的報道,Enlitic憑借深度學習技術(shù)超越了4位頂級的放射科醫(yī)生,包括診斷出了人類醫(yī)生無法診斷出的7%的癌癥,以及在人類醫(yī)生高達66%的癌癥誤診率的情況下,Enlitic的誤診率只有47%。
問題3:將Enlitic和其他一些類似的自動化診斷技術(shù)應(yīng)用在醫(yī)療保健領(lǐng)域的具體障礙都有哪些?
最大的障礙之一是缺乏完整的數(shù)據(jù)集,即大量病人在一段時間內(nèi)進行各種醫(yī)學測試、醫(yī)學干預(yù),以及醫(yī)療效果的綜合性的數(shù)據(jù)集。只有基于這樣的大規(guī)模的完整的數(shù)據(jù)集,我們才可以建立精準的深度學習模型,提供基于實際醫(yī)療效果的診斷和治療建議,而不是簡單的初級的診斷猜測。
另一個障礙是缺乏在這一領(lǐng)域工作的數(shù)據(jù)科學家。讓我感到驚訝的是,目前有大量的杰出科學家投身于相對影響力較低的領(lǐng)域,比如廣告技術(shù)、產(chǎn)品建議和社交網(wǎng)絡(luò)。同時,目前有大量的深度學習研究人員都聚焦于如何“構(gòu)建大腦”,而不是利用技術(shù)解決當前人類面對的實際問題。
另一個出人意料的障礙是,醫(yī)學領(lǐng)域太細分太專業(yè)了,這造成我們的科研成果或許能適用于某一科室,但卻很難在更一般的醫(yī)療問題上提供有效的建議。因此,傳統(tǒng)醫(yī)學的細分和專業(yè)化也是障礙之一。
問題4:作為前冠軍選手和專家,您在Kaggle的最大收獲是什么?另外,對于Kaggle的參賽選手您有哪些想說的?
我在比賽中的經(jīng)歷就是最大的收獲,實際上,我在比賽過程中學到的那些機器學習的相關(guān)知識加起來比此前20年學到的都多。而且,在過去的幾個月中,為了準備fast.ai的相關(guān)課程,我又深入研究了幾個Kaggle的數(shù)據(jù)集,在這個過程中我也收獲了很多快樂。此外,在Kaggle的比賽中看到一些團隊憑借深度學習領(lǐng)域的最新研究成果獲得好成績,也是一件令人快慰的事。
對于那些希望在Kaggle比賽中提高排名的參賽者,和其他一些希望提高他們專業(yè)技能的機器學習從業(yè)者,我的建議很簡單:每天向競賽組委會提交作品。
在理想情況下,請每天至少花費30分鐘在你要提交的作品上,值得強調(diào)的是:即使只花5分鐘時間調(diào)整一些參數(shù),也比什么也不做要好。因為如果你堅持每天都提交作品,每天都在思考和實踐,那么在比賽結(jié)束時一定比其他人收獲更多,另外,及時將收獲以博客的形式分享出來也是一個值得提倡的好習慣。因為在實際的工作環(huán)境中,其實很少有機會處理這些嚴格定義的數(shù)據(jù)集,當然,跟世界頂級的數(shù)據(jù)科學家們一起做基準測試的機會也就更少了。
問題5:隨著數(shù)據(jù)科學不斷向著自動化分析的方向發(fā)展,您認為在未來5年中,數(shù)據(jù)科學家們應(yīng)該關(guān)注哪些技能,才不至于被某種高級算法替代?
實際上,我希望在未來幾年中,數(shù)據(jù)科學家的作用將越來越小,同時看到數(shù)據(jù)科學被納入其他更多的職業(yè)之中,例如醫(yī)療專家、律師和物流經(jīng)理等。因此,我認為數(shù)據(jù)科學家們應(yīng)該了解一個行業(yè)是如何創(chuàng)造價值的,不同的行業(yè)是如何協(xié)同工作的,以及一個行業(yè)的內(nèi)部組織架構(gòu)師怎樣的。最重要的是,數(shù)據(jù)科學家們應(yīng)該找到某種方法來嚴格測試自己在相關(guān)領(lǐng)域的工作影響力,并與這一領(lǐng)域的專家合作,通過各種手段來增加自己的影響力。
其實,我也無法確定當前的哪些核心技術(shù)在5年后依然重要,但我認為,最關(guān)鍵的能力其實在于如何適應(yīng)和學習。
問題6:您覺得深度學習技術(shù)在未來5年能達到怎樣的高度?深度學習會在每個領(lǐng)域都超越人類么?還是在某些領(lǐng)域人類將永遠保持領(lǐng)先?
我認為目前還很難找到深度學習的極限,我們也不知道深度學習需要多長時間才能超越人類。但從目前的發(fā)展來看,每次我看到有人試圖用深度學習技術(shù)來改善他們面對的特定問題時,似乎都能獲得成功。例如,有一位醫(yī)學博士候選人告訴我,通過在項目中應(yīng)用5個小時深度學習技術(shù)取得的科研成果,已經(jīng)大大超過了他此前5年的研究成果!
在藝術(shù)和創(chuàng)造性的領(lǐng)域,人類將永遠保持領(lǐng)先,因為人類更專注于觀察他人的表現(xiàn)。
問題7:您是奇點大學(Singularity University)最年輕的教職工,請問您在那里的具體崗位是什么?還有,您對所謂的人工智能發(fā)展的奇點(singularity)怎么看?
其實,我不認為我現(xiàn)在是年齡最小的了。我在奇點大學教授數(shù)據(jù)科學相關(guān)的課程。每年我最重要的工作之一就是在“全球解決方案計劃”(Global Solutions Program)中教書。80位全球最聰明和最富有熱情的科學家們每年都會聚在一起,探討如何解決人類目前面對的最迫切的問題,我很幸運的有機會指導他們?nèi)绾螌?shù)據(jù)科學的技術(shù)融入其中。
其實奇點大學不是一所傳統(tǒng)意義上的大學,更與所謂的人工智能的奇點無關(guān)。實際上,我并不知道是否會有技術(shù)發(fā)展上的奇點,也不知道什么人可以聲稱他們看到了奇點的發(fā)生。
問題8:如果可以的話,您能否就離開Kaggle和Enlitic這一問題發(fā)表一些看法?
離開Kaggle并非一個艱難的決定,因為我從來都沒打算真正入職Kaggle,而只是想做一名志愿者去幫忙。但令人意想不到的是Kaggle后來融到了很多錢,因此我只好以全職員工的身份加入。后來,Kaggle決定將100%的精力集中在石油天然氣的數(shù)據(jù)分析業(yè)務(wù)上,我并不認同他們的做法,因此就離開了。由于我此前主要的研究方向是如何利用深度學習技術(shù)解決一些實際的社會問題,所以后來就進入了醫(yī)療信息領(lǐng)域。
離開Enlitic則要艱難的多。最初是由于家人健康的原因,我離開了Enlitic一年。一年后當我重返公司時,我發(fā)現(xiàn)這時的Enlitic已經(jīng)不是我當前創(chuàng)立的樣子了,Enlitic變成了一家營業(yè)額高于科技研發(fā)的公司。其實在創(chuàng)辦Enlitic之前,我就曾思考過一個問題:改變醫(yī)療行業(yè)的最佳途徑到底是什么?是通過進入學術(shù)界進行前沿的學術(shù)研究,還是創(chuàng)辦一家成功的醫(yī)療科技公司?我當時的思考結(jié)果是創(chuàng)辦公司。但從Enlitic的經(jīng)歷我認識到,面對需要消耗大量經(jīng)費和基礎(chǔ)性研究的領(lǐng)域,創(chuàng)辦以外部融資為主要生存手段的創(chuàng)業(yè)公司并非一個明智的選擇。因為來自投資者和公司員工的壓力太大,他們都迫切地希望公司的股價一路高漲。
話雖如此,但我仍然不確定進入學術(shù)界是否是一個更好的選擇,但我仍覺得值得一試。這也是為什么我和好朋友Rachel Thomas一起創(chuàng)辦了不靠外部融資生存的學術(shù)分享平臺fast.ai。
問題9:您業(yè)余時間都喜歡做什么?有推薦的書目么?
我最喜歡業(yè)余時間和女兒一起玩,喜歡她對所有事物都充滿了好奇和興趣。閱讀方面,我花了非常多的時間來閱讀深度學習相關(guān)的論文和參考文獻,因此沒有時間閱讀其他的東西,而且除了深度學習,我也很難找到其他什么東西能引起我的閱讀興趣。話雖如此,我有時候也會在晚上聽一些輕松的有聲讀物,最近在聽PG Wodehouse。
來源:kdnuggets,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。