0
本文作者: 葉騰琪 | 2017-07-15 12:52 |
Data is not information.
Information is not knowledge.
Knowledge is not wisdom.
本文作者都柏林城市大學(xué)葉騰琪同學(xué),本文為參加CCF-GAIR大會(huì)之后的觀后感。通過他的文章,能夠還原出一位學(xué)術(shù)青年眼中的CCF-GAIR大會(huì)。如果你也想就此次大會(huì)給我們投稿,歡迎聯(lián)系我們:lizongren@leiphone.com。
最近深圳天氣不太好,陰雨連綿,但會(huì)議地點(diǎn)還是很給力的。深圳喜來登酒店就在地鐵口出口旁。酒店非常氣派,一應(yīng)俱全,有圖有真相。會(huì)議有三天,各自都分為A, B, C三個(gè)專場(chǎng)。
(大會(huì)現(xiàn)場(chǎng)的安保)
(會(huì)場(chǎng)內(nèi)很豪華)
第一天的Session A聚焦AI發(fā)展前沿,由徐揚(yáng)生院士主持,主要耕耘于機(jī)器人領(lǐng)域。第一位嘉賓是中國(guó)工程院院士潘云鶴,潘院士作為曾經(jīng)的浙大校長(zhǎng),現(xiàn)在是候補(bǔ)中央委員,同時(shí)也是AI 2.0計(jì)劃的倡議者。潘院士的演講主要還是圍繞AI 2.0計(jì)劃的詳細(xì)介紹。
AAAI主席Kambhampati教授是主會(huì)場(chǎng)第二位演講嘉賓,他的演講中提到人工智能是計(jì)算機(jī)里面很大的主流方向,這也意味著子方向之間的差別可以非常大,也可以非常小。比如,做機(jī)器學(xué)習(xí)方向的學(xué)者對(duì)于電路可能一點(diǎn)都不清楚,但在機(jī)器人領(lǐng)域這應(yīng)該是基礎(chǔ)知識(shí)。再比如,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘大部分工作都是一樣的,但各個(gè)方向的側(cè)重點(diǎn)又有所不同。數(shù)據(jù)挖掘不會(huì)像機(jī)器學(xué)習(xí)一樣那么關(guān)注模型的可解釋性和計(jì)算能力,機(jī)器學(xué)習(xí)也不會(huì)像數(shù)據(jù)挖掘一樣去那么關(guān)心通過現(xiàn)實(shí)生活中的一些場(chǎng)景假設(shè)去解決問題。所以就像不是所有學(xué)計(jì)算機(jī)科學(xué)的都會(huì)修電腦,人工智能相關(guān)的學(xué)者不是所有的人工智能領(lǐng)域都會(huì)精通。
回到Kambhampati教授的演講,雖然筆者之前的實(shí)驗(yàn)室印度人不少,但是聽該教授的口音很重的英語仍然有些吃力。首先該教授對(duì)AAAI會(huì)議做了一番軟文,呼吁更多的中國(guó)學(xué)者加入AAAI會(huì)員(多交錢),多投稿(增加影響力)。AAAI和IJCAI是AI領(lǐng)域最好的兩個(gè)會(huì),因?yàn)橥陡孱I(lǐng)域最全,但在機(jī)器學(xué)習(xí)方面這兩個(gè)會(huì)也就一般。AI領(lǐng)域的機(jī)器學(xué)習(xí)方向的論文往往追求新穎的想法和故事,但是論文嚴(yán)謹(jǐn)性不夠,所以導(dǎo)致論文可信度不高。
回到演講,教授又用了AI在社交網(wǎng)絡(luò)和美國(guó)政府經(jīng)費(fèi)方面的例子說明現(xiàn)在AI形式大好。其實(shí)對(duì)hype cycle比較熟悉的人是可以看出,上升期之后緊接著就是泡沫破裂時(shí)期。然后教授又比較了人工智能和人類智能,和人工智能發(fā)展歷史。他還提到了AI研究的倫理,舉了一個(gè)臭名昭著的關(guān)于“看相”的研究。雖然剩下大部分科普內(nèi)容對(duì)于筆者來說干貨不多,但是教授還是指出了幾個(gè)研究方向供我們研究(灌水):從更少的訓(xùn)練樣本中學(xué)習(xí)、機(jī)器的常識(shí)、不完整性和交互。Deep learning的有效性是基于海量樣本數(shù)據(jù),但是人類智能似乎不需要太多的樣板就可以學(xué)習(xí)。最后,教授主要介紹了一下他組里面的工作,演講就結(jié)束了。
譚鐵牛院士第三個(gè)登臺(tái)分享。Google scholar上顯示他的論文總引用次數(shù)約28000,重點(diǎn)關(guān)注模式識(shí)別的研究方向。我個(gè)人認(rèn)為譚院士的演講是本次大會(huì)中最不能錯(cuò)過的演講,原因在于有干貨有總結(jié)。教授根據(jù)他自己的經(jīng)驗(yàn)總結(jié)讓我很有共鳴,同時(shí)從演講中可以看出,教授仍然活躍在科研第一線,時(shí)不時(shí)能讓我在細(xì)節(jié)中發(fā)現(xiàn)驚喜。
譚院士指出現(xiàn)在模式識(shí)別的挑戰(zhàn)主要有兩個(gè),第一是不穩(wěn)定,例如在強(qiáng)光照下,現(xiàn)有的很多視覺算法就會(huì)失效。第二是課解釋性差,比如像深度學(xué)習(xí),現(xiàn)在學(xué)界普遍只能當(dāng)成黑箱。
看到這里,想必很多讀者要問了,黑箱就黑箱,能用就行啊。黑箱的主要壞處有兩點(diǎn),第一是無法解釋可信性就差。為什么現(xiàn)在大家很喜歡在深度學(xué)習(xí)灌水呢?因?yàn)槟愀膫€(gè)網(wǎng)絡(luò)結(jié)構(gòu),發(fā)個(gè)論文,宣稱它好,大家也不知道到底真的還是假的。很多代碼作者不公開,連實(shí)驗(yàn)做沒做都不知道。要是真的有人嘗試重復(fù)結(jié)果卻比論文差太多,作者也可以宣稱調(diào)參“技巧”沒達(dá)到。這個(gè)道理和我國(guó)前段時(shí)間生物界出的問題一樣,也可以解釋為什么生物是造假重災(zāi)區(qū),數(shù)學(xué)卻無法造假。第二是你無法解釋,也就不知道如何最好的改進(jìn)結(jié)構(gòu),結(jié)果變好變差全憑運(yùn)氣。接著演講說,教授接著從生物啟發(fā)的角度進(jìn)行了很多歸納,比如記憶問題(sequence learning),啟發(fā)問題(transfer learning),多神經(jīng)元等。教授基本上字字珠璣、全程無尿點(diǎn),強(qiáng)烈推薦。
Session B的主題是AI學(xué)術(shù)前沿,由楊強(qiáng)教授主持。對(duì)于楊強(qiáng)教授,他的“遷移學(xué)習(xí)”理論深受廣大學(xué)術(shù)青年們關(guān)注。遷移學(xué)習(xí)研究的是不同domain之間的遷移。例如,我會(huì)中文,我有本中英詞典,理論上我可以就看懂英文文獻(xiàn)了。再比如,我們平時(shí)的場(chǎng)景是3D,但是我們的大腦仍然可以理解2D的電影場(chǎng)景。
Session B中第一個(gè)做演講的是來自CMU的金出武雄教授。計(jì)算機(jī)科學(xué)方向有四個(gè)吊炸天的學(xué)校的存在,江湖人稱Top 4,MIT, CMU, Stanford, UC Berkeley。金出武雄同時(shí)享有ACM, IEEE, AAAI三個(gè)Fellow,國(guó)內(nèi)只有周志華教授同時(shí)拿了這三個(gè)Fellow。金出武雄的主要工作是機(jī)器人方向的視覺,在google scholar上擁有十萬的引用次數(shù),相比之下Kambhampati教授的引用次數(shù)是八千,楊強(qiáng)教授的引用次數(shù)是三萬。
金出武雄教授的演講主要是圍繞他們組的工作展開,詳細(xì)講解了自動(dòng)駕駛、自動(dòng)汽車等實(shí)際場(chǎng)景下的視覺解決。就我個(gè)人的感覺而言,他們的工作相比較于現(xiàn)在廣泛的計(jì)算機(jī)視覺來說,對(duì)于模型的依賴少,但是更側(cè)重于圖片處理,甚至是通過硬件去改變成像。中間有個(gè)令人印象深刻的例子。下雨和下雪時(shí)候的反光會(huì)嚴(yán)重干擾車載前頭的圖片,他們通過在攝像頭之前加一個(gè)類似于偏振片的鏡片,使得雨滴在圖片里面的成像變得很淡。另外,演講里面還有很多各種好玩的機(jī)器人的視頻,我才不要告訴你,你自己去看吧。
第二個(gè)做演講的是倫敦大學(xué)學(xué)院教授汪軍,他的論文引用次數(shù)在4000次左右,他的研究方向是AI在社群和團(tuán)體方向的應(yīng)用。比如說多個(gè)多智能體的強(qiáng)化學(xué)習(xí)(游戲里面的不同AI單位的合作)、購物區(qū)域的自動(dòng)規(guī)劃、分揀機(jī)器人。他里面提出了一個(gè)類似與GAN的想法就是在強(qiáng)化學(xué)習(xí)里面生成環(huán)境。這個(gè)想法還是很新穎的。
這些演講者的演講內(nèi)容可以總結(jié)為三類:打廣告的(給協(xié)會(huì)、給研究組、給公司)、分享研究成果和宣傳的、有總結(jié)和思考的。
下午是張宏江教授,他可是大有來頭的。他引用次數(shù)是5.5萬,曾經(jīng)是微軟亞洲工程院院長(zhǎng),所以和下午很多做演講的嘉賓都有淵源。下午第一個(gè)演講就不說了,純做廣告的。第二為演講嘉賓為曠視科技首席科學(xué)家孫劍。孫劍有著2.4萬的Google scholar引用次數(shù),研究方向?yàn)樯疃葘W(xué)習(xí)在計(jì)算機(jī)視覺方面的應(yīng)用。
他總結(jié)了計(jì)算機(jī)的核心也是經(jīng)典問題可以歸納為分類(圖像)、檢測(cè)(區(qū)域)、分割(像素)和序列(視頻)。分類的意思是識(shí)別,舉個(gè)例子,圖片里面的動(dòng)物是貓是狗??jī)蓮埐煌膱D片里面的人臉是不是屬于同一個(gè)人?因此識(shí)別都是圖像級(jí)別的。檢測(cè)最著名的一個(gè)例子是大家手機(jī)里面拍照的時(shí)候都會(huì)顯示出框來標(biāo)識(shí)人臉,也就是要找到物體所在的區(qū)域。分割是把圖像上面的不同物體的輪廓給區(qū)分出來。視頻可以看成是圖像的序列。這幾個(gè)任務(wù)看似簡(jiǎn)單,但實(shí)際上不是。很多的計(jì)算機(jī)視覺問題都可以最后轉(zhuǎn)化為這幾個(gè)問題。因?yàn)槠敢饩筒患?xì)說了。
孫劍最后還提到了他覺得現(xiàn)在計(jì)算機(jī)視覺方向的難點(diǎn),供大家研究。
Session C最后一個(gè)演講的是360首席科學(xué)家顏水成,他的論文引用次數(shù)為3.5萬。顏水成主要講述了他們?cè)?60內(nèi)部的工作研究工作,都是一些比較熟悉的內(nèi)容。然后,他提到了一些他在工業(yè)界使用深度學(xué)習(xí)的一些思考,千言萬語總結(jié)起來就是與其為了場(chǎng)景研究開發(fā)算法(追求精度),同等重要的,是為一些達(dá)到一定精度的算法找到好的應(yīng)用場(chǎng)景(追求體驗(yàn))。
第二天筆者參加的是金融專場(chǎng)。Session G是陳邦道主持,首位分享嘉賓為牛津大學(xué)教授、英國(guó)皇家工程院院士、歐洲科學(xué)院院士Prof. Bill Roscoe,陳邦道正是Bill Roscoe的學(xué)生。Prof.Roscoe 的演講方向筆者不太熟悉,主要介紹了一些安全、區(qū)塊鏈、哈希簽名等,個(gè)人感覺和AI的關(guān)系不太大。
第二個(gè)位演講嘉賓為香港科技大學(xué)教授張曉泉,他的演講中介紹了很多Business Intelligence的方面,也就是金融和AI的融合,舉的例子里面主要是quant了,即量化。筆者曾經(jīng)對(duì)這一方向有所涉及,讀者感興趣可以自行研究。不過,張教授的部分觀點(diǎn)筆者不太認(rèn)同,這里和大家討論一下。
張教授說機(jī)器學(xué)習(xí)是無法解釋可以預(yù)測(cè)的。實(shí)際上,機(jī)器學(xué)習(xí)的其中很重要的一部分工作就是模型的可解釋性和模型的預(yù)測(cè)能力評(píng)估,比較著名的成果是拿了圖靈獎(jiǎng)的PAC。而且在Machine learning中,statistical based machine learning也是一個(gè)很重要的部分,而這一部分基本上都是可以解釋的。可能是因?yàn)镈eep learning目前主流看法是不能嚴(yán)格證明和解釋,所以造成了很多錯(cuò)覺。個(gè)人理解,關(guān)于神經(jīng)網(wǎng)絡(luò)其實(shí)也是有部分可解釋性,其中比較有名的是Universal approximation theorem,關(guān)于計(jì)算機(jī)理論的會(huì)議非常有名的有COLT和AISTATS。
接下來的三個(gè)演講都是從企業(yè)界來的,其中一個(gè)是筆者的校友。因?yàn)槠鋵?shí)精華比較少,這里就總結(jié)在一起。首先,企業(yè)做得模塊大同小異。比如都有一些反欺詐、智能獲客、客戶畫像、智能客服等。模塊里面的技術(shù)點(diǎn)也差不多。其次,大數(shù)據(jù)很重要,人工經(jīng)驗(yàn)的融合(專家系統(tǒng))也是很必要的。最后,他們說自己做得都很成功,AI能成功解決他們的大部分問題。對(duì)此,你怎么看?
最后一天必然去的是機(jī)器學(xué)習(xí)專場(chǎng)Session Q,但是大部分內(nèi)容其實(shí)仍然不是機(jī)器學(xué)習(xí)。下午是CV+專場(chǎng),因?yàn)槠蚓筒徽归_了,但MSRA的梅濤博士的演講是值得強(qiáng)烈推薦的,要知道MSRA基本上撐起了亞洲計(jì)算機(jī)視覺的半壁江山。
先說說個(gè)人收獲。說幾個(gè)直觀的方面。
1)現(xiàn)在的AI技術(shù)的的確確在很多方面達(dá)到了工業(yè)要求,但是AI本身和人類的智能仍然差很多。所以從學(xué)術(shù)的角度來說,我們?cè)谏疃葘W(xué)習(xí)之后又一次來到了一個(gè)新的瓶頸期,如果你是真心搞學(xué)術(shù)而不是想灌水的話有幾個(gè)方向這些嘉賓覺得可以突破。一個(gè)是理論方向,可解釋性為什么重要我之前也說過。如果深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))可以在數(shù)學(xué)上透徹分析,我們很有可能馬上找出深度學(xué)習(xí)的短板,從而馬上可以突破瓶頸。還有一個(gè)是仿生學(xué)角度,大自然往往是最好的老師。雖然生物學(xué)的角度并不能讓我們得到數(shù)學(xué)證明,但是如果效果的確有突破性的飛躍,比如說我們能夠發(fā)現(xiàn)總結(jié)哪些結(jié)構(gòu)很好哪些不行,那么對(duì)AI的研究也有很大的促進(jìn)。最后一個(gè)是在目前的基礎(chǔ)上補(bǔ)足一些明顯不好的地方,比如環(huán)境影響很大等。這個(gè)簡(jiǎn)單來說就是應(yīng)用方向了。從工業(yè)上來說,為一個(gè)靠譜的算法找一個(gè)新穎的應(yīng)用是重中之重。
2)學(xué)術(shù)圈也存在馬太效應(yīng),也就是好的導(dǎo)師往往能帶出好的學(xué)生,好的學(xué)生反過來會(huì)促進(jìn)原來的研究組,比如像這會(huì)圍繞MSRA的幾個(gè)演講者和主持還有牛津的一對(duì)師徒。這里說的好是包括人品和學(xué)術(shù)水平,人品是主要的。學(xué)術(shù)水平的話,你感興趣的領(lǐng)域的世界領(lǐng)先的組就那么幾個(gè),大部分學(xué)生是無緣的。擁有好人品的導(dǎo)師至少能在他擁有的資源上給你利用,包括讓你去更好的地方做訪問、讓你想去工作的時(shí)候可以實(shí)習(xí)、發(fā)了論文可以去參加會(huì)議。這樣的老師都有一個(gè)共同點(diǎn),就是他門下的很多學(xué)生畢業(yè)之后還都會(huì)和他有學(xué)術(shù)上的合作、項(xiàng)目上的聯(lián)系甚至生活中經(jīng)常訪問。我身邊中很多朋友因?yàn)樯俨桓?,碰上了一些人品差的?dǎo)師(這些導(dǎo)師不少是國(guó)外的),這些導(dǎo)師對(duì)學(xué)生來說真的是人生的一場(chǎng)災(zāi)難。關(guān)于這方面以后有時(shí)間和讀者再詳細(xì)介紹。
3)本次大會(huì)也有很多嘉賓做得非常認(rèn)真,比如像譚鐵牛院士。他的PPT中的引用都很規(guī)范,而且那些引用都不是亂放的。學(xué)術(shù)經(jīng)驗(yàn)少的讀者可能對(duì)這個(gè)就會(huì)產(chǎn)生疑問。實(shí)際上,作為一個(gè)比較好的研究者必然需要閱讀大量的論文并且對(duì)最新論文都有跟進(jìn)。所以在高層次的學(xué)術(shù)活動(dòng)中的引用都不是亂放的,而譚院士放出的引用的論文質(zhì)量都非常高。第一說明他仍然活躍在科研一線、第二說明他做事很認(rèn)真。我和他利益完全不相關(guān)。很多讀者對(duì)搞研究的方法還不是很懂,一言以蔽之,讀論文是一個(gè)非?;镜闹笜?biāo)。
最后對(duì)回憶本身總結(jié)一下。筆者之前在國(guó)外的時(shí)候就發(fā)現(xiàn),他們特別喜歡舉行一些類似的活動(dòng),我個(gè)人覺得這個(gè)對(duì)整個(gè)行業(yè)促進(jìn)是非常有用的。對(duì)于還只是第二屆的GAIR大會(huì),雷鋒網(wǎng)已經(jīng)遠(yuǎn)超我的預(yù)期了,再次感謝雷鋒網(wǎng)。能請(qǐng)到一些水平高、仍然在科研一線、有誠(chéng)意來演講的大牛真的非常不容易。不過,有些地方可以改進(jìn)的,比如學(xué)術(shù)會(huì)議一般會(huì)安排茶歇和會(huì)餐方便大家互相交流、演講最后和圓桌會(huì)議應(yīng)該提供觀眾提問等(雷鋒網(wǎng)小編已經(jīng)記下了,明年的GAIR 大會(huì)歡迎大家現(xiàn)場(chǎng)提問)。
最后,我想說的是,國(guó)內(nèi)其實(shí)已經(jīng)在很多方面慢慢超越國(guó)外了。我每次開國(guó)際學(xué)術(shù)會(huì)議,中國(guó)人的比例遠(yuǎn)遠(yuǎn)高于中國(guó)人口比例,雖然參加的中國(guó)人是從各個(gè)國(guó)家來的。至于中國(guó)能不能在AI方向快速超車從而實(shí)現(xiàn)中華歷史偉大復(fù)興呢?讓我們拭目以待!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。