2
本文作者: 叢末 | 編輯:楊曉凡 | 2019-01-04 00:09 | 專題:NeurIPS 2018 |
雷鋒網(wǎng) AI 科技評論按:人工智能領域的最新進展是什么?我們可以期待 2019 年出現(xiàn)什么新技術?會有新的人工智能法規(guī)嗎?NeurIPS(前稱 NIPS)或許可以對這些問題作出解答。近日,計算機網(wǎng)絡安全公司 zvelo 的人工智能架構師 Daniel DeMillard 將其在參加 NeurIPS 2018 時收集到的一些針對人工智能領域的見解、觀點以及 2019 年的趨勢預測匯總成文。雷鋒網(wǎng) AI 科技評論編譯如下。
NeurIPS 匯聚了人工智能和深層學習領域的杰出人才,近年來隨著名氣的上升,門票一度比 Taylor Swift 的演唱會還難買(更多內(nèi)容回看《聽說 NIPS 2018 門票十分鐘賣光,機器學習圈子炸了鍋》)。該會議主要聚焦于深度學習領域。深度學習是使用多層互聯(lián)的人工神經(jīng)網(wǎng)絡對高維數(shù)據(jù)進行建模的過程,其對于圖像分類、語音識別、自動駕駛汽車、面部識別,甚至手機的拼寫自動糾正功能等方面的突破具有關鍵作用。由于深度學習已經(jīng)成為近來人工智能進展的核心部分,NeurIPS 可以被視作更大的人工智能生態(tài)系統(tǒng)的標志性會議。
NeurIPS 由 100 多家公司和 Google、英偉達、微軟、Facebook、IBM、亞馬遜等人工智能領域的巨頭贊助,它們都有展位,并在大會上展示最新技術進展。NeurIPS 為期 6 天,每年舉辦會議的地點各不相同——2018 是在蒙特利爾,其大會內(nèi)容和論壇主要是偏技術性的。研究人員要花費數(shù)天的時間來深入研究最新課題、發(fā)表學術論文以及最終展示新技術。由于大會的三個主題(神經(jīng)科學、機器學習理論和應用機器學習)的議程同時進行,一位研究者(指的是人類)不可能將所有的議程都參加和體驗一遍。這篇文章匯總了我在 NeurIPS 2018 上收集到的一些見解和觀點,以及 一些令人振奮的 2019 年趨勢預測,大家可以進行參考。
今年,人工智能領域取得了許多突破,包括生成網(wǎng)絡、無監(jiān)督學習和小樣本學習、元學習和自動機器學習、增強學習,以及一些深度學習成果的理論解釋等方面的改進。
圖像、文本和語音的生成模型
生成模型對整個概率分布進行估計,從而可以生成圖像、文本或語音等新內(nèi)容。預測模型在給定輸出的情況下,學習一些分類器來預測輸出標簽的概率。例如,當給定 Donald Trump 的原始像素——pr(Trump | pixels),預測模型可以預測圖像為 Trump 的概率。
不同的是,生成模型針對某些期望的輸出——pr (pixels | Trump),來學習輸入上的整個概率分布,從而能夠根據(jù)需求生成全新的 Donald Trump 圖像。遞歸神經(jīng)網(wǎng)絡用來生成文本已經(jīng)有一段時間了,但是最近才在深度學習領域取得進展,改進得足以用來生成圖像。
在過去的幾年里,能夠產(chǎn)生真實感圖像的模型發(fā)展得很快,它們現(xiàn)在可以產(chǎn)生一些真正令人印象深刻的圖像??纯聪路降膸讖垐D片,你能分辨出哪些是真實的,哪些是由神經(jīng)網(wǎng)絡生成的嗎?
你能猜出哪些圖像是由神經(jīng)網(wǎng)絡生成的嗎?
其實這是一個故意誤導的問題,因為它們都是算法生成的圖像(https://arxiv.org/pdf/1807.03039.pdf)——這些人并不真實地存在。
這里的許多演講都有助于推動這個領域的發(fā)展,其中就包括實現(xiàn)僅僅使用基于文本的描述來修改圖像(https://arxiv.org/pdf/1810.11919.pdf)。現(xiàn)在,根據(jù)一個簡單的需求,就可以立即編輯鳥類和花的照片。
生成模型讓我們使用基于文本的描述就能修改圖像
這項技術非常厲害且令人興奮。然而,這些生成模型還沒有被真正投入使用,由于還沒有人真的知道用它們來干什么... 不過,英偉達在本次會議上展示的 Demo 可能已經(jīng)開始填補這一缺口了。他們展示了一個用戶對街道場景進行導航的虛擬仿真,該街道場景不是由圖形或視頻游戲設計師生成的,而是完全由從現(xiàn)場拍攝、然后拼接到一個連貫的 3D 場景中的圖像生成的。
2019 年趨勢預測
公司將使用生成模型來為購房者、博物館參觀自動生成數(shù)字化演示,甚至為電子游戲生成內(nèi)容。
以更少的標簽學習(以及完全不使用標簽學習)
無監(jiān)督學習是人工智能的長遠目標。我們往往擁有大量的數(shù)據(jù),然而這些數(shù)據(jù)都是沒有經(jīng)過標記的。這意味著,除了基本的數(shù)據(jù)勘探和異常檢測場景,這些數(shù)據(jù)基本無法使用。遺憾的是,這個問題在 2018 年仍然沒有得到解決,并且在近期內(nèi)無法解決。不過,這一領域至少在使用未標記的數(shù)據(jù)來改進(標記數(shù)據(jù))監(jiān)督學習過程方面已經(jīng)取得了許多進展。
最近一篇題為《無監(jiān)督神經(jīng)機器翻譯》(Unsupervised Neural Machine Translation,https://arxiv.org/abs/1710.11041)的論文表明,無監(jiān)督學習有助于機器翻譯。給定語言中擁有豐富的文本,所有書籍、博客和信件都可以以你喜歡的任何語言存在,問題是你需要使用平行的句子來展示,深度學習算法如何將原文本(例如法語)的詞語直接標記為目標語言(例如英語)。對于一些特定的語言對,例如斯瓦希里語—老撾語,這些數(shù)據(jù)太過缺乏且難以獲得。這篇論文展示了,通過在單語料庫上訓練編碼器和解碼器間的共同嵌入空間,可以學習一種弱形式的無監(jiān)督翻譯。盡管直接的無監(jiān)督翻譯表現(xiàn)不是很好,但是學習到的共同嵌入可以大大加快監(jiān)督模型的訓練,從而用更少的標記的句子和更少的訓練就可以提高精度。
會議上的許多演講和論文,都在繼續(xù)使用這種思路:以數(shù)量更少的標記樣本來獲得最高精確度。其中幾個案例包括:使用少量的音頻記錄來將轉移學習用于克隆語音,以及使用更少得多的樣本來實現(xiàn)每一類別的目標檢測。
2019 年趨勢預測
雖然使用無監(jiān)督學習直接學習新信息這一方面沒有取得建設性的突破,但是無監(jiān)督預訓練、遷移學習以及少量學習都加速了在新領域的訓練,也有助于控制學習精確的分類器所需要的訓練時間和樣本數(shù)量。
自動機器學習和元學習
當今的趨勢是「解放雙手」,而這一趨勢的點點滴滴都涉及到深度學習,如神經(jīng)網(wǎng)絡架構和超參數(shù)調優(yōu)。元學習致力于「學會如何學習」,然后將學習能力遷移到其尚未涉足的新領域。雖然元學習仍然是一項正在發(fā)展中的工作,但是自動機器學習正被有效地應用于快速地完成比窮舉網(wǎng)格搜索(brute-force grid search)更高效的超參數(shù)搜索,以及自動學習特別的聯(lián)結主義架構。甚至最近為自動機器學習發(fā)布的常用的 scikit-learn(https://scikit-learn.org/stable/)中也擁有了一個可直接使用的插件。
2019 年趨勢預測
機器學習研究者花在用不同的超參數(shù)反復試驗的時間會變少,而是使用自動機器學習所提供的工具去運行單個的實驗。這將加速研究周期,從而讓研究者可以探索更多的課題。
深度學習理論
深度學習模型往往會被喻為「黑盒子」,這是由于深度學習模型現(xiàn)在包含了萬億個以復雜方式關聯(lián)的參數(shù)。即使是創(chuàng)建了這個模型的研究者,也難以對正在發(fā)生的事情進行全面的理解。深度學習其中的一個吸引力就是研究者不一定要手動創(chuàng)建特征,甚至不需要完全了解他們正在應用算法的領域。我們能非常真切地感受到,比起研究者們,深度學習模型其實更了解正在被解決的問題。
這展示了研究者們對于自動駕駛汽車、醫(yī)療影像以及金融交易等關鍵任務系統(tǒng)的關注。
如果我們不知道機器是如何進行工作的,我們能真正說它是安全的嗎?這就是為什么要在深層學習背后的理論上取得進展如此重要的原因。本次會議上的許多演講和論文就聚焦在了這一領域。
《關于神經(jīng)元容量》(On neuronal capacity)是一場非常有趣的演講,它從數(shù)學上表明了不同尺寸的前饋神經(jīng)網(wǎng)絡可以存儲多少位。這些知識可以用于了解抽象和在神經(jīng)網(wǎng)絡中產(chǎn)生的記憶的各自的水平。例如,20000 張彩色像素為 256×256 的圖像,擁有約為 10 億(20000X256X256X3)條信息。如果這個值與網(wǎng)絡的神經(jīng)容量相當,那么這個模型就太大了,僅通過簡單記憶數(shù)據(jù)就會使這些數(shù)據(jù)過度擬合,并且該模型也很難適用于樣本外測試集。研究者在選擇其網(wǎng)絡的大小時可以利用這些信息。
此外,《關于詞嵌入的維度》這場演講為在深度學習社區(qū)異常大的嵌入大小給出了理論解釋。這些解釋有助于正確地選擇嵌入大小等超參數(shù),而無需高成本的經(jīng)驗搜索。
我們甚至有一個神經(jīng)科學解釋,解釋反向傳播是如何在大腦中發(fā)生的。長期以來,人們一直批評深層學習神經(jīng)網(wǎng)絡不能真正模擬大腦中的連接,這是由于使用了反向傳播,這是一種通過網(wǎng)絡的權重將分類器中的錯誤傳遞回去的方法。然而,最近一篇關于神經(jīng)科學的論文(https://papers.nips.cc/paper/8089-dendritic-cortical-microcircuits-approximate-the-backpropagation-algorithm.pdf)概述了一個模型,該模型可以解釋反向傳播類過程是如何在大腦中發(fā)生的。這可能為那些相信他們的算法的智能類似于人類智能的人工智能研究人員提供一些撫慰。
強化學習
強化學習(RL)是用于解決游戲、金融市場和機器人技術中常見的順序決策問題的方法。今年,許多關于強化學習的演講都集中在數(shù)據(jù)效率這個方面。應用于國際象棋、圍棋、 atari 以及最近的 Dota(https://blog.openai.com/openai-five/)等游戲中的「策略網(wǎng)絡」,已經(jīng)取得了驚人的突破。然而,這些方法都需要大量的資源來模擬游戲的數(shù)百萬次迭代。
對于強化學習領導者 Google 旗下的 DeepMind 等發(fā)表的諸多論文,一般的 AI 研究者都無法對其復制,因為他們無法使用 DeepMind 所擁有的成百上千的云端 GPU。這就是為什么研究者致力于開發(fā)不僅能玩好游戲,而且可復制、可循環(huán)利用以及穩(wěn)健的強化學習算法。對此,模型必須進行簡化并且變得更加的「數(shù)據(jù)高效」,這就意味著要求使用更少的仿真迭代(更少的數(shù)據(jù)),最終得到準確的模型。
2019 年趨勢預測
通過自對弈的方式(無真實世界的例子)自主學習以超人類的水平下圍棋、象棋以及 Shogi 的 DeepMind 算法——AlphaGo Zero,將會被研究社區(qū)復制,并且研究者們可以在單個的消費級 GPU 上訓練該算法的某個版本。強化學習算法將開始在星際爭霸(Starcraft)和 多塔(Dota)等更為復雜的現(xiàn)代競技游戲中打敗人類。
對話式聊天機器人 VS 目標導向的虛擬助手
我參加了「第二屆會話式人工智能論壇:今天的實踐和明天的潛力」(The 2nd Conversational AI Workshop: today's practice and tomorrow』s potential)。這個論壇對「對話式聊天機器人」和「目標導向的虛擬助手」進行了清晰的描述。對話式聊天機器人包括社交機器人,它們可以就各種領域進行對話,除了可以讓用戶始終參與之外往往沒有目標。一個對話聊天機器人的例子是微軟的 twitterbot Tay 及其第二代 Zo。然而,目標導向的虛擬助手則是聚焦于完成一些預先設定的任務,這類助手包括亞馬遜的 Alexa、蘋果的 Siri、微軟的 Cortana 以及自動化的幫助中心機器人。
對話式聊天機器一直以來都更難創(chuàng)建得多,因為響應的類型是多種多樣的,并且取決于上下語境,甚至與其對話的用戶。這個論壇展示了對話式機器人和虛擬助手的最新進展。
二者遵循與上述技術相似的發(fā)展路線。無監(jiān)督學習、強化學習和記憶網(wǎng)絡的改進減少了重復,增強了信息檢索和對語境的理解能力。
2019 年趨勢預測
2019 年,我們還無法成功研發(fā)對話式聊天機器人(你可以這類聊天機器人交談任何事情,它的聲音聽起來像人類一樣),不過會有更多水平高的虛擬助手出現(xiàn),它們可以在人類進行網(wǎng)上購物、車輛預定、與商場導購互動以及參與支援呼叫中心等活動時提供幫助。越來越多的應用設備將會采用語音控制,我們僅用聲音就可以控制烤箱或者大門(而不需要將其連接到 Alexa 上)。
今年,大家也對 AI 提出了許多擔憂,包括防護、安全、歧視性偏見以及 AI 研究者缺乏包容性和多樣性等。如果企業(yè)無法進行自我監(jiān)管,這些擔憂可能導致監(jiān)管反彈。
圖像分類器的對抗性攻擊
我數(shù)了一下,有將近 12 篇論文是關于深度學習模式的「對抗性攻擊」的。對于它們不熟悉的圖像,這些攻擊傾向于集中在圖像分類算法上,并試圖通過向圖像的像素值添加小擾動,來欺騙分類器。
例如,將適量的噪聲添加到「豬」的圖像后,該圖像會發(fā)生改變,從而誤導深度學習模型將其歸類為「飛機」。
乍一看,這似乎是一種無害的科學怪癖。然而,想到面部識別正成為智能手機登錄等安全授權的越來越重要的部分。研究者已經(jīng)表明,通過簡單地更改圖像周圍的像素,分類器可以將你認作其他人。當然,人類可以馬上判斷出某些事情是錯的,但是欺騙自動系統(tǒng)就像戴上某款時髦的數(shù)字眼鏡一樣簡單。
或者想一下這對于自動駕駛汽車來說意味著什么。讓自動駕駛汽車變得可行的許多突破,都來自于深度學習圖像分類器,它能夠準確地讀取路標、檢測行人以及解譯信號。研究已經(jīng)表明,通過簡單地將黑色帶和白色帶適當?shù)刭N在路標上,可以讓這些分類器被「打擾」,從而進行錯誤的分類。
創(chuàng)建不受此類攻擊影響的模型,對于保障人們的安全和防護至關重要。幸運的是,現(xiàn)在已經(jīng)有許多方法可以構建這些能夠進行自我防衛(wèi)的模型,例如正則化、數(shù)據(jù)增強、對數(shù)據(jù)來源進行警惕(詳細見含毒數(shù)據(jù) https://arxiv.org/abs/1804.00792)、向模型添加可解釋性、收集更多數(shù)據(jù)以及構建新型檢測器等。構建不受攻擊的模型的結果是,泛化也得到了改進,這就意味著模型將對與初始訓練集不同的數(shù)據(jù)進行處理,同時總體的準確性也得到提高。遺憾的是,盡管在創(chuàng)建不受攻擊的模型方面已經(jīng)取得了許多進展,但并不是每個人按照這一最佳實踐來創(chuàng)建 AI 模型。
2019 年趨勢預測
對于生物識別安全,人臉識別將變得越來越重要。例如,我們會用面部識別來登錄銀行帳戶。今年,公司將無法采用適當?shù)念A防措施來使其網(wǎng)絡不受「對抗性攻擊」的影響,并且有人將會成為這種欺騙活動的受害者。
機器學習中的固有偏見和歧視
今年,人工智能所經(jīng)歷的另一反彈來自于模型,這些模型顯示出了種族和性別歧視。在無法充分代表少數(shù)群體以及數(shù)據(jù)無法提供準確快照等有偏見的數(shù)據(jù)集上訓練過的模型,已經(jīng)證實會犯明顯的錯誤,并且不利于針對一個群體。這個問題是雙重的:第一個問題是,當算法正在進行應該批準誰貸款、應該選擇誰來參加面試、甚至確定犯罪活動等關鍵決策時,可解釋性和透明性往往是必要的;第二個問題是,由于缺乏公平性和責任制,不平衡和不完整的數(shù)據(jù)集最終會把某一些群體孤立起來。
有了龐大的人臉數(shù)據(jù)庫和不完美的分類器,很容易為與犯罪完全無關(https://www.aclu.org/blog/privacy-technology/surveillance-technologies/amazons-face-recognition-falsely-matched-28)的人的肖像找到匹配。美國地區(qū)的人臉識別,由于數(shù)據(jù)集以白人目標為主要特征,具有嚴重的偏見,其對非洲裔美國人的識別表現(xiàn)更差,并且對亞洲人的識別要比白種人更差。同樣地,亞洲分類器的這種偏見是相反的,由于它們在其數(shù)據(jù)集中具有相反的偏見。
AI 研究者不是倫理學家,也不應該是公平、對或錯的最終決定者,他們應該做的是努力將責任制、透明性以及可解釋性增加到模型中。遺憾的是,這是正是黑盒深度學習模型最大的弱點之一。它們都是能夠完成表現(xiàn)非常驚人的分類的非常強大的算法,不過在很大程度上仍然難以捉摸。
現(xiàn)在有一些方法可以解決這個問題,例如給因素重要性分析增加特定的特征,執(zhí)行消融學習(ablation studies)以及對歧視性偏見進行顯性測試(例如對黑種人和白種人的人臉測試集進行 A/B 測試)。然而,這個問題仍然是一個挑戰(zhàn),并且至今還沒有一個簡單的解決方案。如果 AI 公司無法對這一問題進行自我監(jiān)督,那么隨著公民權受到侵犯,會出現(xiàn)監(jiān)管反彈。
2019 年 趨勢預測
未來,投訴機器學習模式具有歧視性以及違反了反歧視法律的訴訟數(shù)量將會增多。深度學習模型很大程度上仍將保持難以捉摸的特點,但監(jiān)管壓力、安全性擔憂以及理論進展,會促使研究者將會花更多的時間和資金來提高深度學習模型的可解釋性和透明性。
人工智能領域在 2018 年取得了許多驚人的突破;到 2019 年,既有機遇,也面臨的許多挑戰(zhàn)。毫無疑問,未來還會有更多的驚喜,但我希望我們能夠繼續(xù)以謹慎和肩負社會責任感的方式,推動技術的發(fā)展。
via:https://zvelo.com/neurips-2018-ai-advancements-insights-and-2019-predictions/,雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。