0
也許我們應該要求每篇論文都要在摘要里面用一兩句話說明他們提出的方法有哪些局限和不足。這樣,很多的科學成果誤讀和狂熱都可以在一開始就避免。
推特網友 Sebastian Risi,2019-10-28
雷鋒網 AI 科技評論按:紐約大學心理學教授 Gary Marcus 曾是 Uber 人工智能實驗室的負責人,如今他是 Robust.AI 的創(chuàng)始人和 CEO,近期他還出版了一本書《Rebooting AI》。但 Gary Marcus 并不是對深度學習的學術和應用成果津津樂道的技術人物,相反地,他經常對深度學習領域「潑冷水」,2018 年時他就曾在 arXiv 上公開文章,指出深度學習存在十個問題。
近期 Gary Marcus 又發(fā)表了一篇文章,更針對性地指出 AI 相關的信息傳播也有很大的問題,不僅媒體經??浯髨蟮溃S多研究結構和學者也對 AI 的能力夸下???。Gary Marcus 認為這是危險的,結合很多具體例子對這種風氣進行了批評。雷鋒網 AI 科技評論全文翻譯如下。
媒體從來都會以滿腔的熱情報道 AI 或者納米或者量子之類的科學領域的新進展,哪怕只有指甲蓋大的成果也經常被說成是重大突破,然后不久之后就能改變整個世界云云。我們必須承認,有時候科學成果的意義確實被低估了,比如晶體管剛剛發(fā)明的時候并沒有引發(fā)什么熱潮,也沒幾個人在互聯網剛剛出現的時候就預期到了它在幾十年后迸發(fā)出的巨大潛力。
可是,隨著每個晶體管、互聯網這種級別的新成果出現,同時還會有成千上萬被過度報道的小成果,這些想法或者產品設計可能從來都不會變成實物,又或者聲稱實現了室溫核聚變之類的壯舉但再也沒有人能重現,最終只能靜靜地躺在文獻庫或者圖書館里,當初設想的美好愿景全都成了過眼云煙。
之所以會出現這樣的狀況,是因為普通大眾太喜歡聽技術革命的故事了,小的技術進步要寫得仿佛很大才能引起他們的興趣。而研究人員們也經常成為媒體的共犯,因為他們也需要公眾的關注度,這對他們的科研資金申請能產生切實的影響??梢哉f,當前這種科研成果經常被吹噓炒作、然后就被悄悄遺忘的風氣,不管是媒體還是相當一部分研究者都已經習以為常,乃至覺得「應當如此」。
過去的幾周里剛好有那么幾個好多知名媒體都在報道的大新聞,但可惜這幾個報道都很有誤導性
一
11 月 24 號,《經濟學人》雜志發(fā)表了對 OpenAI 的 GPT-2 文本生成系統(tǒng)的采訪,而且故意說 GPT-2 給出的這些回答是「未經編輯的」,而實際上,每個回答都是從 GPT-2 生成的 5 個候選回答中由人類挑選的,挑選標準是要語意連貫而且幽默。這篇報道讓大眾以為能與人類自然交流的對話 AI 其實近在眼前了,但其實這只是一場表演。
知名 AI 專家 Erik Bryjngjolffson 轉推了這篇采訪,評價說這個采訪「令人印象深刻」,以及「這些回答要比很多人類的回答還要通順有趣」。從技術角度來說,這種通順程度一方面來自于 GPT-2 訓練時搜集使用了海量的人類撰寫的句子,另一方面也是人類記者們精心挑選出了通順有趣的句子。所以作為圈內人的 Erik 本意是挖苦他們戲演得太假,在外行眼里卻成了對這個系統(tǒng)、對這篇采訪的高度贊揚,反倒對誤解的傳播推波助瀾。后來 Erik 又發(fā)了一條推特澄清他的本意,但閱讀量只有原來那條的 1/75 而已——這倒并不奇怪,吹捧巨大成果就是比嚴肅的澄清辟謠容易傳播多了。
二
OpenAI 設計了一組神經網絡,可以讓機械臂學會玩一個專門定制的魔方。對外宣傳的時候,OpenAI 在技術博客里用了一個有迷惑性的視頻,讓人誤以為這個系統(tǒng)已經能從認識層面上理解魔方,但實際上它并沒有真的學會如何解魔方。(實際上,僅僅針對求解魔方這個問題,1992 年的時候就有人提出了基于符號計算的解魔方算法,它不需要經過學習)
在這個視頻里還有幾件事沒有體現出來,不僅這個定制的魔方是帶有藍牙傳感器的,而且,在最好的情況下,隨機打亂的魔方中也只有 20% 被成功還原了。在媒體報道里,這些細節(jié)都被忽略了,比如華盛頓郵報的報道是這樣的「OpenAI 的研究人員說他們并沒有明確地給機器編程教會它解魔方」,仿佛暗示解魔方是它自己學會的;后來華盛頓郵報發(fā)出了一則更正「更正為:OpenAI 的研究重點是讓機械臂控制魔方的轉動,而不是魔方的解法」。但是,正如前一個故事,會讀這則更正啟事的人,和閱讀了原來的故事然后被誤導的人相比,數量可謂不值一提。
三
還有兩篇宣稱用神經網絡解決物理問題的論文也被過度報道了,甚至包括麻省理工科技評論(MITTR)這樣的著名學術媒體,兩篇論文僅僅是解決了復雜問題的經過高度簡化后的某幾個狀況而已,但卻被報道得仿佛完全解決了本來那個復雜問題一樣。比如,有的報道寫道「神經網絡解決三體問題可以比傳統(tǒng)方法快 1 億倍」,但首先,神經網絡做的不是解決,而是近似計算,它僅僅近似計算了高度簡化過后僅剩 2 個自由度的狀況(簡化前有 10 個自由度),而且這些天體的質量還要相同。(詳細論文解讀見這里)
MITTR 的文章廣為傳播之后,我和 Ernest Davis 也撰寫了一篇詳細的批評文章,不過,這篇文章的轉發(fā)數量,大概也就只有 MITTR 文章的 1/75 這個數量級而已。
不幸的是,AI 科研成果過度炒作的風氣并不僅僅出現在媒體中。自從 AI 這個概念出現的幾十年以來,即便是 AI 學術研究的領軍人物里也有給它煽風點火的。從一開始就是這樣,1960 年代,AI 研究的幾位奠基人就覺得可以集中精力研究,一個夏天搞定計算機視覺,以及十幾年時間搞定通用人工智能。但如今,僅僅是計算機視覺都還沒完全解決,通用人工智能更連門都沒有摸到。
這種過度樂觀的情緒在近幾年也是一樣,我們來看看這幾位著名 AI 學者的例子:
衛(wèi)報在 2015 年采訪了「深度學習教父」Geoff Hinton,他們的采訪文章標題是「谷歌距離開發(fā)出類人智慧又近了一步」。在衛(wèi)報的采訪中,Hinton 表示他加入谷歌后開發(fā)的新技術可以「幫助攻克人工智能中的兩大核心挑戰(zhàn):掌握自然的、對話級別的語言能力,以及做出邏輯推理」,而且「馬上就能開發(fā)出有邏輯能力、自然語言對話能力、甚至能和人開玩笑的算法」。如今,四年過去了,我們還沒見到什么能在沒有外人干預下就能和人進行自然語言對話的機器,而且也沒見到什么能理解、推理物理世界現象的系統(tǒng)。
差不多一年之后,Hinton 表示放射科醫(yī)生就像「已經踩在了懸崖邊上但是還沒探頭往下看的郊狼」,他想表達的意思是「如果你現在的工作是放射科醫(yī)生的話,你的工作岌岌可?!梗凰€補充道「我們現在應該停止培養(yǎng)更多的放射科醫(yī)生了。很明顯,在 5 年內深度學習就會比放射科醫(yī)生做得更好」。在 2017 年紐約客的采訪中,Hinton 又表達了一次這個觀點。也就是這個時間前后,上百個深度學習醫(yī)學影像分析創(chuàng)業(yè)公司出現了,但目前還沒有放射科醫(yī)生真的被取代,而且目前大家最樂觀的猜測也就是深度學習可以成為醫(yī)生的幫手,而不是在短期內就取代他們。Hinton 當時的話嚇壞了不少醫(yī)院的放射科,然后帶來了負面影響:世界上許多地方的醫(yī)院放射科現在是缺少醫(yī)生的。
2016 年 11 月,在哈佛商業(yè)評論上,另一位深度學習知名人物吳恩達在文章中寫下「如果一個普通人做某項任務的過程中,只需要思考不超過一秒鐘時間就可以想通,那么這項任務很有可能可以用 AI 技術自動化,現在或者就在不遠的將來?!垢唧w的表述是,某項任務能否通過 AI 技術實現自動化,基本上取決于這項任務的本質、能采集到的數據,以及這兩者之間的關系。
對于棋類游戲這樣的封閉結局問題,我們可以很方便地通過模擬采集到大量數據,吳恩達的理論就被證明是正確的;但是在對話理解這種開放結局的場景中,我們沒法進行完整的模擬,吳恩達的理論目前都是無效的。如果企業(yè)領袖和政策制訂者們能更明白當前的技術能解決哪些問題、不能解決哪些問題肯定是一件好事,但吳恩達的文字在其中增加了許多模糊之處。
2015 年 5 月,連線雜志根據對當時擔任 Facebook 人工智能研究院負責人的 Yann LeCun 的采訪發(fā)表了一篇報道,表示「深度學習很快就會給我們帶來非常聰明的機器人」。無需多言,非常聰明的機器人到現在也還沒看到。正如機器人技術專家 Pieter Abbeel 近期在演講中說的,從實驗室中的機器人技術演示,到機器人走入真實世界、做出智慧行為,其中還有很長的路要走。
另一方面,學術成果被誤讀的學者們通常都會保持沉默,說他們是默許了也可以。OpenAI 的首席科學家 llya Sutskever 就發(fā)推特表示《經濟學人》對 GPT-2 的采訪挺好的。當后來確認了采訪里 GPT-2 的回答都是人工挑選出來的之后,我問了 Sutskever 是否還認同當時自己做出的評價,但 Sutskever 沒有回答。
再往前數一個月,OpenAI CTO Greg Brockman 自己就做了不少手工挑選的工作。他發(fā)推特說「我們把一篇 GPT-2 生成的短文投稿到了《經濟學人》的青年作者文章欄目。其中一位評審者,并不知道這篇短文是 AI 寫出來的,給出了這樣的評價:文章用詞考究,提出的觀點都有證據支撐,不過思路的原創(chuàng)性并不高?!沟?Brockman 沒有說的是,還有幾位評審者對這篇短文的評價要低很多,比如來自評審者 2 的「文章沒有很快體現出論點,論點也并不新穎,太模糊,太激烈,有很多修辭問題」,評審者 6 也給出了非常低的評價「這篇短文并沒有給問題做出完整的解答,也沒有帶來新的觀點;它的論述水平不高,文章的用詞、結構也很一般。除此之外,我覺得文章體現出作者對當前的氣候策略以及 IPCC 撰寫的科學文獻都沒有很好的理解」。對于讀者來說,只要他們沒有去查這個完整故事、只是讀了 Brockman 的推特的話,是完全意識不到存在這樣低的評價的。(其實,機器學習領域內的許多研究人員一直都覺得 OpenAI 一開始表示 GPT-2「太危險了所以不可以公開發(fā)布」的行為本身就是小題大做、言過其實)
學術研究人員們還有一個習慣也給「真正的 AI 近在眼前」的論調添油加醋,比如 DeepMind 就經常在論文里用專門的篇幅描寫他們的成果未來的潛力,但是又很少提及潛在的限制是什么——如果是作為嚴謹的科學成果進行討論,只說優(yōu)點不談缺點應該算不上正確的下結論的方式。另一方面,他們還會對論文中的實驗場景設定做類比和引申,表明他們正在研究非常難的問題、正在攻克非常宏大的挑戰(zhàn),暗指他們目前使用的技術還可以解決更多的困難和挑戰(zhàn)。但是我們需要知道,即便是比較復雜的游戲,也還和現實世界不是一回事。DeepMind 撰寫的圍棋 AI AlphaGo 和星際 2 AI AlphaStar 的論文都是這樣,對潛在的限制幾乎沒有討論。
好在并不是機器學習領域的所有學者都對自己的成果吹個沒完,就在這一年中我先后聽了 Pieter Abbeel 和 Yoshua Bengio 的演講,都既精彩又克制,在介紹深度學習(以及深度強化學習)的優(yōu)秀表現的同事,也坦誠指出了我們面前還有多少挑戰(zhàn)、我們離終點還有多遠。(具體來說,Abbeel 著重指出實驗室的機器人技術成果和能在現實世界中工作的機器人之間還有很遠的距離,Bengio 則強調了在現有的 AI 模型中加入因果推理能力的必要性)。我多希望他們這樣的態(tài)度能成為機器學習領域的正常狀態(tài)。當這不是常態(tài)的時候,政策制訂者和普通大眾很容易覺得迷惑,因為報道中的偏倚總是傾向于夸大成果而不是掩蓋它,所以普通大眾害怕的那個 AI 形象其實不僅現在不存在,可見的未來中也不會出現。
那么,這對做 AI 應用的、AI 商品化的人有什么損害呢?畢竟,如果鼓吹之下有更多的公眾關注、更多的資金投入、更多的人員加入,也許我們實現通用人工智能的速度也能更快,似乎也不是什么壞事?
在我看來這是普通人遇到的一場悲劇,許多人看中了同一片領域里有機會,然后一擁而上、竭澤而漁,最后誰都落不到好下場。具體到 AI 這里,如果公眾、政府、投資機構都發(fā)現 AI 其實只是畫餅、AI 的長處短處其實和現實需求沒有相符之處,那么一個新的 AI 寒冬可能就會到來。(1974 年開始的那個 AI 寒冬就是早期的狂熱吹捧變成失望之后的后果)
我們現在從事后來看的話,有很多當時的熱門事件其實都預兆了悲劇的結果:
聊天機器人:Facebook 在 2015 年公布了一個名為 M 的聊天機器人系統(tǒng),聲稱它可以給個人助理的能力范圍帶來革命性的升級。當時還沒有成熟的 AI 技術可以實現他們設計的功能,但他們認為這是一個憑數據就能解決的問題,人類只需要回答最開始的幾個問題,然后深度學習就會把后續(xù)的都搞定。等時間到了 2018 年,這個項目被取消了。
總體來說,2015 年的時候大家都對聊天機器人有充足的熱情,然后如今領域內已經形成了共識,以目前的 AI 技術只能處理一部分有內容限制的對話,即便這樣也無法保證完全可靠。當時做出承諾很容易,但是要做到就太難了。
醫(yī)療診斷:IBM Watson 也承諾了很多做不到的事情,以至于醫(yī)療機構 MD Andersen 癌癥中心由于對結果不滿所以終止了和 IBM Watson 的合作。現在看來,IBM 說要用 Watson 做醫(yī)療診斷肯定有吹噓的成分??赡芤灿泻芏嗳似诖?DeepMind 進入醫(yī)療診斷市場,因為 DeepMind 也和很多醫(yī)療機構有合作,可以獲取很多數據,而且也有大量的計算和智力資源。但現實是,DeepMind 也一直都沒有拿出什么有說服力的成果(DeepMind 的醫(yī)療業(yè)務也已經轉給了谷歌)。即便只是在簡單的、主要關注感知、額外帶有一點點自然語言理解即可的醫(yī)學圖像分析任務中,把實驗室成果搬到真正的醫(yī)院里原來也相當困難。
假新聞檢測器:2018 年 4 月,Facebook 創(chuàng)始人&CEO Mark Zuckerberg 告訴美國國會,在未來的 5 到 10 年里 AI 可以開始幫助檢測假新聞,但在今年(2019年)5 月,Facebook CTO Mike Schroepfer 表示無法承諾在短期內做出可見的成果
無人駕駛汽車:按照 Elon Musk 的承諾,2020 年的時候我們就會有完全自主駕駛的汽車了,但目前整個自動駕駛研究領域的共識是,完全的自動駕駛要比大多數人預計的難得多,如果想要在高度限定的路況之外實現完全的自動駕駛,我們還需要很多年的時間
如今,政府、大企業(yè)、風投都在 AI 相關領域做了許多投資,這其中的一大部分是直接針對深度學習的;而如果這些投入的資金發(fā)現深度學習的能力原來這么有限、原來當初的愿景這也實現不了那也實現不了,那么整個領域都會受到影響。如果完全的自動駕駛、對話機器人只是樂觀地比原來預期的時間遲一兩年,那可能并不是什么大問題。但這些技術、以及其它向大眾承諾了的 AI 技術推遲的越久,我們面臨一個新的 AI 寒冬的風險就越大。
綜上所述,有關 AI 的信息和報道出現不準確是常事。雖然也存在一些準確的報道,但即便是知名的新聞媒體也時不時會對學術結果做出錯誤的解讀;企業(yè)出于自身宣傳需要,常常在其中推波助瀾;學術研究人員們,即便是知名的學者,也常常默許了對自己成果的錯誤解讀,不做任何公開澄清。
有一部分信息是準確的:有些學者對于方法的不足非常坦誠,有些報道對成果的理解非常準確。但總體來說,整個風氣仍然偏向于把任何的小成果不斷放大,樂于宣稱有各種革命性的改進。
這一切的后果可能會對這個領域產生反作用,過度激活的公眾熱情帶來了當前的 AI 熱潮,然后在公眾變得失望之后帶來下一個 AI 寒冬。
在 Rebooting AI 中,Ernie Davis 和我一同提出了六條建議,每一條都希望可以幫助讀者、記者們核對自己看到的信息是否客觀、全面,以及讓研究者們更慎重地評價自己的成果。
把所有的修辭、比喻都去掉,這個 AI 系統(tǒng)究竟是執(zhí)行什么樣的任務的?(一個「閱讀系統(tǒng)」所做的是和人一樣的「閱讀」嗎?)
結果的泛化能力怎么樣?(一個可以在美國鳳凰城工作的自動駕駛系統(tǒng),在印度孟買也能工作嗎?一個能解魔方的機械臂,能用來開汽水嗎?這都需要多少訓練?)
有沒有可以供感興趣的讀者自己實驗的 demo?
如果宣稱 AI 比人類的表現要好,那么是比怎么樣的人表現更好?要好多少?(只拿很少的薪水的眾包標注員真的能準確體現人類的能力嗎?)
假設我們認可某個 AI 在某項具體任務上比人類的表現更好,那么這距離我們造出真正的 AI 又還有多遠?
系統(tǒng)的魯棒性如何?能不能不經過重新訓練就在別的數據集上也發(fā)揮出這樣的表現?(AlphaGo 在 19x19 的正方形圍棋盤上表現不錯,但如果換成長方形棋盤,就需要重新訓練這個系統(tǒng)。遷移能力的缺失一目了然)
最后,如果每篇學術論文/技術報告以及媒體報道的最后都能加上幾句冷靜有建設性的、針對缺點的自我評價的話,能明顯幫助避免大家對 AI 繼續(xù)抱有不切實際的期待。
via thegradient.pub/an-epidemic-of-ai-misinformation/,雷鋒網 AI 科技評論編譯
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。