0
本文作者: 思睿 | 2015-02-04 16:47 |
Medium作者Caleb Garling在吳恩達結束了舊金山的深度學習峰會后,與進行了一次訪談。在大會上吳恩達受到了一大群仰慕他的計算機科學家的訪問。他是斯坦福深度學習教授,也是前Google Brain的負責人和Coursera的創(chuàng)始人,現(xiàn)在他擔任著百度公司首席科學家。
深度學習已經成為了計算機領域最熱門的話題之一了,這在很大程度上是由于Geoff Hinton在過去十年的努力,現(xiàn)在Geoff Hinton是Google的頭號人物之一。他們的想法是,如果你反饋給一臺電腦很多圖像,比方說一只狗的圖像,計算機最終將學會如何識別犬類。如果我們可以教會機器這么做,機器將很快能真正的擁有人的感觀——理解語言和圖像。
吳恩達和Caleb Garling談論了他帶領百度在深度學習中面臨的挑戰(zhàn),他強調,百度只對可以影響 1 億用戶的技術有興趣。其本人十分友好溫和,是那種說起話來你不好意思打斷他的人。
在大腦中的單個神經元是一個非常復雜的機器,即使到了今天我們仍然弄不明白。在計算機神經網絡中的單個“神經元”是一個非常簡單的數(shù)學函數(shù),只捕捉了復雜的生物神經元中很小的一部分。這么說來計算機神經網絡只是模仿人類大腦,但真正的人造神經網絡是比不上我們生物的大腦。
深度學習算法在如今非常擅長的一件事就是學習輸入,并將其映射到一個輸出,X到Y。學習這一概念將是困難的。
有一件事是百度在幾個月前做到,那就是輸入圖像,并輸出文字。我們發(fā)現(xiàn),你可以學習這些輸入輸出的映射?,F(xiàn)在仍然有很多需要改進的地方,但它是一個很有前途的方法,可以讓電腦理解這些高層次的概念。
普通話和英文,幾乎從任何方面而言這都是兩種完全不同的語言,所以對于理解這兩種語言的機器框架來說,到底有何不同呢?
現(xiàn)有的科技理論還沒有成熟到讓吳恩達足以言簡意賅地給出答案的地步。我們已經有很好的英文框架了,現(xiàn)在我們想嘗試解決中文框架的問題。
英語有 26 個字母,然而中文大約有 5000 個字符。如果你看一篇中等長度英文的語料庫,出現(xiàn)的總是那么 26 個字母,而中文的語料庫中會有一些你只會見到一次的生僻字。所以你要如何學會認識這些中文字符?
相比較而言,羅曼斯語言(由拉丁文演變而成)更加簡單。從法語轉到英語也比從中文轉到英語要容易得多。
所以如果有一張圖片被標注上了英文標簽,如何才能將這些標簽轉換成中文?
我認為有很多方法都值得我們去嘗試,并且這些方法我們都還不曾進行過探索。我們用的其中一種方式就是多任務學習的方法。假設說你有一個可以識別被英語標簽所標注的圖像的人造神經網絡,現(xiàn)在你要做的就是訓練這個網絡,讓它可以識別中文標簽,如果你能將這個神經網絡訓練成能同時完成中文和英文識別這兩件事,很有可能這個網絡會比單獨識別英語和中文的網絡要好得多。
這么做是有優(yōu)勢的,但是優(yōu)勢并不明顯。原因是這樣,機器可能會學習識別圖像中的邊,然后又學會了辨別圖像中的角。對于兩種語言來說,這種知識都是通用的。一旦你學會了識別英語中的物體,這事實上對于你學習中文中的物體也有幫助,因為你可以辨別這些邊和物體。
在英語里,無論是姐姐還是妹妹都只有一個單詞“sister”,但是在中文中,“姐姐”和“妹妹”是兩個不同意思的詞。事實上,當你想要翻譯“sister”這個詞的時候就會遇到問題,因為你不知道應該如何將它翻譯成中文,你不知道到底說的是姐姐還是妹妹。不過我認為如果機器知道你的 sister 和屋子里其他的物體是有區(qū)別的話,那再區(qū)別是姐姐或者是妹妹并不困難。如果你不知道“sister”的概念,就要從零學習“姐妹”的概念了。
隨著不斷地訓練,投入也會越來越高昂,除非你的神經網絡規(guī)模比較小了。
什么樣的神經網絡才算是小型的?
這會隨著時間改變。我們一般是依照神經網絡之間的連接數(shù)劃分。百度訓練的神經網絡的連接數(shù)量一般可以達到幾百億。
在語言識別上,百度會不會從一些特殊的音節(jié)或是字母組合入手,比如“th”?
過去的語音識別是這么做的——語音識別通常都有一個標準的管道,輸入音頻,并預計這些音節(jié)到底是什么。然后你再用另一套系統(tǒng),把這些音節(jié)映射成文字。
不過近來人們一直在爭論一個問題,那就是音節(jié)到底是語言的一個基本組成部分,還是語言學家空想出來的?我花了很多年試圖說服人們,音節(jié)其實是人類構造的,它不是語言的一個基本事實,只是人類發(fā)明出來對語言的一種描述方式而已。許多語言學家對此表示強烈的不滿,甚至公開地表示了反對。
我們在百度語音系統(tǒng)中并沒有用到音節(jié)的概念,這和小孩學習語言的過程十分相似:我們會給計算機播放一段音頻,告訴它文字的內容,然后讓它自己建立映射。在說英文的人看來,人們還不知道音節(jié)的概念是什么之前,就已經會說英語了。
那么電影呢?百度是否有關注這方面嗎?
深度學習在視頻方面有很多的成果,但是考慮到機器對于時間這個基本維度的認識,我并不認為它們很成功。所以深度學習的研究者們會常常爭論,時間這個維度對于我們的智能發(fā)展到底有多重要。
你看到了人工智能的潛在威脅了嗎?
我認為關于“邪惡的機器人殺手”的擔憂是被夸大了。有智力和感知能力之間是有很大的區(qū)別。我們的軟件正變得越來越聰明,但是這并不意味著它即將變得具有感知能力。
via medium
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。