1
本文作者: 老王 | 2016-12-07 10:29 |
雷鋒網(wǎng)按:為了方便讀者學(xué)習(xí)和收藏,雷鋒網(wǎng)特地把吳恩達(dá)教授在NIPS 2016大會中的PPT做為中文版,由三川和亞峰聯(lián)合編譯并制作。
今日,在第 30 屆神經(jīng)信息處理系統(tǒng)大會(NIPS 2016)中,百度首席科學(xué)家吳恩達(dá)教授發(fā)表演講:《利用深度學(xué)習(xí)開發(fā)人工智能應(yīng)用的基本要點(diǎn)(Nuts and Bolts of Building Applications using Deep Learning)》。
此外,吳恩達(dá)教授曾在今年 9 月 24/25 日也發(fā)表過同為《Nuts and Bolts of Applying Deep Learning》的演講(1小時20分鐘),以下是 YouTube 鏈接:
https://www.youtube.com/watch?v=F1ka6a13S9I
吳恩達(dá)在開場提到:深度學(xué)習(xí)為何這么火?
答案很簡單:
第一是因?yàn)橐?guī)模正在推動深度學(xué)習(xí)的進(jìn)步。
從傳統(tǒng)算法到小型神經(jīng)網(wǎng)絡(luò)、中型神經(jīng)網(wǎng)絡(luò)最后演化為現(xiàn)在的大型神經(jīng)網(wǎng)絡(luò)。
第二:端到端學(xué)習(xí)的崛起
從下圖中的上半部分可以看出,傳統(tǒng)端到端學(xué)習(xí)是把實(shí)體數(shù)據(jù)表達(dá)成數(shù)字?jǐn)?shù)據(jù),輸出數(shù)字值作為結(jié)果。如退昂識別最后以整數(shù)標(biāo)簽輸出為結(jié)果。
而現(xiàn)在的端對端學(xué)習(xí)更為直接純粹,如機(jī)器翻譯:輸入英語文本,輸出法語文本;語音識別:輸入音頻,輸出文本。但端對端學(xué)習(xí)需要大量的訓(xùn)練集。
吳恩達(dá)先講述了常見的深度學(xué)習(xí)模型,然后再著分析端到端學(xué)習(xí)的具體應(yīng)用。
二、主要的深度學(xué)習(xí)模型
普通神經(jīng)網(wǎng)絡(luò)
順序模型 (1D 順序) RNN, GRU, LSTM, CTC, 注意力模型
圖像模型 2D 和 3D 卷積神經(jīng)網(wǎng)絡(luò)
先進(jìn)/未來 技術(shù):無監(jiān)督學(xué)習(xí)(稀疏編碼 ICA, SFA,)增強(qiáng)學(xué)習(xí)
傳統(tǒng)模型:語音→運(yùn)算特征—(人工設(shè)計的 MFCC 特征)→音素識別器—(音素識別)→最終識別器→輸出。
端到端學(xué)習(xí):音頻→學(xué)習(xí)算法→轉(zhuǎn)錄結(jié)果;在給定了足夠的有標(biāo)注數(shù)據(jù)(音頻、轉(zhuǎn)錄結(jié)果)時,這種方法的效果會很好。
傳統(tǒng)模型:攝像頭圖像→檢測汽車+檢測行人→路徑規(guī)劃→方向控制。
端到端學(xué)習(xí):攝像頭圖像→學(xué)習(xí)算法→方向控制。
自動駕駛對安全有極高要求,因此需要極高的精確度。采取純粹的端到端學(xué)習(xí)十分有挑戰(zhàn)性。只在有足夠(x,y)的數(shù)據(jù),來學(xué)習(xí)足夠復(fù)雜的函數(shù)的情況下,端到端學(xué)習(xí)才有效果。
你經(jīng)常有很多改進(jìn) AI 系統(tǒng)的主意,應(yīng)該怎么做?好的戰(zhàn)略能避免浪費(fèi)數(shù)月精力做無用的事。
以語音識別為例,可以把原語音數(shù)據(jù)分割成:
60% 訓(xùn)練集(訓(xùn)練模型)
20% 開發(fā)集(開發(fā)過程中用于調(diào)參、驗(yàn)證等步驟的數(shù)據(jù)集)
20% 測試集(測試時所使用的數(shù)據(jù)集)
這里面普及幾個概念:
人類水平的誤差與訓(xùn)練集的誤差之間的差距是可避免的偏差,這部分誤差可以通過進(jìn)一步的學(xué)習(xí)/模型調(diào)整優(yōu)化來避免。
訓(xùn)練集和開發(fā)集之間的差距稱為方差,其因?yàn)榕芰瞬煌臄?shù)據(jù)從而導(dǎo)致誤差率變化。
上述兩種偏差合在一起,就是偏差-方差權(quán)衡(bias-variance trade-off)。
假設(shè)你想要為一個汽車后視鏡產(chǎn)品,開發(fā)語音識別系統(tǒng)。你有 5000 小時的普通語音數(shù)據(jù),還有 10 小時的車內(nèi)數(shù)據(jù)。你怎么對數(shù)據(jù)分組呢?這是一個不恰當(dāng)?shù)姆绞剑?/p>
更好的方式:讓開發(fā)和測試集來自同樣的分配機(jī)制。
當(dāng)機(jī)器學(xué)習(xí)在處理某項(xiàng)任務(wù)上比人類表現(xiàn)還差時,你經(jīng)常會看到最快的進(jìn)步。
機(jī)器學(xué)習(xí)超越人后,很快就會靠近貝葉斯最優(yōu)誤差線。
可以依靠人類的直覺:(i)人類提供加標(biāo)簽的數(shù)據(jù)。(ii)進(jìn)行錯誤分析,來理解人是怎么對樣本正確處理的(iii)預(yù)估偏差/方差。比如,一項(xiàng)圖像識別任務(wù)的訓(xùn)練誤差 8%, 開發(fā)誤差 10%,你應(yīng)該怎么處理?
新的監(jiān)督DL算法的存在,意味著對使用 DL開發(fā)應(yīng)用的團(tuán)隊(duì)合作,我們在重新思考工作流程。產(chǎn)品經(jīng)理能幫助 AI 團(tuán)隊(duì),優(yōu)先進(jìn)行最出成果的機(jī)器學(xué)習(xí)任務(wù)。比如,對于汽車噪音、咖啡館的談話聲、低帶寬音頻、帶口音的語音,你是應(yīng)該提高語音效果呢,還是改善延遲,縮小二進(jìn)制,還是做別的什么?
今天的人工智能能做什么呢?這里給產(chǎn)品經(jīng)理一些啟發(fā):
如果一個普通人完成一項(xiàng)智力任務(wù)只需不到一秒的思考時間,我們很可能現(xiàn)在,或者不遠(yuǎn)的將來,用 AI 把該任務(wù)自動化。
對于我們觀察到的具體的、重復(fù)性的事件(比如用戶點(diǎn)擊廣告;快遞花費(fèi)的時間),我們可以合理地預(yù)測下一個事件的結(jié)果(用戶是否點(diǎn)擊下一個此類廣告)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。