1
本文作者: 奕欣 | 2017-03-11 11:05 |
雷鋒網(wǎng)[AI科技評(píng)論]按:本文根據(jù)王立威教授在中國(guó)人工智能學(xué)會(huì)AIDL第二期人工智能前沿講習(xí)班*機(jī)器學(xué)習(xí)前沿所作報(bào)告《機(jī)器學(xué)習(xí)理論:回顧與展望》編輯整理而來(lái),雷鋒網(wǎng)在未改變?cè)獾幕A(chǔ)上略作了刪減。
王立威
王立威,在北京大學(xué)教授主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)。在包括COLT, NIPS,JMLR, PAMI等權(quán)威會(huì)議期刊發(fā)表論文60余篇。2010年入選 AI’s 10 to Watch,是首位獲得該獎(jiǎng)項(xiàng)的亞洲學(xué)者。2012年獲得首屆國(guó)家自然科學(xué)基金優(yōu)秀青年基金,新世紀(jì)優(yōu)秀人才。任 NIPS 等權(quán)威會(huì)議 Area Chair,和多家學(xué)術(shù)期刊編委。以下為王立威教授所做的現(xiàn)場(chǎng)演講的第一部分,主要覆蓋了機(jī)器學(xué)習(xí)理論的內(nèi)容。
各位老師,同學(xué)們,下午好!非常高興今天能有機(jī)會(huì)和大家進(jìn)行分享,也特別感謝周志華老師對(duì)機(jī)器學(xué)習(xí)理論做了一個(gè)非常精辟的簡(jiǎn)介。今天我報(bào)告的題目是「機(jī)器學(xué)習(xí)的回顧和展望」。
剛才周老師也提到,機(jī)器學(xué)習(xí)理論的目的是建立一個(gè)比較綱領(lǐng)性的認(rèn)識(shí)。大家拿到的 PPT 里面有很多數(shù)學(xué)細(xì)節(jié),既然大家已經(jīng)有打印的版本,所以我就不花過(guò)多的時(shí)間講數(shù)學(xué)細(xì)節(jié),我把主要的時(shí)間花在介紹機(jī)器學(xué)習(xí)技術(shù)性的內(nèi)容、最后的一些結(jié)論可以對(duì)你產(chǎn)生什么啟發(fā),也就是一些思想上的東西。
那么言歸正傳。
大家都知道,在過(guò)去幾年當(dāng)中,機(jī)器學(xué)習(xí)最成功的、影響最大的理論毫無(wú)疑問(wèn)是深度學(xué)習(xí)。深度學(xué)習(xí)到目前為止,在很多地方發(fā)揮了作用,也取得了很多的成功。那么大家不禁要問(wèn)一個(gè)問(wèn)題了:深度學(xué)習(xí)現(xiàn)在很成功了,而且大家可能都知道,深度學(xué)習(xí)到目前為止沒(méi)有什么機(jī)器學(xué)習(xí)的理論,或者說(shuō)幾乎就沒(méi)有理論,在這個(gè)時(shí)點(diǎn)上,我們?yōu)槭裁催€要思考理論?所以,我今天想談一下我個(gè)人的觀點(diǎn)。
其實(shí)機(jī)器學(xué)習(xí)這個(gè)領(lǐng)域很有趣,如果大家回顧一下它過(guò)去大概 30 多年的發(fā)展歷史,大家會(huì)發(fā)現(xiàn),機(jī)器學(xué)習(xí)里面非常重要的一些算法,除了深度學(xué)習(xí)以外,其他的一些重要算法,比如說(shuō)大家耳熟能詳?shù)?SVM、boosting,還有 Random Forest 等,幾乎全是由做學(xué)習(xí)理論的人提出來(lái)的,而不是由做純應(yīng)用的人提出來(lái)的。到目前為止,只有 Deep Learning(深度學(xué)習(xí))是一個(gè)例外,而像報(bào)告里會(huì)提到的 SVM,是由前蘇聯(lián)的概率學(xué)家、機(jī)器學(xué)習(xí)理論的先驅(qū) V.Vapnik 提出來(lái)的;而 Random Forest 也得益于統(tǒng)計(jì)學(xué)家 Leo Breiman 的貢獻(xiàn)。如果我們把這個(gè)時(shí)間點(diǎn)拉長(zhǎng)一點(diǎn),大家可以看到,理論的學(xué)習(xí)其實(shí)對(duì)算法的設(shè)計(jì)研究是有著極其重要的影響的。
我們?cè)賮?lái)看一看深度學(xué)習(xí)。現(xiàn)在有很多關(guān)于深度學(xué)習(xí)的觀點(diǎn),比如我的一些同事朋友跟我講,國(guó)外一些做深度學(xué)習(xí)應(yīng)用方面特別前沿的人,說(shuō)(理論)在深度學(xué)習(xí)的時(shí)代毫無(wú)用處,因?yàn)槟銈兝碚撏ǔJ且恍┎坏仁?,比如算法設(shè)計(jì)出來(lái)之后,理論會(huì)告訴你這個(gè)算法的準(zhǔn)確度或者說(shuō)錯(cuò)誤率的上界,但通常這個(gè)得出來(lái)的數(shù)值奇大無(wú)比,他們還做了一個(gè)比較形象的比喻,說(shuō)就好比證明一只雞的體重一定要小于一噸一樣,這種說(shuō)法其實(shí)是蠻多的。
我想通過(guò)今天和大家的分享,談一談我的觀點(diǎn),就是說(shuō)機(jī)器學(xué)習(xí)理論究竟是做什么來(lái)用的,它是不是只是為了證明這個(gè)界(bound),為了說(shuō)明算法在實(shí)際應(yīng)用的錯(cuò)誤率能小于多少,還是說(shuō)它在傳達(dá)一些更高層的信息。我個(gè)人的觀點(diǎn)是,機(jī)器學(xué)習(xí)理論是后者,絕對(duì)不是為了證明一個(gè)算法的邊界如何;機(jī)器學(xué)習(xí)理論的目的,在于提供對(duì)機(jī)器學(xué)習(xí)的問(wèn)題的洞察和理解。
第二點(diǎn),很多人會(huì)有這樣的觀點(diǎn),我們現(xiàn)在是一個(gè)大數(shù)據(jù)時(shí)代,像 ImageNet 這樣的數(shù)據(jù)庫(kù)資源有上千萬(wàn)。在過(guò)去,做機(jī)器學(xué)習(xí)理論的研究者可能處理的都是小數(shù)據(jù)集,也許理論還有一定的價(jià)值,但是今天我們做的都是動(dòng)輒上千萬(wàn)的數(shù)據(jù),是不是我們根本就完全不需要機(jī)器學(xué)習(xí)理論呢?
我給大家提一個(gè)問(wèn)題,一千萬(wàn)個(gè)數(shù)據(jù)就真的是大數(shù)據(jù)嗎?我個(gè)人認(rèn)為是小的數(shù)據(jù),而且是非常非常小的。為什么呢?今天上千萬(wàn)的數(shù)據(jù)幾乎都出現(xiàn)在視覺(jué)這個(gè)領(lǐng)域,人或者其他一些高等動(dòng)物的視覺(jué),經(jīng)過(guò)多長(zhǎng)的時(shí)間才形成這樣的一個(gè)神經(jīng)網(wǎng)絡(luò),能夠以極快的速度去視覺(jué)感知、認(rèn)知。這個(gè)長(zhǎng)度是以億年為單位,在億年這樣的進(jìn)化過(guò)程當(dāng)中,每一個(gè)時(shí)點(diǎn)都是生物以整體的角度在學(xué)習(xí)和進(jìn)化,如果你從這個(gè)進(jìn)化的角度來(lái)考慮,我們把進(jìn)化看作一個(gè)學(xué)習(xí)的過(guò)程,這不是我提出來(lái)的理論,這是圖靈獎(jiǎng)得主 Leslie Valiant 提出來(lái)的。所以大家這么考慮,如果整個(gè)的生物群體經(jīng)歷上億年的進(jìn)化過(guò)程,接觸到的數(shù)據(jù)是什么量級(jí),我認(rèn)為比千千萬(wàn)不知道要增加多少個(gè)零,所以我們今天的數(shù)據(jù)是非常小的數(shù)據(jù)。
那么,我們今天的神經(jīng)網(wǎng)絡(luò)和生物的進(jìn)化以億萬(wàn)年的進(jìn)化得到的數(shù)據(jù)有多大的不同?我給大家舉一個(gè)例子。大家知道人腦或很多高等動(dòng)物的大腦也是由神經(jīng)元組成的,比如說(shuō)人腦有著 10 的 11 次方的神經(jīng)元,大概 10 的 14 到 15 次方的連接。我個(gè)人認(rèn)為動(dòng)物的神經(jīng)網(wǎng)絡(luò)和機(jī)器神經(jīng)網(wǎng)絡(luò)的最大不同在哪兒呢?
一個(gè)是在于結(jié)構(gòu),第二在于速度,第三在于運(yùn)行機(jī)制。結(jié)構(gòu)我剛剛講了一點(diǎn),在于容量不同,下面我談一點(diǎn)很顯著的區(qū)別就是速度。人腦中神經(jīng)元的種類非常多,現(xiàn)在已知的就有上千種,當(dāng)然我們可以考慮其中非常主流的一些神經(jīng)元,對(duì)于這樣的神經(jīng)元,大家知道神經(jīng)元和神經(jīng)元之間信息的傳遞是靠一些生物電信號(hào),實(shí)際上是化學(xué)物質(zhì)的傳遞。在人或動(dòng)物的大腦中,信息從一個(gè)神經(jīng)元傳遞到相鄰的神經(jīng)元所需要的時(shí)間,大家知道是一個(gè)什么量級(jí)嗎?是幾十毫秒的量級(jí)。幾十毫秒什么概念?比如說(shuō)你突然看到一個(gè)場(chǎng)景、一幅圖像,你馬上就有一個(gè)反應(yīng),這個(gè)反應(yīng)的時(shí)間肯定是在 1 秒鐘之內(nèi)。如果你的整個(gè)反應(yīng)是在 1 秒鐘之內(nèi),這意味著信息在你大腦的神經(jīng)網(wǎng)絡(luò)中傳遞的深度至多是多少,如果你這個(gè)大腦中從一個(gè)神經(jīng)元到達(dá)下一層神經(jīng)元傳遞的速度是幾十毫秒的話,這意味著你大腦處理視覺(jué)信息所用的神經(jīng)網(wǎng)絡(luò)的深度至多就是幾十層,如果你的大腦反應(yīng)過(guò)來(lái),可能已經(jīng)過(guò)去將近 10 秒鐘了。所以大家要意識(shí)到,我們今天所訓(xùn)練的最最先進(jìn)的神經(jīng)網(wǎng)絡(luò),和人腦中的、動(dòng)物大腦中的神經(jīng)網(wǎng)絡(luò)依然是截然不同的。兩者不一樣的地方其實(shí)遠(yuǎn)遠(yuǎn)大于他們相似的地方。
再舉一個(gè)比較典型的例子,我們今天的神經(jīng)網(wǎng)絡(luò),實(shí)際上都是用計(jì)算機(jī)模擬出來(lái)的,并不是一個(gè)真正的硬件。我們?cè)谟?jì)算機(jī)上進(jìn)行模擬,認(rèn)為層與層之間的信息的傳遞完全是同步的,必須上一層的信息全部同時(shí)傳遞到下一層的神經(jīng)元才能夠進(jìn)行處理。在人腦中沒(méi)有這樣的同步控制信號(hào),所以人腦中的神經(jīng)元完全是高度分布式的一種計(jì)算,所以這就是一個(gè)重大的不同。所以今天我們深度學(xué)習(xí)所用的神經(jīng)網(wǎng)絡(luò),即使從生物、從仿生的角度來(lái)講,其實(shí)跟真正的生物依然差別很大。所以要想深度理解,必須有一個(gè)很基礎(chǔ)的理論。當(dāng)然我們也要面對(duì)現(xiàn)實(shí),機(jī)器學(xué)習(xí)這個(gè)領(lǐng)域過(guò)去發(fā)展了幾十年,所建立起來(lái)的機(jī)器學(xué)習(xí)的過(guò)去經(jīng)典的理論,比如 SVM 等等這一系列的方法,它對(duì)于今天的深度學(xué)習(xí)確實(shí)沒(méi)有非常好的解釋或者說(shuō)認(rèn)知,但是這也正是一個(gè)很好的機(jī)會(huì)、一個(gè)挑戰(zhàn):我們應(yīng)該如何建立一個(gè)新的理論去認(rèn)知深度學(xué)習(xí)?根本目的是,我們能不能夠?qū)?lái)設(shè)計(jì)出更加有效的方法?給大家舉一個(gè)例子,人腦以這么慢的信息傳遞速度,其實(shí)在很多很多的問(wèn)題上要比今天的深度學(xué)習(xí)訓(xùn)練出來(lái)的網(wǎng)絡(luò)效果要好得多,如果我們要能夠基于這些理論設(shè)計(jì)出類似于我剛才講的人腦的一些方法,豈不是要比今天的深度學(xué)習(xí)的性能要提高百千萬(wàn)倍?
接下來(lái),我們就開(kāi)始進(jìn)入具體的內(nèi)容。
首先,我們來(lái)看看機(jī)器學(xué)習(xí)理論最核心的一個(gè)觀點(diǎn)就是 generalization(泛化)。談泛化之前,我們先了解一下機(jī)器學(xué)習(xí)理論是做什么的。機(jī)器學(xué)習(xí)理論是為了給整個(gè)機(jī)器學(xué)習(xí)建立完整的框架,所以必須要有很嚴(yán)謹(jǐn)?shù)男问?。概括?lái)說(shuō),機(jī)器學(xué)習(xí)理論是建立在概率統(tǒng)計(jì)的基本理論框架之上。它研究的核心問(wèn)題在于,如果要實(shí)現(xiàn)一個(gè)具體的學(xué)習(xí)任務(wù),需要多少資源能達(dá)到這個(gè)目的。而在機(jī)器學(xué)習(xí)中,很重要的資源就是數(shù)據(jù),所以我們就是要研究究竟需要多少數(shù)據(jù)我才能夠?qū)W好。當(dāng)然如果在數(shù)據(jù)已經(jīng)給定的前提下,不同的方法規(guī)定了相同的數(shù)據(jù),機(jī)器學(xué)習(xí)的成果是不一樣的,所以也可以表示出來(lái)。
這是機(jī)器學(xué)習(xí)理論的一個(gè)基本框架:我們要通過(guò)收集數(shù)據(jù)來(lái)學(xué)習(xí)出一個(gè)模型,拿到這個(gè)模型以后我們根本的任務(wù)是做預(yù)測(cè),這個(gè)預(yù)測(cè)是在未知的數(shù)據(jù)上去做的,所以一個(gè)很關(guān)鍵的問(wèn)題是,我們的目的是希望在未知數(shù)據(jù)上學(xué)出來(lái)的模型能夠表現(xiàn)出很好的性質(zhì),而不僅僅局限在我們已經(jīng)收集到的數(shù)據(jù)。
雖然大家通常認(rèn)為機(jī)器學(xué)習(xí)是過(guò)去幾十年發(fā)展出來(lái)的一個(gè)學(xué)科,但是我個(gè)人認(rèn)為,其實(shí)機(jī)器學(xué)習(xí)一直伴隨著人類文明的發(fā)展。從人類真正有文明、有科學(xué)那天,就有機(jī)器學(xué)習(xí)。我給大家舉幾個(gè)例子:
第一個(gè),「胡克定律」,我相信各位肯定都接觸過(guò)這個(gè)中學(xué)物理問(wèn)題,這個(gè)定律是探討拉伸的力和彈簧伸長(zhǎng)的長(zhǎng)度是什么樣的物理關(guān)系。如果我們站在胡克的角度,這是一個(gè)什么過(guò)程?我認(rèn)為這是一個(gè)非常典型的機(jī)器學(xué)習(xí)過(guò)程。胡克做的第一步是收集數(shù)據(jù)。他拿一個(gè)彈簧做了很多次實(shí)驗(yàn),根據(jù)每一次伸長(zhǎng)的距離記錄拉力,并將數(shù)據(jù)記錄在一個(gè)表上。第二步,胡克(當(dāng)然是用他的腦子,不是用計(jì)算機(jī))學(xué)會(huì)了一個(gè)模型。他最后得出的結(jié)論是,這是一個(gè)線性的模型。再之后胡克拿了一些新的彈簧,再把它做拉伸,是否還符合這個(gè)模型。所以胡克發(fā)現(xiàn)「胡克定律」,就是一個(gè)非常典型的機(jī)器學(xué)習(xí)的過(guò)程:收集數(shù)據(jù)、建模、做出預(yù)測(cè)。機(jī)器學(xué)習(xí)的這種思想一直在科學(xué)領(lǐng)域不斷應(yīng)用。
有一個(gè)問(wèn)題,為什么胡克會(huì)學(xué)到一個(gè)線性的模型?大家看到這個(gè)線性模型,其實(shí)他的觀測(cè)數(shù)據(jù)上有很多的誤差的。比如說(shuō)胡克做了 100 次實(shí)驗(yàn),得到 100 個(gè)點(diǎn),他為什么不找一個(gè)曲線恰好能夠通過(guò)這 100 個(gè)點(diǎn),使得訓(xùn)練數(shù)據(jù)上沒(méi)有誤差?比如說(shuō)我們很容易找到一個(gè) 99 階的多項(xiàng)式,而使得這 100 個(gè)點(diǎn)被零誤差地覆蓋,所以大家要思考一下:胡克為什么能夠得到這樣一個(gè)結(jié)果,而不是一個(gè)復(fù)雜的曲線,里面最本質(zhì)的思想是什么,大家體會(huì)一下。
當(dāng)然也有人質(zhì)疑,認(rèn)為「胡克定律」在物理學(xué)上沒(méi)有任何的地位,不是一個(gè)什么了不起的定律,大家看一看「開(kāi)普勒定律」,這是了不起的貢獻(xiàn)?!搁_(kāi)普勒定律」講的是什么?開(kāi)普勒通過(guò)研究過(guò)去上千年天文學(xué)積累的數(shù)據(jù),最后發(fā)現(xiàn)三個(gè)規(guī)律。舉一個(gè)例子,說(shuō)行星圍繞太陽(yáng)轉(zhuǎn)動(dòng),實(shí)際軌跡是一個(gè)橢圓,他找到這個(gè)橢圓實(shí)際上不是精確吻合了這些數(shù)據(jù),只是近似吻合,他為什么不找一個(gè)復(fù)雜的曲線完全吻合這個(gè)數(shù)據(jù)?開(kāi)普勒在歸納這個(gè)數(shù)學(xué)規(guī)律的時(shí)候,背后也有一些非常奇妙的思想,并不是簡(jiǎn)簡(jiǎn)單單的觀測(cè)這個(gè)數(shù)據(jù)。最后我們來(lái)看一看機(jī)器學(xué)習(xí)里經(jīng)常見(jiàn)到的,學(xué)習(xí)一個(gè)分類器,我們可以用一個(gè)很簡(jiǎn)單的分類器,用光滑的曲線來(lái)表示,我也可以用一個(gè)非常復(fù)雜的分類器,用彎彎曲曲的線來(lái)表示。當(dāng)大家觀察到這幅圖的時(shí)候,你覺(jué)得應(yīng)該是簡(jiǎn)單的曲線,但是有一些分類誤差比較好呢,還是復(fù)雜曲線,對(duì)于觀測(cè)到的數(shù)據(jù)沒(méi)有誤差更好呢?
我們來(lái)總結(jié)一下剛才幾個(gè)例子里面,其實(shí)在通過(guò)學(xué)習(xí)模型和數(shù)據(jù)的時(shí)候,物理學(xué)家或者機(jī)器學(xué)習(xí)的學(xué)者是怎么樣思考的,其實(shí)這早在 13 世紀(jì)威廉姆·奧卡姆就提出了一個(gè)哲學(xué)思想(奧卡姆剃刀理論),是用拉丁文寫(xiě)的。其實(shí)我對(duì)他的解釋?xiě)?yīng)該有一位更著名的科學(xué)家,有一段更著名的話,是對(duì)這句話進(jìn)行最完美的解釋「Everything should be made as simple as possible but no simpler」,這句話是愛(ài)因斯坦說(shuō)的,意思是做理論的時(shí)候一定要盡可能的簡(jiǎn)單,但是你又不能過(guò)于簡(jiǎn)單。對(duì)應(yīng)物理模型的時(shí)候一定要找到一些模型,允許存在一定的誤差,但是又不能過(guò)于簡(jiǎn)單,如果過(guò)于簡(jiǎn)單,和你觀測(cè)的數(shù)據(jù)誤差太大也不行,奧卡姆剃刀的這一思想實(shí)際上是機(jī)器學(xué)習(xí)或者整個(gè)人類在獲取科學(xué)知識(shí)的歷程中,最核心、最本質(zhì)的思想。
在今天的機(jī)器學(xué)習(xí)理論里,實(shí)際上是把威廉姆·奧卡姆剃刀的思想定量化表示出來(lái)了,為什么要定量化?因?yàn)榻裉?,機(jī)器學(xué)習(xí)處理的問(wèn)題,要比物理學(xué)的「胡克定律」、「開(kāi)普勒定律」復(fù)雜千萬(wàn)倍。甚至有人這樣講,今天在 21 世紀(jì),如果你去研究物理學(xué),你最后得到的是一個(gè)線性模型,我根本不需要看你具體研究的是什么模型,得到的是什么結(jié)果,我可以很肯定的告訴你,你做的東西要么就是早就被別人已經(jīng)做過(guò)了,要么就是這個(gè)問(wèn)題太簡(jiǎn)單沒(méi)有任何意義。
換句話說(shuō),物理學(xué)中較為簡(jiǎn)單的定律早就被發(fā)現(xiàn)了。今天機(jī)器學(xué)習(xí)處理的問(wèn)題是一些非常非常復(fù)雜的問(wèn)題,給大家處理一些圖像、一些聲音,還有搜集到的一些數(shù)據(jù),牽扯到很多的人的因素,這是很復(fù)雜的東西,你不可能指望用簡(jiǎn)單的方程,低次的一些方程或者低次的一些物理系統(tǒng)去描述。所以當(dāng)你本質(zhì)的模型已經(jīng)極其復(fù)雜的時(shí)候,我究竟應(yīng)該用一個(gè)多復(fù)雜的模型來(lái)表示?我需要一個(gè)定量的指導(dǎo)。所以機(jī)器學(xué)習(xí)最重要的是在一個(gè)定量的層面上,對(duì)剛才我們講的奧卡姆剃刀理論,給出一個(gè)定量的定義。
那么我們前面提到,機(jī)器學(xué)習(xí)建立在概率統(tǒng)計(jì)的基礎(chǔ)上,這里面我就不對(duì)概率統(tǒng)計(jì)的數(shù)學(xué)細(xì)節(jié)做過(guò)多的解釋了,如果感興趣的老師、同學(xué)們可以課后去看我們這個(gè)印發(fā)給大家的具體內(nèi)容,我還是在思想上給大家做一個(gè)比較稍微宏觀一點(diǎn)的介紹,在這之前有一些準(zhǔn)備的工作。
大家可能都知道,概率論里有一個(gè)叫「大數(shù)定律」的理論,講的是如果我觀測(cè)一個(gè)隨機(jī)變量很多次,它的平均值應(yīng)該是趨向于它的數(shù)學(xué)期望。比如說(shuō)以前有一個(gè)擲硬幣的例子,假如說(shuō)擲一萬(wàn)次,這里面向上的次數(shù)應(yīng)該是多少呢?如果這是一個(gè)公平(fair coin)的硬幣,那么你擲接近無(wú)窮多次之后,頻率最后應(yīng)該是趨向于 0.5,這就是大數(shù)定律。之前數(shù)學(xué)家 Nicolaus Bernoulli,就找了一個(gè)硬幣,擲了幾萬(wàn)次,最后觀測(cè)出這樣的一個(gè)數(shù)值。
那么我問(wèn)大家一個(gè)問(wèn)題:現(xiàn)在有一個(gè)這樣的硬幣,大家擲 1 萬(wàn)次,我們知道擲出來(lái)的結(jié)果和 0.5 非常接近,但是究竟有多近呢?假如說(shuō)你擲 1 萬(wàn)次,發(fā)現(xiàn) 40% 是向上,60% 向下,你覺(jué)得這個(gè)硬幣有沒(méi)有問(wèn)題?
我接下來(lái)要講的機(jī)器學(xué)習(xí)理論就是為了給出一個(gè)定量的結(jié)果,就必須用一些能回答這個(gè)問(wèn)題的數(shù)學(xué)工具。如果你擲出來(lái)正反面的概率是 40% 和 60%,那么你的硬幣本身有沒(méi)有毛病,或者說(shuō)如果硬幣沒(méi)有問(wèn)題,你擲硬幣的時(shí)候應(yīng)該會(huì)在一個(gè)什么區(qū)間里。
有一個(gè)定理和我剛才講的這個(gè)理論是有點(diǎn)相關(guān)的,叫中心極限定理,大家應(yīng)該聽(tīng)說(shuō)過(guò),如果我有很多獨(dú)立分布的隨機(jī)變量,我們考慮一個(gè)平均值,它也是一個(gè)隨機(jī)變量,但最后一定會(huì)趨向于一個(gè)正態(tài)分析,而且會(huì)告訴你正態(tài)分布的方差是多少。
那么機(jī)器學(xué)習(xí)里面用的概率工具就能夠回答我剛才說(shuō)的定量問(wèn)題,叫做「Concentration inequality」,其中比較重要的一點(diǎn)在于,它給出了數(shù)學(xué)上非常精確的一個(gè)定量描述,一個(gè)硬幣,假如說(shuō)它是一個(gè)正常的硬幣,如果擲 1 萬(wàn)次,在什么區(qū)間里是比較合理的呢?應(yīng)該在 0.499—0.501 這個(gè)區(qū)間是比較合理的,就是由這些不等式精確地給出了。如果你擲出來(lái)的是 0.4 或者哪怕是 0.45,那么這個(gè)硬幣 99.99% 的可能性是有問(wèn)題的。
所以這樣一個(gè)概率里面表示的,實(shí)際上是我們機(jī)器學(xué)習(xí)里面常用的數(shù)學(xué)工具。
剛剛講 Concentration inequality 是一大類概率數(shù)學(xué)的不等式,其中最有代表性的,大家對(duì)這個(gè)名字能夠有所耳聞就可以了,叫 Chernoff Bound,是描述剛才講的擲硬幣的平均值和你的數(shù)學(xué)期望大概有多大偏差,這是一個(gè)量化的刻畫(huà),所以如果將來(lái)有一天遇到類似的問(wèn)題需要找一個(gè)數(shù)學(xué)工具來(lái)解決的話,可以首先去查一下 Chernoff Bound,這些在網(wǎng)上都可以得到。
還有不等式,這都是非常常用的工具,具體的不再給大家做過(guò)多的細(xì)節(jié)介紹。
本文為北京大學(xué)王立威教授《機(jī)器學(xué)習(xí)理論的回顧與展望》主題報(bào)告(一),后續(xù)主題報(bào)告敬請(qǐng)關(guān)注雷鋒網(wǎng)[AI科技評(píng)論]后續(xù)報(bào)道。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。