模式識別與機器學習第一講（上）

本文作者：汪思穎

2017-09-30 17:37

導語：本文主要涉及機器學習的分類，以及一些基礎定義，如誤差函數(shù)、正則化等。

雷鋒網(wǎng) AI科技評論按，本文作者Frankenstein，首發(fā)于知乎專欄閑敲棋子落燈花，雷鋒網(wǎng) AI科技評論獲其授權轉載。

關鍵詞：有監(jiān)督學習、無監(jiān)督學習、強化學習、回歸、分類、誤差函數(shù)、泛化、正則化、超參數(shù)、驗證集。

序言

從去年5月入坑以來，線上線下都上過機器學習的課（線上是看了Coursera的課入門，線下上了DS-GA 1003 Machine Learning and Computational Statistics），但從沒有完整讀過一本書。

暑假和小伙伴們約好一起讀Pattern Recognition and Machine Learning（模式識別與機器學習，下簡稱PRML）。初步打算每周讀一章，大家輪流主講。開了專欄以后一直沒寫過東西，第一部分內容就準備貢獻給PRML了。

可能有用的鏈接：

Christopher Bishop at Microsoft Research （https://www.microsoft.com/en-us/research/people/cmbishop/）在這里可以找到部分章節(jié)的PPT、書的勘誤、部分答案。
PRML/PRMLT （https://github.com/PRML/PRMLT）陳默（他也上知乎，沒關注的可以關注一發(fā)）用MATLAB給出了書里的所有模型實現(xiàn)。
scikit-learn/scikit-learn （https://github.com/scikit-learn/scikit-learn）視情況我可能會給出少量代碼，但大部分內容還是會更加側重模型的理論和動機，結合適當?shù)臄?shù)學推導。如果想要了解一些代碼的實現(xiàn)的話，scikit-learn應該還是現(xiàn)在最常用的實現(xiàn)，可以考慮學習一下它的模型源代碼。

書的完整答案理論上是只對教師開放的，但由于大家都可以想見的原因搜一下就可以搜到了。

華盛頓大學的Pedro Domingos教授認為機器學習有以下幾個門派：

基于邏輯、哲學，出發(fā)點為填補現(xiàn)存知識中空白的符號學派
基于神經(jīng)科學，出發(fā)點為模擬大腦的聯(lián)結學派
基于進化生物學，出發(fā)點為模擬進化的進化學派
基于統(tǒng)計，出發(fā)點為系統(tǒng)的降低不確定性的貝葉斯學派
基于心理學，出發(fā)點為發(fā)現(xiàn)新舊事物之間相似度的類推學派

在這之外還有基于動物學習、最優(yōu)控制、動態(tài)規(guī)劃的強化學習以及更加接近傳統(tǒng)頻率學派的期望最大化。Domingos的slides（https://learning.acm.org/webinar_pdfs/PedroDomingos_FTFML_WebinarSlides.pdf）里有更多這方面的內容。他的《終極算法--機器學習和人工智能如何重塑世界》一書詳細科普了五個學派，挺有意思的，感興趣的可以去看一下（提醒：翻譯的不怎么樣）。

PRML就是貝葉斯學派的一本經(jīng)典教科書，從貝葉斯學派的視角系統(tǒng)梳理了機器學習的知識，給人一種萬物皆可貝葉斯化的感覺。

在這一系列筆記里，我希望梳理每一章節(jié)里比較重要的內容，并結合一些我到目前為止對機器學習的理解做一些適當?shù)耐卣购吞骄?。這些內容基本假設讀者上過一節(jié)機器學習入門課，可能不是self-contained的，可能不適合完全不了解的人閱讀，但希望對有一些初步了解的讀者能有幫助，也歡迎大家不吝指正。

如無另外點明，每一講內容都有參考PRML，每一講其余的參考內容會列在文章末尾。

第一章節(jié)（1. Introduction）內容始于多項式曲線擬合的例子，終于信息論。

從機器學習里主流的三類問題——有監(jiān)督學習、無監(jiān)督學習、強化學習的定義開始，Bishop用一個有監(jiān)督學習里的回歸問題引出了對誤差函數(shù)、泛化、模型復雜度、正則化、過擬合、驗證集等核心概念。PRML這本書號稱是self-contained的，只假設讀者具備多元微積分、線性代數(shù)水準的數(shù)學能力，因此不嚴格地介紹了概率論里的基本知識以保證讀者具備讀完余下內容的基礎知識。當然還是存在一些小的問題，比如隨機變量到底是什么？誤差條又是什么？當然瑕不掩瑜，在大部分情況下，本書很好展現(xiàn)了方法和問題的動機。

正文

1. Introduction

機器學習問題可以做如下分類：

有監(jiān)督學習（supervised learning）: Applications in which the training data comprises examples of the input vectors along with their corresponding target vectors.

分類（classification）: to assign each input vector to one of finite number of discrete categories.

例子：識別手寫數(shù)字并將其標記為0~9這10個數(shù)字中的一個。

回歸（regression）: the desired output consists of one or more continuous variables.

例子：基于反應物、溫度、壓力預測化學制造過程的產(chǎn)出。

無監(jiān)督學習（unsupervised learning）: Pattern recognition problems in which the training data consists of a set of input vectors $模式識別與機器學習第一講（上）$ without any corresponding target values.

聚類（clustering）: to discover groups of similar examples within the data
密度估計（density estimation）: to determine the distribution of data within the input space
降維（dimensionality reduction）: to project the data from a high-dimensional space down to two or three dimensions
數(shù)據(jù)點/樣本生成（data point/sample generation）: to obtain new samples from the probability distribution that is close to the underlying probability distribution of the data points/samples

強化學習（reinforcement learning）: Problems about finding suitable actions to take in a given situation in order to maximize a reward, where optimal outputs are unknown.

例子：Play the game of backgammon to a high standard with a neural network using appropriate reinforcement learning techniques (Tesauro, 1994). (這可能是深度強化學習最早成功的案例之一了。)
上面的案例也可作為credit assignment的一個例子。具體地說，在一局游戲結束后，勝利或失敗被以某種形式歸因于游戲中采取的所有行動。個人認為這里credit assignment是指在一個episodic task結束后，如何恰當?shù)慕o特定行動，或者在某個特定狀態(tài)采取特定行動賦予合適的reward。
這里也有提到explore v.s. exploit和trial and error的思想。但總的來說因為本書基本沒怎么觸及強化學習，講的不是特別好。如果要比較好了解強化學習的話還是應該看Sutton & Barto （http://incompleteideas.net/sutton/book/bookdraft2016sep.pdf）那本書。

本章主要介紹了一些最重要的概念和一些簡單的例子。在這之中包括將貫穿全書的三個工具：概率論、決策論以及信息論。

1.1 Example: Polynomial Curve Fitting

Example/Motivation: (a simple regression problem)

Given a real-valued target variable t, we wish to use this observation to predict the value of a real-valued target variable t. In particular, given N observations of x written as $模式識別與機器學習第一講（上）$ together with corresponding observations of t written as $模式識別與機器學習第一講（上）$ , can we fit the data so that we can make predictions of the value $模式識別與機器學習第一講（上）$ of the target variable for some new value $模式識別與機器學習第一講（上）$ of the input variable?

這是一個典型的二維回歸問題。上過Andrew Ng Coursera 公開課的朋友們應該還記得一上來遇到的那個給定住宅面積預測住宅價格的問題。Bishop這里給的訓練數(shù)據(jù)則是 $模式識別與機器學習第一講（上）$ 在 $模式識別與機器學習第一講（上）$ $模式識別與機器學習第一講（上）$ 個均勻分布點上的取值加以基于同一高斯分布產(chǎn)生的隨機噪聲。如下圖是 $模式識別與機器學習第一講（上）$ 時的情況。

模式識別與機器學習第一講（上）

首先我們考慮用一個 $模式識別與機器學習第一講（上）$ 階多項式擬合數(shù)據(jù)，

$模式識別與機器學習第一講（上）$ , $模式識別與機器學習第一講（上）$ (1.1)

$模式識別與機器學習第一講（上）$ 是一個關于 $模式識別與機器學習第一講（上）$ 的線性方程。

定義：關于未知參數(shù)的線性方程被稱為線性模型（linear models）。

我們基于訓練數(shù)據(jù)決定 $模式識別與機器學習第一講（上）$ 的取值，一個潛在的假設是我們需要預測的 $模式識別與機器學習第一講（上）$ 和訓練數(shù)據(jù)來自同一分布或兩者分布非常接近，否則就沒有意義了。

a. 誤差函數(shù)

怎樣的 $模式識別與機器學習第一講（上）$ 取值是好的呢？我們需要一把尺子來度量，這就是誤差函數(shù)（error function）。通過累加每一個訓練數(shù)據(jù)的預測目標變量 $模式識別與機器學習第一講（上）$ 相對真實目標變量 $模式識別與機器學習第一講（上）$ 的偏移程度，誤差函數(shù)負責衡量訓練好的模型，即 $模式識別與機器學習第一講（上）$ 和訓練數(shù)據(jù)分布之間的相似程度，其取值一般為非負。誤差函數(shù)的值越大，對于訓練數(shù)據(jù)而言模型越糟。

例子： $模式識別與機器學習第一講（上）$ （平方誤差函數(shù)）

很自然地，在回歸問題中，當模型完美擬合訓練數(shù)據(jù)時，誤差一般會降到0。但值得注意的是在分類問題中，即便分類完美無缺誤差也可能不為0。

以下圖為例，我們有一個二元分類問題。在二維平面上有一個紅色類和一個藍色類。假設我們想用一條直線（在第二講里我們會提到，它們被稱為決策邊界）來把它們分開。圖中同樣①和②都完美進行了分類，但我們會更希望模型訓練得到的是①而不是②因為①離兩個類最短距離之和要大于②。直覺來說當我們有更多數(shù)據(jù)樣本而不只是眼前6個的時候①成功的可能性更高。這個問題的正式名稱是泛化，我們在后面會提到。因此我們可能設計一個誤差函數(shù)使得②的誤差高于①。因此同樣①、②在數(shù)據(jù)上都能沒有錯誤地進行分類，②的誤差可能仍然不為0。

模式識別與機器學習第一講（上）

訓練模型的過程中，我們希望調整 $模式識別與機器學習第一講（上）$ 來減少誤差函數(shù)的值，可以說是面向減少誤差建模，故用 $模式識別與機器學習第一講（上）$ 來表示誤差的值。

對于某些誤差函數(shù)（涉及函數(shù)的convexity，凸性），如平方誤差，我們可以通過對表達式關于未知參數(shù)（如 $模式識別與機器學習第一講（上）$ 之于 $模式識別與機器學習第一講（上）$ ）進行求導，令求導后的表達式等于0來得到最優(yōu)參數(shù) $模式識別與機器學習第一講（上）$ ,這樣得到的參數(shù)有閉型（有限次常見運算組合給出的表達式）。

b. 由泛化而來的模型選擇問題

現(xiàn)在我們知道了對于一個給定的正整數(shù)M，如何擬合訓練數(shù)據(jù)。一個接踵而來的問題是我們要如何決定M的取值。

考慮 $模式識別與機器學習第一講（上）$ 的四種情況，對于每一種情況，我們都基于平方誤差找到擬合訓練數(shù)據(jù)最好的多項式，如下圖。紅線為多項式圖形，綠線為 $模式識別與機器學習第一講（上）$ 的圖形。

模式識別與機器學習第一講（上）

由上圖可知， $模式識別與機器學習第一講（上）$ 越大，多項式擬合數(shù)據(jù)的能力越強。當 $模式識別與機器學習第一講（上）$ 時，多項式甚至完美擬合了所有數(shù)據(jù)。然而我們從形狀上可以發(fā)現(xiàn)此時多項式的形狀與 $模式識別與機器學習第一講（上）$ 相去甚遠?？梢灶A見當我們在 $模式識別與機器學習第一講（上）$ 上取新的數(shù)據(jù)點的話，多項式很難較好擬合這些新的數(shù)據(jù)點。相較之下， $模式識別與機器學習第一講（上）$ 時我們得到的多項式形狀則相當接近 $模式識別與機器學習第一講（上）$ 的形狀。像 $模式識別與機器學習第一講（上）$ 時我們得到的模型這樣能很好擬合訓練數(shù)據(jù)卻對于從同一概率分布得到的新數(shù)據(jù)擬合能力極差的情況，被稱為過擬合。像 $模式識別與機器學習第一講（上）$ 時這樣模型連訓練數(shù)據(jù)都無法很好擬合的情況被稱為欠擬合。

回到問題的出發(fā)點，我們希望訓練出的模型能盡可能學習到數(shù)據(jù)的原始分布（或者不妨稱之為數(shù)據(jù)的生成器），使得模型能精準預測來自該分布的新數(shù)據(jù)。模型不光需要在訓練數(shù)據(jù)上有好的表現(xiàn)，在新的數(shù)據(jù)上也應如此。正確預測新數(shù)據(jù)標簽（即 $模式識別與機器學習第一講（上）$ 里的 $模式識別與機器學習第一講（上）$ ）的能力被稱為泛化。

由此，我們可以提出一種衡量模型泛化能力的量化方法。除了訓練數(shù)據(jù)外，我們另外取一組測試數(shù)據(jù)。在知道數(shù)據(jù)真實分布的情況下（如例子中的 $模式識別與機器學習第一講（上）$ ），我們直接從數(shù)據(jù)分布里采集新的數(shù)據(jù)點。否則我們可以預先把手頭的數(shù)據(jù)集劃分成訓練數(shù)據(jù)和測試數(shù)據(jù)。在訓練模型（擬合訓練數(shù)據(jù)）的過程中，擬合僅僅基于訓練數(shù)據(jù)。在訓練完后，我們用測試數(shù)據(jù)檢測模型的泛化能力，計算誤差函數(shù)的數(shù)值。

當我們用這一方法應用到多項式模型上時，我們會發(fā)現(xiàn) $模式識別與機器學習第一講（上）$ 時模型在測試數(shù)據(jù)上的表現(xiàn)相比 $模式識別與機器學習第一講（上）$ 時所有模型的表現(xiàn)都要糟糕的多?；氐绞?.1，當 $模式識別與機器學習第一講（上）$ 時，考慮標量的話，我們有十個未知參數(shù) $模式識別與機器學習第一講（上）$ 。當我們有十個線性獨立的數(shù)據(jù)點時，我們可以精確得到每個未知參數(shù)的唯一解，因而得到的多項式模型完全依賴于訓練數(shù)據(jù)點。事實上我們應該可以通過插值法得到近乎完全一樣（考慮到可能存在數(shù)值誤差）的多項式。我們注意到 $模式識別與機器學習第一講（上）$ 時多項式對訓練數(shù)據(jù)的擬合其實已經(jīng)相當不錯了。一個由此而生的想法是在數(shù)據(jù)擬合改進有限的情況下，我們應該盡可能選擇簡單的模型，在多項式模型里就是選擇盡可能小的 $模式識別與機器學習第一講（上）$ 。上述原則也可以被概括為“如無必要，勿增實體”，即是著名的奧卡姆剃刀原理。當然不同人對于這個問題可能存在不同看法（https://www.quora.com/Does-Occams-Razor-apply-in-machine-learning）。有人就認為我們在考慮泛化能力的前提下還是要盡可能選擇復雜的模型從而盡可能避免關于數(shù)據(jù)分布信息的丟失。

對于某一特定模型，避免過擬合還有一種方法是使用盡可能多的訓練數(shù)據(jù)。同樣在 $模式識別與機器學習第一講（上）$ 的情況下，當我們取15個數(shù)據(jù)點乃至100個數(shù)據(jù)點時，隨著訓練數(shù)據(jù)集越來越大，我們曲線擬合的結果也越來越好。

模式識別與機器學習第一講（上）

在這100個數(shù)據(jù)點上， $模式識別與機器學習第一講（上）$ 時得到的模型很可能不如 $模式識別與機器學習第一講（上）$ 來得好。通常數(shù)據(jù)集越大，我們所能擬合的模型的復雜程度或表示能力越高，因此得到的模型可能更接近于數(shù)據(jù)的真實分布。一種粗略的機制是訓練數(shù)據(jù)的樣本數(shù)量應當不小于未知參數(shù)數(shù)量的某一固定倍數(shù)（如5倍或10倍）。值得一提的是未知參數(shù)的數(shù)量并不能完全衡量模型的復雜度，在第三章我們會接觸到更多這方面的內容。

c. 正則化（regularization）

動機：復雜的模型擁有更強的表示能力，有沒有可能在無法隨意增加數(shù)據(jù)集的情況下，避免或改善過擬合的問題呢？

回到之前的回歸問題，當 $模式識別與機器學習第一講（上）$ 時，如果我們具體寫出擬合得到多項式的系數(shù)值的話會發(fā)現(xiàn)系數(shù)的絕對值非常大。系數(shù)越大，模型上下起伏越厲害。而系數(shù)越小，模型的形狀越平滑。我們希望能在擬合訓練數(shù)據(jù)程度和模型波動程度之間達成一個平衡，并寄希望于這種平衡能在一定程度上反映出模型對于真實數(shù)據(jù)分布的學習程度。我們引入一種叫正則化的方法。

具體地，我們給原本的誤差函數(shù)加上一個正則項，令 $模式識別與機器學習第一講（上）$ （或者在更一般的情況下我們考慮 $模式識別與機器學習第一講（上）$ ，預測函數(shù)的復雜度）， $模式識別與機器學習第一講（上）$ 決定了正則項的權重， $模式識別與機器學習第一講（上）$ 可以看做是一個衡量模型復雜度的函數(shù)。最常見的 $模式識別與機器學習第一講（上）$ 就是 $模式識別與機器學習第一講（上）$ 范數(shù)（ $模式識別與機器學習第一講（上）$ -norm）， $模式識別與機器學習第一講（上）$ 。上述正則化采取的是Tikhonov形式（form），另外一種正則化的形式是Ivanov形式： $模式識別與機器學習第一講（上）$ 使得 $模式識別與機器學習第一講（上）$ 。 $模式識別與機器學習第一講（上）$ 一般由交叉驗證（cross validation）決定。

我們定義Tikhonov形式和Ivanov形式等價，如果：

$模式識別與機器學習第一講（上）$ , Ivanov解， $模式識別與機器學習第一講（上）$ 使得 $模式識別與機器學習第一講（上）$ ，對于某些 $模式識別與機器學習第一講（上）$ 也是一個Tikhonov解： $模式識別與機器學習第一講（上）$ ， $模式識別與機器學習第一講（上）$ 。
反過來， $模式識別與機器學習第一講（上）$ ， $模式識別與機器學習第一講（上）$ 使得與 $模式識別與機器學習第一講（上）$ 對應的Tikhonov解為一個與 $模式識別與機器學習第一講（上）$ 對應的Ivanov解。

換言之，兩者的解空間相同。

兩種形式是否滿足上述等價的定義要根據(jù)具體的誤差函數(shù)和模型復雜函數(shù) $模式識別與機器學習第一講（上）$ 來決定。

$模式識別與機器學習第一講（上）$ 范數(shù)可能是最常見的正則項了： $模式識別與機器學習第一講（上）$ , $模式識別與機器學習第一講（上）$ （1.4）。值得注意的是通常我們不選擇把 $模式識別與機器學習第一講（上）$ 納入正則項，因為這會導致結果取決于對目標變量/標簽的原點的選擇。

加入正則項這樣的技巧在統(tǒng)計里被稱為收縮（shrinkage），因為他們降低了系數(shù)的數(shù)值。在神經(jīng)網(wǎng)絡里，這種途徑被稱為權重下降（weight decay）。

在式1.4中，我們選擇了一個二階正則式。當 $模式識別與機器學習第一講（上）$ 為平方誤差函數(shù)時，目標函數(shù)為式1.4的回歸問題被稱為ridge regression。如果我們選擇了一個一階正則項,即 $模式識別與機器學習第一講（上）$ 時， $模式識別與機器學習第一講（上）$ 代表的回歸問題被稱為lasso(least absolute shrinkage and selection operator) regression，在3.1.4我們會更深入地學習這個問題。

d.訓練集，驗證集，測試集

我們往往通過超參數(shù)（hyperparameter），一類由我們預先選擇而不是模型從數(shù)據(jù)習得的參數(shù)，來決定模型的復雜度（如之前提到的 $模式識別與機器學習第一講（上）$ 以及 $模式識別與機器學習第一講（上）$ ）。我們不應該基于測試集（測試數(shù)據(jù)的集合）來決定模型復雜度，否則模型可能會直接對測試集過擬合，這無異于作弊。同樣由于過擬合的考慮，我們也不能基于訓練集（訓練數(shù)據(jù)的集合）來選擇超參數(shù)。我們取一個新的數(shù)據(jù)集，驗證集，來選擇模型超參數(shù)。當我們知道數(shù)據(jù)的真實分布時，我們可以直接從分布采集驗證集，否則我們可以把手上的數(shù)據(jù)集分成訓練集、驗證集或者訓練集、驗證集、測試集。

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

23人收藏

汪思穎

編輯

關注AI學術，例如論文

發(fā)私信

當月熱門文章