通過(guò)從零開(kāi)始實(shí)現(xiàn)一個(gè)感知機(jī)模型，我學(xué)到了這些

本文作者：恒亮

2017-03-13 17:02

導(dǎo)語(yǔ)：看到樣例中的代碼，你是直接復(fù)制粘貼？還是手動(dòng)輸入？

雷鋒網(wǎng)按：本文源自作者 Jean-Nicholas Hould 的個(gè)人博客，他是一位來(lái)自加拿大蒙特利爾的數(shù)據(jù)科學(xué)家，具有豐富的研發(fā)和實(shí)踐經(jīng)驗(yàn)。本文節(jié)選自作者個(gè)人的學(xué)習(xí)筆記，原文見(jiàn)文末鏈接，雷鋒網(wǎng)編譯。

對(duì)許多剛?cè)腴T(mén)機(jī)器學(xué)習(xí)的開(kāi)發(fā)者而言，許多參數(shù)和定義都顯得抽象、難以理解，可能許多人直到開(kāi)始進(jìn)入實(shí)際的項(xiàng)目研發(fā)，都還沒(méi)能真正搞清楚這些參數(shù)和定義的確切含義。為此，我在這里故意避開(kāi) scikit-learn 等現(xiàn)成的算法工具，從零開(kāi)始自己用 Python 實(shí)現(xiàn)了一個(gè)感知機(jī)二元分類器，一方面通過(guò)實(shí)際代碼深入認(rèn)識(shí)了感知機(jī)的內(nèi)部原理和相關(guān)參數(shù)的具體含義，另一方面也總結(jié)了一些自己的研發(fā)心得，希望對(duì)各位初學(xué)者有所幫助。

什么是二元分類器（Binary Classifier）？

通過(guò)從零開(kāi)始實(shí)現(xiàn)一個(gè)感知機(jī)模型，我學(xué)到了這些

分類器是基于一組特征來(lái)確定輸入元素所在類別的機(jī)器學(xué)習(xí)算法。例如，分類器可以根據(jù)一些既定特征，預(yù)測(cè)一個(gè)啤酒的類別。這些特征可以是酒精含量、香氣和外觀等。更詳細(xì)一點(diǎn)，例如一個(gè)基于機(jī)器學(xué)習(xí)的分類器，根據(jù) 8% 的酒精含量、100 IBU （International Bitterness Unit，國(guó)際苦味指數(shù)）和強(qiáng)烈橙子香味，就能判斷一種啤酒是不是 Indian Pale Ale 。

一般來(lái)說(shuō)，機(jī)器學(xué)習(xí)可以分為三個(gè)主要的類型：無(wú)監(jiān)督學(xué)習(xí)，監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。分類器屬于監(jiān)督學(xué)習(xí)的范疇。所謂監(jiān)督學(xué)習(xí)就是我們提前知道待解問(wèn)題的答案，即期望的輸出是已知的那些場(chǎng)景。例如在上述關(guān)于啤酒分類的例子中，我們完全可以想辦法得到一組描述啤酒各種特征和類別的數(shù)據(jù)集，然后基于這組數(shù)據(jù)對(duì)分類器展開(kāi)訓(xùn)練。

這里我將實(shí)現(xiàn)的是一個(gè)二元分類器，是所有分類器中最簡(jiǎn)單的一種，其輸出結(jié)果只有兩種：0 或 1 ，對(duì)或錯(cuò)。

怎么搭建機(jī)器學(xué)習(xí)模型？

概括地說(shuō)，要搭建和使用一個(gè)機(jī)器學(xué)習(xí)模型，一般分為如下四個(gè)步驟：

1. 預(yù)處理
2. 訓(xùn)練
3. 評(píng)估
4. 預(yù)測(cè)

預(yù)處理

預(yù)處理是構(gòu)建機(jī)器學(xué)習(xí)模型的第一步，該步驟的主要工作是獲取數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行必要的預(yù)處理，以備后續(xù)使用。包括去掉數(shù)據(jù)中的冗余、格式整理以及選定與數(shù)據(jù)相關(guān)的特征等。預(yù)處理中的常見(jiàn)工作包括：

從原始數(shù)據(jù)中提取特征
清理并格式化數(shù)據(jù)
刪除多余的特征（或高度相關(guān)的特征）
優(yōu)化特征數(shù)
標(biāo)準(zhǔn)化特征數(shù)據(jù)的范圍（也稱為特征縮放 Feature Scaling ）
隨機(jī)拆分?jǐn)?shù)據(jù)集：訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集

訓(xùn)練

準(zhǔn)備好數(shù)據(jù)之后，下一步是為目標(biāo)任務(wù)選擇一個(gè)合適的算法。在下面的二元分類器中，我們選擇的算法名為感知機(jī)（perceptron）。通常各種算法都有各自的優(yōu)缺點(diǎn)，要根據(jù)目標(biāo)任務(wù)靈活選擇。

在這個(gè)步驟中，你可以先針對(duì)幾個(gè)不同算法展開(kāi)測(cè)試，然后根據(jù)測(cè)試結(jié)果選擇性能最佳的算法。評(píng)估一個(gè)算法性能表現(xiàn)的方法有很多，在分類器場(chǎng)景中，一個(gè)最常用的方法是看分類精度（classification accuracy），即在所有輸入樣例中，正確分類的比例越高，算法就越優(yōu)秀。在這個(gè)步驟中，開(kāi)發(fā)者需要調(diào)整選定算法的參數(shù)，即所謂的超參數(shù)（Hyperparameters）過(guò)程。

本文將主要關(guān)注二元分類器的訓(xùn)練過(guò)程，深入探討算法的內(nèi)在工作原理。如果你對(duì)機(jī)器學(xué)習(xí)流程中的其他步驟感興趣，可以通過(guò)文末鏈接閱讀更多其他內(nèi)容。

評(píng)估

當(dāng)模型訓(xùn)練完成之后，就可以通過(guò)訓(xùn)練數(shù)據(jù)集之外的未知數(shù)據(jù)對(duì)模型展開(kāi)評(píng)估。評(píng)估中一個(gè)非常重要的指標(biāo)是泛化誤差（Generalization Error），即一個(gè)算法面對(duì)未知數(shù)據(jù)集的預(yù)測(cè)精度究竟怎樣。一旦你對(duì)評(píng)估結(jié)果滿意，就可以通過(guò)模型進(jìn)行真正的預(yù)測(cè)了。

實(shí)現(xiàn)感知機(jī)

下面開(kāi)始搭建我們的分類器。這里我們選用的算法是感知機(jī)（perceptron），它是神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)的基礎(chǔ)，是一種最簡(jiǎn)單的二元分類器模型。Perceptron算法的思路雖然簡(jiǎn)單，但功能強(qiáng)大，給定一個(gè)數(shù)據(jù)集，算法可以自動(dòng)學(xué)習(xí)最佳權(quán)重系數(shù)，然后乘以輸入特征，根據(jù)結(jié)果決定一個(gè)神經(jīng)元是否啟用。

下面我們根據(jù)具體代碼簡(jiǎn)述感知機(jī)模型的基本實(shí)現(xiàn)流程。

首先，初始化一個(gè)權(quán)重等于零的數(shù)組，數(shù)組長(zhǎng)度等于特征數(shù)加1。這里之所以加1，是為了存儲(chǔ)“閾值”（threshold）。這里需要注意的是，Perceptron算法要求特征必須是數(shù)字值。具體代碼如下：

self.w_ = np.zeros(1 + X.shape[1])

第二步，開(kāi)始一個(gè)迭代次數(shù)為 n_iter 的循環(huán)。這是一個(gè)由數(shù)據(jù)科學(xué)家定義的超參數(shù)。具體代碼如下：

for _ in range(self.n_iter):

第三步，針對(duì)每個(gè)訓(xùn)練數(shù)據(jù)和結(jié)果都開(kāi)始一個(gè)循環(huán)，這里的結(jié)果是指算法的最終期望輸出。由于我們搭建的是一個(gè)二元分類器，因此結(jié)果是 -1 或 1 兩種。

基于數(shù)據(jù)點(diǎn)的特征，算法將計(jì)算出最終結(jié)果：-1 或 1 。這里的預(yù)測(cè)方法具體是指特征與適當(dāng)權(quán)重的矩陣乘積。在乘積的基礎(chǔ)上加上此前定義好的閾值，如果結(jié)果大于 0 ，則預(yù)測(cè)為 1 ，否則為 -1.

算法可以根據(jù)每次迭代得到的預(yù)測(cè)結(jié)果的準(zhǔn)確性靈活調(diào)整權(quán)重。在迭代的初期，預(yù)測(cè)結(jié)果一般不太可能是準(zhǔn)確的，因?yàn)闄?quán)重沒(méi)有被調(diào)整過(guò)，也就不會(huì)收斂。需要注意的是，調(diào)整操作與目標(biāo)值、預(yù)測(cè)值之間的差成比例，這個(gè)差值需要乘以 eta。這里 eta 是數(shù)據(jù)科學(xué)家定義的另一個(gè)超參數(shù)，介于 0 和 1 之間，eta 的值越大，權(quán)重的校正就越多。最終當(dāng)預(yù)測(cè)結(jié)果準(zhǔn)確時(shí)，就會(huì)停止調(diào)整權(quán)重的過(guò)程。具體代碼如下：

self.w_ = np.zeros(1 + X.shape[1])
for _ in range(self.n_iter):
for xi, target in zip(X, y):
update = self.eta * (target - self.predict(xi))
self.w_[1:] += update * xi
self.w_[0] += update
def net_input(self, X):
"""Calculate net input"""
return np.dot(X, self.w_[1:]) + self.w_[0]
def predict(self, X):
"""Return class label after unit step"""
return np.where(self.net_input(X) >= 0.0, 1, -1)

在代碼中，只有當(dāng)兩個(gè)類別是線性可分時(shí)，感知機(jī)模型才會(huì)收斂。簡(jiǎn)單說(shuō)就是：如果你能畫(huà)一條直線來(lái)完全分離兩個(gè)類，算法才會(huì)收斂。否則，算法將一直迭代下去，并將重新調(diào)整權(quán)重，直到循環(huán)達(dá)到最大次數(shù) n_iter。

通過(guò)從零開(kāi)始實(shí)現(xiàn)一個(gè)感知機(jī)模型，我學(xué)到了這些

以上感知機(jī)的完整代碼如下所示：

通過(guò)從零開(kāi)始實(shí)現(xiàn)一個(gè)感知機(jī)模型，我學(xué)到了這些

通過(guò)以上實(shí)踐，我有如下幾點(diǎn)收獲：

收獲1：參數(shù)的理解

如果你直接調(diào)用 scikit-learn 等工具來(lái)實(shí)現(xiàn)感知機(jī)，那么像學(xué)習(xí)率和迭代次數(shù)這些參數(shù)就會(huì)顯得很抽象，因?yàn)槟阒恍枰阉鼈兲畹?API 接口里，然后就得到了結(jié)果，完全不清楚這些參數(shù)的實(shí)際意義。但是如果你試著自己寫(xiě)代碼來(lái)實(shí)現(xiàn)，例如自己實(shí)現(xiàn)一個(gè)感知機(jī)，那么這些參數(shù)的含義就一目了然。

學(xué)習(xí)率

例如學(xué)習(xí)率，就是指當(dāng)預(yù)測(cè)不準(zhǔn)確時(shí)權(quán)重被校正的比例，該值必須介于 0 和 1 之間。如下代碼所示，fit 函數(shù)將對(duì)每個(gè)觀察結(jié)果進(jìn)行迭代，調(diào)用 predict 函數(shù)，然后根據(jù)目標(biāo)和預(yù)測(cè)值之間的差異調(diào)整權(quán)重，然后乘以學(xué)習(xí)率。

更高的學(xué)習(xí)率意味著算法將更積極地調(diào)整權(quán)重。每次迭代都會(huì)根據(jù)預(yù)測(cè)值是否準(zhǔn)確重新調(diào)整權(quán)重值。

# Partial portion of the "fit" function
for xi, target in zip(X, y):
update = self.eta * (target - self.predict(xi))
self.w_[1:] += update * xi
self.w_[0] += update
errors += int(update != 0.0)

迭代次數(shù)

迭代次數(shù)是指算法在訓(xùn)練集中運(yùn)行的總次數(shù)。如果迭代次數(shù)設(shè)為 1，則算法就只在數(shù)據(jù)集上運(yùn)行一次，針對(duì)每個(gè)數(shù)據(jù)點(diǎn)只更新一次權(quán)重。這樣得到的模型相比較高迭代次數(shù)的模型，準(zhǔn)確率可能更低。在數(shù)據(jù)集的體量較大時(shí)，高迭代次數(shù)可能引起非常高迭代成本。

for _ in range(self.n_iter):
errors = 0
for xi, target in zip(X, y):
update = self.eta * (target - self.predict(xi))
self.w_[1:] += update * xi
self.w_[0] += update
errors += int(update != 0.0)
self.errors_.append(errors)

學(xué)習(xí)度和迭代次數(shù)通常是相互關(guān)聯(lián)的，需要一起調(diào)整。例如，如果你的學(xué)習(xí)率很小，則意味著算法每次對(duì)權(quán)重的調(diào)整都很微小，那么可能就需要更多的迭代次數(shù)。

收獲2：線性代數(shù)的重要性

其次，特別重要的一點(diǎn)是：不單是Perceptron算法，在整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域，線性代數(shù)課程中的相關(guān)內(nèi)容都至關(guān)重要，因?yàn)檎麄€(gè)算法都可以通過(guò)線性代數(shù)的相關(guān)公式來(lái)描述。而如果你從來(lái)沒(méi)有學(xué)過(guò)線性代數(shù)的相關(guān)知識(shí)，那么這些公式對(duì)你來(lái)說(shuō)就是不可見(jiàn)的，也就不利于算法的理解和實(shí)現(xiàn)。因此，學(xué)好線性代數(shù)對(duì)開(kāi)發(fā)機(jī)器學(xué)習(xí)和理解各種算法至關(guān)重要，這里推薦一個(gè)線性代數(shù)的在線教程，并且附帶練習(xí)。

教程地址：https://www.khanacademy.org/math/linear-algebra

收獲3：一種通用的學(xué)習(xí)方法

最后，我想通過(guò)以上 Perceptron 算法推薦一個(gè)通用的學(xué)習(xí)方法，即手動(dòng)敲入代碼，拒絕簡(jiǎn)單的復(fù)制粘貼。

早在2012年，當(dāng)我在學(xué)習(xí)編寫(xiě)一個(gè) Web 應(yīng)用時(shí)就體會(huì)到了手動(dòng)敲入代碼的好處。當(dāng)時(shí)，我花了比別人多得多的時(shí)間跟著教程，一步一步把案例中的代碼手動(dòng)敲入編輯器，而沒(méi)有選擇復(fù)制粘貼。這看起來(lái)很蠢，但不可否認(rèn)這種方法真的有用。因?yàn)椴豢杀苊獾?，在手?dòng)敲入這些代碼時(shí)你一定會(huì)引入錯(cuò)誤，因此你敲完的代碼可能根本就運(yùn)行不起來(lái)，也可能得到一些意想不到的錯(cuò)誤，這時(shí)你就必須排查和修改代碼中的錯(cuò)誤。其實(shí)，這個(gè)排查和修改的過(guò)程就是思考和學(xué)習(xí)的過(guò)程，通過(guò)這樣的過(guò)程，你會(huì)對(duì)整個(gè)代碼和教程中的知識(shí)點(diǎn)理解的更透徹，當(dāng)然也記得更清楚。

所以，如果你要學(xué)習(xí) Perceptron 算法，請(qǐng)不要直接復(fù)制和粘貼。試著將這些代碼手動(dòng)敲入編輯器，然后編譯運(yùn)行。更不要被動(dòng)地閱讀，僅僅對(duì)著代碼讀來(lái)讀去，永遠(yuǎn)也成不了數(shù)據(jù)科學(xué)家，你必須參與進(jìn)去，主動(dòng)修改和運(yùn)行這些代碼，才能收獲的更多。

原文地址：http://www.jeannicholashould.com/what-i-learned-implementing-a-classifier-from-scratch.html

深入閱讀：http://www.jeannicholashould.com/learning-machine-learning.html

雷鋒網(wǎng)相關(guān)閱讀：

機(jī)器學(xué)習(xí)零基礎(chǔ)？手把手教你用TensorFlow搭建圖像分類器| 干貨

Python粉都應(yīng)該知道的開(kāi)源機(jī)器學(xué)習(xí)框架：Scikit-learn入門(mén)指南

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。