通過一個(gè) kaggle 實(shí)例學(xué)習(xí)解決機(jī)器學(xué)習(xí)問題

本文作者： AI研習(xí)社

編輯：賈智龍

2017-07-20 16:26

導(dǎo)語：這篇文章中可以學(xué)到一個(gè)完整的運(yùn)用機(jī)器學(xué)習(xí)解決分析問題的過程。

雷鋒網(wǎng)按：本文原作者楊熹，本文原載于個(gè)人博客。

之前寫過一篇《一個(gè)框架解決幾乎所有機(jī)器學(xué)習(xí)問題》但是沒有具體的例子和代碼，今天看到一個(gè)不錯(cuò)的 kaggle 上的 code Exploratory Tutorial - Titanic 來解析一下，源碼可以直接點(diǎn)這個(gè)鏈接。

在這篇文章中可以學(xué)到一個(gè)完整的運(yùn)用機(jī)器學(xué)習(xí)解決分析問題的過程，它包括了解決問題的一般流程，描述性統(tǒng)計(jì)的常用方法，數(shù)據(jù)清洗的常用方法，如何由給定的普通變量啟發(fā)式思考其他影響因素，sklearn 建立模型的一般流程，以及很火的 ensemble learning 怎么用。

下面進(jìn)入正題：

在 Titanic: Machine Learning from Disaster 這個(gè)問題中，要解決的是根據(jù)所提供的 age，sex 等因素的數(shù)據(jù)，判斷哪些乘客更有可能生存下來，所以這是一個(gè)分類問題。

在解決機(jī)器學(xué)習(xí)問題時(shí)，一般包括以下流程：

Data Exploration
Data Cleaning
Feature Engineering
Model Building
Ensemble Learning
Predict

1. Data Exploration

這部分先導(dǎo)入常用的 Numpy，Pandas，Matplotlib 等包，導(dǎo)入訓(xùn)練集和測(cè)試集：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

train = pd.read_csv('../input/train.csv')
test = pd.read_csv('../input/test.csv')

之后，可以用下面的命令先觀察一下數(shù)據(jù)表的結(jié)構(gòu)：

train.tail()
test.head()
train.describe()

接下來，可以觀察各個(gè)變量的分布情況：

各個(gè)變量在測(cè)試集和訓(xùn)練集的分布差不多一致。
通過一個(gè) kaggle 實(shí)例學(xué)習(xí)解決機(jī)器學(xué)習(xí)問題

然后看一下各個(gè)變量對(duì)分類標(biāo)簽的影響：

例如，性別的影響，通過可視化可以發(fā)現(xiàn)，生還的乘客中女性多于男性.

或者 Pclass 的影響。
通過一個(gè) kaggle 實(shí)例學(xué)習(xí)解決機(jī)器學(xué)習(xí)問題

2. Data Cleaning

這個(gè)部分，可以統(tǒng)計(jì)一下各個(gè)變量的缺失值情況：

train.isnull().sum()
#test.isnull().sum()
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

然后對(duì)缺失部分進(jìn)行處理，如果是連續(xù)變量，可以采用預(yù)測(cè)模型，例如 Age，如果是離散的變量，可以找到類似的數(shù)據(jù)群體，然后取最多的，或者最多群體的平均值。
eg，Embarked 這兩個(gè)缺失值，可以看 Pclass 1 and Fare 80 時(shí)，最多的情況是 Embarked＝C。

通過一個(gè) kaggle 實(shí)例學(xué)習(xí)解決機(jī)器學(xué)習(xí)問題

3. Feature Engineering

之前有過一篇特征工程怎么做，只是介紹了一些概念，這個(gè)例子就是比較具有啟發(fā)性，看看怎么通過給定的幾個(gè)變量，去拓展成更有影響力的 feature，如何結(jié)合實(shí)際情況聯(lián)想新的因素，并轉(zhuǎn)化成數(shù)字的形式表達(dá)出來。

下面是數(shù)據(jù)中的原始變量，看看由它們可以聯(lián)想到什么因素。

pclass          Passenger Class
                (1 = 1st; 2 = 2nd; 3 = 3rd)
name            Name
sex             Sex
age             Age
sibsp           Number of Siblings/Spouses Aboard
parch           Number of Parents/Children Aboard
ticket          Ticket Number
fare            Passenger Fare
cabin           Cabin
embarked        Port of Embarkation
                (C = Cherbourg; Q = Queenstown; S = Southampton)

除了性別，年齡等明顯的因素，社會(huì)地位等也可能影響著誰會(huì)優(yōu)先乘坐救生艇，或被救助而生存下來。例如，

Name 里可以抓取到這樣的字眼，來反映出乘客的職場(chǎng)地位： [‘Capt’, ‘Col’, ‘Major’, ‘Dr’, ‘Officer’, ‘Rev’]。
Cabin 里的 [a-zA-Z] 也許可以反映出社會(huì)地位。
Cabin 里的 [0-9] 可能代表船艙的地理位置。
SibSp 可以算出乘客中同一家庭成員人數(shù)的大小。

title[title.isin(['Capt', 'Col', 'Major', 'Dr', 'Officer', 'Rev'])] = 'Officer'

deck = full[~full.Cabin.isnull()].Cabin.map( lambda x : re.compile("([a-zA-Z]+)").search(x).group())

checker = re.compile("([0-9]+)")

full['Group_num'] = full.Parch + full.SibSp + 1

在這個(gè)環(huán)節(jié)中，還有必要把類別數(shù)據(jù)變換成 dummy variable 的形式，也就是變換成向量格式，屬于第幾類就在第幾個(gè)位置上為 1，其余位置為 0.

連續(xù)數(shù)據(jù)做一下歸一化，即把大范圍變化的數(shù)據(jù)范圍縮小至 0～1 或者－1～1 之間。
然后把不相關(guān)的變量 drop 掉。

train = pd.get_dummies(train, columns=['Embarked', 'Pclass', 'Title', 'Group_size'])

full['NorFare'] = pd.Series(scaler.fit_transform(full.Fare.reshape(-1,1)).reshape(-1), index=full.index)

full.drop(labels=['PassengerId', 'Name', 'Cabin', 'Survived', 'Ticket', 'Fare'], axis=1, inplace=True)

4. Model Building

首先就是把數(shù)據(jù)分為訓(xùn)練集和測(cè)試集，用到 train_test_split，

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

因?yàn)楹竺鏁?huì)用到很多模型，所以可以把 cross validation 和 fit 的部分寫入一個(gè)函數(shù)，這樣每次把分類器投入到函數(shù)中訓(xùn)練，最后返回訓(xùn)練好的模型即可。

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.metrics import accuracy_score

scoring = make_scorer(accuracy_score, greater_is_better=True)

defget_model(estimator, parameters, X_train, y_train, scoring):
    model = GridSearchCV(estimator, param_grid=parameters, scoring=scoring)
    model.fit(X_train, y_train)    
    return model.best_estimator_

以一個(gè) KNN 為例，來看一下建立訓(xùn)練并用模型預(yù)測(cè)的過程，

從 sklearn 導(dǎo)入分類器模型后，定義一個(gè) KNN，
定義合適的參數(shù)集 parameters，
然后用 get_model 去訓(xùn)練 KNN 模型，
接下來用訓(xùn)練好的模型去預(yù)測(cè)測(cè)試集的數(shù)據(jù)，并得到 accuracy_score，
然后畫出 learning_curve。

from sklearn.neighbors import KNeighborsClassifier
KNN = KNeighborsClassifier(weights='uniform')
parameters = {'n_neighbors':[3,4,5], 'p':[1,2]}
clf_knn = get_model(KNN, parameters, X_train, y_train, scoring)

print (accuracy_score(y_test, clf_knn.predict(X_test)))
plot_learning_curve(clf_knn, 'KNN', X, y, cv=4);

通過一個(gè) kaggle 實(shí)例學(xué)習(xí)解決機(jī)器學(xué)習(xí)問題

采用上面的方式，嘗試多種模型，并打印出它們的 accuracy_score：

KNN， 0.816143497758
Random Forest， 0.829596412556
只選擇比較重要的幾個(gè)特征后的 Random Forest， 0.834080717489
Logistic Regression， 0.811659192825
SVC， 0.838565022422
XGBoost， 0.820627802691123456123456

5. Ensemble

接下來把前面訓(xùn)練好的幾個(gè)分類器用 VotingClassifier 集成起來再 fit 訓(xùn)練一下，打印 accuracy_score 并畫出 learning_curve。

from sklearn.ensemble import VotingClassifier
clf_vc = VotingClassifier(estimators=[('xgb1', clf_xgb1), ('lg1', clf_lg1), ('svc', clf_svc),
                                       ('rfc1', clf_rfc1),('rfc2', clf_rfc2), ('knn', clf_knn)],
                           voting='hard', weights=[4,1,1,1,1,2])
clf_vc = clf_vc.fit(X_train, y_train)

print (accuracy_score(y_test, clf_vc.predict(X_test)))
plot_learning_curve(clf_vc, 'Ensemble', X, y, cv=4);

ensemble, 0.825112107623

6. Prediction

用最后訓(xùn)練好的 model 去預(yù)測(cè)給出的測(cè)試集文件，并把數(shù)據(jù)按照指定格式做好，存進(jìn) csv 提交即可。

defsubmission(model, fname, X):
    ans = pd.DataFrame(columns=['PassengerId', 'Survived'])
    ans.PassengerId = PassengerId
    ans.Survived = pd.Series(model.predict(X), index=ans.index)
    ans.to_csv(fname, index=False)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

相關(guān)文章

AI研習(xí)社

編輯

聚焦數(shù)據(jù)科學(xué)，連接 AI 開發(fā)者。更多精彩內(nèi)容，請(qǐng)?jiān)L問：yanxishe.com

發(fā)私信

當(dāng)月熱門文章