0
雷鋒網(wǎng)按:本文原作者楊熹,本文原載于個(gè)人博客。
之前寫過一篇《一個(gè)框架解決幾乎所有機(jī)器學(xué)習(xí)問題》但是沒有具體的例子和代碼,今天看到一個(gè)不錯(cuò)的 kaggle 上的 code Exploratory Tutorial - Titanic 來解析一下,源碼可以直接點(diǎn)這個(gè)鏈接。
在這篇文章中可以學(xué)到一個(gè)完整的運(yùn)用機(jī)器學(xué)習(xí)解決分析問題的過程,它包括了解決問題的一般流程,描述性統(tǒng)計(jì)的常用方法,數(shù)據(jù)清洗的常用方法,如何由給定的普通變量啟發(fā)式思考其他影響因素,sklearn 建立模型的一般流程,以及很火的 ensemble learning 怎么用。
下面進(jìn)入正題:
在 Titanic: Machine Learning from Disaster 這個(gè)問題中,要解決的是根據(jù)所提供的 age,sex 等因素的數(shù)據(jù),判斷哪些乘客更有可能生存下來,所以這是一個(gè)分類問題。
在解決機(jī)器學(xué)習(xí)問題時(shí),一般包括以下流程:
Data Exploration
Data Cleaning
Feature Engineering
Model Building
Ensemble Learning
Predict
這部分先導(dǎo)入常用的 Numpy,Pandas,Matplotlib 等包,導(dǎo)入訓(xùn)練集和測(cè)試集:
import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline
train = pd.read_csv('../input/train.csv')
test = pd.read_csv('../input/test.csv')之后,可以用下面的命令先觀察一下數(shù)據(jù)表的結(jié)構(gòu):
train.tail() test.head() train.describe()
接下來,可以觀察各個(gè)變量的分布情況:
各個(gè)變量在測(cè)試集和訓(xùn)練集的分布差不多一致。 
然后看一下各個(gè)變量對(duì)分類標(biāo)簽的影響:
例如,性別的影響,通過可視化可以發(fā)現(xiàn),生還的乘客中女性多于男性.
或者 Pclass 的影響。 
這個(gè)部分,可以統(tǒng)計(jì)一下各個(gè)變量的缺失值情況:
train.isnull().sum() #test.isnull().sum() PassengerId 0 Survived 0 Pclass 0 Name 0 Sex 0 Age 177 SibSp 0 Parch 0 Ticket 0 Fare 0 Cabin 687 Embarked 2 dtype: int64
然后對(duì)缺失部分進(jìn)行處理,如果是連續(xù)變量,可以采用預(yù)測(cè)模型,例如 Age,如果是離散的變量,可以找到類似的數(shù)據(jù)群體,然后取最多的,或者最多群體的平均值。
eg,Embarked 這兩個(gè)缺失值,可以看 Pclass 1 and Fare 80 時(shí),最多的情況是 Embarked=C。

之前有過一篇特征工程怎么做,只是介紹了一些概念,這個(gè)例子就是比較具有啟發(fā)性,看看怎么通過給定的幾個(gè)變量,去拓展成更有影響力的 feature,如何結(jié)合實(shí)際情況聯(lián)想新的因素,并轉(zhuǎn)化成數(shù)字的形式表達(dá)出來。
下面是數(shù)據(jù)中的原始變量,看看由它們可以聯(lián)想到什么因素。
pclass Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd) name Name sex Sex age Age sibsp Number of Siblings/Spouses Aboard parch Number of Parents/Children Aboard ticket Ticket Number fare Passenger Fare cabin Cabin embarked Port of Embarkation (C = Cherbourg; Q = Queenstown; S = Southampton)
除了性別,年齡等明顯的因素,社會(huì)地位等也可能影響著誰會(huì)優(yōu)先乘坐救生艇,或被救助而生存下來。例如,
Name 里可以抓取到這樣的字眼,來反映出乘客的職場(chǎng)地位: [‘Capt’, ‘Col’, ‘Major’, ‘Dr’, ‘Officer’, ‘Rev’]。
Cabin 里的 [a-zA-Z] 也許可以反映出社會(huì)地位。
Cabin 里的 [0-9] 可能代表船艙的地理位置。
SibSp 可以算出乘客中同一家庭成員人數(shù)的大小。
title[title.isin(['Capt', 'Col', 'Major', 'Dr', 'Officer', 'Rev'])] = 'Officer'
deck = full[~full.Cabin.isnull()].Cabin.map( lambda x : re.compile("([a-zA-Z]+)").search(x).group())
checker = re.compile("([0-9]+)")
full['Group_num'] = full.Parch + full.SibSp + 1在這個(gè)環(huán)節(jié)中,還有必要把類別數(shù)據(jù)變換成 dummy variable 的形式,也就是變換成向量格式,屬于第幾類就在第幾個(gè)位置上為 1,其余位置為 0.
連續(xù)數(shù)據(jù)做一下歸一化,即把大范圍變化的數(shù)據(jù)范圍縮小至 0~1 或者 -1~1 之間。
然后把不相關(guān)的變量 drop 掉。
train = pd.get_dummies(train, columns=['Embarked', 'Pclass', 'Title', 'Group_size']) full['NorFare'] = pd.Series(scaler.fit_transform(full.Fare.reshape(-1,1)).reshape(-1), index=full.index) full.drop(labels=['PassengerId', 'Name', 'Cabin', 'Survived', 'Ticket', 'Fare'], axis=1, inplace=True)
首先就是把數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,用到 train_test_split,
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
因?yàn)楹竺鏁?huì)用到很多模型,所以可以把 cross validation 和 fit 的部分寫入一個(gè)函數(shù),這樣每次把分類器投入到函數(shù)中訓(xùn)練,最后返回訓(xùn)練好的模型即可。
from sklearn.model_selection import GridSearchCV from sklearn.metrics import make_scorer from sklearn.metrics import accuracy_score scoring = make_scorer(accuracy_score, greater_is_better=True) defget_model(estimator, parameters, X_train, y_train, scoring): model = GridSearchCV(estimator, param_grid=parameters, scoring=scoring) model.fit(X_train, y_train) return model.best_estimator_
以一個(gè) KNN 為例,來看一下建立 訓(xùn)練 并用模型預(yù)測(cè)的過程,
從 sklearn 導(dǎo)入分類器模型后,定義一個(gè) KNN,
定義合適的參數(shù)集 parameters,
然后用 get_model 去訓(xùn)練 KNN 模型,
接下來用訓(xùn)練好的模型去預(yù)測(cè)測(cè)試集的數(shù)據(jù),并得到 accuracy_score,
然后畫出 learning_curve。
from sklearn.neighbors import KNeighborsClassifier
KNN = KNeighborsClassifier(weights='uniform')
parameters = {'n_neighbors':[3,4,5], 'p':[1,2]}
clf_knn = get_model(KNN, parameters, X_train, y_train, scoring)
print (accuracy_score(y_test, clf_knn.predict(X_test)))
plot_learning_curve(clf_knn, 'KNN', X, y, cv=4);
采用上面的方式,嘗試多種模型,并打印出它們的 accuracy_score:
KNN, 0.816143497758 Random Forest, 0.829596412556 只選擇比較重要的幾個(gè)特征后的 Random Forest, 0.834080717489 Logistic Regression, 0.811659192825 SVC, 0.838565022422 XGBoost, 0.820627802691123456123456
接下來把前面訓(xùn)練好的幾個(gè)分類器用 VotingClassifier 集成起來再 fit 訓(xùn)練一下,打印 accuracy_score 并畫出 learning_curve。
from sklearn.ensemble import VotingClassifier
clf_vc = VotingClassifier(estimators=[('xgb1', clf_xgb1), ('lg1', clf_lg1), ('svc', clf_svc),
('rfc1', clf_rfc1),('rfc2', clf_rfc2), ('knn', clf_knn)],
voting='hard', weights=[4,1,1,1,1,2])
clf_vc = clf_vc.fit(X_train, y_train)
print (accuracy_score(y_test, clf_vc.predict(X_test)))
plot_learning_curve(clf_vc, 'Ensemble', X, y, cv=4);
ensemble, 0.825112107623用最后訓(xùn)練好的 model 去預(yù)測(cè)給出的測(cè)試集文件,并把數(shù)據(jù)按照指定格式做好,存進(jìn) csv 提交即可。
defsubmission(model, fname, X): ans = pd.DataFrame(columns=['PassengerId', 'Survived']) ans.PassengerId = PassengerId ans.Survived = pd.Series(model.predict(X), index=ans.index) ans.to_csv(fname, index=False)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。