丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給恒亮
發(fā)送

0

加入 Kaggle 大數(shù)據(jù)競(jìng)賽,總共分幾步?

本文作者: 恒亮 2017-03-10 17:02
導(dǎo)語:大??偨Y(jié):如何通過 4 個(gè)簡(jiǎn)單步驟入門 Kaggle ?

加入 Kaggle 大數(shù)據(jù)競(jìng)賽,總共分幾步?

日前,谷歌在 Google Cloud Next 云計(jì)算大會(huì)上宣布收購知名大數(shù)據(jù)競(jìng)賽平臺(tái) Kaggle。消息一出,震動(dòng)了數(shù)據(jù)科學(xué)、AI、機(jī)器學(xué)習(xí)三界(詳見雷鋒網(wǎng)文章:谷歌收購 Kaggle 為什么會(huì)震動(dòng)三界?)。相信經(jīng)過這條新聞的曝光,未來會(huì)出現(xiàn)更多的開發(fā)者和從業(yè)人員加入 Kaggle 一展身手。為此,雷鋒網(wǎng)編譯了一篇國外大牛的博文,其中總結(jié)了入門 Kaggle 競(jìng)賽的四個(gè)簡(jiǎn)單步驟,希望對(duì)相關(guān)人員有所幫助。

加入 Kaggle 大數(shù)據(jù)競(jìng)賽,總共分幾步?

原文作者 Jason Brownlee,機(jī)器學(xué)習(xí)專家,開發(fā)者,作家,企業(yè)家,曾在美國國防部門、初創(chuàng)企業(yè)和極端天氣預(yù)報(bào)機(jī)構(gòu)從事機(jī)器學(xué)習(xí)的相關(guān)開發(fā)工作多年。目前為了幫助機(jī)器學(xué)習(xí)領(lǐng)域更多的開發(fā)者,開設(shè)了一個(gè)名為 Machine Learning Mastery 的網(wǎng)站,提供各種入門和高級(jí)的機(jī)器學(xué)習(xí)教程。

為什么選 Kaggle?

目前,開發(fā)者可以通過各種各樣的方式來學(xué)習(xí)和實(shí)踐機(jī)器學(xué)習(xí)技能,但為什么大家都選擇 Kaggle 呢?或許是因?yàn)?Kaggle 具有以下一些特定的優(yōu)勢(shì):

● 問題的定義明確,直接提供了可用的數(shù)據(jù)庫;

● 由于行業(yè)里充斥著各種五花八門的排行榜,因此很難找到其他更客觀的機(jī)器學(xué)習(xí)測(cè)試平臺(tái);

● 通常每場(chǎng)比賽都會(huì)有許多討論和分享,參賽者可以從中學(xué)習(xí),并參與分享;

● 通過解決現(xiàn)實(shí)生活中的某個(gè)特定數(shù)據(jù)問題,參賽者可以充分展示自己;

● 這是一個(gè)完全靠技術(shù)說話的平臺(tái),只要你能解決問題,就能贏得尊重,跟學(xué)歷和學(xué)位無關(guān)。

概述

這里,我總結(jié)了入門 Kaggle 競(jìng)賽的四個(gè)簡(jiǎn)單步驟:

1. 選定一個(gè)平臺(tái)

2. 基于標(biāo)準(zhǔn)的數(shù)據(jù)庫練習(xí)

3. 練習(xí)舊的 Kaggle 題目

4. 在 Kaggle 上比賽

就像這世上的許多事,簡(jiǎn)單地寫出這四個(gè)步驟當(dāng)然很容易,但實(shí)現(xiàn)起來很難。實(shí)現(xiàn)它們需要付出非凡的時(shí)間和精力,無疑會(huì)是一項(xiàng)艱苦的工作。當(dāng)然,天道酬勤,只要你付出了努力,并且有條不紊地堅(jiān)持下去,那么總有一天你將成為一名世界級(jí)的機(jī)器學(xué)習(xí)從業(yè)者。

另外,對(duì)于那些已經(jīng)具備一些開發(fā)經(jīng)驗(yàn)的讀者,你可以直接跳到第四步開始比賽。但對(duì)于本文的主要讀者,那些入門級(jí)的用戶,我還是建議從第一步開始。

下面我們具體看看這四個(gè)步驟。

1. 選定一個(gè)平臺(tái)

同樣,擺在開發(fā)者面前的可選平臺(tái)也很多,可能最終你會(huì)發(fā)現(xiàn)初期的選擇糾結(jié)是沒有必要的,因?yàn)槊總€(gè)開發(fā)者實(shí)際上都同時(shí)使用許多平臺(tái),但剛開始你必須選定一個(gè)。

這里,我推薦大家以 Python 為起點(diǎn)。原因有以下幾條:

● 業(yè)界對(duì)基于 Python 的機(jī)器學(xué)習(xí)需求正在增長(zhǎng);

● 不像 R 語言,Python 是一個(gè)全功能的編程語言;

● Python 的生態(tài)系統(tǒng)已經(jīng)基本成熟,可選的工具包非常豐富,例如 sklearn,pandas,statsmodels,xgboost 等;

● Python 具有一些非常好的深度學(xué)習(xí)框架:Theano,TensorFlow,Keras 等。

總之,你必須先選定一個(gè)平臺(tái),并開始學(xué)習(xí)如何使用它。

深入閱讀:

● Python is the Growing Platform for Applied Machine Learning

地址:http://machinelearningmastery.com/python-growing-platform-applied-machine-learning/ 

● Python Machine Learning

地址:http://machinelearningmastery.com/start-here/#python 

2. 基于標(biāo)準(zhǔn)的數(shù)據(jù)庫練習(xí)

選定了平臺(tái)之后,下一步就是基于真實(shí)的數(shù)據(jù)庫展開實(shí)踐。

這里我推薦通過 UCI machine learning repository (UCI 機(jī)器學(xué)習(xí)資源庫)來解決一些標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)問題。

UCI 官網(wǎng):http://archive.ics.uci.edu/ml/index.html 

需要強(qiáng)調(diào)的是:將每個(gè)數(shù)據(jù)集都視為一次小型的比賽。相關(guān)注意事項(xiàng)包括:

● 將數(shù)據(jù)集組織成一個(gè)隊(duì)列,并且保留測(cè)試集,將測(cè)試集分成一個(gè)公共和私人的排行榜;

● 概括每一個(gè)數(shù)據(jù)集的處理過程,堅(jiān)持下去,并不斷修正這一過程,直到通過它你可以很容易地得到針對(duì)每一個(gè)小型數(shù)據(jù)集的頂級(jí)結(jié)果;

● 對(duì)每一個(gè)數(shù)據(jù)集規(guī)定時(shí)間上線,例如必須在幾個(gè)小時(shí)內(nèi)完成;

● 充分利用相關(guān)數(shù)據(jù)集的文檔資料,以更好地定義既定問題和解釋特征。

● 學(xué)習(xí)如何充分利用好每一個(gè)工具、算法和數(shù)據(jù)集。

總之,你需要認(rèn)真對(duì)待每一個(gè)數(shù)據(jù)集,通過處理各種不同的數(shù)據(jù)集積累經(jīng)驗(yàn),并將這些經(jīng)驗(yàn)應(yīng)用到處理新的數(shù)據(jù)集中。

深入閱讀:

● Practice Machine Learning with Small In-Memory Datasets

http://machinelearningmastery.com/practice-machine-learning-with-small-in-memory-datasets-from-the-uci-machine-learning-repository/ 

● Applied Machine Learning Process

http://machinelearningmastery.com/start-here/#process 

加入 Kaggle 大數(shù)據(jù)競(jìng)賽,總共分幾步?

3. 練習(xí)舊的 Kaggle 題目

經(jīng)過以上兩步,現(xiàn)在你已經(jīng)清楚地認(rèn)識(shí)了自己的工具,并懂得如何去使用它們,是時(shí)候練習(xí)一些舊的 Kaggle 題目了。

你可以訪問那些舊的 Kaggle 比賽的數(shù)據(jù)集,并針對(duì)這些數(shù)據(jù)發(fā)布自己的解決方案,然后在公共和私人的榜單上進(jìn)行評(píng)估。

第三步的核心目的是:學(xué)習(xí)以往比賽中的頂級(jí)選手是如何處理競(jìng)賽性的機(jī)器學(xué)習(xí)問題的,然后將他們的方法融入自己的解題思路之中。相關(guān)注意事項(xiàng)包括:

● 盡量選擇類型各不相同的問題,迫使自己學(xué)習(xí)和應(yīng)用新的、與以往不同的技術(shù);

● 研究論壇里的帖子、頂級(jí)選手的博客、GitHub 倉庫和所有其他的相關(guān)資料,學(xué)習(xí)別人的解決方案;

● 以進(jìn)入公共或私人排行榜的前 10% 為奮斗目標(biāo);

● 針對(duì)同一個(gè)數(shù)據(jù)集,嘗試多個(gè)不同的獲獎(jiǎng)?wù)叩慕鉀Q方案。

總之,你需要認(rèn)真學(xué)習(xí)以往的優(yōu)秀參賽者的解決方案和工具,并吸收他們的優(yōu)點(diǎn),進(jìn)一步積累經(jīng)驗(yàn),將這些經(jīng)驗(yàn)應(yīng)用到新數(shù)據(jù)集的處理中。

深入閱讀:

● Machine Learning is Kaggle Competitions

http://machinelearningmastery.com/machine-learning-is-kaggle-competitions/ 

● Discover the Methodology and Mindset of a Kaggle Master: An Interview with Diogo Ferreira

http://machinelearningmastery.com/discover-the-methodology-and-mindset-of-a-kaggle-master-an-interview-with-diogo-ferreira/ 

4. 在 Kaggle 上比賽

現(xiàn)在,你已經(jīng)可以正式參加 Kaggle 比賽了。

下面是一些參賽的注意事項(xiàng):

● 一次只處理一個(gè)問題,直到被卡??;

● 以進(jìn)入每個(gè)問題的私人排行榜的前 25% 或前 10% 為奮斗目標(biāo);

● 嘗試在論壇上自由分享,這會(huì)引發(fā)良性的互動(dòng)和協(xié)作;

● 最大限度地縮短思考/閱讀一個(gè)好主意和將之付諸實(shí)踐的時(shí)間(例如幾分鐘之內(nèi));

最后需要強(qiáng)調(diào)的是,Kaggle 雖然的確是一場(chǎng)比賽,但我們應(yīng)該抱著學(xué)習(xí)和分享的態(tài)度去參賽。

深入閱讀:

● How to Kick Ass in Competitive Machine Learning

http://machinelearningmastery.com/how-to-kick-ass-in-competitive-machine-learning/ 

● Master Kaggle By Competing Consistently

http://machinelearningmastery.com/master-kaggle-by-competing-consistently/ 

來源:machinelearningmastery,雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

加入 Kaggle 大數(shù)據(jù)競(jìng)賽,總共分幾步?

分享:
相關(guān)文章

編輯

歡迎交流,微信:whl123465
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說