丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給楊文
發(fā)送

0

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

本文作者: 楊文 2018-01-31 16:47
導(dǎo)語(yǔ):阿薩姆純干貨分享

雷鋒網(wǎng)AI研習(xí)社按:隨著硬件算力的上升、數(shù)據(jù)量的加大以及各種新算法的浮現(xiàn),機(jī)器學(xué)習(xí)也變得一天比一天火熱。不夸張的說(shuō),這是機(jī)器學(xué)習(xí)的時(shí)代。然而,機(jī)器學(xué)習(xí)雖然能夠給出驚艷的結(jié)果,但其有限的解釋性也常被人戲稱(chēng)為“黑箱”。而實(shí)踐者在使用機(jī)器學(xué)習(xí)的過(guò)程中往往也會(huì)面臨各種各樣的選擇。本文的目的就是幫助實(shí)踐者在使用機(jī)器學(xué)習(xí)過(guò)程中做出正確的選擇和判斷。文章內(nèi)容根據(jù)知乎人氣答主阿薩姆在雷鋒網(wǎng)AI研習(xí)社上直播分享整理而成。如您想直接看視頻回放,可點(diǎn)擊這里。

阿薩姆,普華永道高級(jí)數(shù)據(jù)科學(xué)家,負(fù)責(zé)統(tǒng)計(jì)學(xué)習(xí)模型開(kāi)發(fā)。有豐富的工業(yè)及學(xué)術(shù)經(jīng)驗(yàn),擅長(zhǎng)將理論知識(shí)應(yīng)用于實(shí)踐中。曾以第一作者發(fā)表過(guò)多篇不同領(lǐng)域的學(xué)術(shù)文章,如人機(jī)互動(dòng)、智能系統(tǒng)等。研究興趣包括異常檢測(cè)、集成學(xué)習(xí)、跨領(lǐng)域機(jī)器學(xué)習(xí)。以筆名“阿薩姆”在知乎上創(chuàng)作了多篇機(jī)器學(xué)習(xí)相關(guān)的文章,曾數(shù)次被知乎及知乎日?qǐng)?bào)收錄。樂(lè)于技術(shù)分享,近期正在進(jìn)行機(jī)器學(xué)習(xí)實(shí)踐書(shū)籍創(chuàng)作。

以下是阿薩姆的直播分享內(nèi)容:

機(jī)器學(xué)習(xí)無(wú)處不在的選擇

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

數(shù)據(jù)如何清理?使用哪個(gè)模型?如何進(jìn)行評(píng)估?如何發(fā)現(xiàn)過(guò)擬合與欠擬合?這些問(wèn)題都還沒(méi)有準(zhǔn)確的答案,往往依賴(lài)于使用者的經(jīng)驗(yàn)與直覺(jué)。在今天的分享課中,我們將會(huì)集中討論在機(jī)器學(xué)習(xí)中所面臨的選擇,并給出一些實(shí)用的經(jīng)驗(yàn)建議。

實(shí)際問(wèn)題抽象化

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)聽(tīng)起來(lái)非??犰?,但不要為了使用模型而創(chuàng)造問(wèn)題:機(jī)器學(xué)習(xí)的目標(biāo)是解決問(wèn)題。不要為了使用機(jī)器學(xué)習(xí)而創(chuàng)造問(wèn)題。

機(jī)器學(xué)習(xí)可以預(yù)測(cè)很多東西,要學(xué)會(huì)確定“最小預(yù)測(cè)單元”,每當(dāng)你把精度加深的時(shí)候,預(yù)測(cè)的難度就會(huì)加大。

切記盲目追求通過(guò)一個(gè)模型預(yù)測(cè)多個(gè)目標(biāo),盡量拆分問(wèn)題。

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

確定最優(yōu)框架,在可以使用監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)的情況下,優(yōu)先使用監(jiān)督學(xué)習(xí)

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)是”準(zhǔn)確“和”探索“之間的平衡。

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

在了解了怎么定義一個(gè)最小單元,也知道選擇什么樣的框架后,下面需要考慮的問(wèn)題是時(shí)間與空間上的依賴(lài)性。如果不考慮時(shí)空依賴(lài)性,問(wèn)題會(huì)得到簡(jiǎn)化,但可能有嚴(yán)重偏差。如果需要考慮時(shí)間與空間上的依賴(lài)性,優(yōu)先從簡(jiǎn)單的角度入手。

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

因?yàn)樵趯?shí)際生產(chǎn)中需要的是一個(gè)能用的模型,而不是要一個(gè)完美的模型,這是一個(gè)迭代的過(guò)程。

在了解了時(shí)空依賴(lài)性對(duì)于機(jī)器學(xué)習(xí)問(wèn)題的意義,下一個(gè)問(wèn)題談的是回歸和分類(lèi)。

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

什么情況下是適合進(jìn)行回歸到分類(lèi)的轉(zhuǎn)化。

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

另外一個(gè)問(wèn)題,數(shù)據(jù)質(zhì)量往往不是連貫的。如果情況沒(méi)有那么好,可以舍棄一部分?jǐn)?shù)據(jù)或?qū)?shù)據(jù)切分。

小結(jié)

  • 確定要預(yù)測(cè)的目標(biāo),找到項(xiàng)目痛點(diǎn),不追求同事預(yù)測(cè)多個(gè)目標(biāo)。

  • 確定解決問(wèn)題的框架,優(yōu)先使用監(jiān)督學(xué)習(xí)

  • 結(jié)合已有的規(guī)則, 嘗試融合機(jī)器學(xué)習(xí)模型和人為規(guī)則

  • 如果可能,優(yōu)先嘗試分類(lèi)任務(wù),也可以嘗試將回歸轉(zhuǎn)為分類(lèi)

  • 從易到難,確定嘗試哪些機(jī)器學(xué)習(xí)模型

  • 要解決的問(wèn)題是否對(duì)于”時(shí)空“存在依賴(lài)性,如果可以回避依懶性,可以先試試簡(jiǎn)單模型

  • 如果發(fā)現(xiàn)使用全部數(shù)據(jù)效果不好,可以嘗試拋棄部分?jǐn)?shù)據(jù)或分段處理。

如何選擇并處理數(shù)據(jù)

首先,大家要知道,數(shù)據(jù)不是越多越好,要根據(jù)領(lǐng)域經(jīng)驗(yàn)挑選相關(guān)特征。有一個(gè)誤區(qū)就是信息越多越好。其實(shí)不然,無(wú)關(guān)信息可能與預(yù)測(cè)值存在某種巧合,導(dǎo)致對(duì)檢測(cè)結(jié)果造成負(fù)面影響。所以只選擇與預(yù)測(cè)值可能有關(guān)聯(lián)的信息。

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

如何判斷特征與結(jié)果之間的相關(guān)性

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

相關(guān)性分析的意義,可以發(fā)現(xiàn)數(shù)據(jù)中的問(wèn)題,發(fā)現(xiàn)數(shù)據(jù)中有意思的部分,評(píng)估模型的能力。如果多個(gè)特征高度相關(guān),那可能模型預(yù)測(cè)能力效果有限。

如果發(fā)現(xiàn)很多特征高度相關(guān),是否應(yīng)該移除?

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

總結(jié)來(lái)看,如果不存在特別嚴(yán)重的相關(guān)性,去相關(guān)性不是必要步驟。從理論和實(shí)驗(yàn)角度來(lái)看,去掉或者合并相關(guān)性特征不一定會(huì)提高模型的預(yù)測(cè)能力。

從實(shí)踐角度來(lái)看,樹(shù)模型對(duì)于相關(guān)性的魯棒性強(qiáng),如果可能,可以先使用未處理的特征在樹(shù)模型進(jìn)行嘗試。

如果有必要移除相關(guān)性,下面是移除相關(guān)性的方法:

  • 特征選擇

  • 設(shè)定閾值,去除高線性相關(guān)的特征組。

連續(xù)特征離散化

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

數(shù)據(jù)與特征工程小結(jié)

  • 在處理數(shù)據(jù)上,數(shù)據(jù)并非越多越好,多余的無(wú)關(guān)特征會(huì)因?yàn)閭蜗嚓P(guān)、巧合而影響模型。

  • 對(duì)數(shù)據(jù)做相關(guān)性分析的時(shí)候,善用可視化可以一目了然發(fā)現(xiàn)問(wèn)題。

  • 對(duì)于高度相關(guān)的特征,移除或者合并前要三思,可能并不會(huì)提高模型能力。

  • 如果選用了線性模型,可能需要對(duì)特征進(jìn)行離散化

  • 對(duì)于大部分模型來(lái)說(shuō),歸一化或者標(biāo)準(zhǔn)化是必不可少的步驟,至少”無(wú)害“

  • 如果問(wèn)題較為復(fù)雜,盡量選擇非線性的魯棒性強(qiáng)的模型

模型選擇與評(píng)估的小結(jié)

以下是我推薦的模型選擇及評(píng)估流程:

  • 根據(jù)要解決的問(wèn)題和對(duì)數(shù)據(jù)的理解,大致決定出模型的搜索范圍,如嘗試SVM,邏輯回歸,隨機(jī)森林等。如資源允許,可擴(kuò)大模型候選名單。

  • 根據(jù)要解決的問(wèn)題和對(duì)數(shù)據(jù)的理解,決定模型的評(píng)估標(biāo)準(zhǔn)。雖然建議選擇單一的評(píng)估標(biāo)準(zhǔn)進(jìn)行對(duì)比,但推薦計(jì)算所有可能的評(píng)估標(biāo)準(zhǔn)。

  • 根據(jù)具體問(wèn)題中的數(shù)據(jù)量大小,以及模型穩(wěn)定性,決定是否使用交叉驗(yàn)證。

  • 結(jié)合參數(shù)搜索、交叉驗(yàn)證方法,通過(guò)選定的評(píng)估標(biāo)準(zhǔn)從候選模型中找到表現(xiàn)最好的模型。

  • 對(duì)上一步中的所選模型進(jìn)行微調(diào)。

  • 迭代以上步驟直到找到最優(yōu)的模型。

如何調(diào)試機(jī)器學(xué)習(xí)模型

我們常??吹降囊环N調(diào)試方法是分析一個(gè)模型的泛化能力,主要看他的偏差與方差。

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

量化模型泛化能力-過(guò)擬合

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

量化模型泛化能力的診斷方式

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

模型問(wèn)題診斷-高偏差和模型問(wèn)題診斷-高方差

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

使用集成學(xué)習(xí)降低方差與偏差

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

機(jī)器學(xué)習(xí)模型調(diào)試小結(jié)

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

機(jī)器學(xué)習(xí)互動(dòng)問(wèn)答

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

更多精彩內(nèi)容,請(qǐng)觀看雷鋒網(wǎng)AI慕課學(xué)院視頻回放

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)

分享:
相關(guān)文章

編輯&記者

AI科技評(píng)論員,微信:yeohandwin
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)