丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給林立宏
發(fā)送

0

SAS首席科學家:如何選擇機器學習算法?

本文作者: 林立宏 2017-06-14 16:25
導語:監(jiān)督學習、半監(jiān)督學習、無監(jiān)督學習、增強學習等幾大類別,都包含哪些算法?

 SAS首席科學家:如何選擇機器學習算法?

雷鋒網(wǎng)按:本文節(jié)選自 SAS 首席科學家李惠(Hui Li) 的博文,閱讀全文請點此(英文)。雷鋒網(wǎng)林立宏、張東紅編譯。

本文面向的是入門到中級的數(shù)據(jù)科學家,或對利用機器學習算法來解決問題感興趣的數(shù)據(jù)分析師。

面對各種各樣的機器學習算法——“我應該用哪一個?”,是一名初學者經(jīng)常遇到的問題。問題的答案,取決于許多因素,包括:

  • 數(shù)據(jù)的大小,質量和性質

  • 可用的計算時間

  • 任務的緊迫性

  • 你想對數(shù)據(jù)做什么

即便是經(jīng)驗豐富的數(shù)據(jù)科學家,也無法在嘗試各種算法之前,判斷出哪種算法的效果最好。在這里,我并不是忽悠大家要一步到位。我的意思是,要根據(jù)明確的因素,搞清楚應該優(yōu)先嘗試哪些算法。

機器學習算法速查表

 SAS首席科學家:如何選擇機器學習算法?

該流程圖展示了何時使用哪些算法

機器學習算法速查表,幫助你找到適合不同具體問題的算法。本文將引導你如何使用速查表。

該速查表專為初階數(shù)據(jù)科學家和分析師設計。因而在討論算法時,我們將對假設做一些簡化。

這里推薦的算法,來自于多位數(shù)據(jù)科學家、機器學習專家的編譯反饋和提示。 有幾個問題我們還沒有達成一致,對于這些問題,我們試圖突出共同點,調(diào)和差異。

 當我們的庫在將來更加完整,包含更多可用方法時,將會添加額外的算法。

如何使用速查表 

對圖表上的路徑和算法標簽,看作“如果 <路徑標簽> 就使用 <算法>”。例如:

  • 如果要降維,就使用主成分分析。

  • 如果需要快速的數(shù)字預測,就用決策樹或邏輯回歸。

  • 如果需要分層結果,就使用層次聚類。

有時候,適用的分支有多個,其他時候完美適用的一個也沒有。 重要的是記?。哼@些路徑僅僅是經(jīng)驗總結,有的建議并不準確。 我聊過的幾位數(shù)據(jù)科學家都說,找到最佳算法的唯一方法,就是嘗試所有的算法。

機器學習算法的類型

本節(jié)將對最常見的機器學習算法類型,做個概述。 如果您對這些類別很熟悉,可以跳過本節(jié)到下面的“何時使用特定算法”。

監(jiān)督學習

監(jiān)督學習算法會根據(jù)樣例集做預測。 例如,可以使用歷史銷售預估將來價格。 在監(jiān)督學習中,有標記過的訓練數(shù)據(jù)組成的輸入變量,以及輸出變量。 你用算法來分析訓練數(shù)據(jù),學習從輸入映射到輸出的函數(shù)。這個預測函數(shù)通過從訓練數(shù)據(jù)中進行歸納,對新的未知的樣本建立映射,來預測未知情況下的結果。

分類:當數(shù)據(jù)用于預測分類變量時,監(jiān)督學習也稱為分類。 圖像處理中經(jīng)典的貓狗識別:根據(jù)圖像內(nèi)容,向圖片分配"狗"或"貓"標簽就是這種案例。 當只有兩個標簽時,這被稱為二進制分類。 當有兩類以上時,這些問題被稱為多類分類。

回歸:當預測連續(xù)值時,問題就成為了一個回歸問題。

預測:根據(jù)過去和現(xiàn)在的數(shù)據(jù),對未來進行預測。 最常被用來分析趨勢。 一個常見的例子可能是根據(jù)今年和前幾年的銷售情況估計下一年的銷售額。

半監(jiān)督學習

監(jiān)督學習的困難在于,標注數(shù)據(jù)非常昂貴、費時。如果標注數(shù)據(jù)有限,可以使用未標注數(shù)據(jù)來加強監(jiān)督學習。在這種情況下機器不是完全監(jiān)督的,我們就稱是半監(jiān)督。通過半監(jiān)督學習,可以使用未標注數(shù)據(jù)和少量的標注數(shù)據(jù)來提高學習的準確性。

無監(jiān)督學習

進行無監(jiān)督學習時,機器僅使用未標注數(shù)據(jù)。目標是發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在模式,比如聚類結構,一個低維的流形(manifold),或者一個稀疏樹和圖。

 聚類:對一組數(shù)據(jù)進行分組,使得同一組(或一類)中的數(shù)據(jù)比其他組中的數(shù)據(jù)更加相似(根據(jù)一些規(guī)則)。這通常用來將整個數(shù)據(jù)集劃分成幾個數(shù)據(jù)組。在每個數(shù)據(jù)組中進行分析,能幫助用戶找到內(nèi)在的關聯(lián)。

降維:減少約束條件下的變量數(shù)量。在許多應用中,原始數(shù)據(jù)特征維度特別高,并且一些特征是冗余的、或者和結果無關。降維能夠幫助找到正確的潛在關聯(lián)。

增強學習

增強學習基于環(huán)境反饋,分析并優(yōu)化代理的行為。機器會嘗試不同場景,找出產(chǎn)生最大的收益的行為,不需要被告知做什么。試錯和延時獎勵,是增強學習和其他技術的主要區(qū)別。

選擇算法的注意事項

選擇一個算法時,通常要考慮這三個方面:準確性,訓練時間和易用性。許多人將準確性放在首位,但是初學者傾向于選擇他們最了解的算法。

當拿到一個數(shù)據(jù)集時,首先要考慮的是如何獲取結果,不管這些結果可能看起來是什么樣子的。初學者傾向于選擇容易實現(xiàn)并且能夠快速得到結果的算法。這種做法是可取的,因為這只是第一步工作。一旦你得到了一些結果并且熟悉了這些數(shù)據(jù),你可以會花費更多時間、使用更加復雜的算法來增強你對這些數(shù)據(jù)的理解,來進一步改進結果。

 即使在這種情況下,最好的算法,可能并不是有最高準確率的方法,因為一個算法通常需要仔細的調(diào)參和大量訓練才能達到它的最優(yōu)性能。

(雷鋒網(wǎng)更多請訪問原文地址)

via SAS

相關文章:

隨機機器學習算法需要試驗多少次,才足以客觀有效的反映模型性能?

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

 SAS首席科學家:如何選擇機器學習算法?

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說