丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給bluemin
發(fā)送

0

創(chuàng)建模型,從停止死記硬背開始

本文作者: bluemin 編輯:幸麗娟 2020-03-31 11:49
導語:萬事皆回歸~

對于機器學習/數(shù)據(jù)科學的研究者而言,回歸分析是最基礎的功課之一,可以稱得上是大多數(shù)機器學習/數(shù)據(jù)科學研究的起點。

本文作者 Kevin Hannay 是一位從生物學跨界到數(shù)學、數(shù)據(jù)科學的研究者,而他之所以選擇“跨界”的原因便是數(shù)學學科能夠讓他脫離死記硬背的苦海,完全以像回歸分析這樣的方式來推導結論。

在他看來,基本上所有的問題都能夠用回歸分析的思維來解決。他認為,在機器學習/數(shù)據(jù)科學的模型創(chuàng)建中,應該從停止死記硬背開始,而更多地借用回歸分析的思維。

相信他的分享能夠給大家一些啟發(fā),下面來看他的分享:

一、序曲 

我記性很差。

在大學,我的“初戀”是生物學,但最終我被這些課程拒之門外,因為它們強調記憶。后來我對數(shù)學這門學科“一見鐘情”,因為我不必死記硬背任何知識。數(shù)學的魅力在于它關注我們以何種方式得出結論,如果自己不能證明一個結論,那就說明你還不理解它。

出于某種原因,統(tǒng)計學仍然經常通過列出各種場景中應用的檢驗來授課。例如下圖所示的復雜流程圖和更加具體的統(tǒng)計檢驗。

創(chuàng)建模型,從停止死記硬背開始

檢驗平均數(shù)假設的統(tǒng)計流程圖

這會導致統(tǒng)計檢驗的混亂和誤用。不過沒關系,因為我將給大家?guī)硪粋€好消息。基礎統(tǒng)計學可以分為三個部分來闡釋:采樣、置信區(qū)間和回歸。

對于有數(shù)據(jù)科學和/或機器學習背景的人來說,這是個好消息。由于回歸是大多數(shù)機器學習研究的起點,這意味著你可能在還沒意識到的情況下,就已經在做統(tǒng)計假設檢驗了。

在本文中,我將通過舉例說明如何從回歸的角度來考慮常見的統(tǒng)計檢驗,從而集中討論統(tǒng)計檢驗的最后一步。

二、快速回顧線性回歸

在線性回歸中,我們建立特征x和響應變量y之間關系的線性模型。

創(chuàng)建模型,從停止死記硬背開始

這個模型具有統(tǒng)計學意義,因為創(chuàng)建模型,從停止死記硬背開始被設為隨機參數(shù)。

創(chuàng)建模型,從停止死記硬背開始

普通最小二乘法(OLS)中噪聲項假設為正態(tài)分布

這是一個數(shù)學模型,這也是一種精確表示我們對數(shù)據(jù)集進行假設的方法。每當我們建立一個模型時,記住George Box這句名言大有裨益:

所有模型都是錯的,但其中有一些是有用的。(All models are wrong, but some are useful)

模型是對現(xiàn)實世界復雜性的抽象和簡化,正因為是一種簡化,所以模型總是不能完全反映現(xiàn)實問題,但利用它們可能捕捉到一些重要的想法。

讓我們先看一個1991至2018年 NBA選秀的數(shù)據(jù)集案例。我們可以看看選秀次數(shù)和每場比賽平均職業(yè)積分之間的關系,下面的散點圖以及數(shù)據(jù)的最佳擬合回歸線顯示了這一關系。

創(chuàng)建模型,從停止死記硬背開始

1991-2018年737個NBA球員的選秀次數(shù)及其職業(yè)場均得分(PPG)平均值的線性回歸分析

注意,這些點隨機抖動以避免在散點圖上重疊

最佳擬合回歸方程如下:

創(chuàng)建模型,從停止死記硬背開始

最佳擬合線性回歸模型

線性回歸的最佳擬合通常是通過最小化殘差項的平方來實現(xiàn)的。


創(chuàng)建模型,從停止死記硬背開始

N個數(shù)據(jù)點的線性回歸成本函數(shù)

這里我不再討論成本函數(shù)的實際最小化原理??梢哉f,利用線性代數(shù)的一些技巧,能夠很快找到此成本函數(shù)的全局最小值,這為我們提供了一些最佳的斜率和截距擬合參數(shù)。

三、分類變量回歸

我們也可以對本質上是分類的特征進行回歸,這里的訣竅是對分類變量進行所謂的獨熱編碼,其思想是將分類級別轉換為指標變量(創(chuàng)建模型,從停止死記硬背開始)。如果輸入屬于指定的級別,則這些值為 1,否則為 0。

例如,對于NBA選秀數(shù)據(jù),可以將“選秀號碼”列拆分為樂透區(qū)選秀(≤14)和非樂透區(qū)選秀(NL)。

創(chuàng)建模型,從停止死記硬背開始

然后我們可以找出這兩組球員每場平均分的差異。

創(chuàng)建模型,從停止死記硬背開始

編碼回歸模型,如果不是樂透區(qū)方式指標變量為0,否則為1

下面是顯示回歸線的數(shù)據(jù)圖。

創(chuàng)建模型,從停止死記硬背開始

斜率項 β 反映了每場比賽中非樂透區(qū)選秀(x=0)和樂透區(qū)選秀(x=1)之間的平均分差異。這里的小幅上升趨勢意味著,我們有證據(jù)表明樂透區(qū)選秀者在職業(yè)生涯中的平均分數(shù)往往更高。

當然,這一趨勢分析是基于隨機抽樣的球員,所以如果我們收集了一個新的樣本,這種上升趨勢可能會消失。為了解決由于隨機采樣而引起的這種變化,我們可以形成斜率的置信區(qū)間。

對于上面的樂透區(qū)選秀示例,我們找到以下參數(shù)置信度為95%的置信區(qū)間:

創(chuàng)建模型,從停止死記硬背開始

這告訴我們,樂透區(qū)選秀球員職業(yè) PPG 減去非樂透區(qū)選秀球員的職業(yè)PPG,其平均值可能在3.48到4.78之間。這使我們對結果的趨勢(正)和結果的大?。?.5-4.8點)都有一個了解。

我們可以看到斜率區(qū)間不包含0,這說明如果重新采樣數(shù)據(jù),不太可能看到這種趨勢的逆轉。如果將置信水平從95%提高到99%,將看到置信區(qū)間的間隔寬度增加。為了減少錯誤,需要更大范圍的置信水平值。

我們可以玩增加置信區(qū)間的置信水平(100-p)%的游戲,直到區(qū)間的左側剛好達到0,此時的參數(shù)值叫做p值。

創(chuàng)建模型,從停止死記硬背開始

零假設斜率為零的p值可以通過穩(wěn)定增加置信區(qū)間的寬度,直到接觸零假設區(qū)域確定

P值給出了原假設為真(即Ho:β=0)時觀察數(shù)據(jù)的概率P(D|Ho)。

四、雙樣本 t 檢驗

在某些情況下,我們可能只關心結果的趨勢,而不關心結果的大小,這屬于雙樣本 t 檢驗的統(tǒng)計檢驗范疇。在基礎統(tǒng)計學課程中,我們學過使用雙樣本t檢驗來評估這兩種條件下收集的數(shù)據(jù),以證明平均值的差異:控制組和實驗組。

創(chuàng)建模型,從停止死記硬背開始

為了在 R 語言中執(zhí)行這個檢驗,首先要從相當大的選秀數(shù)據(jù)集中創(chuàng)建一個較小的數(shù)據(jù)集。下面的命令只生成包含100個球員的隨機子集供我們比較,還在數(shù)據(jù)集中創(chuàng)建一個樂透區(qū)列以便進行良好的計算。

創(chuàng)建模型,從停止死記硬背開始

設置兩個組進行雙樣本t檢驗,使用相同的隨機種子值可以得到與我一樣的結果

現(xiàn)在已準備好用R語言運行 t 檢驗。

創(chuàng)建模型,從停止死記硬背開始

進行雙樣本t檢驗以尋找樂透區(qū)和非樂透區(qū)選秀的NBA球員的每場比賽平均職業(yè)積分的差異

現(xiàn)在注意結果中的 p 值,這里相對較小的值表明,在原假設的情況下數(shù)據(jù)不太可能達到P值。

現(xiàn)在,將其作為具有分類特征的線性回歸進行檢驗。

創(chuàng)建模型,從停止死記硬背開始

下面將用R語言顯示簡單線性回歸的summary命令結果。

創(chuàng)建模型,從停止死記硬背開始

上面已經強調了重要的一點,將其與我們使用雙樣本t檢驗得到的結果進行比較,t值(直到符號)和p值是一樣的!

另外,使用R語言查看回歸的summary結果時,注意到summary結果的最后一行重復了相同的p值,這是在整個回歸模型上運行 F 檢驗的結果。

通過檢驗,可以知道模型中的任何特征是否在統(tǒng)計學意義上偏離零。在這個簡單的例子中只有一個特征,因而基于模型的F檢驗和基于樂透區(qū)特征的T檢驗等價,但兩者在多元回歸(超過1個特征)中將有所不同。

五、方差分析與多元回歸

假設我們想評估球員位置對他們職業(yè)平均得分的影響。首先,我們應該清理數(shù)據(jù)集中位置列的級別。

創(chuàng)建模型,從停止死記硬背開始

使用R中的forcats包清理位置(Pos)列的級別,這里把一些類別合并在一起,得到C,F(xiàn),G作為位置

然后,我們可以繪制按位置劃分的職業(yè)得分箱形圖:

創(chuàng)建模型,從停止死記硬背開始

位置對NBA球員職業(yè)得分影響的箱形圖

我們可能想知道這些組的均值是否確實不同,或者觀察到的差異是否也可以通過抽樣誤差來解釋。在經典統(tǒng)計中,我們通常會進行單向方差分析(方差分析)。利用R語言很容易實現(xiàn):

創(chuàng)建模型,從停止死記硬背開始

利用R語言做方差分析,注意p值在最右邊且p=0.0813

現(xiàn)在也可以將其作為回歸問題來處理,回歸模型有以下形式:

創(chuàng)建模型,從停止死記硬背開始

通過α截距值可以得知中心的平均值,通過兩個斜率可以得知相對于中心值的點。

以上操作在R語言底層完成,下面是輸出:

 雷鋒網雷鋒網

比較回歸輸出和方差分析輸出中的最后一行(F檢驗),我們再次看到同樣的結果!

由此得知單向方差分析只是具有兩個以上級別分類特征的線性回歸模型。使用的檢驗有一個原假設,即所有斜率都為零。

六、雙因素方差分析

在雙因素方差分析中,使用兩個分類特征來預測連續(xù)響應變量。

使用Tm(選秀團隊)列和Pos(位置)列來處理選秀數(shù)據(jù)集,雙因素方差分析需要更多的數(shù)據(jù)來擬合模型,因此我們將使用完整的數(shù)據(jù)集,而不是經過刪減的數(shù)據(jù)集。首先運行下面的兩個命令來清理兩個分類特征級別。

創(chuàng)建模型,從停止死記硬背開始

利用forcats包清理整個選秀數(shù)據(jù)集的團隊列和位置列

在這種情況下,線性模型的形式是:

創(chuàng)建模型,從停止死記硬背開始

第一個總和是虛擬編碼的團隊變量疊加形成,第二個總和是位置類別疊加形成,上述結果很好地在R語言底層完成,要進行分析,我們可以使用以下方法構建線性模型:

創(chuàng)建模型,從停止死記硬背開始

建立雙因素方差分析線性模型

這里唯一的變化是應該在模型上使用anova( )命令,而不是通常的summary( )命令,這將顯示以下結果:

創(chuàng)建模型,從停止死記硬背開始

Tm和Pos所在行的數(shù)據(jù)證實了位置與職業(yè)積分有密切關系,但沒有足夠的證據(jù)證明團隊與職業(yè)積分有關。現(xiàn)在可以看到如何使用多元回歸進行多因素方差分析。

七、協(xié)方差分析

如果在回歸中添加一個連續(xù)的特征,那么就會變成協(xié)方差分析(ANCOVA)。進行協(xié)方差分析的目的是,已知位置與NBA球員的PPG相關性大,但是這可能只是因為某些位置的球員比其他位置的球員的上場時間更多。

可以通過在模型中包含此特征來控制上場分鐘數(shù)的作用效果。首先,重新縮放上場分鐘數(shù)(MP)列,使平均值為零,標準差設為1。這樣設置的目的是,因為線性模型中的截距會給平均每場比賽0分鐘的中鋒帶來職業(yè)PPG,在其他方面真的沒有作用。

現(xiàn)在,通過截距信息可以解釋每場比賽中平均上場時間的中鋒的平均PPG含義。也許只能解釋一小部分,但對于模型理解更有意義。

創(chuàng)建模型,從停止死記硬背開始

縮放“上場分鐘數(shù)”列

這是一個比賽時間和每場得分之間的關系圖,位置以顏色顯示。

創(chuàng)建模型,從停止死記硬背開始

現(xiàn)在來建立線性模型:

創(chuàng)建模型,從停止死記硬背開始

將產生以下結果:

創(chuàng)建模型,從停止死記硬背開始

通過第一行數(shù)據(jù)可以得知即使在控制了上場時間后,位置對職業(yè)PPG也有著統(tǒng)計上的顯著影響。

八、比例和廣義線性模型

我們也可以將其他基本的統(tǒng)計過程表述為回歸。然而,我們還需要利用所謂的廣義線性模型(GLM)來進行更進一步的研究。

首先要生成一個偽數(shù)據(jù)集。下面的命令生成一個R數(shù)據(jù)框,用于存儲假想比賽的罰球結果和球員姓名,其中球員A和B各投100個罰球。

創(chuàng)建模型,從停止死記硬背開始

球員B的命中率僅為77%,而球員A的命中率則為80%,盡管這有抽樣誤差??梢允褂肦語言中的table命令查看隨機繪制的結果:

創(chuàng)建模型,從停止死記硬背開始

這里可能需要進行兩個樣本的比例檢驗,以檢驗兩位球員百分比不同的假設。

創(chuàng)建模型,從停止死記硬背開始

可以使用R語言中 prop.test 命令完成檢驗。

創(chuàng)建模型,從停止死記硬背開始

用R語言進行雙尾比例檢驗的結果,這里簡單地使用兩個比例相等的原假設進行檢驗,也可以作為具有相同p值的卡方檢驗來完成。

現(xiàn)在是回歸方法,如上所述,由于響應變量不再是連續(xù)的,需要調整回歸來處理二進制輸出。實際上,我們希望模型產生一個概率創(chuàng)建模型,從停止死記硬背開始

這里可以使用邏輯回歸來實現(xiàn),通常的回歸形式是:

創(chuàng)建模型,從停止死記硬背開始

在邏輯回歸中,輸出創(chuàng)建模型,從停止死記硬背開始應該給出給定創(chuàng)建模型,從停止死記硬背開始特征時創(chuàng)建模型,從停止死記硬背開始取值是1的概率。如上所述,我們會有疑問,因為模型的右側輸出創(chuàng)建模型,從停止死記硬背開始范圍的值,而左側應該位于[0,1]范圍內。

因此,要使用上述模型就需要將輸出從[0,1]轉換為整個實數(shù)R范圍。logit 函數(shù)是最佳選擇,因為它的邏輯回歸映射為:[0,1]→R。

創(chuàng)建模型,從停止死記硬背開始

因此,如果輸出是由logit函數(shù)創(chuàng)建模型,從停止死記硬背開始產生的,可以使用多元回歸技術。這是邏輯回歸的基本思想:

創(chuàng)建模型,從停止死記硬背開始

最后,可以利用logit函數(shù)的倒數(shù),得到實際的概率:

創(chuàng)建模型,從停止死記硬背開始

其中,創(chuàng)建模型,從停止死記硬背開始通過以下方式給出:

創(chuàng)建模型,從停止死記硬背開始

邏輯回歸是廣義線性模型(GLM)一系列技術中的一個實例。廣義線性模型包括一個線性預測函數(shù)

創(chuàng)建模型,從停止死記硬背開始和一個將線性預測函數(shù)映射到響應變量的鏈接函數(shù)g( ):


創(chuàng)建模型,從停止死記硬背開始

這用R語言很容易實現(xiàn),只需將lm( )函數(shù)改為glm( )函數(shù),并指定要使用的鏈接函數(shù)。

創(chuàng)建模型,從停止死記硬背開始

使用logistic回歸和模型比較進行兩樣本比例檢驗,注意p值與上面得到的結果相匹配

在上述情況下,我們實際擬合了兩個邏輯回歸,第一個是實際想要建立的模型,第二個與雙樣本比例檢驗的原假設等價。僅擬合截距(?1以上),兩個球員的罰球百分比必須相同。

然后使用anova( )函數(shù)來比較建立的模型和原假設模型,指定方差分析使用似然比檢驗(LRT)。當然,通常要注意取與上面的比例檢驗相同的p值。

另外,通過這個例子展示了如何使用回歸模型和anova命令來進行模型選擇。實際上,這是我們一直努力的方向,因為原假設一直是一個模型,以前不需要在anova命令中指定它,這也向我們展示了如何開始將建立的模型與更復雜的原假設模型進行比較。

通過模型選擇可以比較模型并超越普通的原假設模型。

九、為什么這很重要?

數(shù)學模型自然級數(shù)的花式圖解如下所示:

創(chuàng)建模型,從停止死記硬背開始

RIP模型,讓此成為研究深度學習的警示!

當我們被迫將統(tǒng)計檢驗視作數(shù)學模型時,假設就成為了最核心的部分。研究者所希望的,是能在模型生命周期的前兩個階段維持更長的時間。而且,這就意味著我們可以停止記憶一堆統(tǒng)計檢驗知識。

創(chuàng)建模型,從停止死記硬背開始。

大家如果想繼續(xù)學習該主題,強烈建議查看 Jonas Lindel?v 的網站:

  • https://lindeloev.github.io/tests-as-linear/

教科書方面,我推薦《Statistical Rethinking》,另外基礎統(tǒng)計學類的書籍,大家可嘗試閱讀下《All of Statistics》;而一些更高級的回歸分析方面的書籍,我建議大家關注一下Gelman和Hill兩位學者。

via https://towardsdatascience.com/everything-is-just-a-regression-5a3bf22c459c?gi=fdba1e4d53ca 雷鋒網雷鋒網雷鋒網

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

創(chuàng)建模型,從停止死記硬背開始

分享:

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說