丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給WBLUE
發(fā)送

0

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

本文作者: WBLUE 編輯:汪思穎 2018-04-10 11:23
導(dǎo)語:本文將介紹圖像類比賽的數(shù)據(jù)處理經(jīng)驗,以樹葉分類競賽(Leaf Classification)和肺癌檢測比賽(Data Science Bowl 2017)為例。

雷鋒網(wǎng) AI 研習(xí)社按,在數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(上)一文中,AI 研習(xí)社介紹了結(jié)構(gòu)化數(shù)據(jù)和 NLP 數(shù)據(jù)的處理方式,其中包括對 Titanic,房價預(yù)測,惡意評論分類,恐怖小說家身份識別四個比賽的詳細分析。

本文將介紹圖像類比賽的數(shù)據(jù)處理經(jīng)驗,以樹葉分類競賽(Leaf Classification)和肺癌檢測比賽(Data Science Bowl 2017)為例。

正文如下,雷鋒網(wǎng) AI 研習(xí)社編譯整理:

圖像

到目前為止,我介紹的都是文本(語言、字符串或數(shù)字)數(shù)據(jù)集,最后我將帶來兩個圖像數(shù)據(jù)集的分析。

我選的這兩個比賽(肺癌檢測樹葉分類)比我看過的其他比賽更具專業(yè)特色,這里的分析不再是基本分析,著重于探索不同技術(shù),因此適用于更高階的讀者。

在可視化技術(shù)以及特征構(gòu)建方面,我看到了很多變化。特別是肺癌比賽中,一些作者利用現(xiàn)有的醫(yī)學(xué)知識構(gòu)建極具專業(yè)特色的特征,雖然不能說這些特征的效果有多好,但是這里可視化效果令人驚嘆。

樹葉分類

競賽中提供的數(shù)據(jù)集包括 1584 個按品種分類的被標記的樹葉圖像,參賽者需要建立一個對標記之外樹葉圖像分類的模型。

我選擇用于分析的 EDA 是 lorinc 的 Feature Extraction From Images,selfishgene 的 Visualizing PCA with Leaf Dataset 以及 Jose Alberto 的 Fast Image Exploration。

第一步最好先仔細瞧一瞧樹葉的圖像。

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

selfishgene 檢查樹葉標本

Jose 繪制出各個種類的樹葉,并指出每個種類有 10 張圖片。他還觀察了同類樹葉間的相似性。

lorinc 直接跳入分析階段,定位每片葉子的中心并應(yīng)用邊緣檢測技術(shù),他還將葉子的輪廓轉(zhuǎn)換為極坐標,以便更有效地測量葉子的中心:

之后,當我們使用邊與中心之間的距離從形狀生成時間序列時,我們可能想要轉(zhuǎn)換到另一種中心性度量——根據(jù)該中心的有效性。一種方法是測量中心和邊緣之間的(歐幾里德)距離......但是有一個更好的方法——我們將笛卡爾坐標投影到極坐標中。

selfishgene 選擇看圖像的方差方向:

在高維圖像空間中,每個圖像都可以被看成是不同的「方向」。

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

Selfishgene 看到的樹葉圖像的方差

selfishgene 也花費了一些時間來研究圖像重建、平均圖像周圍的模型變化以及特征向量,他解釋道:

最上面一行包含每個特征向量的數(shù)據(jù)分布(沿著「方向」的直方圖),第二行包含了我們在前面的圖中已經(jīng)看到的方差方向,第四行包含了樹葉的中值圖像,值得注意的是,這一行對于所有的特征向量是相同的。

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

selfishgene 看到的模型變形

特征檢測

lorinc 建議將每個樣例分成兩部分,并將它們作為兩個樣例處理(盡管他不采用這種方法)。lorinc 從時間序列中找到局部最大值和最小值(例如,繪制在極坐標中的樹葉)并記錄道:

我很驚訝于這個方法表現(xiàn)得相當不錯。我認為我可以從中構(gòu)建出一個非常有效的特征。但是這種方法的魯棒性不是很好:

對于樹葉#19,它沒有找到樹葉的末端,只找到了與中心距離最遠的點。對于樹葉#78,可以看到在更復(fù)雜或有旋轉(zhuǎn)的葉片上效果很差。

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

lorinc 繪制在極坐標中所測葉子的最小值和最大值

在發(fā)現(xiàn)每片樹葉周圍存在噪音之后,lorinc 談到數(shù)學(xué)形態(tài)學(xué)。他花了一些時間弄清楚如何去除圖像中的噪點,并用可愛的圖像來顯示疊加在樹葉上的距離圖:

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

lerinc 測量距離葉子中心的距離

肺癌

我選擇的 EDA 是 Guido Zuidhof 的 Full Preprocessing Tutorial,Mikel Bober-Irizar 的 Exploratory Data Analysis 和 Alexandru Papiu 的 Exploratory Analysis Visualization。

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

anokas 檢查單個圖像的元數(shù)據(jù),可以看到病人出生日期被隱匿(19000101)

2017 年的 Data Science Bowl 比賽要求參賽者通過檢測一組圖像來預(yù)測患者是否患有癌癥。雖然在這一競賽中確實有結(jié)構(gòu)化數(shù)據(jù)(自動嵌入圖像中的標簽信息),但其中一些數(shù)據(jù)是匿名的,也就是說,那些原本具有預(yù)測價值的特征(比如患者的年齡)用不了。這意味著所有的 kernel 只專注于圖像分析。

在三個 kernel 作者中,Guido 是唯一一個結(jié)合醫(yī)學(xué)圖像來討論的人,這點在他對數(shù)據(jù)集的分析中可以看出來:

Dicom 是醫(yī)學(xué)影像文件標準,這些文件中包含大量元數(shù)據(jù)(例如像素大?。?。不同掃描中的像素大小、粒度都不同(例如,切片之間的距離可能不同),這可能會影響 CNN 的性能。我們可以用同構(gòu)重采樣來處理。

另外兩位作者通過對數(shù)據(jù)集和圖像本身進行更全面的探索開始了他們的 EDA。

apapie 檢查了圖像的形狀,而 anokas 開始觀察每個病人的掃描次數(shù)、總掃描次數(shù)和每個病人的 DICOM 文件直方圖,他還檢查了 ID 和病人是否患有癌癥是否存在關(guān)系(他發(fā)現(xiàn)沒有關(guān)系,這意味著數(shù)據(jù)集的排列是很有序的)。

Alexandru 對像素進行分配并繪制圖像:

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

Guido 在 EDA 中闡明了 HU 所代表的東西(空氣,組織和骨骼):

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

圖像

每位作者都在繼續(xù)研究這些圖片:

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

Anokas 觀察一組患者圖像

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

Alexandru 通過 X 射線看圖像

Alexandru 花了一些時間研究邊緣檢測是否能增強圖像。

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

提高閾值后,Alexandru 呈現(xiàn)出一些比較醒目的圖像

Alexandru 總結(jié)道:

有趣的是,過濾器也能檢測到肺里的血管,因此,一些用于區(qū)分球體和管道的三維表面探測區(qū)分技術(shù)將更適合這種情況。

同時,Guido 討論了重采樣,重點關(guān)注了 DICOM 圖像的基本性質(zhì):

一次掃描可能存在一個像素間距[2.5,0.5,0.5],這意味著切片之間的距離是 2.5 毫米。對于不同的掃描,可能是[1.5,0.725,0.725],這對于自動分析來說存在一定問題(例如使用 ConvNets 的時候)。處理這一問題的常見方法是將完整的數(shù)據(jù)集重新取樣到確定的等向性分辨率(isotropic resolution)中,如果我們選擇將所有的數(shù)據(jù)重新采樣到 1mm*1mm*1mm 的像素中,這樣就可以使用 3D 卷積網(wǎng)絡(luò)而不用擔(dān)心學(xué)習(xí)縮放與切片厚度的固定。

之后,Guido 在 EDA 中合并了多個 DICOM 圖像完成檢測部位的三維圖:

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

在另一個版本中,去除周圍的空氣以減少內(nèi)存:

 數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

3D圖像

點評

這次競賽是我所見過的最與眾不同的。鑒于 Guido 對醫(yī)學(xué)圖像的熟悉,他能夠利用這一背景來得出更微妙的結(jié)論。但這并沒有阻止其他兩位缺乏醫(yī)學(xué)背景的作者得出同樣有趣的結(jié)論。

總結(jié)

  • 結(jié)構(gòu)化數(shù)據(jù)

對于結(jié)構(gòu)化數(shù)據(jù),分析時傾向于尋找目標變量和其他變量之間的相關(guān)性,需要花費相當多的時間進行可視化或?qū)ψ兞窟M行排序。

對于較小的數(shù)據(jù)集,可以分析的數(shù)據(jù)只有這么多列,然而,不同的參賽者使用了截然不同的可視化方法,在選擇特征工程方面更極具創(chuàng)造性。

  • 自然語言數(shù)據(jù)集

從這些 EDA 中可以看到,大家在處理自然語言數(shù)據(jù)集時有相似之處,但在特征工程的選擇以及分析中,會得出不同結(jié)論,產(chǎn)生很大的變化。

  • 圖像數(shù)據(jù)集

圖像競賽中,在分析和特征工程方面表現(xiàn)出了極大的多樣化。我所看到的圖像競賽主要是針對有一定積累的參賽者,而且是在一些特定領(lǐng)域,這可能會產(chǎn)生更超前的多樣性。

當數(shù)據(jù)集變得更加專業(yè)或深奧時,介紹性的分析和解釋就會減少,而比較深入和專業(yè)化的分析就會增加,而這正是我所看到的。雖然不同類型的數(shù)據(jù)有明顯不同的趨勢,但專業(yè)領(lǐng)域知識起著重要的作用。在肺癌和葉片競賽中,引入專業(yè)領(lǐng)域知識到研究中,可以支撐更深層次的分析。(有趣的是,我在自己的研究中也遇到過這種情況,Jeremy Howard 在他的 fast.ai 課程里討論了 Rossman 的數(shù)據(jù)集,以及最成功的模型是如何集成第三方數(shù)據(jù)集,如溫度、存儲位置等,從而做出更準確的銷售預(yù)測。)

參賽者處理特征工程的時候,并沒有一個統(tǒng)一的過程。有些人選擇在分析時開始,而另一些人則在最初的分析完成之后,將其作為一個單獨的步驟。

最后,我看到的每一份分析手冊都有確定的讀者(初學(xué)者或資深研究者),這會影響分析和寫作。

在一些更受歡迎的比賽中,或是針對普通研究人員的比賽中,EDA 分析都是詳盡無遺的。在這些 EDA 中,我也看到了一種趨勢,即在分析的同時穿插補充或敘事來幫助初學(xué)者更好地理解技術(shù)。

相比之下,針對更資深的研究者的筆記則傾向于去掉多余的敘述性描述,許多還跳過了基本的數(shù)據(jù)分析,而是直接轉(zhuǎn)到特定領(lǐng)域的技術(shù)中去。

特別鳴謝 Michelle Lew、Ari ZilnikSean Matthews 和 Bethany Basile,感謝他們對這篇文章的審閱。

via:thekevinscott.com

雷鋒網(wǎng) AI 研習(xí)社編譯整理。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

分享:
相關(guān)文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說