1
本文作者: 大壯旅 | 2016-11-12 10:53 |
編者按:數(shù)據(jù)集可謂是數(shù)據(jù)科學(xué)的練兵場,不管是對菜鳥入門還是老司機(jī)上路,能找到一個好用的數(shù)據(jù)集無異于如虎添翼。以下是雷鋒網(wǎng)整理編譯的 17 個常用數(shù)據(jù)集,并列舉了適用的典型問題,從菜鳥到老司機(jī),總有一款適合你。
在模式識別文獻(xiàn)中,Iris 數(shù)據(jù)集恐怕是最通用也是最簡單的數(shù)據(jù)集了。要學(xué)習(xí)分類技術(shù),Iris 數(shù)據(jù)集絕對是最方便的途徑。如果你之前從未接觸過數(shù)據(jù)科學(xué)這一概念,從這里開始一定沒錯,因?yàn)樵摂?shù)據(jù)集只有 4 列 150 行。
典型問題:在可用屬性基礎(chǔ)上預(yù)測花的類型。
泰坦尼克數(shù)據(jù)集也是全球數(shù)據(jù)科學(xué)殿堂中出鏡率最高的數(shù)據(jù)集之一。借助一些教程和指導(dǎo),泰坦尼克數(shù)據(jù)集可以讓你深入了解數(shù)據(jù)科學(xué)。通過對類別、數(shù)字、文本等數(shù)據(jù)的結(jié)合,你能從該數(shù)據(jù)集中總結(jié)出最瘋狂的想法。該數(shù)據(jù)集更重視分類問題,共有 12 列 891 行。
典型問題:預(yù)測泰坦尼克號上生還的幸存者人數(shù)。
在所有行業(yè)中,最為倚重數(shù)據(jù)分析技術(shù)的就是保險業(yè)。貸款預(yù)測數(shù)據(jù)集可以讓保險公司對即將面對的挑戰(zhàn)、選擇的應(yīng)對方式和影響有一個清晰的認(rèn)識。與泰坦尼克數(shù)據(jù)集相同,它也是一個分類問題,該數(shù)據(jù)集共有 13 列 615 行。
典型問題:預(yù)測貸款申請能否得到批準(zhǔn)。
零售業(yè)也是數(shù)據(jù)分析技術(shù)的重度使用者之一,它們可以利用分析數(shù)據(jù)來優(yōu)化整個商業(yè)流程。利用數(shù)據(jù)科學(xué)技術(shù),管理人員可以準(zhǔn)確的完成產(chǎn)品分配、庫存管理、供貨和打包等復(fù)雜流程。這一數(shù)據(jù)集的名字已經(jīng)透露出了它的屬性,它就是商店的交易記錄,主要解決回歸問題。該數(shù)據(jù)集共有 12 列 8523 行。
典型問題:預(yù)測銷售情況。
該數(shù)據(jù)集也是模式識別文獻(xiàn)中的典型數(shù)據(jù)集,該數(shù)據(jù)集得名是因?yàn)椴ㄊ款D的房地產(chǎn)行業(yè),同時它也是一個回歸問題。該數(shù)據(jù)集共有 14 列 8506 行。因此,即使你手上的筆記本電腦性能較弱也能 Hold 住該數(shù)據(jù)集。
典型問題:預(yù)測房屋售價的中間值。
該數(shù)據(jù)集是由 30 個受試人智能手機(jī)內(nèi)置的傳感器收集的。許多機(jī)器學(xué)習(xí)課程中該數(shù)據(jù)集是學(xué)生聯(lián)手的重要助手。該數(shù)據(jù)集屬于多標(biāo)記分類問題,共有 561 列 10299 行。
典型問題:預(yù)測人類活動的類別。
該數(shù)據(jù)集主要是由零售店的交易記錄組成的,它在數(shù)據(jù)集界資格很老,可以幫助商家了解自己商店每天的購物體驗(yàn)。“黑五”數(shù)據(jù)集也是個回歸問題,它共有 12 列 550069 行。
典型問題:預(yù)測消費(fèi)者購物量。
該數(shù)據(jù)集包含航空公司飛行數(shù)據(jù)中關(guān)于航空安全問題的報告,屬于多標(biāo)記分類的高維問題,雷鋒網(wǎng)了解到它共有 30438 列 21519 行。
典型問題:根據(jù)標(biāo)簽為文檔分類。
該數(shù)據(jù)即來源于美國的一個單車分享服務(wù),想掌握它,你必須擁有專業(yè)的數(shù)據(jù)整理技巧。該數(shù)據(jù)集 2010 年第四季度開始每季度都會總結(jié)出一個新文檔,每個文檔則擁有 7 列。它屬于典型的分類問題。
典型問題:預(yù)測用戶的類型。
是不是覺得很新奇,原來這項技術(shù)還能用在娛樂業(yè)啊。該數(shù)據(jù)集能幫你完成回歸問題,它包括 515345 個觀察值和 90 個變量。不過,這還只是百萬首歌曲數(shù)據(jù)庫中的一個小子集。
典型問題:預(yù)測發(fā)行歌曲的最佳年份。
該數(shù)據(jù)集屬于非平衡數(shù)據(jù)分類和機(jī)器學(xué)習(xí)問題。眾多周知,機(jī)器學(xué)習(xí)在解決非平衡問題上效果顯著,它可以執(zhí)行癌癥和欺詐檢測等任務(wù)。該數(shù)據(jù)集共有 14 列 48842 行。
典型問題:預(yù)測美國人的收入階層。
利用該數(shù)據(jù)集,你能搭建一個推薦引擎。同時,該數(shù)據(jù)集也是數(shù)據(jù)科學(xué)行業(yè)的老兵之一,它可運(yùn)用在許多領(lǐng)域。它數(shù)據(jù)相當(dāng)龐大,共有 4000 部電影和 6000 多位用戶發(fā)出的超過 100 萬個評分。
典型問題:為用戶推薦新電影。
該數(shù)據(jù)集能讓你學(xué)習(xí)、分析并認(rèn)識圖片中的各種元素,它就是相機(jī)中圖片和面部識別的技術(shù)基礎(chǔ)。該數(shù)據(jù)技術(shù)與數(shù)字識別問題,共有 28x28 大小的圖片 7 千張,大小為 31MB。
典型問題:在圖片中定義數(shù)字。
該數(shù)據(jù)集誕生于著名的 Yelp 數(shù)據(jù)集挑戰(zhàn)賽第 8 輪。它由 20 萬張圖片組稱,3 個 json 文檔的大小都達(dá)到了 2 GB。這些圖片包含了 4 個不同國家 10 大城市本地企業(yè)的信息,你需要通過文化、季節(jié)、數(shù)據(jù)挖掘、社交圖挖掘和類別推斷等方式來洞察復(fù)雜的數(shù)據(jù)。
典型問題:從圖片中找亮點(diǎn)。
ImageNet數(shù)據(jù)集可以運(yùn)用在多種問題中,包括目標(biāo)檢測、定位、分類和屏幕解析。眼下,其圖片引擎中共有 1419 萬多張圖片,容量達(dá)到了 140GB ,你可以任選圖片并圍繞其打造自己的項目。
典型問題:問題的解決要圍繞下載的圖片展開。
說到數(shù)據(jù)集,KDD Cup 這一大名可不能不提,它是世界上首個國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽。KDD 1999 數(shù)據(jù)集屬于分類問題,它共包含 48 列和 400 萬行,文檔體積約為 1.2GB 。
典型問題:判斷網(wǎng)絡(luò)入侵探測器是否完成了任務(wù)。
如今,能否 Hold 住大型的數(shù)據(jù)集已經(jīng)是檢驗(yàn)數(shù)據(jù)專家是否合格的試金石了。許多數(shù)據(jù)分析公司不再依靠簡單的模型,它們開始使用完整的數(shù)據(jù)。通過該數(shù)據(jù)集,你能掌握大量在自己電腦上分析大型數(shù)據(jù)集的經(jīng)驗(yàn)。想解決這一問題不難,但學(xué)會數(shù)據(jù)管理并不容易。芝加哥犯罪數(shù)據(jù)集中共有 600 萬個觀察值,屬于典型的多標(biāo)記分類問題。
典型問題:預(yù)測犯罪的類型。
via Analytics Vidhya
推薦閱讀:
干貨 | 如何從零學(xué)習(xí)人工智能?最好的資源都在這里了
神經(jīng)網(wǎng)絡(luò)初學(xué)者指南:基于Scikit-Learn的Python模塊
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。