1
本文作者: 大壯旅 | 2016-11-12 10:53 |
編者按:數(shù)據(jù)集可謂是數(shù)據(jù)科學的練兵場,不管是對菜鳥入門還是老司機上路,能找到一個好用的數(shù)據(jù)集無異于如虎添翼。以下是雷鋒網(wǎng)整理編譯的 17 個常用數(shù)據(jù)集,并列舉了適用的典型問題,從菜鳥到老司機,總有一款適合你。
在模式識別文獻中,Iris 數(shù)據(jù)集恐怕是最通用也是最簡單的數(shù)據(jù)集了。要學習分類技術(shù),Iris 數(shù)據(jù)集絕對是最方便的途徑。如果你之前從未接觸過數(shù)據(jù)科學這一概念,從這里開始一定沒錯,因為該數(shù)據(jù)集只有 4 列 150 行。
典型問題:在可用屬性基礎(chǔ)上預測花的類型。
泰坦尼克數(shù)據(jù)集也是全球數(shù)據(jù)科學殿堂中出鏡率最高的數(shù)據(jù)集之一。借助一些教程和指導,泰坦尼克數(shù)據(jù)集可以讓你深入了解數(shù)據(jù)科學。通過對類別、數(shù)字、文本等數(shù)據(jù)的結(jié)合,你能從該數(shù)據(jù)集中總結(jié)出最瘋狂的想法。該數(shù)據(jù)集更重視分類問題,共有 12 列 891 行。
典型問題:預測泰坦尼克號上生還的幸存者人數(shù)。
在所有行業(yè)中,最為倚重數(shù)據(jù)分析技術(shù)的就是保險業(yè)。貸款預測數(shù)據(jù)集可以讓保險公司對即將面對的挑戰(zhàn)、選擇的應對方式和影響有一個清晰的認識。與泰坦尼克數(shù)據(jù)集相同,它也是一個分類問題,該數(shù)據(jù)集共有 13 列 615 行。
典型問題:預測貸款申請能否得到批準。
零售業(yè)也是數(shù)據(jù)分析技術(shù)的重度使用者之一,它們可以利用分析數(shù)據(jù)來優(yōu)化整個商業(yè)流程。利用數(shù)據(jù)科學技術(shù),管理人員可以準確的完成產(chǎn)品分配、庫存管理、供貨和打包等復雜流程。這一數(shù)據(jù)集的名字已經(jīng)透露出了它的屬性,它就是商店的交易記錄,主要解決回歸問題。該數(shù)據(jù)集共有 12 列 8523 行。
典型問題:預測銷售情況。
該數(shù)據(jù)集也是模式識別文獻中的典型數(shù)據(jù)集,該數(shù)據(jù)集得名是因為波士頓的房地產(chǎn)行業(yè),同時它也是一個回歸問題。該數(shù)據(jù)集共有 14 列 8506 行。因此,即使你手上的筆記本電腦性能較弱也能 Hold 住該數(shù)據(jù)集。
典型問題:預測房屋售價的中間值。
該數(shù)據(jù)集是由 30 個受試人智能手機內(nèi)置的傳感器收集的。許多機器學習課程中該數(shù)據(jù)集是學生聯(lián)手的重要助手。該數(shù)據(jù)集屬于多標記分類問題,共有 561 列 10299 行。
典型問題:預測人類活動的類別。
該數(shù)據(jù)集主要是由零售店的交易記錄組成的,它在數(shù)據(jù)集界資格很老,可以幫助商家了解自己商店每天的購物體驗?!昂谖濉睌?shù)據(jù)集也是個回歸問題,它共有 12 列 550069 行。
典型問題:預測消費者購物量。
該數(shù)據(jù)集包含航空公司飛行數(shù)據(jù)中關(guān)于航空安全問題的報告,屬于多標記分類的高維問題,雷鋒網(wǎng)了解到它共有 30438 列 21519 行。
典型問題:根據(jù)標簽為文檔分類。
該數(shù)據(jù)即來源于美國的一個單車分享服務,想掌握它,你必須擁有專業(yè)的數(shù)據(jù)整理技巧。該數(shù)據(jù)集 2010 年第四季度開始每季度都會總結(jié)出一個新文檔,每個文檔則擁有 7 列。它屬于典型的分類問題。
典型問題:預測用戶的類型。
是不是覺得很新奇,原來這項技術(shù)還能用在娛樂業(yè)啊。該數(shù)據(jù)集能幫你完成回歸問題,它包括 515345 個觀察值和 90 個變量。不過,這還只是百萬首歌曲數(shù)據(jù)庫中的一個小子集。
典型問題:預測發(fā)行歌曲的最佳年份。
該數(shù)據(jù)集屬于非平衡數(shù)據(jù)分類和機器學習問題。眾多周知,機器學習在解決非平衡問題上效果顯著,它可以執(zhí)行癌癥和欺詐檢測等任務。該數(shù)據(jù)集共有 14 列 48842 行。
典型問題:預測美國人的收入階層。
利用該數(shù)據(jù)集,你能搭建一個推薦引擎。同時,該數(shù)據(jù)集也是數(shù)據(jù)科學行業(yè)的老兵之一,它可運用在許多領(lǐng)域。它數(shù)據(jù)相當龐大,共有 4000 部電影和 6000 多位用戶發(fā)出的超過 100 萬個評分。
典型問題:為用戶推薦新電影。
該數(shù)據(jù)集能讓你學習、分析并認識圖片中的各種元素,它就是相機中圖片和面部識別的技術(shù)基礎(chǔ)。該數(shù)據(jù)技術(shù)與數(shù)字識別問題,共有 28x28 大小的圖片 7 千張,大小為 31MB。
典型問題:在圖片中定義數(shù)字。
該數(shù)據(jù)集誕生于著名的 Yelp 數(shù)據(jù)集挑戰(zhàn)賽第 8 輪。它由 20 萬張圖片組稱,3 個 json 文檔的大小都達到了 2 GB。這些圖片包含了 4 個不同國家 10 大城市本地企業(yè)的信息,你需要通過文化、季節(jié)、數(shù)據(jù)挖掘、社交圖挖掘和類別推斷等方式來洞察復雜的數(shù)據(jù)。
典型問題:從圖片中找亮點。
ImageNet數(shù)據(jù)集可以運用在多種問題中,包括目標檢測、定位、分類和屏幕解析。眼下,其圖片引擎中共有 1419 萬多張圖片,容量達到了 140GB ,你可以任選圖片并圍繞其打造自己的項目。
典型問題:問題的解決要圍繞下載的圖片展開。
說到數(shù)據(jù)集,KDD Cup 這一大名可不能不提,它是世界上首個國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽。KDD 1999 數(shù)據(jù)集屬于分類問題,它共包含 48 列和 400 萬行,文檔體積約為 1.2GB 。
典型問題:判斷網(wǎng)絡(luò)入侵探測器是否完成了任務。
如今,能否 Hold 住大型的數(shù)據(jù)集已經(jīng)是檢驗數(shù)據(jù)專家是否合格的試金石了。許多數(shù)據(jù)分析公司不再依靠簡單的模型,它們開始使用完整的數(shù)據(jù)。通過該數(shù)據(jù)集,你能掌握大量在自己電腦上分析大型數(shù)據(jù)集的經(jīng)驗。想解決這一問題不難,但學會數(shù)據(jù)管理并不容易。芝加哥犯罪數(shù)據(jù)集中共有 600 萬個觀察值,屬于典型的多標記分類問題。
典型問題:預測犯罪的類型。
via Analytics Vidhya
推薦閱讀:
神經(jīng)網(wǎng)絡(luò)初學者指南:基于Scikit-Learn的Python模塊
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。