乾貨 | 從菜鳥到老司機，數據科學的 17 個必用數據集推薦精選

由雷鋒網於 12/11/2016 發表收藏文章

編者按：數據集可謂是數據科學的練兵場，不管是對菜鳥入門還是老司機上路，能找到一個好用的數據集無異於如虎添翼。以下是雷鋒網(公眾號：雷鋒網)整理編譯的 17 個常用數據集，並列舉了適用的典型問題，從菜鳥到老司機，總有一款適合你。

菜鳥入門

1. Iris 數據集在模式識別文獻中，Iris 數據集恐怕是最通用也是最簡單的數據集了。要學習分類技術，Iris 數據集絕對是最方便的途徑。如果你之前從未接觸過數據科學這一概念，從這裏開始一定沒錯，因為該數據集只有 4 列 150 行。

典型問題：在可用屬性基礎上預測花的類型。

2. 泰坦尼克數據集泰坦尼克數據集也是全球數據科學殿堂中出鏡率最高的數據集之一。藉助一些教程和指導，泰坦尼克數據集可以讓你深入了解數據科學。通過對類別、數字、文本等數據的結合，你能從該數據集中總結出最瘋狂的想法。該數據集更重視分類問題，共有 12 列 891 行。

典型問題：預測泰坦尼克號上生還的倖存者人數。

3. 貸款預測數據集在所有行業中，最為倚重數據分析技術的就是保險業。貸款預測數據集可以讓保險公司對即將面對的挑戰、選擇的應對方式和影響有一個清晰的認識。與泰坦尼克數據集相同，它也是一個分類問題，該數據集共有 13 列 615 行。
典型問題：預測貸款申請能否得到批准。

4. 大市場銷售數據集零售業也是數據分析技術的重度使用者之一，它們可以利用分析數據來優化整個商業流程。利用數據科學技術，管理人員可以準確的完成產品分配、庫存管理、供貨和打包等複雜流程。這一數據集的名字已經透露出了它的屬性，它就是商店的交易記錄，主要解決迴歸問題。該數據集共有 12 列 8523 行。

典型問題：預測銷售情況。

5. 波士頓數據集該數據集也是模式識別文獻中的典型數據集，該數據集得名是因為波士頓的房地產行業，同時它也是一個迴歸問題。該數據集共有 14 列 8506 行。因此，即使你手上的筆記本電腦性能較弱也能 Hold 住該數據集。
典型問題：預測房屋售價的中間值。

進階級別

1. 人類活動識別該數據集是由 30 個受試人智能手機內置的傳感器收集的。許多機器學習課程中該數據集是學生聯手的重要助手。該數據集屬於多標記分類問題，共有 561 列 10299 行。

典型問題：預測人類活動的類別。

2. “黑五”數據集該數據集主要是由零售店的交易記錄組成的，它在數據集界資格很老，可以幫助商家了解自己商店每天的購物體驗。“黑五”數據集也是個迴歸問題，它共有 12 列 550069 行。

典型問題：預測消費者購物量。
3. 文本挖掘數據集該數據集包含航空公司飛行數據中關於航空安全問題的報告，屬於多標記分類的高維問題，雷鋒網了解到它共有 30438 列 21519 行。

典型問題：根據標籤為文檔分類。

4. 訪問歷史數據集該數據即來源於美國的一個單車分享服務，想掌握它，你必須擁有專業的數據整理技巧。該數據集 2010 年第四季度開始每季度都會總結出一個新文檔，每個文檔則擁有 7 列。它屬於典型的分類問題。

典型問題：預測用户的類型。

5. 百萬歌曲數據集是不是覺得很新奇，原來這項技術還能用在娛樂業啊。該數據集能幫你完成迴歸問題，它包括 515345 個觀察值和 90 個變量。不過，這還只是百萬首歌曲數據庫中的一個小子集。
典型問題：預測發行歌曲的最佳年份。

6. 人口收入數據集該數據集屬於非平衡數據分類和機器學習問題。眾多周知，機器學習在解決非平衡問題上效果顯著，它可以執行癌症和欺詐檢測等任務。該數據集共有 14 列 48842 行。

典型問題：預測美國人的收入階層。

7. 電影鏡頭數據集利用該數據集，你能搭建一個推薦引擎。同時，該數據集也是數據科學行業的老兵之一，它可運用在許多領域。它數據相當龐大，共有 4000 部電影和 6000 多位用户發出的超過 100 萬個評分。

典型問題：為用户推薦新電影。

老司機級別
1. 數字定義數據集該數據集能讓你學習、分析並認識圖片中的各種元素，它就是相機中圖片和麪部識別的技術基礎。該數據技術與數字識別問題，共有 28x28 大小的圖片 7 千張，大小為 31MB。

典型問題：在圖片中定義數字。

2. Yelp 數據集該數據集誕生於著名的 Yelp 數據集挑戰賽第 8 輪。它由 20 萬張圖片組稱，3 個 json 文檔的大小都達到了 2 GB。這些圖片包含了 4 個不同國家 10 大城市本地企業的信息，你需要通過文化、季節、數據挖掘、社交圖挖掘和類別推斷等方式來洞察複雜的數據。

典型問題：從圖片中找亮點。

3. ImageNet 數據集ImageNet數據集可以運用在多種問題中，包括目標檢測、定位、分類和屏幕解析。眼下，其圖片引擎中共有 1419 萬多張圖片，容量達到了 140GB ，你可以任選圖片並圍繞其打造自己的項目。
典型問題：問題的解決要圍繞下載的圖片展開。

4. KDD 1999 數據集説到數據集，KDD Cup 這一大名可不能不提，它是世界上首個國際知識發現和數據挖掘競賽。KDD 1999 數據集屬於分類問題，它共包含 48 列和 400 萬行，文檔體積約為 1.2GB 。

典型問題：判斷網絡入侵探測器是否完成了任務。

5. 芝加哥犯罪數據集如今，能否 Hold 住大型的數據集已經是檢驗數據專家是否合格的試金石了。許多數據分析公司不再依靠簡單的模型，它們開始使用完整的數據。通過該數據集，你能掌握大量在自己電腦上分析大型數據集的經驗。想解決這一問題不難，但學會數據管理並不容易。芝加哥犯罪數據集中共有 600 萬個觀察值，屬於典型的多標記分類問題。
典型問題：預測犯罪的類型。

via Analytics Vidhya

推薦閲讀：

乾貨 | 如何從零學習人工智能？最好的資源都在這裏了

神經網絡初學者指南：基於Scikit-Learn的Python模塊

雷鋒網原創文章，轉載請註明來源出處