編輯推薦
從業者使用的工具是決定他的工作能否成功的重要因素之一。本書為數據科學傢提供瞭一些在統計學習領域會用到的工具和技巧,為他們在數據科學領域的長期職業生涯提供瞭所需的一套基本工具。針對處理重要的數據科學問題的高級技能,本書也給齣瞭學習的建議。
本書包括以下內容:
機器學習概述 監督機器學習
數據連接 非監督機器學習
數據處理 模型評估
探索性數據分析
本書選用R統計環境。R在全世界範圍內應用越來越廣泛,很多數據科學傢隻使用R就能進行項目工作。本書的所有代碼示例都是用R語言寫的。除此之外,書中還使用瞭很多流行的R包和數據集。
內容簡介
當前,機器學習和數據科學都是很重要和熱門的相關學科,需要深入地研究學習纔能精通。
本書試圖指導讀者掌握如何完成涉及機器學習的數據科學項目。本書將為數據科學傢提供一些在統計學習領域會用到的工具和技巧,涉及數據連接、數據處理、探索性數據分析、監督機器學習、非監督機器學習和模型評估。本書選用的是R統計環境,書中所有代碼示例都是用R語言編寫的,涉及眾多流行的R包和數據集。
本書適閤數據科學傢、數據分析師、軟件開發者以及需要瞭解數據科學和機器學習方法的科研人員閱讀參考。
作者簡介
Daniel D. Gutierrez是一位在職的數據科學傢,就職於加州Santa Monica的谘詢公司AMULET Analytics。為瞭緊跟行業的潮流,Daniel也是insideBIGDATA.com的執行編輯。同時,他也是一位教師,為大學和大型公司開設瞭數據科學、機器學習和R方麵的課程。Deniel本科畢業於UCLA,專業是數學和計算機科學。
目錄
第1章 機器學習綜述 1
1.1 機器學習的分類 2
1.2 機器學習的實際案例 3
1.2.1 預測迴頭客挑戰賽 4
1.2.2 Netflix公司 5
1.2.3 算法交易挑戰賽 6
1.2.4 Heritage健康奬 7
1.3 機器學習的過程 10
1.4 機器學習背後的數學 15
1.5 成為一名數據科學傢 16
1.6 統計計算的R工程 18
1.7 RStudio 19
1.8 使用R包 20
1.9 數據集 22
1.10 在生産中使用R 23
1.11 小結 24
第2章 連接數據 25
2.1 管理你的工作目錄 27
2.2 數據文件的種類 28
2.3 數據的來源 28
2.4 從網絡中下載數據集 29
2.5 讀取CSV文件 31
2.6 讀取Excel文件 33
2.7 使用文件連接 34
2.8 讀取JSON文件 35
2.9 從網站中抓取數據 36
2.10 SQL數據庫 38
2.11 R中的SQL等價錶述 42
2.12 讀取Twitter數據 46
2.13 從榖歌分析中讀取數據 48
2.14 寫數據 51
2.15 小結 53
第3章 數據處理 54
3.1 特徵工程 57
3.2 數據管道 59
3.3 數據采樣 60
3.4 修正變量名 60
3.5 創建新變量 62
3.6 數值離散化 63
3.7 日期處理 65
3.8 將類變量二值化 67
3.9 閤並數據集 68
3.10 排列數據集 70
3.11 重塑數據集 71
3.12 使用dplyr進行數據操作 72
3.13 處理缺失數據 75
3.14 特徵縮放 77
3.15 降維 78
3.16 小結 81
第4章 探索性數據分析 83
4.1 數據統計 84
4.2 探索性可視化 87
4.3 直方圖 88
4.4 箱形圖 89
4.5 條形圖 92
4.6 密度圖 93
4.7 散點圖 95
4.8 QQ圖 101
4.9 熱圖 102
4.10 缺失值的圖錶 103
4.11 解釋性圖錶 104
4.12 小結 106
第5章 迴歸 107
5.1 一元綫性迴歸 108
5.2 多元綫性迴歸 120
5.3 多項式迴歸 127
5.4 小結 134
第6章 分類 136
6.1 一個簡單的例子 137
6.2 邏輯迴歸 139
6.3 分類樹 143
6.4 樸素貝葉斯 147
6.5 K-最近鄰 151
6.6 支持嚮量機 155
6.7 神經網絡 159
6.8 集成 165
6.9 隨機森林 168
6.10 梯度提升機 171
6.11 小結 174
第7章 評估模型性能 176
7.1 過擬閤 177
7.2 偏差和方差 183
7.3 乾擾因子 187
7.4 數據泄漏 188
7.5 測定迴歸性能 190
7.6 測定分類性能 194
7.7 交叉驗證 197
7.8 其他機器學習診斷法 204
7.8.1 獲取更多的訓練觀測數據 205
7.8.2 特徵降維 205
7.8.3 添加新特徵 205
7.8.4 添加多項式特徵 206
7.8.5 對正則化參數進行微調 206
7.9 小結 206
第8章 非監督學習 208
8.1 聚類 209
8.2 模擬聚類 211
8.3 分級聚類 212
8.4 K-均值聚類 219
8.5 主成分分析 224
8.6 小結 233
術語錶 234
機器學習與數據科學 基於R的統計學習方法 下載 mobi epub pdf txt 電子書 格式