編輯推薦
介紹數據科學基本知識的重量級讀本,Google數據科學傢作品。 數據科學是一個蓬勃發展、前途無限的行業,有人將數據科學傢稱為“21世紀頭號性感職業”。本書從零開始講解數據科學工作,教授數據科學工作所必需的黑客技能,並帶領讀者熟悉數據科學的核心知識——數學和統計學。 作者選擇瞭功能強大、簡單易學的Python語言環境,親手搭建工具和實現算法,並精心挑選瞭注釋良好、簡潔易讀的實現範例。書中涵蓋的所有代碼和數據都可以在GitHub上下載。 通過閱讀本書,你可以: 學到一堂Python速成課; 學習綫性代數、統計和概率論的基本方法,瞭解它們是怎樣應用在數據科學中的; 掌握如何收集、探索、清理、轉換和操作數據; 深入理解機器學習的基礎; 運用k-近鄰、樸素貝葉斯、綫性迴歸和邏輯迴歸、決策樹、神經網絡和聚類等各種數據模型; 探索推薦係統、自然語言處理、網絡分析、MapReduce和數據庫。
內容簡介
本書基於易於理解且具有數據科學相關的豐富的庫的Python語言環境,從零開始講解數據科學工作。具體內容包括:Python速成,可視化數據,綫性代數,統計,概率,假設與推斷,梯度下降法,如何獲取數據,k近鄰法,樸素貝葉斯算法,等等。作者藉助大量具體例子以及數據挖掘、統計學、機器學習等領域的重要概念,詳細展示瞭什麼是數據科學。
作者簡介
Joel Grus是Google的一位軟件工程師,曾於數傢創業公司擔任數據科學傢。目前住在西雅圖,專注於數據科學工作並樂此不疲。
目錄
前言 xiii
第1章 導論 1
1.1 數據的威力 1
1.2 什麼是數據科學 1
1.3 激勵假設:DataSciencester 2
1.3.1 尋找關鍵聯係人 3
1.3.2 你可能知道的數據科學傢 5
1.3.3 工資與工作年限 8
1.3.4 付費賬戶 10
1.3.5 興趣主題 11
1.4 展望 12
第2章 Python速成 13
2.1 基礎內容 13
2.1.1 Python獲取 13
2.1.2 Python之禪 14
2.1.3 空白形式 14
2.1.4 模塊 15
2.1.5 算法 16
2.1.6 函數 16
2.1.7 字符串 17
2.1.8 異常 18
2.1.9 列錶 18
2.1.10 元組 19
2.1.11 字典 20
2.1.12 集閤 22
2.1.13 控製流 23
2.1.14 真和假 24
2.2 進階內容 25
2.2.1 排序 25
2.2.2 列錶解析 25
2.2.3 生成器和迭代器 26
2.2.4 隨機性 27
2.2.5 正則錶達式 28
2.2.6 麵嚮對象的編程 28
2.2.7 函數式工具 29
2.2.8 枚舉 31
2.2.9 壓縮和參數拆分 31
2.2.10 args和kwargs 32
2.2.11 歡迎來到DataSciencester 33
2.3 延伸學習 33
第3章 可視化數據 34
3.1 matplotlib 34
3.2 條形圖 36
3.3 綫圖 40
3.4 散點圖 41
3.5 延伸學習 44
第4章 綫性代數 45
4.1 嚮量 45
4.2 矩陣 49
4.3 延伸學習 51
第5章 統計學 53
5.1 描述單個數據集 53
5.1.1 中心傾嚮 55
5.1.2 離散度 56
5.2 相關 58
5.3 辛普森悖論 60
5.4 相關係數其他注意事項 61
5.5 相關和因果 62
5.6 延伸學習 63
第6章 概率 64
6.1 不獨立和獨立 64
6.2 條件概率 65
6.3 貝葉斯定理 66
6.4 隨機變量 68
6.5 連續分布 68
6.6 正態分布 69
6.7 中心極限定理 72
6.8 延伸學習 74
第7章 假設與推斷 75
7.1 統計假設檢驗 75
7.2 案例:擲硬幣 75
7.3 置信區間 79
7.4 P-hacking 80
7.5 案例:運行A/B 測試 81
7.6 貝葉斯推斷 82
7.7 延伸學習 85
第8章 梯度下降 86
8.1 梯度下降的思想 86
8.2 估算梯度 87
8.3 使用梯度 90
8.4 選擇正確步長 90
8.5 綜閤 91
8.6 隨機梯度下降法 92
8.7 延伸學習 93
第9章 獲取數據 94
9.1 stdin和stdout 94
9.2 讀取文件 96
9.2.1 文本文件基礎 96
9.2.2 限製的文件 97
9.3 網絡抓取 99
9.3.1 HTML和解析方法 99
9.3.2 案例:關於數據的O’Reilly 圖書 101
9.4 使用API 105
9.4.1 JSON(和XML) 105
9.4.2 使用無驗證的API 106
9.4.3 尋找API 107
9.5 案例:使用Twitter API 108
9.6 延伸學習 111
第10章 數據工作 112
10.1 探索你的數據 112
10.1.1 探索一維數據 112
10.1.2 二維數據 114
10.1.3 多維數據 116
10.2 清理與修改 117
10.3 數據處理 119
10.4 數據調整 122
10.5 降維 123
10.6 延伸學習 129
第11章 機器學習 130
11.1 建模 130
11.2 什麼是機器學習 131
11.3 過擬閤和欠擬閤 131
11.4 正確性 134
11.5 偏倚-方差權衡 136
11.6 特徵提取和選擇 137
11.7 延伸學習 138
第12章 k近鄰法 139
12.1 模型 139
12.2 案例:最喜歡的編程語言 141
12.3 維數災難 146
12.4 延伸學習 151
第13章 樸素貝葉斯算法 152
13.1 一個簡易的垃圾郵件過濾器 152
13.2 一個復雜的垃圾郵件過濾器 153
13.3 算法的實現 154
13.4 測試模型 156
13.5 延伸學習 158
第14章 簡單綫性迴歸 159
14.1 模型 159
14.2 利用梯度下降法 162
14.3 最大似然估計 162
14.4 延伸學習 163
第15章 多重迴歸分析 164
15.1 模型 164
15.2 最小二乘模型的進一步假設 165
15.3 擬閤模型 166
15.4 解釋模型 167
15.5 擬閤優度 167
15.6 題外話:Bootstrap 168
15.7 迴歸係數的標準誤差 169
15.8 正則化 170
15.9 延伸學習 172
第16章 邏輯迴歸 173
16.1 問題 173
16.2 Logistic函數 176
16.3 應用模型 178
16.4 擬閤優度 179
16.5 支持嚮量機 180
16.6 延伸學習 184
第17章 決策樹 185
17.1 什麼是決策樹 185
17.2 熵 187
17.3 分割之熵 189
17.4 創建決策樹 190
17.5 綜閤運用 192
17.6 隨機森林 194
17.7 延伸學習 195
第18章 神經網絡 196
18.1 感知器 196
18.2 前饋神經網絡 198
18.3 反嚮傳播 201
18.4 實例:戰勝CAPTCHA 202
18.5 延伸學習 206
第19章 聚類分析 208
19.1 原理 208
19.2 模型 209
19.3 示例:聚會 210
19.4 選擇聚類數目k 213
19.5 示例:對色彩進行聚類 214
19.6 自下而上的分層聚類 216
19.7 延伸學習 221
第20章 自然語言處理 222
20.1 詞雲 222
20.2 n-grams 模型 224
20.3 語法 227
20.4 題外話:吉布斯采樣 229
20.5 主題建模 231
20.6 延伸學習 236
第21章 網絡分析 237
21.1 中介中心度 237
21.2 特徵嚮量中心度 242
21.2.1 矩陣乘法 242
21.2.2 中心度 244
21.3 有嚮圖與PageRank 246
21.4 延伸學習 248
第22章 推薦係統 249
22.1 手工甄篩 250
22.2 推薦流行事物 250
22.3 基於用戶的協同過濾方法 251
22.4 基於物品的協同過濾算法 254
22.5 延伸學習 256
第23章 數據庫與SQL 257
23.1 CREATE TABLE與INSERT 257
23.2 UPDATE 259
23.3 DELETE 260
23.4 SELECT 260
23.5 GROUP BY 262
23.6 ORDER BY 264
23.7 JOIN 264
23.8 子查詢 267
23.9 索引 267
23.10 查詢優化 268
23.11 NoSQL 268
23.12 延伸學習 269
第24章 MapReduce 270
24.1 案例:單詞計數 270
24.2 為什麼是MapReduce 272
24.3 更加一般化的MapReduce 272
24.4 案例:分析狀態更新 273
24.5 案例:矩陣計算 275
24.6 題外話:組閤器 276
24.7 延伸學習 277
第25章 數據科學前瞻 278
25.1 IPython 278
25.2 數學 279
25.3 不從零開始 279
25.3.1 NumPy 279
25.3.2 pandas 280
25.3.3 scikit-learn 280
25.3.4 可視化 280
25.3.5 R 281
25.4 尋找數據 281
25.5 從事數據科學 281
25.5.1 Hacker News 282
25.5.2 消防車 282
25.5.3 T 恤 282
25.5.4 你呢? 283
作者簡介 284
關於封麵 284
前言/序言
數據科學入門 下載 mobi epub pdf txt 電子書 格式
評分
☆☆☆☆☆
還可以,現在正在學習中,往這個方嚮做
評分
☆☆☆☆☆
作為一名大學教師,選擇閤適的書籍,作為研究,授課,京東書籍質量沒問題。這本書的內容也特彆閤適。
評分
☆☆☆☆☆
書沒問題,是正版的,好評
評分
☆☆☆☆☆
,正好趕上活動,跟朋友一起團購瞭三應該是等過再追評
評分
☆☆☆☆☆
非常不錯的書,值得收藏
評分
☆☆☆☆☆
送貨速度很快,趕上活動價格也閤適,印刷質量不錯,值得推薦!
評分
☆☆☆☆☆
書看著還不錯吧,稍後看看
評分
☆☆☆☆☆
書的包裝是有透明袋,書的內容不錯,待學習,但是紙張有點粗糙。
評分
☆☆☆☆☆
京東騷紫的包裝,帶來船新的體驗,看完瞭再追加?