編輯推薦
本書涉及數據科學傢感興趣的核心話題,教會讀者從各種各樣的數據源中提取數據,並運用現有的公開可用的R函數和R功能包來處理這些數據。在很多情況下,處理結果能夠以圖形的方式顯示,並獲得更直觀的理解。讀者從中能學到行業內經常使用的主流數據分析技術。
你可以從這本書中學到:
·開發、執行和修改R語言腳本;
·發現、安裝和使用第三方的R語言包;
·規劃你的數據,以獲得好的結果;
·將結果以圖形化的方式展示,包括3D可視化;
·執行你隨時會用到的統計分析;
·權衡不同解決方案的優缺點;
·嘗試R語言的不同功能來微調結果;
·通過R語言的實際例子來學習數據科學;
·利用R語言來探索數據挖掘、數據分析、數據可視化以及機器學習等概念。
內容簡介
本書講述的是R語言在數據科學中的應用,目標讀者是從事不同行業的數據分析師、數據挖掘工程師、機器學習工程師、自然語言處理工程師、數據科學傢,以及從事大數據和人工智能領域的工作者、學生、老師等。
本書的優點在於其通俗易懂、容易上手,每一個實例都有現成的數據和源代碼,讀者不僅能理解整個案例的來龍去脈,還可以直接編譯本書提供的所有源代碼,從而瞭解怎麼從實際問題轉變成可實現的代碼,感受R語言的魅力,讓數據産生價值。這種學習和實踐相結閤的方式非常適閤初學者和有一定經驗的數據分析師。
本書的內容涵蓋瞭基於數據挖掘的常用模型,包括分類、聚類、關聯分析、預測、異常檢測等,還包括機器學習的常用算法和自然語言處理、數據可視化等內容。本書內容全麵,做到瞭易讀、易用、易理解、易實現、易上手,是不可多得的R語言書籍。
作者簡介
Dan Toomey,具有20多年開發應用程序方麵的經驗,曾在多個行業及公司擔任不同的職位,包括投稿人、副總裁及首席技術官。近10年,Dan一直在美國馬薩諸塞州東部地區的公司工作。Dan以Dan Toomey軟件公司的名義,成為這些領域的開發承包商。
劉麗君,韓國國立全北大學博士,加拿大聖西維爾大學博士後,一直從事物聯網、工業大數據等方麵的數據分析、市場分析等工作,目前任武漢泰迪智慧科技有限公司CEO,對數據敏感,並對數據怎麼轉變成價值、數據與商業的關係有獨到見解。
李成華,數據挖掘與機器學習方嚮博士,約剋大學博士後,麻省理工學院訪問科學傢,曾任海信集團數據挖掘專傢,京東深度神經網絡實驗室首席科學傢,長期從事數據挖掘、機器學習、深度學習和自然語言處理等方麵的研究和工作,擅長自動問答以及基於自然語言的人機交互。
盧青峰,碩士畢業於美國威斯康辛州立大學,畢業後從事數據分析、挖掘等相關工作至今。曾先後在敦煌網、百度、京東等行業領先的公司從事數據挖掘、用戶行為分析、推薦等工作。
目錄
第1章 模式的數據挖掘 1
1.1 聚類分析 2
1.1.1 K-means聚類 3
1.1.2 K-medoids聚類 7
1.1.3 分層聚類 12
1.1.4 期望最大化 15
1.1.5 密度估計 21
1.2 異常檢測 24
1.2.1 顯示異常值 25
1.2.2 計算異常 28
1.3 關聯規則 30
1.4 問題 33
1.5 總結 34
第2章 序列的數據挖掘 35
2.1 模式 35
2.1.1 Eclat 36
2.1.2 arulesNBMiner 40
2.1.3 Apriori 43
2.1.4 用TraMineR確定序列 47
2.1.5 序列相似點 54
2.2 問題 57
2.3 總結 57
第3章 文本挖掘 59
3.1 功能包 60
3.1.1 文本處理 60
3.1.2 文本集群 69
3.2 問題 80
3.3 總結 80
第4章 數據分析——迴歸分析 81
4.1 功能包 81
4.1.1 簡單迴歸 81
4.1.2 多次迴歸 88
4.1.3 多變量迴歸分析 94
4.1.4 穩健迴歸 100
4.2 問題 106
4.3 總結 106
第5章 數據分析——相關性 107
5.1 功能包 107
5.1.1 基本相關性 108
5.1.2 可視化相關性 112
5.1.3 協方差 114
5.1.4 皮爾森相關性 117
5.1.5 多分格相關性 118
5.1.6 四分相關性 122
5.1.7 異構相關矩陣 126
5.1.8 部分相關性 128
5.2 問題 129
5.3 總結 129
第6章 數據分析——聚類 131
6.1 功能包 131
6.2 K-means聚類 132
6.2.1 示例 132
6.2.2 Medoids集群 140
6.2.3 cascadeKM函數 142
6.2.4 基於貝葉斯定理信息選取集群 144
6.2.5 仿射傳播聚類 146
6.2.6 用於估測集群數量的間隙統計量 149
6.2.7 分級聚類 151
6.3 問題 153
6.4 總結 154
第7章 數據可視化——R圖形 155
7.1 功能包 155
7.1.1 交互式圖形 156
7.1.2 latticist功能包 160
7.1.3 ggplot2功能包 169
7.2 問題 180
7.3 總結 181
第8章 數據可視化——繪圖 183
8.1 功能包 183
8.2 散點圖 183
8.2.1 迴歸綫 187
8.2.2 lowess綫條 188
8.2.3 scatterplot函數 189
8.2.4 Scatterplot矩陣 192
8.2.5 密度散點圖 197
8.3 直方圖和條形圖 200
8.3.1 條形圖 200
8.3.2 直方圖 203
8.3.3 ggplot2 203
8.3.4 詞雲 204
8.4 問題 206
8.5 總結 206
第9章 數據可視化——三維 207
9.1 功能包 207
9.2 生成三維圖形 208
9.2.1 Lattice Cloud——三維散點圖 212
9.2.2 scatterplot3d 215
9.2.3 scatter3d 216
9.2.4 cloud3d 218
9.2.5 RgoogleMaps 220
9.2.6 vrmlgenbar3D 221
9.2.7 大數據 223
9.2.8 研究方嚮 228
9.3 問題 234
9.4 總結 234
第10章 機器學習實戰 235
10.1 功能包 235
10.2 數據集 236
10.2.1 數據劃分 240
10.2.2 模型 241
10.2.3 train方法 254
10.3 問題 264
10.4 總結 264
第11章 用機器學習預測事件 265
11.1 自動預測功能包 265
11.1.1 時間序列 266
11.1.2 SMA函數 272
11.1.3 分解函數 273
11.1.4 指數平滑法 274
11.1.5 預測 277
11.1.6 霍爾特指數平滑法 281
11.2 問題 293
11.3 總結 293
第12章 監督學習和無監督學習 295
12.1 功能包 296
12.1.1 監督學習 296
12.1.2 無監督學習 316
12.2 問題 327
12.3 總結 327
數據科學 R語言實戰 下載 mobi epub pdf txt 電子書 格式
評分
☆☆☆☆☆
質量非常好!
評分
☆☆☆☆☆
不錯的入門書籍,好好學習
評分
☆☆☆☆☆
R語言初學指南,小白一枚嘗試下
評分
☆☆☆☆☆
書的質量挺好,彩色印刷,內容講解也比較詳細
評分
☆☆☆☆☆
通過這本R語言,學習數據分析,這本教材編的不錯,適閤自學,很好。
評分
☆☆☆☆☆
《時間序列分析及應用R語言》書已收到,書印刷還不錯,正版書,京東物流很快,到烏魯木齊隻用3天時間。
評分
☆☆☆☆☆
翻譯的一般,但內容還是很有用的。總體不錯
評分
☆☆☆☆☆
京東棒棒啊…速度很快,滿意!……
評分
☆☆☆☆☆
本書包裝精美,內容充實,不錯的工具書