發表於2024-11-22
本書注重實用性,是一本全麵而細緻的R指南,高度概括瞭該軟件和它的強大功能,展示瞭使用的統計示例,且對於難以用傳統方法處理的淩亂、不完整和非正態的數據給齣瞭優雅的處理方法。作者不僅僅探討統計分析,還闡述瞭大量探索和展示數據的圖形功能。新版做瞭大量更新和修正,新增瞭近200頁內容,介紹數據挖掘、預測性分析和*級編程。
本書適閤數據分析人員及R 用戶學習參考
Robert I. Kabacoff
R語言社區**名學習網站Quick-R的維護者,現為全球化開發與谘詢公司Management研究集團研發副總裁。此前,Kabacoff博士是佛羅裏達諾瓦東南大學的教授,講授定量方法和統計編程的研究生課程。Kabacoff還是臨床心理學博士、統計顧問,擅長數據分析,在健康、金融服務、製造業、行為科學、政府和學術界有20餘年的研究和統計谘詢經驗。
“對於所有使用R語言進行數據分析的人來講,本書都是必不可少的,不論用於業內實踐還是學術研究。”
——Cristofer Weber,NeoGrid軟件架構師
“一般R語言問題與許多統計學問題的*選參考。”
——George Gaines,KYOS Systems公司&席運營官
“語言易懂,示例真實,代碼清晰。”
——Samuel D. McQuillin,休斯頓大學心理學院助理教授
“為R語言初學者提供瞭柔和的學習麯綫。”
——Indrajit Sen Gupta, 就職於Mu Sigma數據分析公司
*一部分 入門
*1章 R語言介紹 3
1.1 為何要使用R 4
1.2 R的獲取和安裝 6
1.3 R的使用 6
1.3.1 新手上路 7
1.3.2 獲取幫助 10
1.3.3 工作空間 10
1.3.4 輸入和輸齣 12
1.4 包 13
1.4.1 什麼是包 14
1.4.2 包的安裝 14
1.4.3 包的載入 14
1.4.4 包的使用方法 14
1.5 批處理 15
1.6 將輸齣用為輸入:結果的重用 16
1.7 處理大數據集 16
1.8 示例實踐 16
1.9 小結 18
*2章 創建數據集 19
2.1 數據集的概念 19
2.2 數據結構 20
2.2.1 嚮量 21
2.2.2 矩陣 22
2.2.3 數組 23
2.2.4 數據框 24
2.2.5 因子 27
2.2.6 列錶 28
2.3 數據的輸入 30
2.3.1 使用鍵盤輸入數據 31
2.3.2 從帶分隔符的文本文件導入數據 32
2.3.3 導入Excel數據 35
2.3.4 導入XML數據 36
2.3.5 從網頁抓取數據 36
2.3.6 導入SPSS數據 36
2.3.7 導入SAS數據 37
2.3.8 導入Stata數據 37
2.3.9 導入NetCDF數據 38
2.3.10 導入HDF5數據 38
2.3.11 訪問數據庫管理係統 38
2.3.12 通過Stat/Transfer導入數據 40
2.4 數據集的標注 40
2.4.1 變量標簽 40
2.4.2 值標簽 41
2.5 處理數據對象的實用函數 41
2.6 小結 42
第3章 圖形初階 43
3.1 使用圖形 43
3.2 一個簡單的例子 45
3.3 圖形參數 46
3.3.1 符號和綫條 47
3.3.2 顔色 49
3.3.3 文本屬性 50
3.3.4 圖形尺寸與邊界尺寸 51
3.4 添加文本、自定義坐標軸和圖例 53
3.4.1 標題 54
3.4.2 坐標軸 54
3.4.3 參考綫 56
3.4.4 圖例 57
3.4.5 文本標注 58
3.4.6 數學標注 60
3.5 圖形的組閤 61
3.6 小結 67
第4章 基本數據管理 68
4.1 一個示例 68
4.2 創建新變量 70
4.3 變量的重編碼 71
4.4 變量的重命名 72
4.5 缺失值 74
4.5.1 重編碼某些值為缺失值 74
4.5.2 在分析中排除缺失值 75
4.6 日期值 76
4.6.1 將日期轉換為字符型變量 77
4.6.2 更進一步 78
4.7 類型轉換 78
4.8 數據排序 79
4.9 數據集的閤並 79
4.9.1 嚮數據框添加列 79
4.9.2 嚮數據框添加行 80
4.10 數據集取子集 80
4.10.1 選入(保留)變量 80
4.10.2 剔除(丟棄)變量 81
4.10.3 選入觀測 82
4.10.4 subset()函數 82
4.10.5 隨機抽樣 83
4.11 使用SQL語句操作數據框 83
4.12 小結 84
第5章 *級數據管理 85
5.1 一個數據處理難題 85
5.2 數值和字符處理函數 86
5.2.1 數學函數 86
5.2.2 統計函數 87
5.2.3 概率函數 90
5.2.4 字符處理函數 92
5.2.5 其他實用函數 94
5.2.6 將函數應用於矩陣和數據框 95
5.3 數據處理難題的一套解決方案 96
5.4 控製流 100
5.4.1 重復和循環 100
5.4.2 條件執行 101
5.5 用戶自編函數 102
5.6 整閤與重構 104
5.6.1 轉置 104
5.6.2 整閤數據 105
5.6.3 reshape2包 106
5.7 小結 108
*二部分 基本方法
第6章 基本圖形 110
6.1 條形圖 110
6.1.1 簡單的條形圖 111
6.1.2 堆砌條形圖和分組條形圖 112
6.1.3 均值條形圖 113
6.1.4 條形圖的微調 114
6.1.5 棘狀圖 115
6.2 餅圖 116
6.3 直方圖 118
6.4 核密度圖 120
6.5 箱綫圖 122
6.5.1 使用並列箱綫圖進行跨組比較 123
6.5.2 小提琴圖 125
6.6 點圖 127
6.7 小結 129
第7章 基本統計分析 130
7.1 描述性統計分析 131
7.1.1 方法雲集 131
7.1.2 更多方法 132
7.1.3 分組計算描述性統計量 134
7.1.4 分組計算的擴展 135
7.1.5 結果的可視化 137
7.2 頻數錶和列聯錶 137
7.2.1 生成頻數錶 137
7.2.2 獨立性檢驗 143
7.2.3 相關性的度量 144
7.2.4 結果的可視化 145
7.3 相關 145
7.3.1 相關的類型 145
7.3.2 相關性的顯著性檢驗 147
7.3.3 相關關係的可視化 149
7.4 t 檢驗 149
7.4.1 獨立樣本的t 檢驗 150
7.4.2 非獨立樣本的t檢驗 151
7.4.3 多於兩組的情況 151
7.5 組間差異的非參數檢驗 152
7.5.1 兩組的比較 152
7.5.2 多於兩組的比較 153
7.6 組間差異的可視化 155
7.7 小結 155
第三部分 中級方法
第8章 迴歸 158
8.1 迴歸的多麵性 159
8.1.1 OLS迴歸的適用情境 159
8.1.2 基礎迴顧 160
8.2 OLS迴歸 160
8.2.1 用lm()擬閤迴歸模型 161
8.2.2 簡單綫性迴歸 163
8.2.3 多項式迴歸 164
8.2.4 多元綫性迴歸 167
8.2.5 有交互項的多元綫性迴歸 169
8.3 迴歸診斷 171
8.3.1 標準方法 172
8.3.2 改進的方法 175
8.3.3 綫性模型假設的綜閤驗證 181
8.3.4 多重共綫性 181
8.4 異常觀測值 182
8.4.1 離群點 182
8.4.2 高杠杆值點 182
8.4.3 強影響點 184
8.5 改進措施 186
8.5.1 刪除觀測點 186
8.5.2 變量變換 187
8.5.3 增刪變量 188
8.5.4 嘗試其他方法 188
8.6 選擇“*佳”的迴歸模型 189
8.6.1 模型比較 189
8.6.2 變量選擇 190
8.7 深層次分析 193
8.7.1 交叉驗證 193
8.7.2 相對重要性 195
8.8 小結 197
第9章 方差分析 198
9.1 術語速成 198
9.2 ANOVA模型擬閤 201
9.2.1 aov()函數 201
9.2.2 錶達式中各項的順序 202
9.3 單因素方差分析 203
9.3.1 多重比較 204
9.3.2 評估檢驗的假設條件 206
9.4 單因素協方差分析 208
9.4.1 評估檢驗的假設條件 209
9.4.2 結果可視化 210
9.5 雙因素方差分析 211
9.6 重復測量方差分析 214
9.7 多元方差分析 217
9.7.1 評估假設檢驗 218
9.7.2 穩健多元方差分析 220
9.8 用迴歸來做ANOVA 220
9.9 小結 222
*10章 功效分析 223
10.1 假設檢驗速覽 223
10.2 用pwr包做功效分析 225
10.2.1 t檢驗 226
10.2.2 方差分析 228
10.2.3 相關性 228
10.2.4 綫性模型 229
10.2.5 比例檢驗 230
10.2.6 卡方檢驗 231
10.2.7 在新情況中選擇閤適的效應值 232
10.3 繪製功效分析圖形 233
10.4 其他軟件包 235
10.5 小結 236
*11章 中級繪圖 237
11.1 散點圖 238
11.1.1 散點圖矩陣 240
11.1.2 高密度散點圖 242
11.1.3 三維散點圖 244
11.1.4 鏇轉三維散點圖 247
11.1.5 氣泡圖 248
11.2 摺綫圖 250
11.3 相關圖 253
11.4 馬賽剋圖 258
11.5 小結 260
*12章 重抽樣與自助法 261
12.1 置換檢驗 261
12.2 用coin包做置換檢驗 263
12.2.1 獨立兩樣本和K 樣本檢驗 264
12.2.2 列聯錶中的獨立性 266
12.2.3 數值變量間的獨立性 266
12.2.4 兩樣本和K 樣本相關性檢驗 267
12.2.5 深入探究 267
12.3 lmPerm包的置換檢驗 267
12.3.1 簡單迴歸和多項式迴歸 268
12.3.2 多元迴歸 269
12.3.3 單因素方差分析和協方差分析 270
12.3.4 雙因素方差分析 271
12.4 置換檢驗點評 271
12.5 自助法 272
12.6 boot包中的自助法 272
12.6.1 對單個統計量使用自助法 274
12.6.2 多個統計量的自助法 276
12.7 小結 278
第四部分 *級方法
*13章 廣義綫性模型 280
13.1 廣義綫性模型和glm()函數 281
13.1.1 glm()函數 281
13.1.2 連用的函數 282
13.1.3 模型擬閤和迴歸診斷 283
13.2 Logistic迴歸 284
13.2.1 解釋模型參數 286
13.2.2 評價預測變量對結果概率的影響 287
13.2.3 過度離勢 288
13.2.4 擴展 289
13.3 泊鬆迴歸 R語言實戰:第2版 用R輕鬆實現數據挖掘、數據可視化 下載 mobi epub pdf txt 電子書 格式
R語言實戰:第2版 用R輕鬆實現數據挖掘、數據可視化 下載 mobi pdf epub txt 電子書 格式 2024
R語言實戰:第2版 用R輕鬆實現數據挖掘、數據可視化 下載 mobi epub pdf 電子書R語言實戰:第2版 用R輕鬆實現數據挖掘、數據可視化 mobi epub pdf txt 電子書 格式下載 2024