發表於2024-11-05
如果你打算用R進行統計計算和數據可視化,本書就是關於使用開源R語言(軟件環境)快速解決上述問題的實用指導教程。通過本書,你將學會如何編寫R函數以及藉助R包進行數據預處理、可視化以及數據分析。作者用取自製醫學、商業和體育領域的豐富案例對上述問題進行瞭講解。
√ 多達數百個實例的R教程,快速入門R語言
√ 探索R語言的語法、對象和其他語言細節
√ 在網站上可找到包括Bioconductor在內的數韆個用戶共享的R包
√ 學習如何用R完成數據分析預處理
√ 基於R graphics、lattice和ggplot2包 進行數據可視化
√ 使用R語言計算概率分布、統計檢驗以及擬閤模型
√ 基於Hadoop並行編程提升大規模運算的效率
√ 學習R語言的完整參考手冊
第二版的內容依據R 2.14和R 2.15進 行瞭更新,並新增瞭R高性能計算、基於ggplot2的數據可視化和利用Hadoop做並行運算等章節。
R 是一款優秀的開源統計應用語言,它直觀、易用、低成本,而且還有龐大的社區支持,隨著數據挖掘技術的興起,R 語言得到瞭廣泛的應用。本書介紹從安裝R 軟件到基本語法以及應用的全過程,可以幫助你全麵地學習和使用R。《R語言核心技術手冊(第2版)》共6部分,26 章,基本涵蓋瞭R 語言的所有功能,而且提供瞭大量的實例說明運用R 語言繪圖、分析數據以及擬閤統計模型的過程。書中雖然涉及很多統計學理論和知識,但並不是本書的重點。
《R語言核心技術手冊(第2版)》增加瞭一些處理數據的新章節,將繪圖章節集中放在“可視化篇”,同時針對R 的版本變化做瞭一些升級。
劉思喆,中國人民大學統計學院科班齣身,國內資深R領域專傢,擁有10年R語言使用經驗,中國R語言會議聯閤發起人。《153分鍾學會R》作者,《Rreferencecard》譯者。“統計之都”理事會成員,R語言版版主;電信、互聯網、彩票行業資深數據挖掘專傢。CSDN大數據技術論壇、DATAWorldForum、中國人民大學數據挖掘中心特邀講師。
R是一種免費且功能強大的語言,但不易入門。本書是學習R語言的不二之選,是每個數據科學傢必備的案頭參考書。
——DJPatil
Greylock公司房産領域數據科學傢
R迅速躥紅為數據分析的通用語言,本書堪稱是學習R語言的入門書籍。它涵蓋瞭包括數據可視化、時間序列分析等在內的數據科學能包羅的所有領域。
——AnthonyGoldbloom
Kaggle公司創始人兼CEO
前言 xvi
I 基礎篇
第1 章獲取和安裝R
R 版本
R 的安裝
Windows
Mac OS X
Linux 和UNIX 係統
第2 章R 的用戶界麵
R 的圖形用戶界麵
Windows
Mac OS X
Linux 和UNIX 程序
R 控製颱
命令行編輯
批處理模式
在Excel 中使用R
RStudio
其他運行R 的方式
第3 章簡短的示例
基本操作
函數
變量
數據結構簡介
對象和類
模型和公式
圖錶
獲得幫助
第4 章R 包
R 包概覽
列示本地庫中的R 包
加載R 包
在Windows 和Linux 係統下加載R 包
在Mac OS X 係統下加載R 包
搜索R 包資源庫
探索網絡上的R 包資源庫
基於R 界麵搜尋和安裝包
從其他資源庫安裝R 包
定製R 包
創建包目錄
創建R 包
II 語言篇
第5 章R 語言概覽
錶達式
對象
符號
函數
在賦值語句中,對象會被復製
R 中一切皆為對象
特殊值
NA
Inf 和-Inf
NaN
NULL
強製轉換
R 解釋器
觀察R 是如何工作的
第6 章R 語法
常量
數值嚮量
字符嚮量
符號
運算符
運算順序
賦值操作
錶達式
分離型錶達式
括號
花括號
控製結構
條件語句
循環
訪問數據結構
數據結構操作符
通過整數嚮量引用
通過邏輯嚮量引用
通過名字進行引用
R 編程標準
第7 章R 對象
基本對象類型
嚮量
列錶
其他對象
矩陣
數組
因子
數據框
公式
時間序列
Shingle 對象
日期和時間對象
連接對象
屬性
類
第8 章符號和環境
符號
環境
全局環境
環境和函數
調用堆棧
在不同的環境中對函數求值
嚮環境中添加對象
異常
提示錯誤
捕獲錯誤
第9 章函數
函數的關鍵字
參數
返迴值
函數參數
匿名函數
函數的屬性
參數順序和具名實參
副作用
改變其他環境
輸入/輸齣
圖形
第10 章麵嚮對象編程
R 的麵嚮對象編程概覽
核心概念
實現的例子
R 的麵嚮對象編程:S4
類的定義
對象的新建
槽的存取
對象的操作
創建強製轉換方法
方法
方法的管理
基本類型
更多的幫助
守舊派的OOP:S3
S3 的類
S3 方法
在S4 的類中使用S3 的類
查找隱藏的S3 方法
III 數據篇
第11 章數據的存取和編輯
在R 中輸入數據
用R 命令輸入數據
用圖形界麵輸入數據
保存和讀入R 對象
用save 保存對象
從外部文件導入數據
文本文件
其他軟件
導齣數據
從數據庫獲取數據
導齣然後導入
數據庫連接包
RODBC
DBI
TSDBI
從Hadoop 中獲取數據
第12 章準備數據
閤並數據集
粘貼數據結構
通過共同字段閤並數據
數據轉換
變量重新賦值
轉換函數
對對象的每個元素進行函數運算
數據分段
shingle
Cut
利用分組變量閤並對象
子集
中括號索引的方式
subset 函數
隨機抽樣
匯總函數
tapply 與aggregate
用rowsum 聚閤錶格
計數
數據修整
數據清洗
查找和刪除重復數據
排序
IV 可視化篇
第13 章圖形
R Graphics 概述
散點圖
時間序列
柱狀圖
餅圖
分類數據繪圖
三維數據
繪製分布圖
箱綫圖
畫圖設備
自定義圖形
繪圖函數常見參數
圖形參數
基本圖形函數
第14 章Lattice 繪圖
曆史
lattice 包概述
lattice 的工作原理
例子
使用lattice 函數
定製麵闆函數
高級lattice 函數
單一的網格作圖
二元網格作圖
三元圖
其他圖形
定製lattice 圖
lattice 函數的常用參數
trellisskeleton
指定如何繪製坐標軸
參數
plottrellis
stripdefault
simpleKey
低級函數
低級繪圖函數
麵闆函數
第15 章ggplot2
一個簡短的介紹
圖形語法
一個更復雜的例子:醫保數據
快速繪圖
用ggplot2 繪圖
更多信息
V 統計篇
第16 章數據分析
描述性統計
相關係數和協方差
主成分分析
因子分析
bootstrap 重抽樣
第17 章概率分布
正態分布
常見分布的參數
分布函數族
第18 章統計檢驗
連續型數據
基於正態分布的檢驗
不依賴分布的檢驗
離散數據
比例檢驗
二項式檢驗
列聯錶檢驗
列聯錶非參數檢驗
第19 章功效檢驗
實驗設計示例
t 檢驗實驗設計
比例實驗設計
方差分析設計
第20 章迴歸模型
簡單的綫性模型示例
擬閤模型
指定模型的工具函數
獲取模型信息
更新模型
lm 函數的詳述
最小二乘迴歸的假設
穩健迴歸和阻力迴歸
子集選取和Shrinkage 迴歸
變量的逐步選取
嶺迴歸
Lasso 和最小角迴歸
彈性網絡
主成分迴歸和偏最小二乘迴歸
非綫性模型
廣義綫性模型
glmnet 包
非綫性最小二乘
生存模型
平滑
樣條綫
擬閤多項式麯麵
核平滑
迴歸的機器學習算法
迴歸樹模型
MARS 算法
神經網絡
投影尋蹤迴歸
廣義可加模型
支持嚮量機
第21 章分類模型
綫性分類模型
logistic 迴歸
綫性判彆分析
對數綫性模型
機器學習分類模型
k 近鄰
分類樹模型
神經網絡
支持嚮量機
隨機森林
第22 章機器學習
購物籃分析
聚類
距離度量
聚類算法
第23 章時間序列分析
自相關函數
時間序列模型
VI 其他主題
第24 章優化R 程序性能
R 程序性能的測量
時間測定
性能分析
監控內存的使用
內存性能分析
優化你的R 代碼
使用嚮量操作
R 中查找的性能
使用數據庫查詢大數據集
內存預分配
清理內存
大數據集的函數
加速R 的其他方法
R 字節碼編譯器
高性能的R 版本
第25 章Bioconductor
例子
加載原始的錶達數據
從GEO 讀取數據
匹配錶型數據
分析錶達數據
關鍵的Bioconductor 包
數據結構
eSet
AssayData
AnnotatedDataFrame
MIAME
Bioconductor 包使用的其他類
如何進一步學習
Bioconductor 之外的資源
教程
課程
相關圖書
第26 章R 和Hadoop
R 和Hadoop
Hadoop 簡介
RHadoop
Hadoop streaming
瞭解更多
一些其他的用R 做並行計算的包
Segue
doMC
從哪裏我們可以瞭解更多6
參考文獻
索引
從我首次接觸R 算起來,已經有10 年的光景。那時我還是DoubleClick 公司一名年輕的産品研發經理,我們公司齣售用於管理網絡廣告銷售的軟件,而我當時主要負責庫存預測,根據給定的搜索詞、網頁或者人口特徵來估計廣告的點擊次數。我想自己獨立地分析數據,但是我們買不起SAS 或者MATLAB 這樣昂貴的軟件。我嘗試著去尋找一個開源的統計軟件包,很快R 進入瞭我的視野。相比現在,那時的R 還是有些稚嫩,很多的功能(如統計函數、絢麗的繪圖)都還不具備。但是,它很直觀、易用,我入迷瞭。從那時起,我一直利用R 來處理各種各樣的問題:估計信貸風險,分析棒球比賽統計數據,或者尋找互聯網安全威脅的來源。從數據中我學習到瞭很多,並慢慢成長為一名經驗豐富的數據分析師。
在過去的10 年中,R 同樣也成熟瞭許多。如今世界上最大的科技公司(包括榖歌、微軟和Facebook),最大的製藥公司(包括強生、默剋和輝瑞)以及其他數以百計的公司都在使用R。同時,它也被世界各地大學的統計專業的學生,以及樂於嘗試新技術和算法的統計研究人員所使用。
為什麼寫這本書
這本書可以看作R 的一個簡明指南,它並不是關於統計的書,也不是關於R 的大全書。在本書中,我盡力列齣R 可以完成的所有事情,並且用實例來說明其處理過程。這本書可以用作一本很好的隨身參考書。
寫這本書是因為我喜歡R。R 是有趣而直觀的,這是其他解決方案都沒有的特點。隻需要幾行R 代碼就能夠完成Excel 幾個小時的工作,同樣,幾行的R 代碼還能夠完成幾頁Java 代碼做的事情。市麵上有很多優秀的R 語言方麵的書籍,但是我找不到一本不太貴而且能全麵講述R 的書。希望這本可以幫助你來學習和使用R。
什麼時候使用R
我認為R 是一款強大的軟件,但是它不一定是解決所有問題最好的工具。顯然,用R 來寫一個視頻遊戲是可笑的。甚至對於與數據相關的問題,它也不見得就是最好的工具。
R 擅長繪圖、分析數據以及利用數據來擬閤統計模型。它並不擅長存儲復雜的數據結構,也不擅長高效地查詢數據,或者處理超過內存能力的數據。通常情況下,在使用R 前,我使用Perl、Python 或者Ruby 等腳本語言來預處理大文件(如果文件很大,我就會使用Pig)。R 也可以逐行讀取文件以及正則錶達式來處理這些問題,但是它的效率略差。對於大數據,我通常使用Hadoop,有時候我也使用一些數據庫,如MySQL、PostgreSQL、SQLite或者Oracle(如果有人願意為我提供正版Oracel 的話)。
第2 版有什麼新內容
這個第2 版並不是對第1 版的重寫。但是我從很多方麵改善瞭這本書的內容,包括:
增加瞭關於ggplot2,以及在Hadoop 中使用R 的新章節。
對代碼的版式及樣式做瞭修改,更便於閱讀。
對章節順序做瞭微調,把介紹繪圖的幾個章節放在瞭一起。
針對R 2.14 到R 2.15 的版本變化,做瞭一些細微的升級。
增加瞭一些處理數據的新章節,比如plyr 和reshape。
修正瞭一些錯誤。
R 許可條款
R 是一個開源軟件包,在GNU 通用公共許可下授權。注1這意味著,你可以在所有的颱式機和服務器上免費安裝R 軟件(同類的商業軟件包售價上百或者上韆美元)。如果R 無法替代商業軟件包的功能,它可能沒有什麼吸引力。不過,我認為R 在許多方麵都優於那些商業軟件。
擴展性
在R 中,你可以找到數百(甚至上韆)的統計和數據分析的算法實現。沒有哪一個商業軟件包能像它這樣通過CRAN(Comprehensive R Archive Network)提供這麼多功能。
社區
目前世界範圍內有數以十萬計(也可能是百萬計)的R 用戶。使用R,能保證你和同事使用的是相同的軟件。
性能
R 的性能可以媲美甚至優於大多數的商業分析軟件包。R 需要你在預處理時,把數據集加載到內存中。如果你有足夠的內存來處理數據,R的執行非常快。幸運的是,內存很便宜。購買一個32 GB的服務器內存比買一個桌麵版的商業統計軟件包要便宜得多。
例子
本書提供瞭許多實用的R 代碼。我有意新增瞭一些例子,而並未全部使用R 自帶的數據集。並不是說R 自帶的實例不夠好,它們都不錯,隻是我希望能為讀者們提供更多的實例。它們都比較短小而且簡單,也並未提供全部的源代碼下載。但是我把實例所用到的數據和稍長一些的實例代碼放在nutshell R 包中瞭,可以通過CRAN 得到。要加載nutshell 包,可以通過在R 控製颱輸入下麵的命令:
> install.packages(”“nutshell”“)
注1 關於GPL 授權的軟件,以及GPL 對於公司用戶的含義,目前還存在一些爭議。有些用戶擔心他們編寫的R 代碼會受GPL 的限製,如果你不打算為R 編寫擴展包,就不需要擔心這一點。R 是一種解釋器,不能僅僅因為某個程序使用瞭基於GPL 的解釋器而這個程序就適用GPL。
如果你打算為R 編寫擴展包,它們可能會受GPL 的限製。更多信息可參閱: http://www.gnu.org/licenses/gplfaq。如果你想得到確切的答案,可谘詢律師。
本書的結構
我將本書分為6 個部分:
? I“基礎篇”介紹關於安裝和運行R 的基礎知識。如果你是R 新用戶,它旨在幫助你運行R,以及幫助你瞭解R 的功能。
? II“語言篇”介紹第1 部分中沒有涵蓋的內容,詳細介紹R 語言。
? III“數據篇”包括使用R 進行數據預處理:加載數據、數據變換和匯總數據。
? IV“可視化篇”介紹如何使用R 繪圖。
? V“統計篇”介紹用R 進行統計檢驗和建模。
? VI“其他主題”包含一些不太常見的主題,如R 程序調優,編寫並行的R 程序,以及Bioconductor 基礎知識。
如果你是一個R 的新用戶,可以從第3章開始學習安裝R,然後閱讀第5章學習一些R 語言的規則。如果你使用R 來繪圖,統計檢驗或者統計建模,可自行選擇閤適的章節來閱讀。不要跳過每章的頭幾節,因為通常這些節都提供對所有相關的函數的概述(如,在閱讀第471頁的“迴歸的隨機森林算法”一節之前,要先閱讀第422頁的“簡單的綫性模型示例”一節)。
本書的一些約定
本書中的字體遵循如下約定:
斜體(Italic)
錶示新術語、網址、電子郵件地址、文件名和文件擴展名。
等寬體(Constant width)
錶示程序清單,以及正文中引用的程序元素,如變量名或函數名、數據庫、數據類型、環境變量、語句和關鍵字。(在R 的控製颱顯示輸入和輸齣時,我用等寬體文本顯示提示符以及R 解釋器生成的其他信息。)
等寬粗體(Constant width bold)
錶示應該由用戶自行輸入的命令或其他文本。(在R 的控製颱顯示輸入和輸齣時,我用等寬粗體顯示我輸入的內容,包括注釋。)
等寬斜體(Constant width italic)
錶示應該用用戶提供的值替換或由上下文確定的值。
代錶此處是一個小技巧、建議或者一般性提示。
代錶此處是一個警告或注意事項。
在本書中,有時顯示的是我在自己機器的操作係統中輸入的命令(如Linux的bash shell),有時顯示的是我在R 控製颱中輸入的命令。對於前者,在書中用$ 代錶命令提示符,而對於後者,用> 或+ 代錶提示符。(不管哪種情況,都無須輸入這些提示符。)
使用代碼示例
本書旨在幫助你完成你的工作。總的來說,可以在程序和文檔中使用本書的代碼。如果你使用瞭本書大部分的代碼,那麼就需要聯係我們獲得許可。
……
R語言核心技術手冊(第2版) 下載 mobi pdf epub txt 電子書 格式 2024
R語言核心技術手冊(第2版) 下載 mobi epub pdf 電子書R語言相關的書籍應該還是很有用處的,為以後的工作做些準備
評分值得一看,不是那些抄來抄去的圖書。
評分很好的書,最r語言學習幫助很大
評分希望有收獲~
評分不錯,內容很全,很不錯的工具書,可以參考一下,很好的
評分滿意
評分約束者們的努力是為瞭贏得頭銜、認可和不朽,他們的最大樂趣來自於贏得;而選擇者們的最大樂趣則是來源於他們開啓瞭一件自己無法結束的事,並在其中持續發現。
評分非常充實的R語言技術手冊,隨時查閱參考,好評!
評分書很實用,看著好好學習
R語言核心技術手冊(第2版) mobi epub pdf txt 電子書 格式下載 2024