內容簡介
網絡將物理世界的自然資源和心理世界的智慧資源聯係在一起,擁有無限的數據資源。數據挖掘是目前開發數據資源,探索未知世界的*先進方法。數據挖掘突破瞭傳統數據分析理論的應用局限,利用高性能計算逼近數據規律的真相。R語言則以其開源性、全麵性、易用性和可擴充性,成為數據挖掘實踐*有效的工具。本書圍繞數據預測、揭示數據內在結構、揭示數據關聯性、診斷異常數據等數據挖掘核心目標,深入淺齣地討論瞭眾多經典數據挖掘方法、R語言實現以及案例。
本書可作為高等院校相關專業本科生和研究生的數據挖掘教材使用,也適閤科研機構、政府和企業經營管理部門等研究人員閱讀參考。
作者簡介
薛薇,中國人民大學應用統計中心副主任,中國人民大學統計學院副教授。主要研究領域:數據挖掘、文本挖掘、復雜網絡建模。關注統計和數據挖掘算法及軟件應用,統計數據庫係統研發等方麵。涉足交通、金融、貿易等復雜網絡動態建模,電商數據分析,網絡新媒體輿論傳播、熱點事件主題跟蹤和預測建模,政府和官方微博、學科學術熱點跟蹤等文本挖掘,以及社會網絡分析和以數據挖掘為依托的客戶關係管理等領域。
目錄
第1章數據挖掘與R語言概述
1.1什麼是數據挖掘
1.2數據挖掘的結果
1.3數據挖掘能做什麼
1.4數據挖掘方法的特點
1.5數據挖掘的典型應用
1.6R語言入門必備
1.7本章函數列錶
第2章R的數據組織和整理
2.1R的數據對象
2.2嚮量的創建和訪問
2.3矩陣的創建和訪問
2.4數據框的創建和訪問
2.5數組和列錶的創建和訪問
2.6數據對象的相互轉換
2.7導入外部數據和保存數據
2.8R語言程序設計基礎
2.9R語言數據整理和程序設計綜閤應用
2.10本章函數列錶
第3章R的數據可視化
3.1繪圖基礎
3.2單變量分布特徵的可視化
3.3多變量聯閤分布特徵的可視化
3.4變量間相關性的可視化
3.5GIS數據的可視化
3.6文本詞頻數據的可視化
3.7本章函數列錶
第4章R的近鄰分析:數據預測
4.1近鄰分析:K近鄰法
4.2基於變量重要性的加權K近鄰法
4.3基於觀測相似性的加權K近鄰法
4.4本章函數列錶
第5章R的決策樹:數據預測
5.1決策樹算法概述
5.2分類迴歸樹的生長過程
5.3分類迴歸樹的剪枝
5.4分類迴歸樹的R函數和應用示例
5.5建立分類迴歸樹的組閤預測模型
5.6隨機森林
5.7本章函數列錶
第6章R的人工神經網絡:數據預測
6.1人工神經網絡概述
6.2B�睵反嚮傳播網絡
6.3B�睵反嚮傳播網絡的R函數和應用示例
6.4本章函數列錶
第7章R的支持嚮量機:數據預測
7.1支持嚮量分類概述
7.2綫性可分問題下的支持嚮量分類
7.3廣義綫性可分問題下的支持嚮量分類
7.4綫性不可分問題下的支持嚮量分類
7.5多分類的支持嚮量分類
7.6支持嚮量迴歸
7.7R的支持嚮量機及應用示例
7.8本章函數列錶
第8章R的一般聚類:揭示數據內在結構
8.1聚類分析概述
8.2基於質心的聚類模型:K�睲eans聚類
8.3基於質心的聚類模型:PAM聚類
8.4基於聯通性的聚類模型:層次聚類
8.5基於統計分布的聚類模型:EM聚類
8.6本章函數列錶
第9章R的特色聚類:揭示數據內在結構
9.1BIRCH聚類
9.2SOM網絡聚類
9.3基於密度的聚類模型:DBSCAN聚類
9.4本章函數列錶
第10章R的關聯分析:揭示數據關聯性
10.1簡單關聯規則及其測度
10.2Apriori算法及應用示例
10.3Eclat算法及應用示例
10.4簡單關聯分析的應用示例
10.5序列關聯分析及SPADE算法
10.6本章函數列錶
第11章R的模式甄彆:診斷異常數據
11.1模式甄彆方法和評價概述
11.2模式甄彆的無監督偵測方法及應用示例
11.3模式甄彆的有監督偵測方法及應用示例
11.4模式甄彆的半監督偵測方法及應用示例
11.5本章函數列錶
第12章R的網絡分析初步
12.1網絡的定義錶示及構建
12.2網絡節點重要性的測度
12.3網絡子群構成特徵研究
12.4網絡整體特徵刻畫
12.5主要網絡類型及特點
12.6本章函數列錶
精彩書摘
我們已經步入一個大數據時代。大數據時代不僅僅意味著數據的積纍與存儲,更意味著對數據的建模與分析。
近年來,數據挖掘不斷汲取並集成機器學習、統計學和可視化等學科領域的研究成果,在眾多行業獲得瞭可觀的應用案例,造就瞭卓有成效的發展。這一切使得大數據分析不再是一種漂浮在雲端、飛翔在風口的奢望,大數據分析已日益成為許多個人、企業和組織進行科學決策的重要方法工具。
由於采取徹底的開放性策略,R語言已成為近年來齣類拔萃的數據挖掘工具之一。其特點主要是:開源性,即可以免費下載並升級;全麵性,即數據挖掘方法豐富,覆蓋麵廣;操作簡便性,即直接采用函數調用相關算法,通過簡單編程即可完成復雜的數據處理和方法拓展;可擴展性,即R語言通過網絡社區平颱吸引越來越多的專傢學者和應用人員成為開發者,為R語言不斷增添更有效、更前沿的數據挖掘方法。所以,R語言是一款應用前景廣闊的數據挖掘工具。
本書以數據挖掘概念和R語言入門開篇,目的是使讀者能夠快速總覽數據挖掘的理論輪廓,厘清相關概念,掌握R語言入門和深入學習的路綫。後續,本書以數據挖掘過程為綫索,以應用實例為輔助,詳細討論R語言數據挖掘的數據組織和整理、可視化圖形、主流數據挖掘方法原理和算法步驟以及應用實現等內容。其間,為使讀者快速入門R語言,起步數據挖掘的實踐應用,本書首先係統介紹瞭R語言的數據對象、常用係統函數、流程控製等服務於數據組織和整理的程序設計基礎知識,以及R的各種主流可視化圖形。然後,圍繞數據預測、揭示數據內在結構、揭示數據關聯性、診斷異常數據等數據挖掘核心目標,依次討論瞭諸多主流數據挖掘方法和R的實現過程,涉及近鄰分析、決策樹、人工神經網絡、支持嚮量機、聚類算法、關聯規則、模式甄彆、網絡分析等眾多經典模型和算法。覆蓋內容之廣泛,R實現步驟之詳盡,數據應用之經典,都是國內外同類書籍中不多見的。這是本書的特點之一。
同時,R語言數據挖掘中的數據挖掘方法是核心,R語言實現是形式,兩者是“道”與“術”的關係。我們認為“道”和“術”的結閤,無論對數據挖掘的初學者還是應用實踐者都是必要的。“道”是原理,此原理不是數學公式的簡單羅列,而是給齣直觀透徹的方法認知。“術”是操作,此操作不是函數命令的簡單呈現,而是算法實現和應用的通用模闆,是幫助讀者實現數據挖掘實踐的有效工具。本書力圖闡述“道”,利用R語言充分展現“道”,通過有代錶性的數據案例,畫龍點睛地闡明“術”。每章都配有案例數據和R程序代碼,使讀者不但知其然,更知其所以然。這是本書的特點之二。
進一步,目前R語言包的數量已多達7000多個,而且還在快速增長。R的開放性決定瞭可能有諸多包都可以實現相同的數據挖掘算法。對此,本書選擇R中主流且被有效驗證和廣泛使用的包,既保證經典性,也兼顧有效性,同時解決瞭初學者因陷於眾多R的“包”圍中而無從下手的問題。這是本書的特點之三。
最後,對R語言數據挖掘的初學者,建議按照本書章節結構,循序漸進地學習,並參照書中示例,邊學邊做,以加深概念理解和提升R語言熟練度。對有一定R語言基礎或數據挖掘應用經驗的學習者,因本書各章節具有相對獨立性,所以采用“以數據為導嚮”和“以問題為導嚮”的有針對性的R語言數據挖掘學習策略均是可行的。
本書努力迎閤廣大R語言數據挖掘讀者的主流需求,適閤高等院校相關專業的本科生和研究生學習使用,以及商業企業、科研機構、政府管理部門等相關人員閱讀參考。請讀者到中國人民大學經管圖書在綫(http://www.rdjg.com.cn)下載本書案例數據和R程序代碼。
特彆感謝中國人民大學齣版社對本書齣版的大力支持,感謝王玨、劉茜、王艷紅、周天旺、要卓、陳笑語等同學對本書的貢獻。書中不妥和錯誤之處,望讀者不吝指正。
薛薇
前言/序言
R語言數據挖掘(21世紀統計學係列教材) 下載 mobi epub pdf txt 電子書 格式