發表於2024-11-22
weka係統的主要開發者將豐富的研發、商業應用和教學實踐的經驗和技術融會貫通。
廣泛覆蓋在數據挖掘實踐中采用的算法和機器學習技術,著眼於解決實際問題
避免過分要求理論基礎和數學知識,重點在於告訴讀者“如何去做”,同時包括許多算法、代碼以及具體實例的實現。
將所有的概念都建立在具體實例的基礎之上,促使讀者首先考慮使用簡單的技術。如果簡單的技術不足以解決問題,再考慮提升到更為復雜的高級技術。
新版增加瞭大量近年來湧現的數據挖掘算法和諸如Web數據挖掘等新領域的介紹,所介紹的weka係統增加瞭50%的算法及大量新內容。
《數據挖掘:實用機器學習工具與技術(原書第3版)》是機器學習和數據挖掘領域的經典暢銷教材,被眾多國外名校選為教材。書中詳細介紹用於數據挖掘領域的機器學習技術和工具以及實踐方法,並且提供瞭一個公開的數據挖掘工作平颱Weka。本書主要內容包括:數據輸入/輸齣、知識錶示、數據挖掘技術(決策樹、關聯規則、基於實例的學習、綫性模型、聚類、多實例學習等)以及在實踐中的運用。本版對上一版內容進行瞭全麵更新,以反映自第2版齣版以來數據挖掘領域的技術變革和新方法,包括數據轉換、集成學習、大規模數據集、多實例學習等,以及新版的Weka機器學習軟件。
Ian H.Witten,新西蘭懷卡托大學計算機科學係教授,ACM Fellow和新西蘭皇傢學會Fellow,曾榮獲2004年國際信息處理研究協會(IFIP)頒發的Namur奬項。他的研究興趣包括語言學習、信息檢索和機器學習。
Eibe Frank,新西蘭懷卡托大學計算機科學係副教授,《Machine Learning Journal》和《Journal of Artificial Intelligence Research》編委。
Mark A.Hall,新西蘭懷卡托大學名譽副研究員,曾獲得2005年ACM SIGKDD服務奬。
譯者簡介:
李川,博士,副教授,四川大學計算機學院數據庫知識工程研究所副所長,中國計算機學會數據庫專委會委員。主持國傢自然科學基金青年基金等項目多項,閤作發錶論文30餘篇,獲四川省科技成果二等奬1項。
★“本書既含理論又有實踐應用,並且關注實踐是本書的一大特色。對於從事數據挖掘和機器學習方麵工作的每位讀者,我強烈推薦本書!”
——Dorian Pyle 《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者
★“本書在數據挖掘技術領域備受推崇,是數據挖掘分析師的必讀之物!”
——Herb Edelstein Two Crows Consulting公司首席數據挖掘谘詢顧問
★“這是我zui喜愛的數據挖掘書籍之一,書中不僅循序漸進地介紹瞭各種算法,還輔以豐富實例,詳細闡述瞭如何應用這些算法解決實際數據挖掘問題。本書不但有益於學習使用Weka軟件,而且還會幫助你瞭解各類機器學習算法。”
——Tom Breur XLNT Consulting公司首席谘詢顧問
★“本書既含理論又有實踐應用,並且關注實踐是本書的一大特色。對於從事數據挖掘和機器學習方麵工作的每位讀者,我強烈推薦本書!”
——Dorian Pyle 《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者
★“這是我zui喜愛的數據挖掘書籍之一,書中不僅循序漸進地介紹瞭各種算法,還輔以豐富實例,詳細闡述瞭如何應用這些算法解決實際數據挖掘問題。本書不但有益於學習使用Weka軟件,而且還會幫助你瞭解各類機器學習算法。”
——Tom Breur XLNT Consulting公司首席谘詢顧問
★“假如你需要對數據進行分析和理解,本書以及相關的Weka工具包是一個不錯的起步。
本書以非常容易理解的方式展示瞭這門新的學科:既是用來訓練新一代實際工作者和研究者的教科書,同時又能讓像我這樣的專業人員受益。Witten、Frank和Hall熱衷於簡單而優美的解決方案。他們對每個主題都采用這樣的方法,用具體的實例來講解所有的概念,促使讀者首先考慮簡單的技術,當簡單的技術不足以解決問題時,就提升到更為復雜的高級技術。”
——Jim Gray(圖靈奬獲得者)
★“本書既含理論又有實踐應用,並且關注實踐是本書的一大特色。對於從事數據挖掘和機器學習方麵工作的每位讀者,我強烈推薦本書!”
——Dorian Pyle 《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者
Data Mining:Practical Machine Learning Tools and Techniques,Third Edition
齣版者的話
譯者序
前言
緻謝
第一部分 數據挖掘簡介
第1章 緒論2
1.1 數據挖掘和機器學習2
1.1.1 描述結構模式3
1.1.2 機器學習5
1.1.3 數據挖掘6
1.2 簡單的例子:天氣問題和其他問題6
1.2.1 天氣問題7
1.2.2 隱形眼鏡:一個理想化的問題8
1.2.3 鳶尾花:一個經典的數值型數據集10
1.2.4 CPU性能:介紹數值預測11
1.2.5 勞資協商:一個更真實的例子11
1.2.6 大豆分類:一個經典的機器學習的成功例子13
1.3 應用領域14
1.3.1 Web挖掘15
1.3.2 包含評判的決策15
1.3.3 圖像篩選16
1.3.4 負載預測17
1.3.5 診斷17
1.3.6 市場和銷售18
1.3.7 其他應用19
1.4 機器學習和統計學20
1.5 將泛化看做搜索21
1.5.1 枚舉概念空間22
1.5.2 偏差22
1.6 數據挖掘和道德24
1.6.1 再識彆25
1.6.2 使用個人信息25
1.6.3 其他問題26
1.7 補充讀物27
第2章 輸入:概念、實例和屬性29
2.1 概念29
2.2 樣本31
2.2.1 關係32
2.2.2 其他實例類型34
2.3 屬性35
2.4 輸入準備37
2.4.1 數據收集37
2.4.2 ARFF格式38
2.4.3 稀疏數據40
2.4.4 屬性類型40
2.4.5 缺失值41
2.4.6 不正確的值42
2.4.7 瞭解數據43
2.5 補充讀物43
第3章 輸齣:知識錶達44
3.1 錶44
3.2 綫性模型44
3.3 樹45
3.4 規則48
3.4.1 分類規則49
3.4.2 關聯規則52
3.4.3 包含例外的規則52
3.4.4 錶達能力更強的規則54
3.5 基於實例的錶達56
3.6 聚類58
3.7 補充讀物60
第4章 算法:基本方法61
4.1 推斷基本規則61
4.1.1 缺失值和數值屬性62
4.1.2 討論64
4.2 統計建模64
4.2.1 缺失值和數值屬性67
4.2.2 用於文檔分類的樸素貝葉斯68
4.2.3 討論70
4.3 分治法:建立決策樹70
4.3.1 計算信息量73
4.3.2 高度分支屬性74
4.3.3 討論75
4.4 覆蓋算法:建立規則76
4.4.1 規則與樹77
4.4.2 一個簡單的覆蓋算法77
4.4.3 規則與決策列錶80
4.5 挖掘關聯規則81
4.5.1 項集81
4.5.2 關聯規則83
4.5.3 有效地生成規則85
4.5.4 討論87
4.6 綫性模型87
4.6.1 數值預測:綫性迴歸87
4.6.2 綫性分類:Logistic迴歸88
4.6.3 使用感知機的綫性分類90
4.6.4 使用Winnow的綫性分類91
4.7 基於實例的學習92
4.7.1 距離函數93
4.7.2 有效尋找最近鄰93
4.7.3 討論97
4.8 聚類97
4.8.1 基於距離的迭代聚類98
4.8.2 快速距離計算99
4.8.3 討論100
4.9 多實例學習100
4.9.1 聚集輸入100
4.9.2 聚集輸齣100
4.9.3 討論101
4.10 補充讀物101
4.11 Weka實現103
第5章 可信度:評估學習結果104
5.1 訓練和測試104
5.2 預測性能106
5.3 交叉驗證108
5.4 其他評估方法109
5.4.1 留一交叉驗證109
5.4.2 自助法109
5.5 數據挖掘方法比較110
5.6 預測概率113
5.6.1 二次損失函數114
5.6.2 信息損失函數115
5.6.3 討論115
5.7 計算成本116
5.7.1 成本敏感分類117
5.7.2 成本敏感學習118
5.7.3 提升圖119
5.7.4 ROC麯綫122
5.7.5 召迴率-精確率麯綫124
5.7.6 討論124
5.7.7 成本麯綫125
5.8 評估數值預測127
5.9 最小描述長度原理129
5.10 在聚類方法中應用MDL原理131
5.11 補充讀物132
第二部分 高級數據挖掘
第6章 實現:真正的機器學習方案134
6.1 決策樹135
6.1.1 數值屬性135
6.1.2 缺失值136
6.1.3 剪枝137
6.1.4 估計誤差率138
6.1.5 決策樹歸納的復雜度140
6.1.6 從決策樹到規則140
6.1.7 C4.5:選擇和選項141
6.1.8 成本-復雜度剪枝141
6.1.9 討論142
6.2 分類規則142
6.2.1 選擇測試的標準143
6.2.2 缺失值和數值屬性143
6.2.3 生成好的規則144
6.2.4 使用全局優化146
6.2.5 從局部決策樹中獲得規則146
6.2.6 包含例外的規則149
6.2.7 討論151
6.3 關聯規則152
6.3.1 建立頻繁模式樹152
6.3.2 尋找大項集157
6.3.3 討論157
6.4 擴展綫性模型158
6.4.1 最大間隔超平麵159
6.4.2 非綫性類邊界160
6.4.3 支持嚮量迴歸161
6.4.4 核嶺迴歸163
6.4.5 核感知機164
6.4.6 多層感知機165
6.4.7 徑嚮基函數網絡171
6.4.8 隨機梯度下降172
6.4.9 討論173
6.5 基於實例的學習174
6.5.1 減少樣本集的數量174
6.5.2 對噪聲樣本集剪枝174
6.5.3 屬性加權175
6.5.4 泛化樣本集176
6.5.5 用於泛化樣本集的距離函數176
6.5.6 泛化的距離函數177
6.5.7 討論178
6.6 局部綫性模型用於數值預測178
6.6.1 模型樹179
6.6.2 構建樹179
6.6.3 對樹剪枝180
6.6.4 名目屬性180
6.6.5 缺失值181
6.6.6 模型樹歸納的僞代碼181
6.6.7 從模型樹到規則184
6.6.8 局部加權綫性迴歸184
6.6.9 討論185
6.7 貝葉斯網絡186
6.7.1 預測186
6.7.2 學習貝葉斯網絡189
6.7.3 算法細節190
6.7.4 用於快速學習的數據結構192
6.7.5 討論194
6.8 聚類194
6.8.1 選擇聚類的個數195
6.8.2 層次聚類195
6.8.3 層次聚類的例子196
6.8.4 增量聚類199
6.8.5 分類效用203
6.8.6 基於概率的聚類204
6.8.7 EM算法205
6.8.8 擴展混閤模型206
6.8.9 貝葉斯聚類207
6.8.10 討論209
6.9 半監督學習210
6.9.1 用於分類的聚類210
6.9.2 協同訓練212
6.9.3 EM和協同訓練212
6.9.4 討論213
6.10 多實例學習213
6.10.1 轉換為單實例學習213
6.10.2 升級學習算法215
6.10.3 專用多實例方法215
6.10.4 討論216
6.11 Weka實現216
第7章 數據轉換218
7.1 屬性選擇219
7.1.1 獨立於方案的選擇220
7.1.2 搜索屬性空間222
7.1.3 具體方案相關的選擇223
7.2 離散化數值屬性225
7.2.1 無監督離散化226
7.2.2 基於熵的離散化226
7.2.3 其他離散化方法229
7.2.4 基於熵的離散化與基於誤差的離散化229
7.2.5 離散屬性轉換成數值屬性230
7.3 投影230
7.3.1 主成分分析231
7.3.2 隨機投影233
7.3.3 偏最小二乘迴歸233
7.3.4 從文本到屬性嚮量235
7.3.5 時間序列236
7.4 抽樣236
7.5 數據清洗237
7.5.1 改進決策樹237
7.5.2 穩健迴歸238
7.5.3 檢測異常239
7.5.4 一分類學習239
7.6 多分類問題轉換成二分類問題242
7.6.1 簡單方法242
7.6.2 誤差校正輸齣編碼243
7.6.3 集成嵌套二分法244
7.7 校準類概率246
7.8 補充讀物247
7.9 Weka實現249
第8章 集成學習250
8.1 組閤多種模型250
8.2 裝袋251
8.2.1 偏差-方差分解251
8.2.2 考慮成本的裝袋253
8.3 隨機化253
8.3.1 隨機化與裝袋254
8.3.2 鏇轉森林254
8.4 提升255
8.4.1 AdaBoost算法255
8.4.2 提升算法的威力257
8.5 纍加迴歸258
8.5.1 數值預測258
8.5.2 纍加Logistic迴歸259
8.6 可解釋的集成器260
8.6.1 選擇樹260
8.6.2 Logistic模型樹262
8.7 堆棧262
8.8 補充讀物264
8.9 Weka實現265
第9章 繼續:擴展和應用266
9.1 應用數據挖掘266
9.2 從大型的數據集裏學習268
9.3 數據流學習270
9.4 融閤領域知識272
9.5 文本挖掘273
9.6 Web挖掘276
9.7 對抗情形278
9.8 無處不在的數據挖掘280
9.9 補充讀物281
第三部分 Weka數據挖掘平颱
第10章 Weka簡介284
10.1 Weka中包含瞭什麼284
10.2 如何使用Weka285
10.3 Weka的其他應用286
10.4 如何得到Weka286
……
第11章 Explorer界麵287
第12章 Knowledge Flow界麵351
第13章 Experimenter界麵358
第14章 命令行界麵368
第15章 嵌入式機器學習376
第16章 編寫新的學習方案382
第17章 Weka Explorer的輔導練習397
參考文獻416
索引431
第一部分 數據挖掘簡介
第1章 緒論
人工受精的過程是從婦女的卵巢中收集卵子,再與丈夫或捐贈人的精液結閤後産生胚胎,然後從中選擇幾個胚胎移植到婦女的子宮裏。關鍵是要選齣那些存活可能性最大的胚胎。選擇根據60個左右的胚胎特徵記錄做齣,這些特徵包括它們的形態、卵母細胞、濾泡和精液樣品。特徵屬性的數量非常大,胚胎學傢很難同時對所有屬性進行評估,並結閤曆史數據得齣最終結論:這個胚胎是否能夠産生一個活的嬰兒。在英格蘭的一個研究項目中,研究者探索運用機器學習技術,使用曆史記錄和它們的輸齣作為訓練數據。
每年,新西蘭奶牛場主都要麵臨艱難的商業決策:哪些牛應該留在牧場,哪些牛需要賣到屠宰場。隨著飼料儲備的減少,每年牧場在接近擠奶季節末期時隻留下1/5的奶牛。每頭牛的生育和牛奶産量的曆史數據都會影響這個決定。除此以外還要考慮的因素有:年齡(每頭牛都將在8歲後接近生育期的終結)、健康問題、難産的曆史數據、不良的性情特徵(如尥蹶子、跳柵欄)、在下一個季節裏不産牛犢。在過去的幾年中,幾百萬頭牛中的每一頭牛都用700多個屬性記錄下來。機器學習正是用來考察成功的農場主在做決定的時候需要考慮哪些因素,不是為瞭使決策自動化,而是嚮其他人推廣這些農場主的技術和經驗。
機器學習是從數據中挖掘知識。它是一個正在萌芽的新技術,範圍涉及生與死、從歐洲到兩極、傢庭和事業,正逐漸引起人們的重視。
1.1 數據挖掘和機器學習
我們正在被數據所淹沒。存在於這個世界和我們生活中的數據總量似乎在不斷地增長,而且沒有停止的跡象。個人計算機的普及將那些以前會丟棄的數據保存起來。便宜的硬盤和網絡硬盤,3使得很容易以後再決定用這些數據做什麼,因為我們可以買更多的硬盤來保存數據。無處不在的電子器件記錄瞭我們的決策,如超市裏的商品選擇、個人的理財習慣,以及收入和消費。我們以自己的方式生活在這個世界上,而每一個行為又成為一條數據庫裏的記錄保存下來。如今互聯網用信息將我們淹沒,我們在網上所做的每一個選擇都被記錄下來。所有的這些信息記錄瞭個人的選擇,而在商業和企業領域存在著數不清的相似案例。我們都知道我們對數據的掌握永遠無法趕上數據升級的速度。而且在數據量增加的同時,無情地伴隨著人們對它理解的降低。隱藏在這些數據後的是信息,具有潛在用處的信息,而這些信息卻很少被顯現齣來或者被開發利用。
本書介紹如何在數據中尋找模式。這並不稀奇,人們從一開始,就試圖在數據中尋找模式。獵人在動物遷徙的行為中尋找模式;農夫在莊稼的生長中尋找模式;政客在選民的意見上尋找模式;戀人在對方的反應中尋找模式。科學傢的工作(像一個嬰兒)是理解數據,從數據中找齣模式,並用它們來指導在真實世界中如何運作,然後把它們概括成理論,這些理論能夠預測齣在新的情況下會發生什麼。企業傢的工作是要辨彆齣機會,就是那些可以轉變成有利可圖的生意的行為中的一些模式,並且
數據挖掘:實用機器學習工具與技術(原書第3版) 下載 mobi epub pdf txt 電子書 格式
數據挖掘:實用機器學習工具與技術(原書第3版) 下載 mobi pdf epub txt 電子書 格式 2024
數據挖掘:實用機器學習工具與技術(原書第3版) 下載 mobi epub pdf 電子書幫室友買的
評分京東618活動相當給力啊 贊贊贊
評分書不錯,值得購買,有weka軟件
評分書還行,唯一問題是,為啥京東開發票都沒明細瞭,還要自己打印,退貨還被威脅為惡意退貨,真坑
評分隻想說中文翻譯的水平確實不咋的,就我這入門水平,隻看到第4章就發現好多錯誤。
評分還沒有看,書裏麵的代碼都是Java實現的,不是Python
評分質量很差,紙張很薄,味道很重,印刷也差
評分好好好好好好好好好好
評分京東618活動相當給力啊 贊贊贊
數據挖掘:實用機器學習工具與技術(原書第3版) mobi epub pdf txt 電子書 格式下載 2024