發表於2024-11-25
係統講解數據挖掘機器學習工具Weka經典的開源挖掘工具、開放的Java環境初學者的入門*選、研究者的鑽研利器
袁梅宇,男,工學博士,碩士導師,現在昆明理工大學計算機係任教。為本科生和研究生主講Java程序設計、JavaEE技術、數據庫原理、人工智能、DotNet技術等核心課程,參加過863CIMSNet建設、中歐閤作項目DRAGON和多項國傢基金和省基金項目,第*作者公開發錶論文十餘篇,軟件著作權(頒證)六項。
第1章 Weka介紹 1
1.1 Weka簡介 2
1.1.1 Weka曆史 3
1.1.2 Weka功能簡介 3
1.2 基本概念 5
1.2.1 數據挖掘和機器學習 5
1.2.2 數據和數據集 5
1.2.3 ARFF格式 6
1.2.4 預處理 7
1.2.5 分類與迴歸 10
1.2.6 聚類分析 12
1.2.7 關聯分析 12
1.3 Weka係統安裝 13
1.3.1 係統要求 13
1.3.2 安裝過程 14
1.3.3 Weka使用初步 16
1.3.4 係統運行注意事項 18
1.4 訪問數據庫 24
1.4.1 配置文件 25
1.4.2 數據庫設置 26
1.4.3 常見問題及解決辦法 27
1.5 示例數據集 28
1.5.1 天氣問題 29
1.5.2 鳶尾花 30
1.5.3 CPU 31
1.5.4 玻璃數據集 32
1.5.5 美國國會投票記錄 33
1.5.6 乳腺癌數據集 33
課後強化練習 34
第2章 探索者界麵 35
2.1 圖形用戶界麵 36
2.1.1 標簽頁簡介 36
2.1.2 狀態欄 37
2.1.3 圖像輸齣 37
2.1.4 手把手教你用 37
2.2 預處理 40
2.2.1 加載數據 40
2.2.2 屬性處理 43
2.2.3 過濾器 44
2.2.4 過濾器算法介紹 46
2.2.5 手把手教你用 52
2.3 分類 59
2.3.1 分類器選擇 59
2.3.2 分類器訓練 61
2.3.3 分類器輸齣 62
2.3.4 分類算法介紹 65
2.3.5 分類模型評估 79
2.3.6 手把手教你用 81
2.4 聚類 98
2.4.1 Cluster標簽頁的操作 98
2.4.2 聚類算法介紹 99
2.4.3 手把手教你用 101
2.5 關聯 107
2.5.1 Associate標簽頁的操作 107
2.5.2 關聯算法介紹 108
2.5.3 手把手教你用 111
2.6 選擇屬性 117
2.6.1 Select attributes標簽頁的
操作 118
2.6.2 選擇屬性算法介紹 119
2.6.3 手把手教你用 120
2.7 可視化 128
2.7.1 Visualize標簽頁 128
2.7.2 邊界可視化工具 131
2.7.3 代價/收益分析可視化 133
2.7.4 手把手教你用 134
課後強化練習 140
第3章 知識流界麵 143
3.1 知識流介紹 144
3.1.1 知識流特性 144
3.1.2 知識流界麵布局 145
3.2 知識流組件 148
3.2.1 數據源 148
3.2.2 數據接收器 151
3.2.3 評估器 155
3.2.4 可視化器 156
3.2.5 其他工具 158
3.3 使用知識流組件 160
3.4 手把手教你用 162
課後強化練習 181
第4章 實驗者界麵 183
4.1 簡介 184
4.2 標準實驗 185
4.2.1 簡單實驗 185
4.2.2 高級實驗 190
4.2.3 手把手教你用 198
4.3 遠程實驗 210
4.3.1 遠程實驗設置 210
4.3.2 手把手教你用 213
4.4 分析結果 221
4.4.1 獲取實驗結果 221
4.4.2 動作 221
4.4.3 配置測試 222
4.4.4 保存結果 225
4.4.5 手把手教你用 225
課後強化練習 229
第5章 命令行界麵 231
5.1 命令行界麵介紹 232
5.1.1 命令調用 233
5.1.2 命令自動完成 234
5.2 Weka結構 235
5.2.1 類實例和包 235
5.2.2 weka.core包 236
5.2.3 weka.classifiers包 237
5.2.4 其他包 238
5.3 命令行選項 238
5.3.1 常規選項 239
5.3.2 特定選項 241
5.4 過濾器和分類器選項 242
5.4.1 過濾器選項 242
5.4.2 分類器選項 245
5.4.3 手把手教你用 247
5.5 包管理器 252
5.5.1 命令行包管理器 252
5.5.2 運行安裝的算法 254
課後強化練習 255
第6章 Weka高級應用 257
6.1 貝葉斯網絡 258
6.1.1 簡介 258
6.1.2 貝葉斯網絡編輯器 261
6.1.3 在探索者界麵中使用貝葉斯
網絡 269
6.1.4 結構學習 270
6.1.5 分布學習 272
6.1.6 查看貝葉斯網絡 273
6.1.7 手把手教你用 276
6.2 神經網絡 286
6.2.1 GUI使用 286
6.2.2 手把手教你用 289
6.3 文本分類 293
6.3.1 文本分類示例 294
6.3.2 分類真實文本 298
6.3.3 手把手教你用 300
6.4 時間序列分析及預測 306
6.4.1 使用時間序列環境 306
6.4.2 手把手教你用 318
課後強化練習 326
第7章 Weka API 327
7.1 加載數據 328
7.1.1 從文件加載數據 328
7.1.2 從數據庫加載數據 329
7.1.3 手把手教你用 330
7.2 保存數據 335
7.2.1 保存數據至文件 335
7.2.2 保存數據至數據庫 335
7.2.3 手把手教你用 336
7.3 處理選項 339
7.3.1 選項處理方法 339
7.3.2 手把手教你用 340
7.4 內存數據集處理 341
7.4.1 在內存中創建數據集 341
7.4.2 打亂數據順序 345
7.4.3 手把手教你用 345
7.5 過濾 349
7.5.1 批量過濾 350
7.5.2 即時過濾 351
7.5.3 手把手教你用 351
7.6 分類 355
7.6.1 分類器構建 355
7.6.2 分類器評估 356
7.6.3 實例分類 358
7.6.4 手把手教你用 359
7.7 聚類 370
7.7.1 聚類器構建 370
7.7.2 聚類器評估 371
7.7.3 實例聚類 373
7.7.4 手把手教你用 373
7.8 屬性選擇 379
7.8.1 使用元分類器 380
7.8.2 使用過濾器 380
7.8.3 使用底層API 381
7.8.4 手把手教你用 381
7.9 可視化 384
7.9.1 ROC麯綫 385
7.9.2 圖 385
7.9.3 手把手教你用 386
7.10 序列化 391
7.10.1 序列化基本方法 391
7.10.2 手把手教你用 392
7.11 文本分類綜閤示例 395
7.11.1 程序運行準備 395
7.11.2 源程序分析 396
7.11.3 運行說明 403
課後強化練習 404
第8章 學習方案源代碼分析 405
8.1 NaiveBayes源代碼分析 406
8.2 實現分類器的約定 427
課後強化練習 429
第9章 機器學習實戰 431
9.1 數據挖掘過程概述 432
9.1.1 CRISP-DM過程 432
9.1.2 數據預處理 433
9.1.3 挖掘項目及工具概述 434
9.2 實戰KDD Cup 1999 434
9.2.1 任務描述 435
9.2.2 數據集描述 436
9.2.3 挖掘詳細過程 438
9.3 實戰KDD Cup 2010 447
9.3.1 任務描述 447
9.3.2 數據集描述 447
9.3.3 挖掘詳細過程 450
9.3.4 更接近實際的挖掘過程 459
課後強化練習 471
附錄A 中英文術語對照 472
附錄B Weka算法介紹 476
過濾器算法介紹 476
分類算法介紹 498
聚類算法介紹 526
關聯算法介紹 530
選擇屬性算法介紹 532
參考文獻 537
第2章 探索者界麵
探索者(Explorer)界麵是Weka的主要圖形用戶界麵,其全部功能都可通過菜單選擇或錶單填寫進行訪問。本章介紹探索者的圖形用戶界麵、預處理、分類、聚類、關聯、選擇屬性和可視化等內容,內容非常豐富,學習這些知識可以全麵瞭解Weka的功能,快速上手實際的挖掘任務。
2.1 圖形用戶界麵
啓動Weka GUI 選擇器窗口之後,單擊Explorer按鈕,即可啓動探索者界麵。這時,由於沒有加載數據集,除Preprocess標簽頁外,其他標簽頁都變灰而不可用。可以使用Open file、Open URL、Open DB或者Generate按鈕加載或産生數據集,加載數據集之後,其他標簽頁纔可以使用。
這裏以打開文件為例進行說明。單擊Open file按鈕,通過彈齣的“打開”對話框,選擇打開data子目錄下的iris.arff文件,加載數據集後的探索者界麵如圖2.1所示。
圖2.1 探索者界麵
下麵按照先整體後局部的順序介紹圖形用戶界麵。
2.1.1 標簽頁簡介
圖2.1所示界麵的頂部有六個不同的標簽頁,分彆對應Weka所支持的多種數據挖掘方式。
這六個標簽頁的介紹如下。
(1) Preprocess(預處理):選擇數據集,並以不同方式對其進行修改。
(2) Classify(分類):訓練用於分類或迴歸的學習方案,並對其進行評估。
(3) Cluster(聚類):學習數據集聚類方案。
(4) Associate(關聯):學習數據關聯規則,並對其進行評估。
(5) Select attributes(選擇屬性):選擇數據集中預測效果最好的部分屬性。
(6) Visualize(可視化):查看不同的二維數據散點圖,並與其進行互動。
每個標簽頁都可完成不同工作,單擊相應的標簽即可實現標簽頁的切換。
界麵底部包括Status(狀態)欄、Log(日誌)按鈕和一隻Weka鳥,這些都一直保持可見,不論用戶切換到哪一個標簽頁。
2.1.2 狀態欄
狀態欄位於界麵最下部,可以讓用戶瞭解到現在進行到哪一步。例如,如果Weka探索者正在忙於加載數據文件,狀態欄中會顯示相應的狀態信息。
除瞭顯示狀態之外,還可以右擊鼠標來顯示內存信息,以及運行垃圾迴收器以清理內存。在狀態欄的任意位置右擊,彈齣的快捷菜單中隻包括兩個菜單項:Memory information(內存信息)和Run garbage collector(運行垃圾迴收器)。第一個菜單項用於顯示Weka當前可用的內存空間;第二個菜單項用於啓動Java垃圾迴收器,搜尋不再使用的內存並釋放,以迴收部分內存空間,提供給新的任務使用。需要指齣的是,垃圾迴收器是一個不間斷運行的後颱任務,如果不強製進行垃圾迴收,Java虛擬機也會在適當時候自動啓動垃圾迴收器。
Log按鈕位於狀態欄的右麵,單擊該按鈕會打開可以滾動的日誌窗口,顯示在此次運行期間內Weka 進行的全部活動以及每項活動的時間戳。不管是使用GUI、命令行還是Simple CLI,日誌都會包含分類、聚類、屬性選擇等操作的完整的設置字符串,用戶可以進行復製和粘貼操作。順便提醒讀者,通過學習日誌裏記錄的命令,可以深層次地瞭解Weka的內部運行機製。
在Log按鈕的右邊,可以看到被稱為Weka狀態圖標的鳥。如果沒有處理過程在運行,小鳥會坐下來打個盹。“?”符號旁邊的數字顯示目前有多少個正在進行處理的進程,當係統空閑時,該數字為零,數字會隨著正在進行處理進程數的增加而增加。當啓動處理進程時,小鳥會站起來不停走動。如果小鳥長時間站著不動,說明Weka齣現運行錯誤,此時用戶需要關閉並重新啓動探索者界麵。
2.1.3 圖像輸齣
Weka中顯示的大部分圖形,包括本章的探索者界麵和後麵章節的知識流界麵、實驗者界麵顯示的圖形,以及通過Weka GUI選擇器菜單帶齣的GraphVisualizer(圖可視化工具)或TreeVisualizer(樹可視化工具)顯示的圖形,都可以保存為圖像文件以備將來使用。保存方法是,在按住Alt鍵和Shift鍵的同時,在要保存的圖形上單擊,啓動保存文件對話框。Weka支持的圖像文件格式有BMP、JPEG、PNG和Postscript的EPS,用戶可以選擇圖像文件格式,還可以修改輸齣圖像文件的尺寸。
2.1.4 手把手教你用
1. 啓動Weka
雙擊桌麵上的Weka 3.7快捷方式,啓動Weka GUI選擇器窗口,如圖2.2所示。
單擊Explorer按鈕啓動探索者界麵,如圖2.3所示。現在,除Preprocess標簽頁可用外,其餘標簽頁都不可用。
圖2.2 Weka GUI選擇器窗口
圖2.3 探索者界麵
2. 瞭解標簽頁
單擊圖2.3所示界麵中的Open file按鈕,彈齣“打開”對話框,導航至Weka安裝目錄下的data子目錄,選擇iris.arff文件,如圖2.4所示。單擊“打開”按鈕,打開該文件。
圖2.4 “打開”對話框
打開文件(或稱為加載數據)後的探索者界麵如圖2.5所示。可以看到,加載數據後,六個標簽頁都變為可用狀態。
圖2.5 打開文件後的探索者界麵
讀者可以自行切換標簽頁,初步瞭解各標簽頁的功能,為後續學習打下基礎。
3. 瞭解狀態欄
不論切換到哪個標簽頁,都可在探索者界麵下部的狀態欄中查看狀態信息。在狀態欄任意位置右擊,在彈齣的快捷菜單中選擇Memory information菜單項,狀態欄顯示用斜杠分割的內存信息,格式為:空閑內存/全部內存/最大內存,單位是字節,如圖2.6所示。
圖2.6 內存信息
如果在快捷菜單中選擇Run garbage collector菜單項,狀態欄中會顯示OK信息,錶示已經啓動瞭垃圾迴收器,如圖2.7所示。
圖2.7 運行垃圾迴收器
單擊狀態欄右邊的Log按鈕,可以查看當前日誌,如圖2.8所示。
圖2.8 日誌窗口
4. 保存圖像文件
單擊圖2.5所示界麵右邊的Visualize All(全部可視化)按鈕,打開如圖2.9所示的全部可視化窗口。
圖2.9 全部可視化窗口
同時按住Alt鍵和Shift鍵,並在圖2.9所示的五幅圖標中任選一圖標,在圖標的任意位置單擊,啓動Save as對話框。設置“文件名”為test,選擇“文件類型”為jpg(或其他格式),單擊“保存”按鈕,就可將其保存為圖像文件,如圖2.10所示。
圖2.10 Save as對話框
在圖2.10的右邊,還可以定製圖像文件的長、寬尺寸,單位為像素。選中Use custom dimensions(使用自定義尺寸)復選框,就可以設置圖像尺寸。如果選中Keep aspect ratio(保持寬高比)復選框,則在修改圖像長(或寬)的同時,會按比例自動縮放寬(或長)。
2.2 預 處 理
Preprocess標簽頁可用於從文件、URL或數據庫中加載數據集,並且根據應用要求或領域知識過濾掉不需要進行處理或不符閤要求的數據。
2.2.1 加載數據
Preprocess標簽頁中頂部的前四個按鈕可以讓用戶將數據加載到Weka係統。Open file按鈕用於啓動“打開”對話框,用戶可以瀏覽本地文件係統,打開本地數據文件。Open URL按鈕要求用戶提供一個URL地址,Weka使用HTTP協議從網絡位置下載數據文件。Open DB按鈕用於從數據庫中讀取數據,支持所有能夠用JDBC驅動程序讀取的數據庫,使用SQL語句或存儲過程讀取數據錶。注意,必須根據自己的計算機環境配置,相應修改wekaexperimentDatabaseUtils.props配置文件後纔能訪問數據庫,具體參見1.4節內容。Generate按鈕用於讓用戶使用不同的DataGenerators(數據生成器)生成人工數據,適用於分類功能的人工數據可以由決策列錶RDG1、徑嚮基函數網絡RandomRBF、貝葉斯網絡BayesNet、LED24等算法産生,人工迴歸數據也可以根據數學錶達式生成,用於聚類的人工數據可以使用現成的生成算法産生。
使用Open file按鈕,可以讀取多種數據格式的文件,包括Weka ARFF格式、C4.5數據格式、CSV格式、JSON實例文件 數據挖掘與機器學習 WEKA應用技術與實踐(第二版) 下載 mobi epub pdf txt 電子書 格式
數據挖掘與機器學習 WEKA應用技術與實踐(第二版) 下載 mobi pdf epub txt 電子書 格式 2024
數據挖掘與機器學習 WEKA應用技術與實踐(第二版) 下載 mobi epub pdf 電子書好書慢慢看
評分數據挖掘與機器學習 WEKA應用技術與實踐(第二版)
評分書還不錯,內容挺充實的
評分好書,活動購買的,白菜價,內容吊吊的…,可以一試哦,好用
評分書還沒有仔細看。感覺挺不錯的。
評分不錯不錯不錯不錯不錯不錯不錯不錯不錯不錯不錯不錯
評分還沒有拆封,物流超級好評!
評分數據挖掘與機器學習 WEKA應用技術與實踐(第二版)
評分不錯
數據挖掘與機器學習 WEKA應用技術與實踐(第二版) mobi epub pdf txt 電子書 格式下載 2024