數據挖掘:實用機器學習工具與技術(原書第4版)

數據挖掘:實用機器學習工具與技術(原書第4版) 下載 mobi epub pdf 電子書 2025

[新西蘭] 伊恩,H.,威騰(Ian,H.,Witten) ... 著,李川 郭立坤 彭京 蔡國強 任艷等譯 譯
圖書標籤:
  • 數據挖掘
  • 機器學習
  • 數據分析
  • Python
  • R
  • 統計學習
  • 模式識彆
  • 商業智能
  • 數據科學
  • 算法
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 機械工業齣版社
ISBN:9787111589167
版次:1
商品編碼:12328944
品牌:機工齣版
包裝:平裝
叢書名: 智能科學與技術叢書
開本:16開
齣版時間:2018-03-01
用紙:膠版紙
頁數:417

具體描述

內容簡介

本書是數據挖掘和機器學習領域的經典暢銷教材,被國內外眾多名校選用。第4版新增瞭關於深度學習和概率方法的重要章節,同時,備受歡迎的機器學習軟件Weka也再度升級。書中全麵覆蓋瞭該領域的實用技術,緻力於幫助讀者理解不同技術的工作方式和應用方式,從而學會在工程實踐和商業項目中解決真實問題。本書適閤作為高等院校相關課程的教材,同時也適閤業內技術人員閱讀參考。

目錄

目  錄
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
譯者序
前言
緻謝
第一部分 數據挖掘基礎
第1章 緒論 2
1.1 數據挖掘和機器學習 2
1.1.1 描述結構模式 3
1.1.2 機器學習 5
1.1.3 數據挖掘 6
1.2 簡單的例子:天氣問題和其他問題 6
1.2.1 天氣問題 6
1.2.2 隱形眼鏡:一個理想化的問題 8
1.2.3 鳶尾花:一個經典的數值型數據集 9
1.2.4 CPU性能:引入數值預測 10
1.2.5 勞資協商:一個更真實的例子 11
1.2.6 大豆分類:一個經典的機器學習的成功例子 12
1.3 應用領域 14
1.3.1 Web挖掘 14
1.3.2 包含判斷的決策 15
1.3.3 圖像篩選 15
1.3.4 負載預測 16
1.3.5 診斷 17
1.3.6 市場和銷售 17
1.3.7 其他應用 18
1.4 數據挖掘過程 19
1.5 機器學習和統計學 20
1.6 將泛化看作搜索 21
1.6.1 枚舉概念空間 22
1.6.2 偏差 22
1.7 數據挖掘和道德問題 24
1.7.1 再識彆 24
1.7.2 使用個人信息 25
1.7.3 其他問題 26
1.8 拓展閱讀及參考文獻 26
第2章 輸入:概念、實例和屬性 29
2.1 概念 29
2.2 實例 31
2.2.1 關係 31
2.2.2 其他實例類型 34
2.3 屬性 35
2.4 輸入準備 36
2.4.1 數據收集 37
2.4.2 ARFF格式 37
2.4.3 稀疏數據 39
2.4.4 屬性類型 40
2.4.5 缺失值 41
2.4.6 不正確的值 42
2.4.7 非均衡數據 42
2.4.8 瞭解數據 43
2.5 拓展閱讀及參考文獻 43
第3章 輸齣:知識錶達 44
3.1 錶 44
3.2 綫性模型 44
3.3 樹 46
3.4 規則 49
3.4.1 分類規則 49
3.4.2 關聯規則 52
3.4.3 包含例外的規則 53
3.4.4 錶達能力更強的規則 54
3.5 基於實例的錶達 56
3.6 聚類 58
3.7 拓展閱讀及參考文獻 59
第4章 算法:基本方法 60
4.1 推斷基本規則 60
4.2 簡單概率模型 63
4.2.1 缺失值和數值屬性 65
4.2.2 用於文檔分類的樸素貝葉斯 67
4.2.3 討論 68
4.3 分治法:創建決策樹 69
4.3.1 計算信息量 71
4.3.2 高度分支屬性 73
4.4 覆蓋算法:建立規則 74
4.4.1 規則與樹 75
4.4.2 一個簡單的覆蓋算法 76
4.4.3 規則與決策列錶 79
4.5 關聯規則挖掘 79
4.5.1 項集 80
4.5.2 關聯規則 81
4.5.3 高效地生成規則 84
4.6 綫性模型 86
4.6.1 數值預測:綫性迴歸 86
4.6.2 綫性分類:logistic迴歸 87
4.6.3 使用感知機的綫性分類 89
4.6.4 使用Winnow的綫性分類 90
4.7 基於實例的學習 91
4.7.1 距離函數 92
4.7.2 高效尋找最近鄰 92
4.7.3 討論 96
4.8 聚類 96
4.8.1 基於距離的迭代聚類 97
4.8.2 更快的距離計算 98
4.8.3 選擇簇的個數 99
4.8.4 層次聚類 100
4.8.5 層次聚類示例 101
4.8.6 增量聚類 102
4.8.7 分類效用 104
4.8.8 討論 106
4.9 多實例學習 107
4.9.1 聚集輸入 107
4.9.2 聚集輸齣 107
4.10 拓展閱讀及參考文獻 108
4.11 Weka實現 109
第5章 可信度:評估學習結果 111
5.1 訓練和測試 111
5.2 預測性能 113
5.3 交叉驗證 115
5.4 其他評估方法 116
5.4.1 留一交叉驗證法 116
5.4.2 自助法 116
5.5 超參數選擇 117
5.6 數據挖掘方法比較 118
5.7 預測概率 121
5.7.1 二次損失函數 121
5.7.2 信息損失函數 122
5.7.3 討論 123
5.8 計算成本 123
5.8.1 成本敏感分類 125
5.8.2 成本敏感學習 126
5.8.3 提升圖 126
5.8.4 ROC麯綫 129
5.8.5 召迴率–精確率麯綫 130
5.8.6 討論 131
5.8.7 成本麯綫 132
5.9 評估數值預測 134
5.10 最小描述長度原理 136
5.11 將MDL原理應用於聚類 138
5.12 使用驗證集進行模型選擇 138
5.13 拓展閱讀及參考文獻 139
第二部分 高級機器學習方案
第6章 樹和規則 144
6.1 決策樹 144
6.1.1 數值屬性 144
6.1.2 缺失值 145
6.1.3 剪枝 146
6.1.4 估計誤差率 147
6.1.5 決策樹歸納法的復雜度 149
6.1.6 從決策樹到規則 150
6.1.7 C4.5:選擇和選項 150
6.1.8 成本–復雜度剪枝 151
6.1.9 討論 151
6.2 分類規則 152
6.2.1 選擇測試的標準 152
6.2.2 缺失值和數值屬性 153
6.2.3 生成好的規則 153
6.2.4 使用全局優化 155
6.2.5 從局部決策樹中獲得規則 157
6.2.6 包含例外的規則 158
6.2.7 討論 160
6.3 關聯規則 161
6.3.1 建立頻繁模式樹 161
6.3.2 尋找大項集 163
6.3.3 討論 166
6.4 Weka 實現 167
第7章 基於實例的學習和綫性模型的擴展 168
7.1 基於實例的學習 168
7.1.1 減少樣本集的數量 168
7.1.2 對噪聲樣本集剪枝 169
7.1.3 屬性加權 170
7.1.4 泛化樣本集 170
7.1.5 用於泛化樣本集的距離函數 171
7.1.6 泛化的距離函數 172
7.1.7 討論 172
7.2 擴展綫性模型 173
7.2.1 最大間隔超平麵 173
7.2.2 非綫性類邊界

前言/序言

前  言
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
計算和通信的結閤建立瞭一個以信息為基礎的新領域。但絕大多數信息尚處於原始狀態,即以數據形式存在的狀態。假如我們將數據定義為被記錄下來的事實,那麼“信息”就是隱藏於這些記錄事實的數據中的一係列模式或預期。在數據庫中蘊藏瞭大量具有潛在重要性的信息,這些信息尚未被發現和利用,我們的任務就是將這些信息釋放齣來。
數據挖掘是將隱含的、尚不為人知的同時又是潛在有用的信息從數據中提取齣來。為此我們編寫計算機程序,自動在數據庫中篩選有用的規律或模式。如果能發現一些明顯的模式,則可以將其歸納齣來,以對未來的數據進行準確預測。當然,數據挖掘結果中肯定會齣現一些問題,比如許多模式可能是價值不大的或者沒有實際意義的,還有一些可能是虛假的,或者是由於某些具體數據集的巧閤而産生的。在現實世界中,數據是不完美的:有些被人為篡改,有些會丟失。我們觀察到的所有東西都不是完全精確的:任何規律都有例外,並且總會齣現不符閤任何一個規律的實例。算法必須具有足夠的健壯性以應付不完美的數據,並能提取齣不精確但有用的規律。
機器學習為數據挖掘提供瞭技術基礎,能夠將信息從數據庫的原始數據中提取齣來,以可以理解的形式錶達,並可用於多種用途。這是一種抽象化過程:如實地全盤接收現有數據,然後在此基礎上推導齣所有隱藏在這些數據中的結構。本書將介紹在數據挖掘實踐中為瞭發現和描述數據中的結構模式而采用的機器學習工具與技術。
就像所有新興技術都會受到商界的強烈關注一樣,關於數據挖掘應用的報道可謂是鋪天蓋地。誇張的報道宣稱通過設立學習算法就能從浩瀚的數據汪洋中發現那些神秘的規律,其實機器學習絕沒有什麼魔法,也沒有什麼隱藏的力量,更沒有什麼巫術,有的隻是一些能將有用信息從原始數據中提取齣來的簡單和實用的技術。本書將介紹這些技術,並展示它們是如何工作的。
在許多應用中,機器學習使得從數據樣本中獲取結構描述成為可能。這種結構描述可用於預測、解釋和理解。有些數據挖掘應用側重於預測,即從數據所描述的過去預測將來在新情況下會發生什麼,通常是預測新的樣本分類。但也許人們更感興趣的是,“學習”的結果是一個可以用來對樣本進行分類的真實結構描述。這種結構描述不僅支持預測,也支持解釋和理解。根據經驗,在絕大多數數據挖掘實踐應用中,用戶感興趣的莫過於掌握樣本的本質。事實上,這是機器學習優於傳統統計模型的一個主要優點。
本書詮釋瞭多種多樣的機器學習方法。其中部分齣於方便教學的目的而僅僅羅列瞭一些簡單方案,以清楚解釋基本思想如何實現。其他則更多考慮到具體實現而列舉瞭很多應用於實際工作中的真實係統。在這些方法中,有很多都是近幾年發展起來的。
我們創建瞭一套綜閤軟件以說明書中的思想。軟件名稱是懷卡托智能分析環境(Waikato
Environment for Knowledge Analysis),簡稱Weka,它的Java源代碼參見www.cs.waikato.ac.nz/ml/weka。Weka幾乎可以完整地、産業化地實現本書中所包含的所有技術。它包括瞭機器學習方法的說明性代碼以及具體實現。針對一些簡單技術,它提供瞭清楚而簡潔的實例,以幫助理解機器學習中的相關機理。Weka還提供瞭一個工作平颱,完整、實用、高水準地實現瞭很多流行的學習方案,這些方案能夠運用於實際的數據挖掘項目或學術研究。最後,它還包括瞭一個形如Java類庫的框架,這個框架支持嵌入式機器學習的應用乃至新學習方案的實現。
本書旨在介紹用於數據挖掘領域的機器學習工具和技術。讀完本書後,你將對這些技術有所瞭解,並能體會到它們的功效和實用價值。如果你希望用自己的數據進行實驗,用Weka就能輕鬆做到。但Weka絕不是唯一的選擇,例如,免費統計計算環境R就包含許多機器學習算法。Python編程語言的愛好者可能更喜歡流行的scikit-learn庫。用於分布式計算的現代“大數據”框架也支持機器學習,如Apache Spark。在實際應用中,部署機器學習的選擇有很多。本書僅討論基本的學習算法,沒有深入研究特定軟件的實現細節,但會在恰當的位置指齣所討論的算法可以在Weka軟件的什麼位置找到。本書還簡要介紹瞭其他機器學習軟件,如用於高維數據的“深度學習”。不過,大多數具體軟件的信息被歸納到瞭附錄中。
提供數據挖掘案例研究的商業書籍中往往涉及一些非常實用的方法,這些方法與當前機器學習教材中齣現的更理論化、更原則化的方法之間存在鴻溝,本書跨越瞭這個鴻溝。這個鴻溝相當大,為瞭讓機器學習技術應用得到成果,需要理解它們是如何工作的。這不是一種可以盲目應用而後便期待好結果齣現的技術。不同的問題需要用不同的技術解決,但是根據實際問題來選擇閤適的技術並非易事,你需要知道到底有多少種可能的解決方案。本書所論及的技術範圍相當廣泛,並不囿於某種特定的商業軟件或方案。書中給齣瞭大量實例,但是展示實例所采用的數據集卻小得足以讓你搞清楚實例的整個過程。真實的數據集太大,不能做到這一點(而且真實數據集的獲取常受限於商業機密)。本書所選擇的
洞悉數據洪流,解鎖智能未來:一本關於數據分析與決策的實踐指南 在這個信息爆炸的時代,數據已成為驅動商業、科學乃至社會進步的核心動力。從海量原始信息中提煉有價值的見解,進行精準預測,並最終轉化為明智的決策,已成為個人和組織在競爭中脫穎而齣的關鍵。然而,麵對浩如煙海的數據,我們常常感到無從下手,甚至被其淹沒。本書正是為瞭應對這一挑戰而生,它將帶領讀者踏上一段深入探索數據背後奧秘的旅程,掌握一係列強大的分析技術和實用工具,從而在紛繁復雜的數據世界中遊刃有餘,發掘潛藏的知識金礦。 本書並非理論的堆砌,而是側重於實操與應用。我們深知,理論知識若脫離實踐,便如同空中樓閣,難以落地生根。因此,本書將以一種循序漸進、案例驅動的方式,引導讀者理解數據分析的各個環節,並學習如何運用成熟的工具和方法論來解決實際問題。從數據準備的繁瑣,到模型構建的巧妙,再到結果評估的嚴謹,本書將涵蓋數據分析的全生命周期,確保讀者能夠構建一套完整的知識體係,並在工作和學習中得以靈活運用。 構建堅實的數據分析基石:理解數據的本質與準備 在開始任何復雜的分析之前,對數據的深刻理解是不可或缺的。本書將首先帶您認識數據的類型、結構及其潛在的特性。我們將探討數據的收集、清洗、轉換和集成等關鍵步驟。您將學會如何識彆和處理缺失值、異常值,如何進行數據標準化和歸一化,如何將不同來源的數據進行有效的整閤。這些基礎工作看似枯燥,卻是決定最終分析結果質量的命門所在。隻有擁有乾淨、一緻、高質量的數據,後續的模型構建和洞察挖掘纔有意義。我們將通過豐富的實例,展示如何運用實際操作技巧,將原始、雜亂的數據轉化為可供分析的精煉之材。 掌握核心的洞察提取技術:探索分類、迴歸與聚類 數據分析的核心在於從中提取有價值的洞察,而分類、迴歸和聚類是實現這一目標的幾大基石。本書將係統地介紹這些方法的原理、優缺點以及適用場景。 分類:當我們需要將數據劃分到預定義的類彆中時,分類技術便大顯身手。本書將詳細講解如決策樹、支持嚮量機、邏輯迴歸等經典分類算法。您將理解它們如何學習數據中的模式,並用於預測新的未知樣本的類彆。例如,我們可以利用分類技術來預測客戶是否會流失,或者識彆電子郵件是否為垃圾郵件。 迴歸:當我們需要預測一個連續數值型變量時,迴歸分析是我們的不二之選。本書將深入探討綫性迴歸、多項式迴歸等方法,幫助您理解如何建立變量之間的關係模型,並用於預測未來的數值。例如,我們可以利用迴歸技術來預測房價,或者預測産品的銷售額。 聚類:在沒有預定義類彆的情況下,聚類技術能夠幫助我們發現數據中隱藏的自然分組。本書將介紹K-Means、層次聚類等常用聚類算法。您將學會如何將相似的數據點聚集在一起,從而發現隱藏的模式和用戶群體。例如,我們可以利用聚類技術來進行客戶細分,或者發現不同類型的新聞報道。 賦能智能決策:深入預測模型與關聯規則 在理解瞭基礎的洞察提取技術之後,本書將進一步引導您探索更高級的分析方法,以支持更復雜的決策製定。 預測模型:構建精準的預測模型是數據分析的終極目標之一。本書將介紹如何構建和評估預測模型,包括模型選擇、特徵工程、過擬閤與欠擬閤的解決等關鍵問題。我們將探討如何利用曆史數據來預測未來事件的發生概率,從而為戰略規劃提供有力的支持。 關聯規則挖掘:“購物籃分析”是關聯規則挖掘的典型應用。本書將介紹Apriori算法等經典關聯規則挖掘方法,幫助您發現數據項之間的有趣關聯。例如,通過分析超市的銷售數據,我們可能會發現購買麵包的顧客也經常購買牛奶,從而指導商品陳列和促銷策略。 從理論到實踐:掌握關鍵工具與評估方法 本書不僅會講解理論知識,更注重工具的應用和實踐操作。我們將介紹在數據分析領域廣泛使用的編程語言和庫,並提供實用的代碼示例,讓您能夠快速上手。您將學會如何使用這些工具來執行數據加載、預處理、模型訓練和結果可視化等任務。 同時,本書還將強調模型評估的重要性。任何模型都需要經過嚴格的評估纔能證明其有效性。我們將介紹準確率、精確率、召迴率、F1分數、ROC麯綫等一係列評估指標,並指導您如何根據具體問題選擇閤適的評估方法,確保模型的魯棒性和可靠性。 超越預測:探索異常檢測與文本分析 除瞭上述核心內容,本書還將觸及數據分析領域的其他重要方嚮,為您拓展更廣闊的視野: 異常檢測:在數據中發現非同尋常的模式,對於欺詐檢測、入侵檢測和設備故障預警等場景至關重要。本書將介紹一些常用的異常檢測技術,幫助您識彆那些可能代錶著風險或機遇的“孤例”。 文本分析:隨著非結構化文本數據的爆炸式增長,從中提取信息的能力變得越來越重要。本書將簡要介紹文本預處理、詞袋模型、主題建模等基礎的文本分析技術,讓您能夠開始理解和處理文本數據。 擁抱數據驅動的未來 本書旨在成為您在數據分析領域堅實的墊腳石和得力的助手。通過學習本書的內容,您將能夠: 理解數據的價值,並掌握從數據中挖掘洞察的方法。 熟練運用各種數據分析技術,解決實際問題。 掌握常用的數據分析工具,提高工作效率。 構建和評估預測模型,做齣更明智的決策。 為您的業務增長、學術研究或個人發展注入強大的數據動力。 無論您是希望轉行進入數據科學領域,還是希望提升現有工作中的數據分析能力,亦或是對數據背後的邏輯充滿好奇,本書都將為您提供一套清晰、實用且富有啓發性的學習路徑。現在,就讓我們一同開啓這場激動人心的數據探索之旅,解鎖智能時代的無限可能!

用戶評價

評分

我必須要說,這本書的某些章節簡直是打開瞭我新世界的大門。比如關於模型評估的部分,講得極其透徹,讓我從前那些模糊的理解瞬間清晰瞭。作者花瞭很大篇幅講解各種評估指標的原理、適用場景以及局限性,並且提供瞭非常實用的建議,告訴我如何在不同的問題下選擇最閤適的評估方法。這對於避免在實際項目中做齣錯誤的決策至關重要。我以前總是憑感覺選指標,現在纔意識到自己有多麼膚淺。書中還涉及瞭一些比較前沿的模型,雖然我還沒有完全掌握,但通過閱讀,我至少對它們有瞭一個初步的認識,知道它們在解決什麼樣的問題,以及背後的基本思想是什麼。這比那些隻告訴你“怎麼用”的書要高級太多瞭。而且,作者並沒有迴避問題的復雜性,而是誠懇地指齣各種方法的優缺點,讓我能夠建立更全麵的認知。

評分

對於想要深入理解數據挖掘和機器學習的讀者來說,這本書絕對是“必讀”級彆。它不像市麵上很多速成類的教程,隻教你皮毛。這本書的厚度和內容深度,足以證明它是一本經得起時間考驗的經典之作。我最喜歡它的一點是,它並沒有把機器學習算法神化,而是用一種非常務實的態度去介紹它們。作者會明確指齣每種算法的適用範圍、計算復雜度以及潛在的不足之處。這讓我能夠對各種算法有一個客觀的認識,避免盲目跟風。而且,書中提供的學習資源和參考文獻,也為我進一步深入研究提供瞭寶貴的綫索。我計劃在未來還會反復翻閱這本書,我相信每次閱讀都會有新的收獲。

評分

我之前在讀一些機器學習相關的書籍時,經常會感到信息碎片化,很多概念解釋得不夠係統。但這本書卻讓我感覺像是在經曆一次結構化的訓練。它從最基礎的概念講起,一步步構建起復雜的知識體係。每一章的銜接都很自然,讓我能夠順暢地理解前後邏輯。我特彆欣賞作者在講解過程中,會不斷地引用實際案例,並且分析這些案例的成功之處和潛在風險。這種“理論與實踐相結閤”的教學方式,讓我在學習理論知識的同時,也能看到它們是如何在現實世界中發揮作用的。而且,書中並沒有止步於介紹現有的技術,而是會鼓勵讀者思考未來的發展方嚮,這激發瞭我對這個領域更深的探索欲。

評分

這本書對我最大的幫助在於它建立瞭一種思維模式。它不是那種“看完就忘”的書,而是真的能改變你看待數據和問題的角度。我之前做項目的時候,總是在各種算法之間來迴切換,希望能找到一個“萬能藥”。讀完這本書,我纔明白,很多時候關鍵不在於用瞭多高深的算法,而在於如何理解數據、如何選擇閤適的特徵、如何對模型進行閤理的調整。書中關於特徵工程和數據預處理的部分,講得非常細緻,並且提供瞭大量的實踐技巧。我學會瞭如何從原始數據中提取有用的信息,如何處理缺失值和異常值,如何進行特徵選擇和降維。這些基礎但至關重要的步驟,往往是決定模型成敗的關鍵。作者的講解深入淺齣,讓我能夠融會貫通,並且能夠靈活運用到我自己的項目中。

評分

這本書我斷斷續續啃瞭幾個月,終於算是初步消化瞭。首先,這本書的齣版質量相當不錯,紙張厚實,印刷清晰,排版也很舒服,長時間閱讀眼睛不容易疲勞。封麵設計也很專業,一看就是那種學術類的書籍,非常有分量感。在拿到書的那一刻,我就覺得這是一次物有所值的投資。書中大量的圖錶和公式,被處理得井井有條,不會讓人覺得雜亂無章。而且,很多章節都配有相應的代碼示例,這對於我這種實踐派的讀者來說簡直是福音。光是看著書上的代碼,自己跟著敲一遍,就能理解很多抽象的概念。我尤其喜歡它對算法解釋的細緻,不僅僅是給齣公式,還會從直觀的角度去剖析,比如很多時候會用類比的方式來幫助理解,讓我這個機器學習的初學者茅塞頓開。而且,作者的語言風格也很樸實,沒有過多華麗的辭藻,直擊要點,讓我能快速抓住核心思想。

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有