發表於2024-12-25
在本書中,你將深入許多數據挖掘中常被忽視的領域,包括關聯規則挖掘、實體匹配、網絡挖掘、情緒分析、命名實體識彆、文本摘要、主題建模和異常檢測。對於每種數據挖掘技術,我們將在比較解決每種問題所用的各種策略之前,研究目前新的佳實踐。然後,將用來自軟件工程領域的實際數據,實現示例解決方案,並學習理解和解讀所得結果的方法。
譯者序
關於審稿人
前言
第1章 擴展你的數據挖掘工具箱1
1.1 什麼是數據挖掘2
1.2 如何進行數據挖掘4
1.2.1 Fayyad等人的KDD過程4
1.2.2 韓傢煒等人的KDD過程4
1.2.3 CRISP-DM過程5
1.2.4 六步過程6
1.2.5 哪一種數據挖掘方法最好6
1.3 在數據挖掘中使用哪些技術7
1.4 如何建立數據挖掘工作環境9
1.5 小結14
第2章 關聯規則挖掘16
2.1 什麼是頻繁項集16
2.1.1 都市傳奇“尿布與啤酒”17
2.1.2 頻繁項集挖掘基礎知識18
2.2 邁嚮關聯規則19
2.2.1 支持度20
2.2.2 置信度20
2.2.3 關聯規則21
2.2.4 包含數據的示例21
2.2.5 附加值—修復計劃中的漏洞22
2.2.6 尋找頻繁項集的方法24
2.3 項目—發現軟件項目標簽中的關聯規則25
2.4 小結38
第3章 實體匹配39
3.1 什麼是實體匹配40
3.1.1 數據閤並42
3.1.2 匹配技術45
3.1.3 基於屬性的相似度匹配45
3.1.4 屬性匹配方法46
3.1.5 利用不相交數據集48
3.1.6 基於上下文的相似度匹配48
3.1.7 基於機器學習的實體匹配49
3.1.8 實體匹配技術的評估50
3.2 實體匹配項目53
3.2.1 軟件項目匹配的難度53
3.2.2 兩個例子53
3.2.3 根據項目名稱匹配55
3.2.4 根據人名匹配55
3.2.5 根據URL匹配55
3.2.6 按照主題和描述關鍵詞匹配56
3.2.7 數據集57
3.2.8 代碼58
3.2.9 結果63
3.3 小結66
第4章 網絡分析68
4.1 什麼是網絡68
4.2 網絡計量71
4.2.1 網絡的度數71
4.2.2 網絡直徑72
4.2.3 網絡中的通路、路徑和跡72
4.2.4 網絡的成分73
4.2.5 圖的中心性73
4.3 圖數據的錶示76
4.3.1 鄰接矩陣76
4.3.2 邊錶和鄰接錶77
4.3.3 圖數據結構之間的差彆77
4.3.4 將數據導入圖結構中78
4.4 真實項目84
4.4.1 探索數據84
4.4.2 生成網絡文件89
4.4.3 以網絡的形式理解數據91
4.5 小結107
第5章 文本情緒分析109
5.1 什麼是情緒分析110
5.2 情緒分析基礎知識111
5.2.1 觀點的結構111
5.2.2 文檔級和句子級分析112
5.2.3 觀點的重要特徵113
5.3 情緒分析算法114
5.4 情緒挖掘應用116
5.4.1 項目動機117
5.4.2 數據準備117
5.4.3 聊天消息的數據分析120
5.4.4 電子郵件消息的數據分析124
5.5 小結130
第6章 文本中的命名實體識彆131
6.1 為什麼尋找命名實體?131
6.2 命名實體識彆技術134
6.3 NER係統的構建與評估137
6.3.1 NER和部分匹配137
6.3.2 處理部分匹配138
6.4 命名實體識彆項目140
6.5 小結149
第7章 自動化文本摘要150
7.1 什麼是自動化文本摘要151
7.2 文本摘要工具151
7.2.1 使用NTLK的簡單文本摘要152
7.2.2 使用Gensim的文本摘要155
7.2.3 使用Sumy的文本摘要157
7.3 小結163
第8章 文本中的主題建模164
8.1 什麼是主題建模164
8.2 潛在狄利剋雷分配166
8.3 Gensim主題建模167
8.3.1 理解Gensim LDA主題169
8.3.2 理解Gensim LDA的遍數170
8.3.3 對新文檔應用Gensim LDA模型172
8.3.4 序列化Gensim LDA對象172
8.4 用於更大項目的Gensim LDA174
8.5 小結176
第9章 挖掘數據異常178
9.1 什麼是數據異常178
9.1.1 缺失數據179
9.1.2 修復缺失數據181
9.1.3 數據錯誤184
9.1.4 離群值186
9.2 小結194
Preface前言過去十年,數據存儲變得更便宜,硬件變得更快,算法上也有瞭引人注目的進步,這一切為數據科學的快速興起鋪平瞭道路,並推動其發展成為計算領域最重要的機遇。雖然“數據科學”一詞可以包含從數據清理、數據存儲到用圖形圖錶可視化數據的所有環節,但該領域最重要的收獲是發明瞭智能、精密的數據分析算法。使用計算機尋找大量數據中埋藏的有趣模式稱為數據挖掘,這一領域包含瞭數據庫係統、統計學和機器學習等課題。
現在,軟件開發人員可以找到數十種齣色的數據挖掘和機器學習書籍,從而瞭解這一領域的所有最新進展。大部分這類書籍都有一個共同點,即它們都涵蓋瞭尋找數據中模式的少數經過檢驗的方法:分類、聚類、決策樹和迴歸。當然,這些方法對於任何數據挖掘人員都是非常重要的,它們的流行正是因為其有效性。但是,這幾種技術並不是全部。數據挖掘是一個豐富多彩的領域,包括數十種發現模式並做齣預測的技術。真正的數據挖掘大師應該在工具箱中放入許多工具,而不隻是少數幾種。因此,本書的使命是介紹一些通常僅在學校課本中齣現的、鮮為人知的數據挖掘概念。
本書使用Python編程語言和基於項目的方法介紹多種常被忽視的數據挖掘概念,如關聯規則、實體匹配、網絡分析、文本挖掘和異常檢測等。每章都全麵闡述某種特定數據挖掘技術的基礎知識,提供替代方案以評估其有效性,然後用真實的數據實現該技術。
專注於實際數據是本書不同於其他數據挖掘書籍的一個特徵。為瞭驗證我們是否掌握瞭某個概念,判斷方法是看我們能否將某種方法應用於新的未知問題。對我們來說,這意味著將每種數據挖掘方法應用到一個新的問題領域或者新的數據集。強調真實數據還意味著,我們的結果可能不總像預先製作的示例數據集那樣清晰。因此,每一章都包含對如何精密地評估方法的討論。得到的結果是否有意義?結果意味著什麼?如何改善這些結果?所以,在許多方麵,本書包含瞭其他一些數據挖掘書籍遺漏的知識。如果你想用一組有趣但常被忽視的技術補充日益增長的數據挖掘工具箱,那麼學習我們介紹的特定主題,以及在每個章節中的應用方法。
本書主要內容第1章簡單介紹數據挖掘領域,在該章中,我們特彆注意數據挖掘與類似主題(如機器學習和數據科學)的關係。還迴顧瞭許多不同的數據挖掘方法,討論它們的各種優點和缺點。這些基礎知識對我們過渡到本書的其他章節很重要,後續的章節更偏重技術,專注於特定數據挖掘工具的應用。
第2章介紹我們的第一個數據挖掘工具:挖掘一組同時齣現的項目,這有時候被稱為頻繁項集。這裏擴展瞭對頻繁項集挖掘的理解,包含關聯規則的挖掘,並且學習如何評估所找到的規則是否有益。為瞭將知識用於實踐,在該章的最後我們實施瞭一個小項目,尋找選擇用來描述大量軟件項目的關鍵詞中的關聯規則。
第3章的重點是找齣看上去稍有不同但實際上相同的匹配數據元素對。學習如何通過使用數據屬性,確定兩個項目是否實際上是同一迴事。在該章的最後,我們實施一個實體匹配項目,尋找從一個托管服務轉移到另一個托管服務中的軟件項目,即使該項目的名稱和其他重要屬性已經改變。
第4章是網絡或者圖形分析的教程,這兩種分析用於描述各種相互聯係的實體組之間的關係。我們研究各種類型的網絡,學習描述和計量它們的方法。然後,將學習到的知識投入實踐,描述一個軟件開發人員網絡是如何隨時間而變化的。
第5章是本書4個文本挖掘章節中的第一個。該章簡單介紹瞭發展中的文本情緒分析領域。比較情緒挖掘的各種方法並學習結果的評估手段之後,我們實踐使用機器學習分類器來確定一組軟件開發人員聊天記錄和電子郵件記錄中的情緒。
第6章是關於尋找文本中閤適名詞和名稱的。我們花費一些時間,學習這一任務的用途,瞭解為什麼尋找命名實體有時候比看上去更加睏難。在該章的最後,我們在各種不同類型的實際文本(包括電子郵件、聊天記錄和董事會會議紀要)上實現瞭一個命名實體識彆係統。在實現過程中,我們應用瞭不同的技術以量化結果的成敗。
第7章介紹多種自動創建濃縮的文本摘要的策略。該章強調摘要提取工具,這種工具用來找齣文本樣本中最重要的句子。為此,我們試驗瞭3種實現這一目標的不同工具,測試摘要方法並瞭解它們之間的差異。在介紹瞭每種工具之後,我們嘗試提取同一組文本文檔的摘要,並對比結果。
第8章說明如何使用軟件工具揭示給定文本中存在的主題或者概念。我們可以訓練一個計算機程序,推斷大量文本中存在的主題嗎?在一係列試驗中,我們學習使用常見的主題建模庫揭示軟件開發人員電子郵件中存在的主題,以及這些主題如何隨時間推移而變化。
第9章中我們學習如何使用數據挖掘和統計技術改善自己的數據挖掘過程。雖然本書的其他章節都在尋找數據中不同類型的模式,但該章將重點放在尋找異常或者不匹配特定模式的數據。不管這是因為數據是空白、遺漏還是怪異的,本章都提供瞭尋找或者修復這類數據並使剩餘數據可以被更有效挖掘的策略。
閱讀準備為瞭完成本書中的項目,你需要Python3.5或者更高版本。我建議使用AnacondaPython,但是隻要包含如下程序包,任何Python分發版本都是可行的:Numpy、MatPlotlib、NetworkX、PyMySQL、Gensim和NTLK。第1章會簡單介紹Python的安裝和以上程序庫,此後,每次使用一個程序庫,我們將同時安裝或者升級它。
因為數據挖掘明顯是以數據為中心的,而且我們使用的數據集有時候很大,需要某種持久化數據存儲,所以本書選擇在一個關係數據庫係統上實現一些數據挖掘算法。我們選擇MySQL實現這一目標,因為這是一個成熟、容易下載和安裝的基礎設施。第2章和第3章都使用MySQL與內存密集型算法搭配。同時,本書還在第9章中的某些例子裏使用瞭MySQL,但是沒有MySQL也可以完成該章的學習。
讀者人群如果你為瞭精通數據挖掘而選擇書籍,那麼可能已經熟悉瞭數據分析的基礎知識,可能試驗過迴歸、決策樹、分類和聚類分析等機器學習技術;如果你有一定的Python經驗,理解基本的關係數據庫術語,對統計學基礎有所瞭解,能夠理解有監督與無監督機器學習技術的基本工作原理,那麼就已經為本書的閱讀做好瞭準備。讓我們從你已有的知識入手,學習更加不同尋常的數據挖掘策略吧!
本書約定在本書中,你將發現許多區分不同信息的文本格式。下麵是這些格式的一些例子及對其意義的解釋。
下麵是一個代碼塊的示例:
任何命令輸入或者輸齣使用如下格式:
錶示警告或者重要說明。
錶示提示和技巧。
下載示例代碼你可以在www.packtpub.com上用自己的賬戶下載示例代碼文件。如果在其他地方購買本書,可以訪問www.packtpub.com/support注冊,這些文件將直接用電子郵件發送給你。
你也可以訪問華章圖書官網www.hzbook.com,通過注冊並登錄個人賬號,下載本書的源代碼。
TheTranslatorsWords譯者序互聯網的蓬勃發展引領我們進入一個數據超載的時代,電子商務和社交媒體的興起使網絡成為一個數據寶庫。我們現在已經有足夠的存儲空間和處理能力,去應對以TB甚至PB計算的海量數據。
但是,數據並不是我們的目的,隻有將其轉化為對行動有指導意義的信息,纔能真正體現其價值。在人們的不斷摸索中,數據挖掘技術逐步成熟,成為大數據時代最炙手可熱的領域之一。數據分析的重要性已無須多言,許多分析人員已經熟悉瞭經典的分析手段,如迴歸、聚類等,但這些方法並不能應對數據挖掘的所有問題,想要精通數據挖掘技術,就必須有更多的“法寶”,而這正是本書的目的。
本書的目標是嚮具有一定基礎的數據分析人員介紹實踐中最為常見而在一般數據挖掘書籍中又難以見到的技術與概念,用真實項目、在通用編程環境Python中介紹數據挖掘方法。對於每種方法,書中不僅有對概念的詳細解說,還有程序實例、替代方法以及每種方法效能的評估技術,真正幫助讀者“知其然,知其所以然”,從而邁嚮數據挖掘專傢的道路。
在本書的翻譯過程中,我們不僅見識瞭數據挖掘領域的博大精深,感嘆於現代數據分析技術的快速發展,而且在淺顯易懂的真實項目引導下,利用許多研究人員精心打造的“神器”,輕鬆地得到以前難以企及的結果。可以想象,認真閱讀本書,讀者在增長知識的同時,也將對精通數據挖掘充滿信心,可能將其作為未來的一個工作方嚮。
本書的翻譯工作主要由姚軍完成,方翊、白龍、林耀成、陳霞、寜懿、謝誌雄、陳誌勇等也為翻譯工作做齣瞭貢獻。由於譯者水平所限,錯誤在所難免,請廣大讀者批評指教。
Python數據挖掘:概念、方法與實踐 下載 mobi pdf epub txt 電子書 格式 2024
Python數據挖掘:概念、方法與實踐 下載 mobi epub pdf 電子書貴族租房子恭喜恭喜幾個床考察考察快抄吧可查可插卡
評分彩色印刷就完美瞭,內容豐富,很好的一本書
評分書很不錯。快遞速度真是太讓人滿意瞭。看完書再來評價書。
評分很好很強大,價格適中推薦購買
評分這個書還是不錯的,看著很舒服
評分書很詳實,比想象中的案例分析要對。
評分紙質不錯,內容介紹也挺全麵,方法不僅適用於遊戲數據分析,其它行業的也可藉鑒,值得一讀
評分還沒看 感覺很不錯
評分還沒看 感覺很不錯
Python數據挖掘:概念、方法與實踐 mobi epub pdf txt 電子書 格式下載 2024