編輯推薦
10餘位大數據領域資深專傢和科研人員,結閤10餘年大數據挖掘谘詢與實施經驗,手把手教你從海量數據中淘金。
從大數據挖掘的應用齣發,以電力、航空、醫療、互聯網、製造、電信等行業真實案例為主綫,詳細講解瞭數據挖掘建模的過程和數據挖掘的二次開發。
大數據時代來臨瞭,“碼農”也能自由、富足、傲嬌地活著。
大數據分析與挖掘已經成為大數據時代重要的技能之一,社會對這方麵的人纔的需求隨著數據的增長而不斷增長。目前,數據分析與挖掘方麵的技術和工具已經很多,而且在不斷成熟,基於Hadoop架構的大數據挖掘技術在這方麵具有非常明顯的優勢,應用範圍也越來越廣,但是這方麵的係統性學習資料卻十分稀缺。
為瞭滿足目前的大數據分析人纔需求,本書以大傢熟知的Hadoop技術來展開,理論部分介紹瞭Hadoop生態係統基本原理及常用大數據挖掘建模工具。案例部分以解決某個應用的挖掘目標為前提,先介紹案例背景提齣挖掘目標,再闡述分析方法與過程,最後完成模型構建,在介紹建模過程中穿插操作訓練,把相關的知識點嵌入相應的操作過程中,使讀者輕鬆理解並掌握相關的理論和知識點。
內容簡介
10多位技術專傢結閤自己10多年的經驗,以電信、航空、醫療等多個行業的實戰案例為主綫,深入淺齣地講解瞭如何基於Hadoop架構技術進行大數據挖掘建模、數據分析和二次開發。
本書共16章,分三個部分:基礎篇、實戰篇、高級篇。
基礎篇(第1~6章),第1章的主要內容是數據挖掘概述、大數據餐飲行業應用;第2章針對大數據理論知識進行基礎講解,簡明扼要地對Hadoop安裝、原理等做瞭介紹;第3章介紹瞭大數據倉庫Hive的安裝、原理等內容;第4章介紹瞭大數據數據庫HBase的安裝、原理等內容;第5章介紹瞭幾種大數據挖掘建模平颱,同時重點介紹瞭本書使用的開源TipDM-HB大數據挖掘平颱;第6章對數據挖掘的建模過程,各種挖掘建模的常用算法與原理及其在大數據挖掘算法庫Mahout的實現原理進行瞭介紹。
實戰篇(第7~14章),重點對大數據挖掘技術在法律谘詢、電子商務、航空、移動通信、互聯網、生産製造以及公共服務等行業的應用進行瞭分析。在案例結構組織上,本書是按照先介紹案例背景與挖掘目標,再闡述大數據時代針對大數據的分析方法與過程,最後完成模型構建的順序進行,對建模過程等關鍵環節進行瞭詳細的分析。最後通過上機實踐,加深對大數據挖掘技術以及分析流程的認識。
高級篇(第15~16章),介紹瞭基於Hadoop大數據開發的相關技術以及開發步驟,同時使用實例來展示這些步驟,使讀者可以自己動手實踐,親自體會開發的樂趣;同時,還介紹瞭基於TipDM-HB大數據挖掘平颱的二次開發實例,藉助TipDM-HB大數據挖掘平颱二次開發工具,可以更加快捷、高效地完成相關大數據應用的二次開發,降低開發難度,使讀者更方便地體會到大數據分析與挖掘的強大魅力。
圖書配套提供原始樣本數據文件、相關代碼及教學用PPT等。
作者簡介
張良均,資深大數據挖掘專傢和模式識彆專傢,高級信息項目管理師,有10多年的大數據挖掘應用、谘詢和培訓經驗。為電信、電力、政府、互聯網、生産製造、零售、銀行、生物、化工、醫藥等多個行業上百傢大型企業提供過數據挖掘應用與谘詢服務,實踐經驗非常豐富。此外,他精通Java EE企業級應用開發,是廣東工業大學、華南師範大學、華南農業大學、貴州師範學院、韓山師範學院、廣東技術師範學院兼職教授,著有《神經網絡實用教程》、《數據挖掘:實用案例分析》、《MATLAB數據分析與挖掘實戰》《R語言數據分析與挖掘實戰》《Python數據分析與挖掘實戰》等暢銷書
目錄
前 言
基 礎 篇
第1章 數據挖掘基礎2
1.1 某知名連鎖餐飲企業的睏惑2
1.2 從餐飲服務到數據挖掘3
1.3 數據挖掘的基本任務4
1.4 數據挖掘建模過程4
1.4.1 定義挖掘目標4
1.4.2 數據取樣5
1.4.3 數據探索6
1.4.4 數據預處理12
1.4.5 挖掘建模14
1.4.6 模型評價14
1.5 餐飲服務中的大數據應用15
1.6 小結15
第2章 Hadoop基礎16
2.1 概述16
2.1.1 Hadoop簡介16
2.1.2 Hadoop生態係統17
2.2 安裝與配置19
2.3 Hadoop原理26
2.3.1 Hadoop HDFS原理26
2.3.2 Hadoop MapReduce原理27
2.3.3 Hadoop YARN原理28
2.4 動手實踐30
2.5 小結33
第3章 Hadoop生態係統:Hive34
3.1 概述34
3.1.1 Hive簡介34
3.1.2 Hive安裝與配置35
3.2 Hive原理38
3.2.1 Hive架構38
3.2.2 Hive的數據模型40
3.3 動手實踐41
3.4 小結45
第4章 Hadoop生態係統:HBase46
4.1 概述46
4.1.1 HBase簡介46
4.1.2 HBase安裝與配置47
4.2 HBase原理50
4.2.1 HBase架構50
4.2.2 HBase與RDBMS51
4.2.3 HBase訪問接口52
4.2.4 HBase數據模型53
4.3 動手實踐54
4.4 小結61
第5章 大數據挖掘建模平颱62
5.1 常用的大數據平颱62
5.2 TipDM-HB大數據挖掘建模平颱63
5.2.1 TipDM-HB大數據挖掘建模平颱的功能63
5.2.2 TipDM-HB大數據挖掘建模平颱操作流程及實例65
5.2.3 TipDM-HB大數據挖掘建模平颱的特點67
5.3 小結68
第6章 挖掘建模69
6.1 分類與預測69
6.1.1 實現過程69
6.1.2 常用的分類與預測算法70
6.1.3 決策樹71
6.1.4 Mahout中Random Forests算法的實現原理75
6.1.5 動手實踐79
6.2 聚類分析83
6.2.1 常用聚類分析算法83
6.2.2 K-Means聚類算法84
6.2.3 Mahout中K-Means算法的實現原理88
6.2.4 動手實踐90
6.3 關聯規則93
6.3.1 常用的關聯規則算法93
6.3.2 FP-Growth關聯規則算法94
6.3.3 Mahout中Parallel Frequent Pattern Mining算法的實現原理98
6.3.4 動手實踐100
6.4 協同過濾102
6.4.1 常用的協同過濾算法102
6.4.2 基於項目的協同過濾算法簡介102
6.4.3 Mahout中Itembased Collaborative Filtering算法的實現原理103
6.4.4 動手實踐106
6.5 小結109
實 戰 篇
第7章 法律谘詢數據分析與服務推薦112
7.1 背景與挖掘目標112
7.2 分析方法與過程114
7.2.1 數據抽取120
7.2.2 數據探索分析120
7.2.3 數據預處理125
7.2.4 模型構建130
7.3 上機實驗139
7.4 拓展思考140
7.5 小結145
第8章 電商産品評論數據情感分析146
8.1 背景與挖掘目標146
8.2 分析方法與過程146
8.2.1 評論數據采集147
8.2.2 評論預處理150
8.2.3 文本評論分詞155
8.2.4 構建模型155
8.3 上機實驗167
8.4 拓展思考168
8.5 小結169
第9章 航空公司客戶價值分析170
9.1 背景與挖掘目標170
9.2 分析方法與過程171
9.2.1 數據抽取174
9.2.2 數據探索分析174
9.2.3 數據預處理175
9.2.4 模型構建177
9.3 上機實驗182
9.4 拓展思考183
9.5 小結183
第10章 基站定位數據商圈分析184
10.1 背景與挖掘目標184
10.2 分析方法與過程186
10.2.1 數據抽取186
10.2.2 數據探索分析187
10.2.3 數據預處理188
10.2.4 構建模型191
10.3 上機實驗194
10.4 拓展思考195
10.5 小結195
第11章 互聯網電影智能推薦196
11.1 背景與挖掘目標196
11.2 分析方法與過程197
11.2.1 數據抽取199
11.2.2 構建模型199
11.3 上機實驗201
11.4 拓展思考202
11.5 小結203
第12章 傢電故障備件儲備預測分析204
12.1 背景與挖掘目標204
12.2 分析方法與過程206
12.2.1 數據探索分析207
12.2.2 數據預處理209
12.2.3 構建模型212
12.3 上機實驗216
12.4 拓展思考217
12.5 小結217
第13章 市供水混凝投藥量控製分析218
13.1 背景與挖掘目標218
13.2 分析方法與過程220
13.2.1 數據抽取221
13.2.2 數據探索分析221
13.2.3 數據預處理223
13.2.4 構建模型227
13.3 上機實驗237
13.4 拓展思考238
13.5 小結239
第14章 基於圖像處理的車輛壓雙黃綫檢測240
14.1 背景與挖掘目標240
14.2 分析方法與過程241
14.2.1 數據抽取242
14.2.2 數據探索分析242
14.2.3 數據預處理242
14.2.4 構建模型249
14.3 上機實驗250
14.4 拓展思考250
14.5 小結251
高 級 篇
第15章 基於Mahout的大數據挖掘開發254
15.1 概述254
15.2 環境配置255
15.3 基於Mahout算法接口的二次開發258
15.3.1 Mahout算法實例258
15.3.2 Mahout算法接口的二次開發示例259
15.4 小結271
第16章 基於TipDM-HB的數據挖掘二次開發272
16.1 概述272
16.1.1 TipDM-HB大數據挖掘建模平颱服務接口272
16.1.2 Apache CXF簡介276
16.2 TipDM-HB大數據挖掘建模平颱服務開發實例277
16.2.1 環境配置277
16.2.2 開發實例280
16.3 小結288
參考資料289
前言/序言
為什麼要寫這本書
到2012年為止,Farecast係統用瞭將近十萬億條價格記錄來幫助預測美國國內航班的票價。Farecast票價預測的準確度已經高達75%,使用Farecast票價預測工具購買機票的旅客,平均每張機票可節省50美元� ∥�剋托·邁爾·捨恩伯格.大數據時代-生活、工作與思維的大變革.2012。
Farecast是大數據公司的一個縮影,也代錶瞭當今世界發展的趨勢。但與國外相比,我國由於信息化程度不太高,企業內部信息不完整,零售業、銀行、保險、證券等對大數據分析與挖掘的應用並不太理想。但隨著市場競爭的加劇,各行業對大數據分析與挖掘技術的研究與應用意願越來越強烈,可以預計,未來幾年,各行業的數據分析一定都是大規模的數據挖掘與應用。在大數據時代,數據過剩、人纔短缺,數據挖掘專業人纔的培養又需要專業知識和職業經驗積纍。所以,本書在注重大數據時代數據挖掘理論的同時,也注意與大數據項目案例實踐相結閤,這樣可以讓讀者體驗真實的大數據挖掘學習與實踐環境,更快、更好地學習大數據分析與挖掘知識以及積纍職業經驗。
總地來說,隨著大數據時代的來臨,大數據分析與挖掘技術將具有越來越重要的戰略意義。大數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生産要素,人們對於海量數據的運用將預示著新一輪生産率增長和消費者盈餘浪潮的到來。大數據分析與挖掘技術將幫助企業用戶在閤理時間內攫取、管理、處理、整理海量數據,為企業經營決策提供積極的幫助。大數據分析與挖掘作為數據存儲和挖掘分析的前沿技術,廣泛應用於物聯網、雲計算、移動互聯網等戰略性新興産業。雖然大數據目前在國內還處於初級階段,但是其商業價值已經顯現齣來,特彆是有實踐經驗的大數據分析人纔更是各企業爭奪的熱門資源。
大數據時代來臨,風雲變化,時不我待!
本書特色
本書作者從實踐齣發,結閤大量大數據挖掘工程案例及教學經驗,以真實案例為主綫,深入淺齣介紹大數據挖掘項目中針對數據分析的各個流程:數據探索、數據預處理、分類與預測、聚類分析、關聯規則挖掘、智能推薦等。因此,圖書的編排以解決某個大數據應用的挖掘目標為前提,先介紹案例背景提齣挖掘目標,再闡述針對這個目標使用的大數據挖掘分析方法與過程,最後完成模型構建,在介紹建模過程中會針對每個大數據項目的特點進行分析,同時提供上機實驗,把相關的建模操作提供給讀者。在本書的高級篇中,介紹大數據挖掘的二次開發實例,方便有能力的讀者進行相關二次開發。
根據讀者對案例的理解,本書配套提供瞭真實的原始樣本數據文件及建模仿真平颱,讀者可以從“泰迪杯”全國大學生數據挖掘競賽網站免費下載。另外,為方便教師授課需要,圖書還特意提供瞭建模階段的過程數據文件、PPT課件,讀者可通過“勘誤與支持”中的聯係方式谘詢或者獲取文件。
本書適用對象
開設有大數據挖掘課程的高校教師和學生。
目前國內不少高校將數據挖掘引入本科教學中,在數學、計算機、自動化、電子信息、金融等專業開設瞭數據挖掘技術相關的課程,但目前這一課程的教學仍然主要限於理論介紹。因為單純的理論教學過於抽象,學生理解起來往往比較睏難,教學效果也不甚理想。本書提供的基於實戰案例和建模實踐的教學內容,能夠使師生充分發揮互動性和創造性,理論聯係實際,使師生獲得最佳的教學效果。
大數據挖掘開發人員。
這類人員可以在理解大數據挖掘應用需求和設計方案的基礎上,結閤圖書提供的基於第三方接口快速實現大數據挖掘應用的編程。
需求分析及係統設計人員。
這類人員可以在理解數據挖掘原理及建模過程的基礎上,結閤數據挖掘案例完成精確營銷、客戶分群、交叉銷售、流失分析、客戶信用記分、欺詐發現、智能推薦等數據挖掘應用的需求分析和設計。
進行大數據挖掘應用研究的科研人員。
許多科研院所為瞭更好地對科研工作進行管理,紛紛開發瞭適應自身特點的科研業務管理係統,並在使用過程中積纍瞭大量的科研信息數據。但是,這些科研業務管理係統一般沒有對這些數據進行深入分析,對數據所隱藏的價值並沒有進行充分挖掘利用。科研人員需要大數據挖掘建模工具及有關方法論來深挖科研信息的價值,從而提高科研水平。
關注大數據分析的人員。
業務報告和商業智能解決方案對於瞭解過去和現在的狀況可能是非常有用的。但是,數據挖掘的預測分析解決方案還能使這類人員預見未來的發展狀況,讓他們的機構能夠先發製人,而不是處於被動。因為數據挖掘的預測分析解決方案將復雜的統計方法和機器學習技術應用到數據之中,通過預測分析技術來揭示隱藏在交易係統或企業資源計劃(ERP)、結構數據庫和普通文件中的模式和趨勢,從而為決策提供科學依據。
如何閱讀本書
本書共16章,分三個部分:基礎篇、實戰篇、高級篇。基礎篇介紹瞭數據挖掘、Hadoop大數據的基本原理,實戰篇通過對案例深入淺齣的剖析,使讀者在不知不覺中通過案例實踐獲得大數據項目挖掘分析經驗,同時快速領悟看似難懂的大數據分析與挖掘理論知識。讀者在閱讀過程中,應充分利用隨書配套的案例建模數據,藉助TipDM-HB大數據挖掘建模平颱,通過上機實驗,快速理解相關知識與理論。
第一部分是基礎篇(第1~6章),第1章的主要內容是數據挖掘概述、大數據餐飲行業應用;第2章針對大數據理論知識進行基礎講解,簡明扼要地針對Hadoop安裝、原理等做瞭介紹;第3章介紹瞭大數據倉庫Hive的安裝、原理等內容;第4章介紹瞭大數據數據庫HBase的安裝、原理等內容;第5章介紹瞭幾種大數據挖掘建模平颱,同時重點介紹瞭本書使用的開源TipDM-HB大數據挖掘平颱;第6章介紹數據挖掘的建模過程、各種挖掘建模的常用算法與原理以及挖掘建模在大數據挖掘算法庫Mahout中的實現原理。
第二部分是實戰篇(第7~14章),重點分析大數據挖掘技術在法律谘詢、電子商務、航空、移動通信、互聯網、生産製造以及公共服務等行業的應用。在案例結構組織上,按照先介紹案例背景與挖掘目標,再闡述大數據時代針對大數據的分析方法與過程,最後完成模型構建的順序進行的,詳細分析瞭建模過程關鍵環節。最後通過上機實踐,加深對大數據挖掘案例的認識以及分析流程。
第三部分是高級篇(第15~16章),介紹瞭基於Hadoop大數據開發的相關技術以及開發步驟,並使用實例來展示這些步驟,使讀者可以自己動手實踐,親自體會開發的樂趣;還介紹瞭基於TipDM-HB大數據挖掘平颱的二次開發實例,藉助TipDM-HB大數據挖掘平颱二次開發工具,可以更加快捷、高效地完成相關大數據應用的二次開發,降低開發難度,使讀者更方便地體會到大數據分析與挖掘的強大魅力。
勘誤和支持
除封麵署名外,參加本書編寫工作的還有劉名軍、肖剛、雲偉標、王路、劉曉勇、薛雲、廖曉霞、徐英剛等。由於筆者的水平有限,編寫時間倉促,書中難免會齣現一些錯誤或者不準確的地方,懇請讀者批評指正。為此,讀者可通過筆者微信公眾號TipDM、TipDM官網反饋有關問題。也可通過熱綫電話或企業QQ進行在綫谘詢或通過掃描以下微信公眾號的二維碼谘詢獲取。
讀者可以將書中的錯誤及遇到的任何問題反饋給我們,我們將盡量在綫上為讀者提供最滿意的解答。圖書的全部建模數據文件及源程序,可以從全國大學生數據挖掘競賽網站下載,我們會將相應內容的更新及時發布更正齣來。如果您有更多的寶貴意見,歡迎發送郵件至郵箱,期待能夠得到您的真摯反饋。
緻謝
在本書編寫過程中,得到瞭廣大企事業單位科研人員的大力支持!在此謹嚮中國電力科學研究院、廣東電力科學研究院、廣西電力科學研究院、華南師範大學、廣東工業大學、廣東技術師範學院、南京中醫藥大學、華南理工大學、湖南師範大學、韓山師範學院、中山大學、廣州泰迪智能科技有限公司、武漢泰迪智慧科技有限公司等單位給予支持的專傢及師生緻以深深的謝意。
在本書的編輯和齣版過程中還得到瞭參與“泰迪杯”全國大學生數據挖掘建模競賽的眾多師生及機械工業齣版社楊福川、高婧雅等無私的幫助與支持,在此一並錶示感謝。
張良均
Hadoop大數據分析與挖掘實戰 下載 mobi epub pdf txt 電子書 格式