産品特色
編輯推薦
10餘位數據挖掘領域資深專傢和科研人員,10餘年大數據挖掘谘詢與實施經驗結晶。
從數據挖掘的應用齣發,以電力、航空、醫療、互聯網、生産製造以及公共服務等行業真實案例為主綫,深入淺齣介紹Python數據挖掘建模過程,實踐性極強。
隨著雲時代的來臨,大數據技術將具有越來越重要的戰略意義。大數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生産要素,人們對於海量數據的運用將預示著新一輪生産率增長和消費者盈餘浪潮的到來。大數據分析技術將幫助企業用戶在閤理時間內攫取、管理、處理、整理海量數據,為企業經營決策提供積極的幫助。大數據分析作為數據存儲和挖掘分析的前沿技術,廣泛應用於物聯網、雲計算、移動互聯網等戰略性新興産業。
為瞭滿足目前的大數據分析人纔需求,本書以大傢熟知的數據挖掘建模工具Python語言來展開,以解決某個應用的挖掘目標為前提,先介紹案例背景提齣挖掘目標,再闡述分析方法與過程,最後完成模型構建,在介紹建模過程中穿插操作訓練,把相關的知識點嵌入相應的操作過程中,使讀者輕鬆理解並掌握相關的理論和知識點。
內容簡介
10餘位數據挖掘領域資深專傢和科研人員,10餘年大數據挖掘谘詢與實施經驗結晶。從數據挖掘的應用齣發,以電力、航空、醫療、互聯網、生産製造以及公共服務等行業真實案例為主綫,深入淺齣介紹Python數據挖掘建模過程,實踐性極強。
本書共15章,分兩個部分:基礎篇、實戰篇。基礎篇介紹瞭數據挖掘的基本原理,實戰篇介紹瞭一個個真實案例,通過對案例深入淺齣的剖析,使讀者在不知不覺中通過案例實踐獲得數據挖掘項目經驗,同時快速領悟看似難懂的數據挖掘理論。讀者在閱讀過程中,應充分利用隨書配套的案例建模數據,藉助相關的數據挖掘建模工具,通過上機實驗,以快速理解相關知識與理論。
基礎篇(第1~5章),第1章的主要內容是數據挖掘概述;第2章對本書所用到的數據挖掘建模工具Python語言進行瞭簡明扼要的說明;第3章、第4章、第5章對數據挖掘的建模過程,包括數據探索、數據預處理及挖掘建模的常用算法與原理進行瞭介紹。
實戰篇(第6~15章),重點對數據挖掘技術在電力、航空、醫療、互聯網、生産製造以及公共服務等行業的應用進行瞭分析。在案例結構組織上,本書是按照先介紹案例背景與挖掘目標,再闡述分析方法與過程,最後完成模型構建的順序進行的,在建模過程的關鍵環節,穿插程序實現代碼。最後通過上機實踐,加深讀者對數據挖掘技術在案例應用中的理解。
作者簡介
張良均,資深大數據挖掘專傢和模式識彆專傢,高級信息項目管理師,有10多年的大數據挖掘應用、谘詢和培訓經驗。為電信、電力、政府、互聯網、生産製造、零售、銀行、生物、化工、醫藥等多個行業上百傢大型企業提供過數據挖掘應用與谘詢服務,實踐經驗非常豐富。此外,他精通Java EE企業級應用開發,是廣東工業大學、華南師範大學、華南農業大學、貴州師範學院、韓山師範學院、廣東技術師範學院兼職教授,著有《神經網絡實用教程》、《數據挖掘:實用案例分析》、《MATLAB數據分析與挖掘實戰》《R語言數據分析與挖掘實戰》等暢銷書。
目錄
前言
基礎篇
第1章數據挖掘基礎
1.1某知名連鎖餐飲企業的睏惑
1.2從餐飲服務到數據挖掘
1.3數據挖掘的基本任務
1.4數據挖掘建模過程
1.4.1定義挖掘目標
1.4.2數據取樣
1.4.3數據探索
1.4.4數據預處理
1.4.5挖掘建模
1.4.6模型評價
1.5常用的數據挖掘建模工具
1.6小結
每2章Python數據分析簡介
2.1搭建Python開發平颱
2.1.1所要考慮的問題
2.1.2基礎平颱的搭建
2.2 Python使用入門
2.2.1運行方式
2.2.2基本命令
2.2.3數據結構
2.2.4庫的導入與添加
2.3 Python數據分析工具
2.3.1 Numpy
2.3.2 Scipy
2.3.3 Matplotlib
2.3.4 Pandas
2.3.5 StatsModels'''''
2.3.6 Scikit-Leam'''''
2.3.7 Keras
2.3.8 Gensim
2.4配套資源使用設置
2.5小結
第3章數據探索
3.1數據質量分析
3.1.1缺失值分析
3.1.2異常值分析
3.1.3 -緻性分析
3.2數據特徵分析
3.2.1分布分析
3.2.2對比分析
3.2.3統計量分析
?3.3Python主要數據探索函數
3.3.1基本統計特徵函數
3.3.2拓展統計特徵函數
3.3.3統計作圖函數
3.4小結
數據預處理
4.1數據清洗
4.1.1缺失值處理
4.1.2異常值處理
4.2數據集成
4.2.1實體識彆
4.2.2冗餘屬性識彆
413數據變換
4.3.1簡單函數變換
4.3.2規範化
4.3.3連續屬性離散化
4.3.4屬性構造
4.3.5小波變換
4.4數據規約
4.4.1屬性規約
4.4.2數值規約
4.5 Python主要數據預處理函數
4.6小結
第5章挖掘建模
5.1分類與預測
5.1.1實現過程
5.1.2常用的分類與預測算法
5.1.3迴歸分析
5.1.4決策樹
5.1.5人工神經網絡
5.1.6分類與預測算法評價
5.1.7 Python分類預測模型特點 -
5.2聚類分析
5.2.1 常用聚類分析算法
5.2.2 K-Means聚類算法
5.2.3聚類分析算法評價
5.2.4 Python主要聚類分析算法
5.3關聯規則
5.3.1 常用關聯規則算法
5.3.2 Apriori算法
5.4時序模式
5.4.1時間序列算法
5.4.2時間序列的預處理
5.4.3平穩時間序列分析
5.4.4非平穩時間序列分析
5.4.5 Python主要時序模式算法
5.5離群點檢測 134
5.5.1離群點檢測方法
5.5.2基於模型的離群點檢測方法
5.5.3基於聚類的離群點檢測方法
5.6小結
實戰篇
第6章電力竊漏電用戶自動識彆
6.1背景與挖掘目標
6.2分析方法與過程
6.2.1數據抽取
6.2.2數據探索分析
6.2.3數據預處理
6.2.4構建專傢樣本
6.3上機實驗
6.4拓展思考
6.5小結
第7章航空公司客戶價值分析
7.1背景與挖掘目標
7.2分析方法與過程
7.2.1數據抽取
7.2.2數據探索分析
7.2.3數據預處理
7.2.4模型構建
7.3上機實驗
7.4拓展思考 一
7.5小結
第8章中醫證型關聯規則挖掘
8.1背景與挖掘目標
8.2分析方法與過程
8.2.1數據獲取
8.2.2數據預處理
8.2.3模型構建
8.3上機實驗
8.4拓展思考
8.5小結
第9章基於水色圖像的水質評價
9.1背景與挖掘目標
9.2分析方法與過程
9.2.1數據預處理
9.2.2模型構建
9.2.3水質評價
9.3上機實驗
9.4拓展思考
9.5小結
第10章傢用電器用戶行為分析與
事件識彆
10.1背景與挖掘目標
10.2分析方法與過程
10.2.1數據抽取
10.2.2數據探索分析
10.2.3數據預處理
10.2.4模型構建
10.2.5模型檢驗
10.3上機實驗
10.4拓展思考
10.5小結
第11章應用係統負載分析與磁盤
容量預測
11.1背景與挖掘目標
11.2分析方法與過程
11.2.1數據抽取
11.2.2數據探索分析
11.2.3數據預處理
11.2.4模型構建
11.3上機實驗
11.4拓展思考
11.5小結
第12章電子商務網站用戶行為分析
及服務推薦
12.1背景與挖掘目標
12.2分析方法與過程
12.2.1數據抽取
12.2.2數據探索分析
12.2.3數據預處理
12.2.4模型構建
12.3上機實驗
12.4拓展思考
12.5小結
第13章財政收入影響因素分析及
13.1預測模型
13.2背景與挖掘目標
分析方法與過程
13.2.1灰色預測與神經網絡的組閤
模型
13.2.2數據探索分析
13.2.3模型構建
13.3上機實驗
13.4拓展思考
13.5小結 一
第14章 基於基站定位數據的商圈
分析 一
14.1背景與挖掘目標
14.2分析方法與過程
14.2.1數據抽取
14.2.2數據探索分析
14.2.3數據預處理
14.2.4模型構建
14.3上機實驗
14.4拓展思考
14.5小結
第15章電商産品評論數據情感
分析
15.1背景與挖掘目標
15.2分析方法與過程
15.2.1評論數據采集
15.2.2評論預處理
15.2.3文本評論分詞
15.2.4模型構建
15.3.上機實驗
15.4拓展思考
15.5小結
參考文獻
前言/序言
為什麼要寫這本書LinkedIn對全球超過3.3億用戶的工作經曆和技能進行分析後得齣,目前*炙手可熱的25項技能中,數據挖掘排名第一。那麼數據挖掘是什麼?數據挖掘是從大量數據(包括文本)中挖掘齣隱含的、先前未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支持的模型,提供預測性決策支持的方法、工具和過程。數據挖掘有助於企業發現業務的趨勢,揭示已知的事實,預測未知的結果,因此“數據挖掘”已成為企業保持競爭力的必要方法。
但跟國外相比,由於我國信息化程度不太高,企業內部信息不完整,零售業、銀行、保險和證券等對數據挖掘的應用並不理想。但隨著市場競爭的加劇,各行業對數據挖掘技術的需求越來越強烈,可以預計,未來幾年各行業的數據分析應用一定會從傳統的統計分析發展到大規模數據挖掘應用。在大數據時代,數據過剩、人纔短缺,數據挖掘專業人纔的培養又需要專業知識和職業經驗積纍。本書注重數據挖掘理論與項目案例實踐相結閤,可以讓讀者獲得真實的數據挖掘學習與實踐環境,更快、更好地學習數據挖掘知識與積纍職業經驗。
總的來說,隨著雲時代的來臨,大數據技術將具有越來越重要的戰略意義。大數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生産要素,人們對於海量數據的運用預示著新一輪生産率增長和消費者盈餘浪潮的到來。大數據分析技術將幫助企業用戶在閤理時間內攫取、管理、處理、整理海量數據,為企業經營決策提供幫助。大數據分析作為數據存儲和挖掘分析的前沿技術,廣泛應用於物聯網、雲計算和移動互聯網等戰略性新興産業。雖然大數據目前在國內還處於初級階段,但是其商業價值已經顯現齣來,特彆是有實踐經驗的大數據分析人纔更是各企業爭奪的熱門。為瞭滿足日益增長的大數據分析人纔需求,很多大學開始嘗試開設不同程度的大數據分析課程。“大數據分析”作為大數據時代的核心技術,必將成為高校數學與統計學專業的重要課程之一。本書特色本書從實踐齣發,結閤大量數據挖掘工程案例及教學經驗,以真實案例為主綫,深入淺齣地介紹數據挖掘建模過程中的有關任務:數據探索、數據預處理、分類與預測、聚類分析、時序預測、關聯規則挖掘、智能推薦和偏差檢測等。因此,圖書的編排以解決某個應用的挖掘目標為前提,先介紹案例背景提齣挖掘目標,再闡述分析方法與過程,*後完成模型構建。在介紹建模過程的同時穿插操作訓練,把相關的知識點嵌入相應的操作過程中。為方便讀者輕鬆地獲取真實的實驗環境,本書使用目前在數據科學領域非常熱門的Python語言對樣本數據進行處理以進行挖掘建模。
根據讀者對案例的理解,本書配套提供真實的原始樣本數據文件,讀者可以從“泰迪杯”
全國大學生數據挖掘競賽網站免費下載。另外,為方便教師授課,本書還特意提供瞭建模階段的過程數據文件、Python語言代碼程序和PPT課件,以及基於Python、SAS、SPSS Modeler等上機實驗環境下的數據挖掘各階段程序/模型及相關代碼,讀者可通過本書“勘誤和支持”中提供的聯係方式谘詢獲取。
本書適用對象(1)開設數據挖掘課程的高校教師和學生目前,國內不少高校將數據挖掘引入本科教學中,在數學、計算機、自動化、電子信息和金融等專業開設瞭數據挖掘技術相關課程,但目前這一課程的教學仍然主要限於理論介紹。單純的理論教學過於抽象,學生理解起來往往比較睏難,教學效果也不甚理想。本書提供的基於實戰案例和建模實踐的教學,能夠使教師充分發揮互動性和創造性,理論聯係實際,使教師獲得*佳的教學效果。
(2)需求分析及係統設計人員需求分析及係統設計人員可以在理解數據挖掘原理與建模過程的基礎上,結閤數據挖掘案例完成精確營銷、客戶分群、交叉銷售、流失分析、客戶信用記分、欺詐發現和智能推薦等數據挖掘應用的需求分析和設計。
(3)數據挖掘開發人員數據挖掘開發人員可以在理解數據挖掘應用需求和設計方案的基礎上,結閤本書提供的基於第三方接口快速完成數據挖掘應用的編程實現。
(4)進行數據挖掘應用研究的科研人員許多科研院所為瞭更好地對科研工作進行管理,紛紛開發瞭適應自身特點的科研業務管理係統,並在使用過程中積纍瞭大量的科研信息數據。但是,這些科研業務管理係統一般沒有對數據進行深入分析,並沒有對數據所隱藏的價值進行充分挖掘和利用。科研人員需要通過數據挖掘建模工具及有關方法論來深挖科研信息的價值,從而提高科研水平。(5)關注高級數據分析的人員業務報告和商業智能解決方案對瞭解過去和現在的狀況可能是非常有用的。但是,數據挖掘的預測分析解決方案還能使關注高級數據分析的人員預見未來的發展狀況,使他們的機構能夠先發製人,而不是處於被動。因為數據挖掘的預測分析解決方案將復雜的統計方法和機器學習技術應用到數據之中,通過使用預測分析技術來揭示隱藏在交易係統或企業資源計劃(ERP)、結構數據庫和普通文件中的模式與趨勢,從而為這類人員的決策提供科學依據。
如何閱讀本書本書共15章,分兩篇:基礎篇和實戰篇。基礎篇介紹瞭數據挖掘的基本原理,實戰篇介紹瞭一個個真實案例,通過對案例深入淺齣的剖析,使讀者在不知不覺中通過案例實踐獲得數據挖掘項目經驗,同時快速領悟看似難懂的數據挖掘理論。讀者在閱讀過程中,應充分利用隨書配套的案例建模數據,藉助相關的數據挖掘建模工具,通過上機實驗快速理解相關知識與理論。
基礎篇(第1~5章),第1章的主要內容是數據挖掘概述;第2章對Python以及本書所用到的數據挖掘建模庫進行瞭簡明扼要的說明;第3章、第4章和第5章對數據挖掘的建模過程,包括數據探索、數據預處理及挖掘建模的常用算法與原理進行介紹。
實戰篇(第6~15章),重點對數據挖掘技術在電力、航空、醫療、互聯網、生産製造以及公共服務等行業的應用進行分析。在案例結構組織上,本書是按照先介紹案例背景與挖掘目標,再闡述分析方法與過程,*後完成模型構建的順序進行的,在建模過程的關鍵環節穿插程序實現代碼。*後通過上機實踐,加深對數據挖掘技術在案例應用中的理解。
勘誤和支持除封麵署名外,參加本書編寫工作的還有楊坦、肖剛、劉名軍、樊哲、廖曉霞、周龍、焦正升等。由於筆者的水平有限,加之編寫時間倉促,書中難免會齣現錯誤或者不準確的地方,懇請讀者批評指正。為此,讀者可通過作者微信公眾號TipDM(微信號:
TipDataMining)、TipDM官網反饋有關問題。也可通過熱綫電話或企業QQ進行在綫谘詢。
讀者可以將書中的錯誤及遇到的任何問題反饋給我們,我們將盡量在綫上為讀者提供*滿意的解答。本書的全部建模數據文件及源程序,可以從“泰迪杯”全國大學生數據挖掘競賽網站下載,我們會將相應內容的更新及時發布齣來。如果您有更多的寶貴意見,歡迎發送郵件,期待能夠得到您的真摯反饋。
緻謝在本書編寫過程中,得到瞭廣大企事業單位及科研人員的大力支持!在此謹嚮中國電力科學研究院、廣東電力科學研究院、廣西電力科學研究院、廣東電信規劃設計院、珠江/黃海水産研究所、輕工業環境保護研究所、華南師範大學、廣東工業大學、廣東技術師範學院、南京中醫藥大學、華南理工大學、湖南師範大學、韓山師範學院、廣東石油化工學院、中山大學、廣州泰迪智能科技有限公司、武漢泰迪智慧科技有限公司等單位給予支持的專傢與師生緻以深深的謝意。
本書得到華北科技學院“應用數學”校級重點學科建設項目資助(項目編號hkxjzd201402),同時在本書的編輯和齣版過程中還得到瞭參與“泰迪杯”全國大學生數據挖掘建模競賽的眾多師生,以及機械工業齣版社楊福川、高婧雅等人的無私幫助與支持,在此一並錶示感謝。
張良均
Python數據分析與挖掘實戰 下載 mobi epub pdf txt 電子書 格式