編輯推薦
數據挖掘是一個多學科交叉的領域,本書通過少數實際的具體案例,闡述數據分析項目分析的過程以及一些要點,可作為普通高等學校數據挖掘、商務數據分析、商務智能等課程的案例和實驗指導材料,也可供有誌於數據分析師的讀者參考。
內容簡介
數據挖掘已經廣泛應用於各行各業,並催生瞭數據分析師的興起。本書結閤項目實踐,首先對數據挖掘的核心問題進行瞭總結,並以保險推薦為例說明數據挖掘過程中每個步驟需要關注之處; 然後,結閤香水銷售分析,討論可視化圖形的基本應用。為增強本書的實用性,提高讀者的動手能力,後續章節詳細地分析瞭數據挖掘在銀行信用卡、餐飲、商務酒店、製造業、公安等領域的應用。此外,本書還介紹瞭捲積神經網絡在音頻數據處理方麵的實際應用。
本書內容深入淺齣,案例生動形象,可以作為高校相關專業“數據挖掘”“機器學習”“商務數據分析”等課程的實驗教材,也可以供學習數據分析的社會人士參考。
目錄
第1章數據分析過程的主要問題1.1業務理解1.2數據理解1.3數據質量問題與預處理1.4數據分析常見陷阱1.5數據分析方法的選擇1.5.1分類算法1.5.2聚類算法1.5.3關聯分析1.5.4迴歸分析1.5.5深度學習1.5.6統計方法1.6數據分析結果的評價1.6.1分類算法的評價1.6.2聚類結果的評價1.6.3關聯分析的評價1.6.4迴歸分析結果的評價1.6.5深度學習的評價1.7數據分析團隊的組建1.7.1項目經理1.7.2業務專傢1.7.3數據工程師1.7.4數據建模人員1.7.5可視化人員1.7.6評估人員1.8數據分析人纔培養的難題1.8.1數理要求高1.8.2跨學科綜閤能力1.8.3國內技術資料少1.8.4實踐機會少第2章數據挖掘算法的選擇——保險産品推薦2.1業務理解2.2數據分析目標2.3數據探索2.3.1數據質量評估2.3.2探索數據統計特性2.3.3數據降維2.4模型選擇過程2.4.1算法初選2.4.2算法驗證2.4.3算法優化2.4.4平衡數據集2.4.5修改模型參數2.5總結第3章常用可視化的多維分析3.1箱圖3.2雷達圖3.3標簽雲3.4氣泡圖3.5樹圖3.6地圖3.7高低圖3.8雙軸圖3.9關係圖3.10熱圖第4章SPSSModeler建模組件介紹4.1數據預處理組件4.1.1數據清理組件4.1.2數據集成組件4.1.3數據選擇組件4.1.4數據變換組件4.2數據挖掘建模組件4.2.1模型篩選4.2.2自動建模4.2.3決策樹模型4.2.4貝葉斯網絡模型4.2.5神經網絡模型4.2.6支持嚮量機模型4.2.7時間序列模型4.2.8統計模型4.2.9聚類模型4.2.10關聯分析4.2.11KNN模型4.2.12數據挖掘模式評估4.3知識錶示4.3.1圖形節點4.3.2數據輸齣4.3.3數據導齣第5章香水銷售分析5.1香水銷售數據預處理5.2香水銷售數據統計分析5.3影響香水銷量的因素分析5.4香水適用場所關聯分析5.5香水聚類分析5.6香水營銷建議第6章銀行信用卡欺詐與拖欠行為分析6.1客戶信用等級影響因素6.1.1客戶信用卡申請數據預處理6.1.2信用卡申請成功影響因素6.2信用卡客戶信用等級影響因素6.3基於消費的信用等級影響因素6.4信用卡欺詐判斷模型6.4.1基於Apriori算法的欺詐模型6.4.2基於判彆的欺詐模型6.4.3基於分類算法的欺詐模型6.5欺詐人口屬性分析6.5.1欺詐人口屬性統計分析6.5.2基於邏輯迴歸的欺詐人口屬性分析6.5.3逾期還款的客戶特徵6.5.4基於決策樹分析逾期客戶特徵6.5.5基於迴歸分析逾期客戶特徵6.5.6根據消費曆史分析客戶特徵6.5.7基於聚類分析客戶特徵6.5.8基於客戶細分的聚類分析第7章海底撈火鍋運營分析7.1火鍋相關數據抓取7.2數據預處理7.3數據分析7.3.1海底撈運營分析7.3.2店鋪選址分析7.4菜品關聯分析7.5用戶評論與評分的關聯分析7.6顧客情感分析第8章商務賓館競爭分析8.1目前經濟型酒店行業競爭態勢8.2用戶相關數據準備8.3通過Python編程抓取評論8.4數據預處理8.5商務賓館客戶數據分析8.5.1酒店評分影響因素8.5.2酒店評分與酒店業績關係8.5.3酒店評分分析8.5.4客戶情感分析8.5.5競爭分析8.6建議第9章耐熱導綫工廠質量管理數據分析9.1項目概述9.2耐熱導綫生産質量數據預處理9.3耐熱鋁綫質量檢測數據分析第10章基於邏輯迴歸模型的高危人員分析10.1高危人員分析需求10.2高危人群相關數據收集與預處理10.3建立模型第11章捲積神經網絡在音頻質量評價領域的應用11.1深度學習基礎11.1.1深度學習的發展過程11.1.2深度學習常用技術框架11.1.3常用的深度學習算法11.2音頻質量評價11.2.1音頻樣本及特徵預處理11.2.2音頻特徵選擇11.2.3捲積神經網絡模型訓練11.2.4模型參數調優11.3性能驗證參考文獻
精彩書摘
第5章香水銷售分析 法國著名的詩人保羅·瓦萊利曾說:“不擦香水的女人沒有未來。”香水對於現代都市女性,不僅是生活品位的標誌,更是個人氣質的象徵。對於男士來說,使用香水也是提升個人魅力的途徑。隨著經濟發展以及人民生活水平的提高,國內消費者對香水産品的消費需求快速增長,曾經作為奢侈品的香水,逐漸成為人們的日常生活用品。 我國的香水行業較歐美國傢起步晚,所占市場份額小,目前尚處於成長期。這同時也說明瞭我國的香水市場有巨大的潛力。許多國際大牌香水製造商正在努力提升它們在中國市場的份額,競爭未來的巨大市場前景。全球範圍內,香水市場是一個市值438.9億美元的産業,每年至少有300種新品種上市。 根據中國産業信息網的統計,2015年我國香水市場規模為185億元,環比增長15.6%。我國香水市場的快速發展也帶來瞭不同香水産品的大量湧現,那麼到底什麼樣的香水産品銷量更好,更受消費者歡迎呢?這些香水産品又有什麼樣的特點呢?本章以從某電商網站上抓取到的香水産品銷量數據分析香水銷售的影響因素,為香水銷售商判定采購計劃以及用戶選擇香水提供依據。 5.1香水銷售數據預處理 本案例從某電商網站抓取瞭1009條香水産品銷售數據,包含瞭香水産品的商品名稱、産品毛重、商品産地、包裝、香調、淨含量、分類、適用性彆、適用場所、價格,以及評價數。 “評價”字段的數據包含混閤的中文和數字,末尾有一個“+”號。“+”號很容易通過Excel替換成“”(空字符串)的方法除去,但是將“萬”轉換成準確的數值結果,采用Excel或者其他現成的工具,並不容易實現。因此,采用Python編程處理“評價”和“適用場閤”字段,將評價數量轉換成數值。 “適用場所”字段包含多個場所,如果要拆分成多個字段,首先要算齣所有記錄的場所閤集,這個步驟也不容易通過現有工具實現。 這兩個預處理步驟,最終采用Python編程實現。通過Python腳本生成瞭新的字段。將商品産地中的“中國大陸”“廣東”“浙江義烏”等統一替換成“中國”。“適用場所”字段分解成“旅行”“其他”“約會”“情趣”等8個字段,其類型是0、1類型,若該香水産品有對應的適用場所,則設置為1,否則設置為0。例如,第一條冰希黎的香水數據,使用場所為旅行、約會、情趣、商務、 party聚會。將類似“1.9萬+”格式的“評價”字段的值轉換為“19000”,其類型是數值類型。 Python程序沒有替換原有字段,而是生成一個新字段。其優點是,不會丟失原始數據,而且可以通過肉眼復查,檢查是否有預處理齣錯的情況。經過人工審查,經過Python程序預處理的數據符閤原數據。圖5.1是Python預處理完成的香水數據。 圖5.1Python預處理完成的香水數據 對香水産品的價格和評價數進行離散化處理,將價格等間距分為6個等級,記為低、較低、中等、較高、高、非常高,對應價格區間分彆為(0,100],(100,300],(300,500],(500,700],(700,1000],1000以上;同樣,將評價數等間距分為7個等級,記為非常低、低、較低、中等、較高、高、非常高,對應價格區間分彆為(0,100],(100,500],(500,1000],(1000,2000],(2000,5000],(5000,10000],10000以上。 將價格和評價數離散化後的變量記為“價格等級”和“銷量等級”,在SPSSModeler18.0中使用導齣節點進行處理,如圖5.2和圖5.3所示。 圖5.2“價格等級”導齣公式 圖5.3“銷量等級”導齣公式 對香水産品的適用場閤進行數量統計,得到新字段“適用場閤數量”。圖5.4顯示瞭最終處理得到的香水産品數據。
前言/序言
前言 目前,高校的數據分析類課程(如數據挖掘、機器學習、大數據分析等)教學方式大多以“知識點”為核心組織教學,學生主要以學習知識為主,工程應用實踐機會較少。教師將所要教授的知識點在課堂上講述,課後再以作業練習、課程實驗、課程設計等形式幫助學生深入理解課堂上所學的知識。盡管為提高教學效果,目前許多高校嘗試瞭大型開放式網絡課程(MassiveOpenOnlineCourse,MOOC)、翻轉課堂、移動課堂、同伴學習和小規模限製性在綫課程(SmallPrivateOnlineCourse,SPOC)等教學方法的改革,但總體上來說,對於應用性較強的課程教學,還存在改進的空間,尤其是對學生的動手實踐能力要求較高的數據分析類課程。現有的教學方法在傳授理論知識時,缺少實際應用環節的支持,學生缺少在實際應用的背景下充分理解所學知識的機會,難以培養學生應用專業知識分析解決問題的技能和創新思維能力。 數據分析的方法是科學,但這些方法的選擇和應用過程因問題而異,帶有很強的藝術性。在現有專業課程教學模式下,學生僅僅瞭解需要學習基本的理論知識,缺少實踐動手經曆,難以獲得這些知識的應用技巧,很少接觸與企業實際項目相關的內容,因此學生的應用能力較弱,與企業實際的需求脫節。例如,在“數據分析”課程中,一般的教學方式是教師將具體數據分析的方法教授給學生,學生能夠理解算法或方法的內容,但難以解決實際項目中應用具體算法碰到的問題。目前亟待剋服數據分析類課程教學脫離企業所需能力的培養痛點,在課程學習的知識基礎上,解決實際問題,引導學生解決數據分析實際問題的必要技能和思維方法。 實際上,數據分析絕大部分的教材和書籍還基本停留在基本理論和方法的介紹,實驗部分的內容比較簡單或者缺失,實際應用的內容不足。還有些實戰性的書籍沒有按照教材的方式編寫,案例也比較粗略,數據分析過程中的一些技能解釋膚淺。有關實際項目中數據分析過程思路的分析以及難點解析對教學,尤其是對實驗或案例教學非常重要。最近幾年,作者與多傢企業閤作,在數據分析領域辛苦耕耘,親自參與瞭多個實際數據分析項目,熟悉數據分析過程的酸甜苦辣,希望通過本教材彌補國內數據分析實用教材的不足,也希望本教材的齣版能改善國內數據分析類課程教學資料短缺的情況。 學習數據分析的最好方法就是做中學,使用實際數據解決實際問題,而不是單純學習技術。實際上,有效的數據分析需要對業務進行深入理解,在此基礎上形成有效的分析思路,並通過實驗反復比較,纔能真正解決客戶的問題。在數據時代,現實應用中往往不乏數據。從生活中的小數據、簡單問題開始,做各種假設,探索其中的規律。不斷嘗試常用的分析語言、工具和技術,在應用中不斷學習新的知識,彌補課堂教學的不足,尤其是體會數據分析過程中書本上難得看到的分析技巧,並在應用中舉一反三。如此反復,隨著分析問題的深入,不斷提高分析能力,體會數據分析的艱辛和解決客戶問題的快樂。 本教材不局限於數據分析基本理論和基本方法的介紹,而是立足實際應用,突齣實際數據分析項目中的思路,以及數據分析中的難點。但希望讀者具有一定的統計學、機器學習(數據挖掘)、數據科學,以及必要的相關專業知識。也不追求過多的案例堆積,希望讀者能理解數據分析的思路,舉一反三。這些內容是作者多年項目實踐和教學成果的總結,其中的分析思路隻有參與實際的項目,纔能體驗到數據分析的難點和藝術性,這是目前教學過程中培養學生工程性思維的重要問題,也是真正提高學生創新能力和動手能力的手段。這些內容是數據分析的基礎,也是從事大數據分析必須掌握的知識和技能。有關數據挖掘常用算法的介紹,讀者可以參閱作者已經齣版的教材《商務智能(第4版)》(清華大學齣版社,2016年)或其他專業書籍。 全書分為11章,具體的內容簡介如下: 第1章從數據分析的流程齣發,討論瞭在數據分析各個階段需要做的工作以及經常遇到的主要問題,尤其是數據挖掘算法使用時容易遇到的難題。數據挖掘過程有一定的標準,但是針對具體的業務需求,如何設計閤理、有效的數據分析流程,需要有一定的經驗和技巧,數據的預處理、算法的選擇等主要步驟都充分體現瞭數據挖掘的藝術性。 第2章以保險産品推薦項目為例,突齣瞭數據挖掘選擇閤適的算法並非很簡單的事情,需要在理解分析問題以及對多種算法熟悉的基礎上,通過實驗對初選的幾種算法進行比較、調優,纔能選擇對解決問題效果比較好的算法。 第3章介紹瞭多維分析常用的可視化圖形,這是數據分析的基本功。這些圖形可以幫助數據分析師探索數據,找齣數據中存在的問題以及基本規律。 第4章介紹瞭IBMSPSSModeler18數據挖掘工具的常用組件。在學習數據分析的不同階段,根據學習者的基礎、問題的分析難度等,可以選擇不同的工具或平颱。盡管分析工具並不是數據挖掘最重要的事情,但學習成本低、功能強大的分析工具對於問題的解決也是不可少的。對於編程基礎有限的數據分析師,可以選擇類似IBMSPSSModeler18的挖掘工具或TensorFlow等開源工具。盡管如此,對於有一定數據分析基礎的讀者,推薦學習Python、R等針對數據分析的語言,這些語言比較靈活,功能也十分強大。 第5章對香水的銷售數據進行分析,討論受歡迎的香水以及特點,並找齣影響香水銷售的主要因素,為香水的營銷提供依據。 第6章對銀行的客戶信用記錄、申請客戶信息、拖欠曆史記錄、消費曆史記錄等人口屬性、交易數據進行綜閤分析,討論用戶銀行信用卡拖欠和欺詐行為特徵,為銀行推廣信用卡以及風險管理提供依據。 第7章從大眾點評網抓取火鍋店海底撈的菜品介紹以及客戶評論數據,以客戶為中心,分析客戶對火鍋的偏好,為火鍋店的選址、菜品的選擇和設計,以及火鍋店的競爭力都提供瞭參考。 第8章以攜程網上某商務賓館的客戶評分、評論數據為基礎,通過情感分析,分析瞭客戶對商務賓館的偏好,並瞭解客戶的消費行為,比較多傢商務賓館的競爭優劣勢,為商務賓館改進經營提供瞭參考。 第9章在某耐熱導綫工廠最近2年的質量管理數據的基礎上,分析瞭這些數據存在的問題,探索耐熱導綫的加工流程中幾個工序之間半成品或成品質量指標的關係,提高最終産品的閤格率。 第10章利用公安人口數據和違法犯罪人員行為特點的數據,建立風險評分模型,實現對高危人群的特徵分析,識彆具有違法、犯罪、可疑或可能的高危人員。 第11章討論深度學習在音頻處理領域的應用,介紹瞭常用的深度神經網絡模型,重點分析捲積神經網絡在音頻質量評價領域的應用。 數據挖掘是一個多學科交叉的領域,本書通過少數實際的具體案例,闡述數據分析項目的過程以及一些要點,可作為普通高等學校“數據挖掘”“商務數據分析”“商務智能”等課程的案例和實驗指導材料,也可供有誌於數據分析師的讀者參考。配套實驗數據、源代碼、軟件等可以從清華大學齣版社網站下載。由於作者水平有限,書中難免有錯誤之處,希望讀者不吝指齣。 在寫作的過程中,鬍遠文、於召鑫、黃黎明、蒲實、硃榮斌等在資料收集方麵做瞭一些工作,在此錶示感謝。 趙衛東2017年8月 復旦大學
數據挖掘實用案例分析/大數據技術與應用專業規劃教材 下載 mobi epub pdf txt 電子書 格式