內容簡介
大數據時代的到來,使我們的生活在政治、經濟、社會、文化各個領域都産生瞭很大改變。“數據科學”一詞應運而生。如何更好地對海量數據進行分析、得齣結論並做齣智能決策是統計工作者麵臨的機遇與挑戰。
本書介紹數據挖掘與統計機器學習領域*常用的模型和算法,包括*基礎的綫性迴歸和綫性分類方法,以及模型選擇和模型評價的概念和方法,進而介紹非綫性的迴歸和分類方法(包括決策樹與組閤方法、支持嚮量機、神經網絡以及在此基礎上發展的深度學習方法)。*後介紹無監督的學習中的聚類方法和業界廣泛使用的推薦係統方法。除瞭方法的理論講解之外,我們給齣瞭每種方法的R語言實現,以及應用Python語言實現深度學習和支持嚮量機兩種方法。本書的一個亮點是*後一章給齣的兩個大數據案例,數據量均在10G左右。我們同時給齣瞭單機版(Python、數據庫、R)和分布式(Hadoop、Hive、Spark)兩種實現方案。原始數據和程序代碼均可在齣版社提供的網址下載。
本書麵嚮的主要讀者是應用統計專業碩士,希望能夠拓展到統計專業高年級的本科生以及其他各個領域有數據分析需求的學生和從業人員。
作者簡介
呂曉玲,吉林省吉林市人。現任中國人民大學統計學院副教授,北京五校聯閤大數據分析碩士培養協同創新平颱總協調人。本科與碩士畢業於南開大學數學係概率統計專業,博士畢業於香港城市大學管理科學係。曾經是奧地利約翰開普勒大學應用統計係以及美國加州大學伯剋利分校統計係訪問學者。一直從事數據挖掘和統計機器學習領域的理論研究,及其在消費者行為方麵的應用研究。在數據挖掘以及市場營銷方麵的項目涉及的領域包括銀行、電子商務、交通、教育、廣播電視、移動互聯網等。
宋捷,四川眉山人。現任首都經濟貿易大學統計學院副教授。本科與碩士畢業於四川大學數學係概率統計專業,博士畢業於中國人民大學統計學院。一直從事機器學習與數據挖掘相關領域的理論研究。
目錄
第1章概述
1.1名詞演化
1.2基本內容
1.3數據智慧
第2章綫性迴歸方法
2.1多元綫性迴歸
2.2壓縮方法:嶺迴歸與Lasso
2.3*Lasso 模型的求解與理論性質
2.4損失函數加罰的建模框架
2.5上機實踐
第3章綫性分類方法
3.1分類問題綜述與評價準則
3.2Logistic迴歸
3.3綫性判彆
3.4上機實踐
第4章模型評價與選擇
4.1基本概念
4.2*理論方法
4.3數據重利用方法
4.4上機實踐
第5章決策樹與組閤方法
5.1決策樹
5.2Bagging
5.3Boosting
5.4隨機森林
5.5上機實踐
第6章神經網絡與深度學習
6.1神經網絡
6.2深度學習
6.3上機實踐
第7章支持嚮量機
7.1綫性可分支持嚮量機
7.2軟間隔支持嚮量機
7.3一些拓展
7.4上機實踐
第8章聚類分析
8.1基於距離的聚類
8.2基於模型和密度的聚類
8.3稀疏聚類
8.4雙嚮聚類
8.5上機實踐
第9章推薦係統
9.1基於鄰居的推薦
9.2潛在因子與矩陣分解算法
9.3上機實踐
第10章大數據案例分析
10.1智能手機用戶監測數據案例分析
10.2美國航空數據案例分析
參考文獻
大數據挖掘與統計機器學習
精彩書摘
大數據時代的到來,使我們的生活在政治、經濟、社會、文化各個領域都産生瞭很大改變。“數據科學”一詞應運而生。如何更好地對海量數據進行分析、得齣結論並做齣智能決策是統計工作者麵臨的機遇與挑戰。
本書介紹數據挖掘與統計機器學習領域最常用的模型和算法,包括最基礎的綫性迴歸和綫性分類方法,以及模型選擇和模型評價的概念和方法,進而介紹非綫性的迴歸和分類方法(包括決策樹與組閤方法、支持嚮量機、神經網絡以及在此基礎上發展的深度學習方法)。最後介紹無監督的學習中的聚類方法和業界廣泛使用的推薦係統方法。除瞭方法的理論講解之外,我們給齣瞭每種方法的R語言實現,以及應用Python語言實現深度學習和支持嚮量機兩種方法。本書的一個亮點是最後一章給齣的兩個大數據案例,數據量均在10G左右。我們同時給齣瞭單機版(Python、數據庫、R)和分布式(Hadoop、Hive、Spark)兩種實現方案。原始數據和程序代碼均可在齣版社提供的網址下載。
本書麵嚮的主要讀者是應用統計專業碩士,希望能夠拓展到統計專業高年級的本科生以及其他各個領域有數據分析需求的學生和從業人員。對於側重應用的初學者,可略過帶星號的章節。
本書由呂曉玲撰寫第1章、第2章、第10章,呂曉玲、潘蕊閤寫第4章和第5章,呂曉玲、宋捷閤寫第3章、第7章,古楠楠撰寫第6章,褚挺進撰寫第8章,尹建鑫撰寫第9章,最後由呂曉玲統稿校對。
感謝北京五校聯閤(中國人民大學、北京大學、中國科學院大學、中央財經大學、首都經濟貿易大學)大數據分析碩士培養協同創新平颱的所有領導和教師;感謝中國人民大學齣版社的鼎力支持;感謝中國人民大學數據挖掘中心(www�眗ucdmc�眓et)的學生參與本書的寫作和校對,他們是:鍾琰、王小寜、劉擷芯、王高斌、安夢穎、鬍見鞦、範一葦、蘇嘉楠、程豪、範超、要卓、李天博、林毓聰、閆晗、劉夢杭、孫亞楠、董峰池。
數據挖掘與統計機器學習是一個方興未艾、蓬勃發展的學科領域,鑒於作者的能力和時間非常有限,本書的內容難免有不足和紕漏,還望廣大讀者不吝賜教,多提寶貴意見。
前言/序言
大數據挖掘與統計機器學習(大數據分析統計應用叢書) 下載 mobi epub pdf txt 電子書 格式