編輯推薦
本書是數據科學和機器學習領域的實用教程,專注於構建和部署預測模型,力圖幫助你學習如何使用新的微軟Azure Machine Learning快速構建和部署復雜的預測模型。
本書全麵介紹2015年發布的微軟Azure Machine Learning服務,包含構建推薦器、傾嚮模型以及流失和預見性維護模型的實用指南。本書使用麵嚮任務的描述和具體的端到端示例,確保讀者能夠快速上手。本書講述瞭Azure Machine Learning的各個方麵,從數據入口到應用機器學習、評估模型以及把它們部署成Web服務。
書中新增以下精彩內容
● Cortana分析套件;
● Python整閤;
● 數據準備和特徵選擇;
● 使用Power BI的數據可視化;
● 推薦引擎;
● 在Azure市場上銷售你的模型。
通過閱讀本書,你將能夠
● 係統地瞭解數據科學及其zui佳實踐;
● 瞭解新的微軟Azure Machine Learning服務,掌握高效構建和部署預測模型的實用技能,例如,
如何解決傾嚮建模、流失分析、産品推薦和使用Power BI進行可視化等典型預測分析問題;
● 在Azure市場上銷售你的預測模型的實用指南。
內容簡介
近年來,機器學習領域受到越來越多的關注,相關的機器學習算法開始成為熱點。
本書專門介紹瞭有關機器學習的內容,全書共分3部分:第1部分是數據科學和Microsoft Azure Machine Learning導論,介紹瞭數據科學和Microsoft Azure Machine Learning的基本知識以及需要用到的語言的基本知識;第二部分是統計學和機器學習算法,係統地講解瞭統計學和機器學習的相關算法;第三部分是實用應用程序,這一部分介紹瞭新的微軟Azure機器學習服務,講解如何高效構建和部署預測模型,還講解瞭如何解決傾嚮建模、産品推薦等實用技能。
本書可供數據科學、商業分析和商業智能領域的開發人員,對機器學習感興趣的開發者閱讀。
作者簡介
Roger Barga是***Web服務的總經理和開發總監。在加入***之前,Roger是微軟的雲與企業部門的雲機器學習組的産品組程序經理,他的團隊負責Azure機器學習服務的産品管理。Roger於1997年加入微軟,在微軟研究院的數據庫産品組裏擔任研究員,他領導數據庫、工作流和流處理係統的係統研究和産品開發。他提齣瞭從基礎研究,通過原型驗證概念,到産品組孵化的設想。在加入微軟之前,Roger是Pacific Northwest National Laboratory的機器學習組的研究科學傢,他構建和部署基於機器學習的解決方案。Roger還是華盛頓大學的助理教授,他是數據科學和機器學習課程的講師。
Roger擁有計算機科學的博士學位(PhD),專攻機器學習。從1991年到2013年,他發錶瞭超過90份同行評審的技術論文和專書論文,和214個閤著者共事,有1084個作者超過700個引述。
Valentine Fontama是微軟Cloud & Enterprise Analytics and Insights産品組的數據科學傢經理。Val在數據科學和業務上有著超過18年的經驗。在獲得人工神經網絡的博士學位之後,他把數據挖掘應用到環境科學和信用行業。在加入微軟之前,Val是倫敦Equifax的新技術谘詢師,他zui先提倡把數據挖掘應用到消費信用行業的風險評估和市場營銷。他目前是華盛頓大學的數據科學助理教授。
他之前在微軟的職位是Data and Decision Sciences Group(DDSG)的主要數據科學傢,為微軟客戶(包括ThyssenKrupp和Dell)提供外部谘詢。在那之前,他是一個資-深産品營銷經理,負責雲的大數據和預測分析以及企業營銷。在這個角色裏,他負責微軟Azure機器學習的産品管理;HDInsight,微軟的首-個Hadoop服務;Parallel Data Warehouse,微軟的首-個數據倉庫工具;Fast Track Data Warehouse的3個版本發布。
Val擁有沃頓商學院的戰略管理和市場營銷的MBA學位,擁有神經網絡的博士學位,擁有計算方麵的碩士學位,擁有數學和電子的學士學位(獲得一等榮譽)。他閤著瞭《Introducing Microsoft Azure HDInsight》一書,發錶過11份學術論文,有超過227個作者152個引述。
Wee-Hyong Tok是微軟公司雲與企業組的信息管理和機器學習(IMML)團隊的資-深程序經理。Wee-Hyong帶來瞭數十年跨行業和學術的數據庫係統經驗。
在獲得博士學位之前,Wee-Hyong是新加坡一個大型電信公司的係統分析師。Wee-Hyong是SQL Server方嚮的zui有價值專傢(MVP),專注於商業智能和數據挖掘領域。他率先在東南亞開展數據挖掘訓練營,為IT專傢帶來知識和技術,使他們可以在他們的組織裏使用分析工具把原始數據轉成洞察。
他加入微軟並在SQL Server團隊裏工作,負責塑造SSIS Server,並在SQL Server 2012裏把它從概念變成實現。
Wee-Hyong擁有新加坡國立大學的計算機科學的博士學位和計算方麵的碩士學位(獲得一等榮譽)。他發錶過21篇同行評審的學術論文和期刊文章。他是以下書籍的閤著者:《Predictive Analytics with Microsoft Azure Machine Learning》《Introducing Microsoft Azure HDInsight》和《Microsoft SQL Server 2012 Integration Services》。
目錄
目 錄
第1部分 數據科學和Microsoft Azure Machine Learning導論
第1章 數據科學導論 3
1.1 數據科學是什麼 3
1.2 分析頻譜 4
1.2.1 描述性分析 4
1.2.2 診斷性分析 5
1.2.3 預測性分析 5
1.2.4 規定性分析 5
1.3 為何重要,為何現在 6
1.3.1 把數據看作競爭資産 6
1.3.2 客戶需求的增長 6
1.3.3 對數據挖掘技術認識的提高 7
1.3.4 訪問更多數據 7
1.3.5 更快、更廉價的處理能力 7
1.3.6 數據科學流程 8
1.4 常見數據科學技術 10
1.4.1 分類算法 10
1.4.2 聚類算法 11
1.4.3 迴歸算法 12
1.4.4 模擬 12
1.4.5 內容分析 12
1.4.6 推薦引擎 13
1.5 數據科學的前沿 13
1.6 小結 14
第2章 Microsoft Azure Machine
Learning導論 15
2.1 你好,Machine Learning Studio 15
2.2 實驗的組件 16
2.3 Gallery簡介 17
2.4 創建訓練實驗的5個簡單步驟 18
2.4.1 第1步:獲取數據 19
2.4.2 第2步:預處理數據 20
2.4.3 第3步:定義特徵 22
2.4.4 第4步:選擇和應用學習
算法 23
2.4.5 第5步:在新數據之上做
預測 24
2.5 在生産環境裏部署你的模型 26
2.5.1 創建預測實驗 26
2.5.2 把你的實驗發布成Web
服務 28
2.5.3 訪問Azure Machine Learning的
Web服務 28
2.6 小結 30
第3章 數據準備 31
3.1 數據清理和處理 31
3.1.1 瞭解你的數據 32
3.1.2 缺失值和空值 37
3.1.3 處理重復記錄 38
3.1.4 識彆並移除離群值 39
3.1.5 特徵歸一化 40
3.1.6 處理類彆不均 41
3.2 特徵選擇 43
3.3 特徵工程 46
3.3.1 分裝數據 48
3.3.2 維度災難 50
3.4 小結 53
第4章 整閤R 54
4.1 R概覽 54
4.2 構建和部署你的首個R腳本 56
4.3 使用R進行數據預處理 59
4.4 使用腳本包(ZIP) 61
4.5 使用R構建和部署決策樹 64
4.6 小結 68
第5章 整閤Python 69
5.1 概覽 69
5.2 Python快速上手 70
5.3 在Azure ML實驗裏使用Python 71
5.4 使用Python進行數據預處理 76
5.4.1 使用Python閤並數據 76
5.4.2 使用Python處理缺失值 79
5.4.3 使用Python進行特徵選擇 80
5.4.4 在Azure ML實驗裏運行
Python代碼 82
5.5 小結 86
第2部分 統計學和機器學習算法
第6章 統計學和機器學習算法概覽 89
6.1 迴歸算法 89
6.1.1 綫性迴歸 89
6.1.2 神經網絡 90
6.1.3 決策樹 92
6.1.4 提升決策樹 93
6.2 分類算法 94
6.2.1 支持嚮量機 95
6.2.2 貝葉斯點機 96
6.3 聚類算法 97
6.4 小結 99
第3部分 實用應用程序
第7章 構建客戶傾嚮模型 103
7.1 業務問題 103
7.2 數據獲取和準備 104
7.3 訓練模型 109
7.4 模型測試和驗證 111
7.5 模型的性能 112
7.6 確定評估指標的優先級 115
7.7 小結 116
第8章 使用Power BI可視化你的
模型 117
8.1 概覽 117
8.2 Power BI簡介 117
8.3 使用Power BI可視化的三種
方案 119
8.4 在Azure Machine Learning裏給你的
數據評分,並在Excel裏可視化 120
8.5 在Excel裏評分並可視化你的
數據 123
8.6 在Azure Machine Learning裏給你的
數據評分,並在powerbi.com裏
可視化 124
8.6.1 加載數據 125
8.6.2 構建你的儀錶闆 125
8.7 小結 127
第9章 構建流失模型 128
9.1 流失模型概覽 128
9.2 構建和部署客戶流失模型 129
9.2.1 準備和瞭解數據 129
9.2.2 數據預處理和特徵選擇 132
9.2.3 用於預測流失的分類模型 135
9.2.4 評估客戶流失模型的性能 137
9.3 小結 138
第10章 客戶細分模型 139
10.1 客戶細分模型概覽 139
10.2 構建和部署你的第一個K均值聚
類模型 140
10.2.1 特徵散列 142
10.2.2 找齣閤適的特徵 142
10.2.3 K均值聚類算法的屬性 144
10.3 批發客戶的客戶細分 145
10.3.1 從UCI機器學習庫加載
數據 145
10.3.2 使用K均值聚類算法進行批發
客戶細分 146
10.3.3 新數據的聚類分配 147
10.4 小結 148
第11章 構建預見性維護模型 149
11.1 概覽 149
11.2 預見性維護場景 150
11.3 業務問題 150
11.4 數據獲取和準備 151
11.4.1 數據集 151
11.4.2 數據加載 151
11.4.3 數據分析 151
11.5 訓練模型 154
11.6 模型測試和驗證 155
11.7 模型性能 156
11.8 改善模型的技術 158
11.9 模型部署 161
11.9.1 創建預測實驗 161
11.9.2 把你的實驗部署成Web
服務 162
11.10 小結 163
第12章 推薦係統 164
12.1 概覽 164
12.2 推薦係統的方案和場景 164
12.3 業務問題 165
12.4 數據獲取和準備 166
12.5 訓練模型 170
12.6 模型測試和驗證 171
12.7 小結 175
第13章 使用和發布Azure Marketplace
上的模型 176
13.1 什麼是機器學習API 176
13.2 如何使用Azure Marketplace的
API 178
13.3 在Azure Marketplace裏發布你
自己的模型 182
13.4 為你的機器學習模型創建和
發布Web服務 182
13.4.1 創建評分實驗 183
13.4.2 把你的實驗發布成Web
服務 183
13.5 獲取API密鑰和OData端點
信息 184
13.6 把你的模型發布為Azure
Marketplace裏的API 184
13.7 小結 186
第14章 Cortana分析 187
14.1 Cortana分析套件是什麼 187
14.2 Cortana分析套件的功能 187
14.3 示例場景 189
14.4 小結 190
Microsoft Azure機器學習和預測分析 下載 mobi epub pdf txt 電子書 格式