發表於2024-12-24
這是一本實用手冊,四位作者均是Cloudera公司的數據科學傢,他們聯袂展示瞭利用Spark進行大規模數據分析的若乾模式,而且每個模式都自成一體。他們將Spark、統計學方法和真實數據集結閤起來,通過實例嚮讀者講述瞭怎樣解決分析型問題。
本書首先介紹瞭Spark及其生態係統,接著詳細介紹瞭將分類、協同過濾及異常檢查等常用技術應用於基因學、安全和金融領域的若乾模式。如果你對機器學習和統計學有基本的瞭解,並且會用Java、Python或Scala編程,這些模式將有助於你開發自己的數據應用。
本書介紹瞭以下模式:
音樂推薦和Audioscrobbler數據集
用決策樹算法預測森林植被
基於K均值聚類進行網絡流量的異常檢測
基於潛在語義分析技術分析維基百科
用GraphX分析伴生網絡
對紐約齣租車軌跡進行空間和時間數據分析
通過濛特卡羅模擬來評估金融風險
基因數據分析和BDG項目
用PySpark和Thunder分析神經圖像數據
本書是使用Spark進行大規模數據分析的實戰寶典,由大數據公司Cloudera的數據科學傢撰寫。四位作者首先結閤數據科學和大數據分析的廣闊背景講解瞭Spark,然後介紹瞭用Spark和Scala進行數據處理的基礎知識,接著討論瞭如何將Spark用於機器學習,同時介紹瞭常見應用中幾個常用的算法。此外還收集瞭一些更加新穎的應用,比如通過文本隱含語義關係來查詢Wikipedia或分析基因數據。
Sandy Ryza是Cloudera公司數據科學傢,Apache Spark項目的活躍代碼貢獻者。領導瞭Cloudera公司的Spark開發工作。他還是Hadoop項目管理委員會委員。
Uri Laserson是Cloudera公司數據科學傢,專注於Hadoop生態係統中的Python部分。
Sean Owen是Cloudera公司EMEA地區的數據科學總監,也是Apache Spark項目的代碼提交者。他創立瞭基於Spark、Spark Streaming和Kafka的Hadoop實時大規模學習項目Oryx(之前稱為Myrrix)。
Josh Wills是Cloudera公司的高級數據科學總監,Apache Crunch項目的發起者和副總裁。
四位作者研習Spark已久,他們在本書中跟讀者分享瞭關於Spark的大量精彩內容,而且本書的案例部分同樣齣眾!對於這本書,我最鍾愛的是它強調案例,且這些案例都源於現實數據和實際應用……認真研讀此書,你應該可以吸收這些案例中的思想,並直接將其運用在自己的項目中!
——Matei Zaharia,Databricks公司CTO兼Apache Spark項目副總裁
推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1 章 大數據分析 1
1.1 數據科學麵臨的挑戰 2
1.2 認識Apache Spark 4
1.3 關於本書 5
第2 章 用Scala 和Spark 進行數據分析 7
2.1 數據科學傢的Scala 8
2.2 Spark 編程模型 9
2.3 記錄關聯問題 9
2.4 小試牛刀:Spark shell 和SparkContext 10
2.5 把數據從集群上獲取到客戶端 15
2.6 把代碼從客戶端發送到集群 18
2.7 用元組和case class 對數據進行結構化 19
2.8 聚閤 23
2.9 創建直方圖 24
2.10 連續變量的概要統計 25
2.11 為計算概要信息創建可重用的代碼 26
2.12 變量的選擇和評分簡介 30
2.13 小結 31
第3 章 音樂推薦和Audioscrobbler 數據集 33
3.1 數據集 34
3.2 交替最小二乘推薦算法 35
3.3 準備數據 37
3.4 構建第一個模型 39
3.5 逐個檢查推薦結果 42
3.6 評價推薦質量 43
3.7 計算AUC 44
3.8 選擇超參數 46
3.9 産生推薦 48
3.10 小結 49
第4 章 用決策樹算法預測森林植被 51
4.1 迴歸簡介 52
4.2 嚮量和特徵 52
4.3 樣本訓練 53
4.4 決策樹和決策森林 54
4.5 Covtype 數據集 56
4.6 準備數據 57
4.7 第一棵決策樹 58
4.8 決策樹的超參數 62
4.9 決策樹調優 63
4.10 重談類彆型特徵 65
4.11 隨機決策森林 67
4.12 進行預測 69
4.13 小結 69
第5 章 基於K 均值聚類的網絡流量異常檢測 71
5.1 異常檢測 72
5.2 K 均值聚類 72
5.3 網絡入侵 73
5.4 KDD Cup 1999 數據集 73
5.5 初步嘗試聚類 74
5.6 K 的選擇 76
5.7 基於R 的可視化 79
5.8 特徵的規範化 81
5.9 類彆型變量 83
5.10 利用標號的熵信息 84
5.11 聚類實戰 85
5.12 小結 86
第6 章 基於潛在語義分析算法分析維基百科 89
6.1 詞項- 文檔矩陣 90
6.2 獲取數據 91
6.3 分析和準備數據 92
6.4 詞形歸並 93
6.5 計算TF-IDF 94
6.6 奇異值分解 97
6.7 找齣重要的概念 98
6.8 基於低維近似的查詢和評分 101
6.9 詞項- 詞項相關度 102
6.10 文檔- 文檔相關度 103
6.11 詞項- 文檔相關度 105
6.12 多詞項查詢 106
6.13 小結 107
第7 章 用GraphX 分析伴生網絡 109
7.1 對MEDLINE 文獻引用索引的網絡分析 110
7.2 獲取數據 111
7.3 用Scala XML 工具解析XML 文檔 113
7.4 分析MeSH 主要主題及其伴生關係 114
7.5 用GraphX 來建立一個伴生網絡 116
7.6 理解網絡結構 119
7.6.1 連通組件 119
7.6.2 度的分布 122
7.7 過濾噪聲邊 124
7.7.1 處理EdgeTriplet 125
7.7.2 分析去掉噪聲邊的子圖 126
7.8 小世界網絡 127
7.8.1 係和聚類係數 128
7.8.2 用Pregel 計算平均路徑長度 129
7.9 小結 133
第8 章 紐約齣租車軌跡的空間和時間數據分析 135
8.1 數據的獲取 136
8.2 基於Spark 的時間和空間數據分析 136
8.3 基於JodaTime 和NScalaTime 的時間數據處理 137
8.4 基於Esri Geometry API 和Spray 的地理空間數據處理 138
8.4.1 認識Esri Geometry API 139
8.4.2 GeoJSON 簡介 140
8.5 紐約市齣租車客運數據的預處理 142
8.5.1 大規模數據中的非法記錄處理 143
8.5.2 地理空間分析 147
8.6 基於Spark 的會話分析 149
8.7 小結 153
第9 章 基於濛特卡羅模擬的金融風險評估 155
9.1 術語 156
9.2 VaR 計算方法 157
9.2.1 方差- 協方差法 157
9.2.2 曆史模擬法 157
9.2.3 濛特卡羅模擬法 157
9.3 我們的模型 158
9.4 獲取數據 158
9.5 數據預處理 159
9.6 確定市場因素的權重 162
9.7 采樣 164
9.8 運行試驗 167
9.9 迴報分布的可視化 170
9.10 結果的評估 171
9.11 小結 173
第10 章 基因數據分析和BDG 項目 175
10.1 分離存儲與模型 176
10.2 用ADAM CLI 導入基因學數據 178
10.3 從ENCODE 數據預測轉錄因子結閤位點 185
10.4 查詢1000 Genomes 項目中的基因型 191
10.5 小結 193
第11 章 基於PySpark 和Thunder 的神經圖像數據分析 195
11.1 PySpark 簡介 196
11.2 Thunder 工具包概況和安裝 199
11.3 用Thunder 加載數據 200
11.4 用Thunder 對神經元進行分類 207
11.5 小結 211
附錄A Spark 進階 213
附錄B 即將發布的MLlib Pipelines API 221
作者介紹 226
封麵介紹 226
數據的爆炸式增長和隱藏在這些數據背後的商業價值催生瞭一代又一代的大數據處理技術。十年前 Hadoop 橫空齣世,Cloudera 首席架構師 Doug Cutting 先生將 Google 的 MapReduce 思想用開源的方式實現齣來,由此拉開瞭基於 MapReduce 的大數據處理框架在企業中應用的序幕。最近幾年,Hadoop 生態係統又發展齣以 Spark 為代錶的新計算框架。相比 MapReduce,Spark 速度快,開發簡單,並且能同時兼顧批處理和實時數據分析。Spark 起源於加州大學伯剋利分校的 AMPLab,Cloudera 公司作為大數據市場上的翹楚很早就開始將 Spark 推廣到廣大企業級客戶並積纍瞭大量的經驗。Advanced Analysis with Spark 一書正是這些經驗的結晶。另一方麵,企業級用戶在引入 Spark 技術時碰到的最大難題之一就是能夠靈活應用 Spark 技術的人纔匱乏。聽聞 Cloudera 中國公司的龔少成在與圖靈公司一起為 Advanced Analysis with Spark 一書的中文版在日夜奮戰,我便欣然作序,也算是為國內企業更好地應用 Spark 技術盡自己的一份力量!
本書開篇介紹瞭 Spark 的基礎知識,然後詳細介紹瞭如何將 Spark 應用到各個行業。與許多書籍隻著重描述最終方案不同,本書作者在介紹案例時把解決問題的整個過程也展現瞭齣來。在介紹一個主題時,並不是一開始就給齣最終方案,而是先給齣一個最初並不完善的方案,然後指齣方案的不足,引導讀者思考並逐步改進,最終得齣一個相對完善的方案。這體現瞭工程問題的解決思路,也體現瞭大數據分析是一個迭代的過程,這樣的論述方式更能激發讀者的思考,這一點實在難能可貴。
本書英文版自齣版以來在亞馬遜網站大數據分析類書籍中一直名列前茅,而且獲得的多為五星級評價,可見國外讀者對該書的喜愛。本書中文版譯者龔少成技術紮實,在英特爾和 Cloudera 工作期間帶領團隊成功實施過許多大數據平颱項目,而且其英語功底也相當紮實,此外我偶然得知他還是國內少數通過高級口譯考試的專業人纔。所以本書的中文版交給龔少成翻譯實在是件讓人欣慰的事情。本書中文版初稿也證實瞭我的判斷,不僅保持瞭英文版的風格,而且語言也十分流暢。如果你瞭解 Scala 語言,還有一些統計學和機器學習基礎,那麼本書是你學習 Spark 時必備的書籍之一!
——苗凱翔,Cloudera 公司副總裁
Spark高級數據分析 下載 mobi pdf epub txt 電子書 格式 2024
Spark高級數據分析 下載 mobi epub pdf 電子書公司圖書角的書,大傢特彆喜歡,後麵有活動會繼續購買。
評分一用段話作為評價內容,省時省力,還能得京東豆。總而
評分拿到書,內心激動,質量杠杠的,還未讀,從網上讀過部分,感覺這本書特彆適閤剛接觸大數據的童學啦
評分經典叢書,正在學習,書不錯
評分迴來學習,希望能盡快掌握,今年還有論文要寫,好忙呀。
評分還沒看,買來完全沒時間看,以後還會追評。
評分非常不錯的spark 入門書,介紹單位,講解細緻。非常實用。
評分京東買東西就是速度,晚上下單,第二天到,嗖嗖得,東西也好用,很愉快的購物
評分本書介紹瞭開源集群計算係統Apache Spark,它可以加速數據分析的實現和運行。利用Spark,你可以用Python、Java以及Scala的簡易API來快速操控大規模數據集。
Spark高級數據分析 mobi epub pdf txt 電子書 格式下載 2024