發表於2024-11-23
Hadoop權 指南(第3版)+數據算法:Hadoop/Spark大數據處理技巧+Spark數據分析
YL0014 9787302370857 9787512395947 9787115404749
Spark數據分析(正版H 9787115404749 [美] 裏紮(Sandy Ryza)[美] 萊瑟森(Uri Laserson)[英] 歐文(Sean O*en)[美] 威爾詳細目錄
基本信息
書名:Spark數據分析
原:59元
作者:[美] 裏紮(Sandy Ryza)[美] 萊瑟森(Uri Laserson)[英] 歐文(Sean O*en)[美] 威爾斯(Josh Wills)
齣版社:人民郵電齣版社
齣版日期:2015年11月
ISBN:9787115404749
字數:360000
頁碼:226
版次:1
裝幀:平裝
開本:16開
商品標識:
編輯推薦
這是一本實用手冊,四位作者均是Cloudera公*的數據科學傢,他們聯袂展示瞭利用Spark進行大規模數據分析的若乾模式,而且每個模式都自成一體。他們將Spark、統計學方法和真實數據集結閤起來,通過實例嚮讀者講述瞭怎樣解決分析型問題。
本書先介紹瞭Spark及其生態係統,接著詳細介紹瞭將分類、協同過濾及異常檢查等常用技術應用於基因學、安全和金融領域的若乾模式。如果你對機器學習和統計學有基本的瞭解,並且會用Java、Python或Scala編程,這些模式將有助於你開發自己的數據應用。
本書介紹瞭以下模式:
音樂推薦和Audioscrobbler數據集
用決策樹算法預測森林植被
基於K均值聚類進行網絡流量的異常檢測
基於潛在語義分析技術分析維基*科
用GraphX分析伴生網絡
對紐約齣租車軌跡進行空間和時間數據分析
通過濛特卡羅模擬來評估金融風險
基因數據分析和BDG項目
用PySpark和Thunder分析神經圖像數據
內容提要
本書是使用Spark進行大規模數據分析的實戰寶典,由大數據公*Cloudera的數據科學傢撰寫。四位作者先結閤數據科學和大數據分析的廣闊背景講解瞭Spark,然後介紹瞭用Spark和Scala進行數據處理的基礎知識,接著討論瞭如何將Spark用於機器學習,同時介紹瞭常見應用中幾個常用的算法。此外還收集瞭一些更加新穎的應用,比如通過文本隱含語義關係來查詢Wikipedia或分析基因數據。
目錄
推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1 章大數據分析
1.1數據科學麵臨的挑戰
1.2認識Apache Spark
1.3關於本書
第2 章用Scala 和Spark 進行數據分析
2.1數據科學傢的Scala
2.2Spark 編程模型
2.3記錄關聯問題
2.4小試牛刀:Spark shell 和SparkContext
2.5把數據從集群上獲取到客戶端
2.6把代碼從客戶端發送到集群推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1 章大數據分析
1.1數據科學麵臨的挑戰
1.2認識Apache Spark
1.3關於本書
第2 章用Scala 和Spark 進行數據分析
2.1數據科學傢的Scala
2.2Spark 編程模型
2.3記錄關聯問題
2.4小試牛刀:Sp
Hadoop權 指南(第3版)+數據算法:Hadoop/Spark大數據處理技巧+Spar 下載 mobi epub pdf txt 電子書 格式
Hadoop權 指南(第3版)+數據算法:Hadoop/Spark大數據處理技巧+Spar 下載 mobi pdf epub txt 電子書 格式 2024
Hadoop權 指南(第3版)+數據算法:Hadoop/Spark大數據處理技巧+Spar 下載 mobi epub pdf 電子書Hadoop權 指南(第3版)+數據算法:Hadoop/Spark大數據處理技巧+Spar mobi epub pdf txt 電子書 格式下載 2024