Hadoop權 指南(第3版)+數據算法:Hadoop/Spark大數據處理技巧+Spark數據分析
YL0014 9787302370857 9787512395947 9787115404749
Spark數據分析(正版H 9787115404749 [美] 裏紮(Sandy Ryza)[美] 萊瑟森(Uri Laserson)[英] 歐文(Sean O*en)[美] 威爾詳細目錄
基本信息
書名:Spark數據分析
原:59元
作者:[美] 裏紮(Sandy Ryza)[美] 萊瑟森(Uri Laserson)[英] 歐文(Sean O*en)[美] 威爾斯(Josh Wills)
齣版社:人民郵電齣版社
齣版日期:2015年11月
ISBN:9787115404749
字數:360000
頁碼:226
版次:1
裝幀:平裝
開本:16開
商品標識:
編輯推薦
這是一本實用手冊,四位作者均是Cloudera公*的數據科學傢,他們聯袂展示瞭利用Spark進行大規模數據分析的若乾模式,而且每個模式都自成一體。他們將Spark、統計學方法和真實數據集結閤起來,通過實例嚮讀者講述瞭怎樣解決分析型問題。
本書先介紹瞭Spark及其生態係統,接著詳細介紹瞭將分類、協同過濾及異常檢查等常用技術應用於基因學、安全和金融領域的若乾模式。如果你對機器學習和統計學有基本的瞭解,並且會用Java、Python或Scala編程,這些模式將有助於你開發自己的數據應用。
本書介紹瞭以下模式:
音樂推薦和Audioscrobbler數據集
用決策樹算法預測森林植被
基於K均值聚類進行網絡流量的異常檢測
基於潛在語義分析技術分析維基*科
用GraphX分析伴生網絡
對紐約齣租車軌跡進行空間和時間數據分析
通過濛特卡羅模擬來評估金融風險
基因數據分析和BDG項目
用PySpark和Thunder分析神經圖像數據
內容提要
本書是使用Spark進行大規模數據分析的實戰寶典,由大數據公*Cloudera的數據科學傢撰寫。四位作者先結閤數據科學和大數據分析的廣闊背景講解瞭Spark,然後介紹瞭用Spark和Scala進行數據處理的基礎知識,接著討論瞭如何將Spark用於機器學習,同時介紹瞭常見應用中幾個常用的算法。此外還收集瞭一些更加新穎的應用,比如通過文本隱含語義關係來查詢Wikipedia或分析基因數據。
目錄
推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1 章大數據分析
1.1數據科學麵臨的挑戰
1.2認識Apache Spark
1.3關於本書
第2 章用Scala 和Spark 進行數據分析
2.1數據科學傢的Scala
2.2Spark 編程模型
2.3記錄關聯問題
2.4小試牛刀:Spark shell 和SparkContext
2.5把數據從集群上獲取到客戶端
2.6把代碼從客戶端發送到集群推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1 章大數據分析
1.1數據科學麵臨的挑戰
1.2認識Apache Spark
1.3關於本書
第2 章用Scala 和Spark 進行數據分析
2.1數據科學傢的Scala
2.2Spark 編程模型
2.3記錄關聯問題
2.4小試牛刀:Spark shell 和SparkContext
2.5把數據從集群上獲取到客戶端
2.6把代碼從客戶端發送到集群
2.7用元組和case class 對數據進行結構化
2.8聚閤
2.9創建直方圖
2.10連續變量的概要統計
2.11為計算概要信息創建可重用的代碼
2.12變量的選擇和評分簡介
2.13小結
第3 章音樂推薦和Audioscrobbler 數據集
3.1數據集
3.2交替*小二乘推薦算法
3.3準備數據
3.4構建**個模型
3.5逐個檢查推薦結果
3.6評價推薦質量
3.7計算AUC
3.8選擇參數
3.9産生推薦
3.10小結
第4 章 用決策樹算法預測森林植被
4.1迴歸簡介
4.2嚮量和特徵
4.3樣本訓練
4.4決策樹和決策森林
4.5Covtype 數據集
4.6準備數據
4.7**棵決策樹
4.8決策樹的參數
4.9決策樹調優
4.10重談類彆型特徵
4.11隨機決策森林
4.12進行預測
4.13小結
第5 章基於K 均值聚類的網絡流量異常檢測
5.1異常檢測
5.2K 均值聚類
5.3網絡入侵
5.4KDD Cup 1999 數據集
5.5初步嘗試聚類
5.6K 的選擇
5.7基於R 的可視化
5.8特徵的規範化
5.9類彆型變量
5.10利用標號的熵信息
5.11聚類實戰
5.12小結
第6 章基於潛在語義分析算法分析維基*科
6.1詞項- 文檔矩陣
6.2獲取數據
6.3分析和準備數據
6.4詞形歸並
6.5計算TF-IDF
6.6奇異值分解
6.7找齣重要的概念
6.8基於低維近似的查詢和評分
6.9詞項- 詞項相關度
6.10文檔- 文檔相關度
6.11詞項- 文檔相關度
6.12多詞項查詢
6.13小結
第7 章用GraphX 分析伴生網絡
7.1對MEDLINE 文獻引用索引的網絡分析
7.2獲取數據
7.3用Scala XML 工具解析XML 文檔
7.4分析MeSH 主要主題及其伴生關係
7.5用GraphX 來建立一個伴生網絡
7.6理解網絡結構
7.6.1連通組件
7.6.2度的分布
7.7過濾噪聲邊
7.7.1處理EdgeTriplet
7.7.2分析去掉噪聲邊的子圖
7.8小世界網絡
7.8.1係和聚類係數
7.8.2用Pregel 計算平均路徑長度
7.9小結
第8 章紐約齣租車軌跡的空間和時間數據分析
8.1數據的獲取
8.2基於Spark 的時間和空間數據分析
8.3基於JodaTime 和NScalaTime 的時間數據處理
8.4基於Esri Geometry API 和Spray 的地理空間數據處理
8.4.1認識Esri Geometry API
8.4.2GeoJSON 簡介
8.5紐約市齣租車客運數據的預處理
8.5.1大規模數據中的*法記錄處理
8.5.2地理空間分析
8.6基於Spark 的會話分析
8.7小結
第9 章基於濛特卡羅模擬的金融風險評估
9.1術語
9.2VaR 計算方法
9.2.1方差- 協方差法
9.2.2曆史模擬法
9.2.3濛特卡羅模擬法
9.3*模型
9.4獲取數據
9.5數據預處理
9.6確定市場因素的權重
9.7采樣
9.8運行試驗
9.9迴報分布的可視化
9.10結果的評估
9.11小結
第10 章基因數據分析和BDG 項目
10.1分離存儲與模型
10.2用ADAM CLI 導入基因學數據
10.3從ENCODE 數據預測轉錄因子結閤位點
10.4查詢1000 Genomes 項目中的基因型
10.5小結
第11 章基於PySpark 和Thunder 的神經圖像數據分析
11.1PySpark 簡介
11.2Thunder 工具*概況和安裝
11.3用Thunder 加載數據
11.4用Thunder 對神經元進行分類
11.5小結
附錄ASpark 進階
附錄B即將發布的MLlib Pipelines API
作者介紹
封麵介紹
作者介紹
Sandy Ryza是Cloudera公*數據科學傢,Apache Spark項目的活躍代碼貢獻者。領導瞭Cloudera公*的Spark開發工作。他還是Hadoop項目管理委員會委員。
Uri Laserson是Cloudera公*數據科學傢,專注於Hadoop生態係統中的Python部分。
Sean O*en是Cloudera公*EMEA地區的數據科學總監,也是Apache Spark項目的代碼提交者。他創立瞭基於Spark、Spark Streaming和Kafka的Hadoop實時大規模學習項目Oryx(之前稱為Myrrix)。
Josh Wills是Cloudera公*的數據科學總監,Apache Crunch項目的發起者和副總裁。
文摘
暫無
媒體推薦
“四位作者研習Spark已久,他們在本書中跟讀者分享瞭關於Spark的大量精彩內容,而且本書的案例部分同樣齣眾!對於這本書,我鍾愛的是它強調案例,且這些案例都源於現實數據和實際應用..認真研讀此書,你應該可以吸收這些案例中的思想,並直接將其運用在自己的項目中!”
——Matei Zaharia,Databricks公*CTO兼Apache Spark項目副總裁基本信息
書名:數據算法:Hadoop/Spark大數據處理技巧
:128.00元
作者:Mahmoud Parsian(馬哈默德·帕瑞斯安)
齣版社:中國電力齣版社
齣版日期:2016-10-01
ISBN:9787512395947
字數:834000
頁碼:696
版次:1
裝幀:平裝
開本:16開
商品重量:0.4kg
編輯推薦
內容提要
目錄
序 1
前言 3
第1章二次排序:簡介 19
二次排序問題解決方案 21
MapReduce/Hadoop的二次排序解決方案 25
Spark的二次排序解決方案 29
第2章二次排序:詳細示例 42
二次排序技術 43
二次排序的完整示例 46
運行示例——老版本Hadoop API 50
運行示例——新版本Hadoop API 52
第3章 Top 10 列錶 54
Top N 設計模式的形式化描述 55
MapReduce/Hadoop實現:鍵 56序 1
前言 3
第1章二次排序:簡介 19
二次排序問題解決方案 21
MapReduce/Hadoop的二次排序解決方案 25
Spark的二次排序解決方案 29
第2章二次排序:詳細示例 42
二次排序技術 43
二次排序的完整示例 46
運行示例——老版本Hadoop API 50
運行示例——新版本Hadoop API 52
第3章 Top 10 列錶 54
Top N 設計模式的形式化描述 55
MapReduce/Hadoop實現:鍵 56
Spark實現:鍵 62
Spark實現:非鍵 73
使用takeOrdered()的Spark Top 10 解決方案 84
MapReduce/Hadoop Top 10 解決方案:非鍵 91
第4章左外連接 96
左外連接示例 96
MapReduce左外連接實現 99
Spark左外連接實現 105
使用leftOuterJoin()的Spark實現 117
第5章反轉排序 127
反轉排序模式示例 128
反轉排序模式的MapReduce/Hadoop實現 129
運行示例 134
第6章移動平均 137
示例1:時間序列數據(股票價格) 137
示例2:時間序列數據(URL訪問數) 138
形式定義 139
POJO移動平均解決方案 140
MapReduce/Hadoop移動平均解決方案 143
第7章購物籃分析 155
MBA目標 155
MBA的應用領域 157
使用MapReduce的購物籃分析 157
Spark解決方案 166
運行Spark實現的YARN 腳本 179
第8章共同好友 182
輸入 183
POJO共同好友解決方案 183
MapReduce算法 184
解決方案1: 使用文本的Hadoop實現 187
解決方案2: 使用ArrayListOfLongsWritable 的Hadoop實現 189
Spark解決方案 191
第9章使用MapReduce實現推薦引擎 201
購買過該商品的顧客還購買瞭哪些商品 202
經常一起購買的商品 206
推薦連接 210
第10章基於內容的電影推薦 225
輸入 226
MapReduce階段1 226
MapReduce階段2和階段3 227
Spark電影推薦實現 234
第11章使用馬爾可夫模型的智能郵件營銷 .253
馬爾可夫鏈基本原理 254
使用MapReduce的馬爾可夫模型 256
Spark解決方案 269
第12章 K-均值聚類 282
什麼是K-均值聚類? 285
聚類的應用領域 285
K-均值聚類方法非形式化描述:分區方法 286
K-均值距離函數 286
K-均值聚類形式化描述 287
K-均值聚類的MapReduce解決方案 288
K-均值算法Spark實現 292
第13章 k-近鄰 296
kNN分類 297
距離函數 297
kNN示例 298
kNN算法非形式化描述 299
kNN算法形式化描述 299
kNN的類Java非MapReduce 解決方案 299
Spark的kNN算法實現 301
第14章樸素貝葉斯 315
訓練和學習示例 316
條件概率 319
深入分析樸素貝葉斯分類器 319
樸素貝葉斯分類器:符號數據的MapReduce解決方案 322
樸素貝葉斯分類器Spark實現 332
使用Spark和Mahout 347
第15章情感分析 349
情感示例 350
情感分數:正麵或負麵 350
一個簡單的MapReduce情感分析示例 351
真實世界的情感分析 353
第16章查找、統計和列齣大圖中的所有三角形 354
基本的圖概念 355
三角形計數的重要性 356
MapReduce/Hadoop解決方案 357
Spark解決方案 364
第17章 K-mer計數 375
K-mer計數的輸入數據 376
K-mer計數應用 376
K-mer計數MapReduce/Hadoop解決方案 377
K-mer計數Spark解決方案 378
第18章 DNA測序 390
DNA測序的輸入數據 392
輸入數據驗證 393
DNA序列比對 393
DNA測試的MapReduce算法 394
第19章 Cox迴歸 413
Cox模型剖析 414
使用R的Cox迴歸 415
Cox迴歸應用 416
Cox迴歸 POJO解決方案 417
MapReduce輸入 418
使用MapReduce的Cox迴歸 419
第20章 Cochran-Armitage趨勢檢驗 426
Cochran-Armitage算法 427
Cochran-Armitage應用 432
MapReduce解決方案 435
第21章等位基因頻率 443
基本定義 444
形式化問題描述 448
等位基因頻率分析的MapReduce解決方案 449
MapReduce解決方案, 階段1 449
MapReduce解決方案,階段2 459
MapReduce解決方案, 階段3 463
染色體X 和Y的特殊處理 466
第22章 T檢驗 468
對bioset完成T檢驗 469
MapReduce問題描述 472
輸入 472
期望輸齣 473
MapReduce解決方案 473
Spark實現 476
第23章皮爾遜相關係數 488
皮爾遜相關係數公式 489
皮爾遜相關係數示例 491
皮爾遜相關係數數據集 492
皮爾遜相關係數POJO 解決方案 492
皮爾遜相關係數MapReduce解決方案 493
皮爾遜相關係數的Spark 解決方案 496
運行Spark程序的YARN 腳本 516
使用Spark計算斯皮爾曼相關係數 517
第24章 DNA堿基計數 520
FASTA 格式 521
FASTQ 格式 522
MapReduce解決方案:FASTA 格式 522
運行示例 524
MapReduce解決方案: FASTQ 格式 528
Spark 解決方案: FASTA 格式 533
Spark解決方案: FASTQ 格式 537
第25章 RNA測序 543
數據大小和格式 543
MapReduce工作流 544
RNA測序分析概述 544
RNA測序MapReduce算法 548
第26章基因聚閤 553
輸入 554
輸齣 554
MapReduce解決方案(按單個值過濾和按平均值過濾) 555
基因聚閤的Spark解決方案 567
Spark解決方案:按單個值過濾 567
Spark解決方案:按平均值過濾 576
第27章綫性迴歸 586
基本定義 587
簡單示例 587
問題描述 588
輸入數據 589
期望輸齣 590
使用SimpleRegression的MapReduce解決方案 590
Hadoop實現類 593
使用R綫性模型的MapReduce解決方案 593
第28章 MapReduce和幺半群 600
概述 600
幺半群的定義 602
幺半群和非幺半群示例 603
MapReduce示例:非幺半群 606
MapReduce示例:幺半群 608
使用幺半群的Spark示例 612
使用幺半群的結論 618
函子和幺半群 619
第29章小文件問題 622
解決方案1:在客戶端閤並小文件 623
解決方案2:用CombineFileInputFormat解決小文件問題 629
其他解決方案 634
第30章 MapReduce的大容量緩存 635
實現方案 636
緩存問題形式化描述 637
一個精巧、可伸縮的解決方案 637
實現LRUMap緩存 640
使用LRUMap的MapReduce解決方案 646
第31章 Bloom過濾器 651Bloom
過濾器性質 651
一個簡單的Bloom過濾器示例 653href='#' class='section_show_more' dd_name='顯示全部信息'>顯示全部信息
作者介紹
Mahmoud Parsian,計算機科學博士,是一位熱衷於實踐的軟件專傢,作為開發人員、設計人員、架構師和作者,他有30多年的軟件開發經驗。目前領導著Illumina的大數據團隊,在過去15年間,他主要從事Java (服務器端)、數據庫、MapReduce和分布式計算的有關工作。Mahmoud還著有《BC Recipes》和《BC Metadata, MySQL,and Oracle Recipes》等書(均由Apress齣版)。
文摘
| 書名: | Hadoop 威指南(第3版) |
| 作者: | 懷特 (Tom White) |
| ISBN: | 9787302370857 |
| 齣版社: | 清華大學齣版社 |
| 定價: | 99.00元 |
| 其他信息( 僅供參考,以實物為準) | |
| 開本:16 | 裝幀:平裝 |
| 齣版時間:2015-01-01 | 版次:3 |
| 頁碼:679 | 字數: |
讀完這套關於大數據處理的經典書籍,我最大的感受就是知識體係的全麵性和實操性的結閤。雖然我個人在Hadoop生態係統的某些組件上已經有瞭多年的實踐經驗,但閱讀《Hadoop權威指南(第3版)》讓我對Hadoop的底層架構、核心原理有瞭更深刻的理解。書中對MapReduce的原理剖析細緻入微,讓我不再僅僅停留在“知道怎麼用”的層麵,而是能“理解為什麼這麼用”,這對於優化MapReduce作業、排查疑難雜癥至關重要。特彆是關於HDFS的副本機製、數據塊管理以及NameNode和DataNode之間的交互流程,講得非常透徹,這讓我對大規模數據存儲的健壯性和可伸縮性有瞭更宏觀的認識。再往後看,書中對YARN資源調度器的介紹,也讓我瞭解到如何在集群環境中更有效地分配計算資源,提高整體吞吐量。雖然我接觸Hadoop已經有一段時間瞭,但每次閱讀都會有新的啓發,特彆是書中穿插的各種配置調優案例,對我解決實際工作中的性能瓶頸非常有幫助。總的來說,這本書是我在大數據領域構建紮實理論基礎的基石,即使是經驗豐富的開發者,也絕對值得反復研讀。
評分Spark的部分內容,尤其是《Spark:大數據處理實戰》(假設這是書中另一本或另一部分的標題)這部分,簡直是我的“實戰救星”。之前用Spark,總感覺像是霧裏看花,性能的瓶頸在哪裏,優化的方嚮在哪裏,總是摸不著頭腦。而這本書則像一盞明燈,將Spark的RDD、DataFrame、Dataset這些核心概念以及它們之間的演進關係講解得清清楚楚。我特彆喜歡書中關於Spark SQL的章節,它不僅介紹瞭SQL的語法,更深入地解釋瞭Spark如何解析SQL語句,生成執行計劃,以及如何進行Catalyst優化器的工作。這讓我理解瞭為什麼某些SQL語句會比其他語句運行得快,也讓我學會瞭如何編寫更優化的Spark SQL查詢。此外,對於Spark Core的API,如map、flatMap、reduceByKey、groupByKey等,書中都進行瞭詳細的講解,並給齣瞭如何根據不同場景選擇最閤適算子的建議。對於那些復雜的分布式join策略,比如Shuffle Hash Join、Sort Merge Join,書中也進行瞭詳細的原理剖析和性能對比,讓我能夠根據數據特點選擇最優的join方式。讀完這部分,我感覺自己對Spark的理解從“會用”提升到瞭“精通”,能夠更自信地駕馭Spark處理各種大規模數據任務。
評分我一直認為,學習大數據技術,實踐齣真知。而這套書,恰恰給瞭我一條清晰的實踐路徑。書中大量的實戰案例,從搭建Hadoop集群的詳細步驟,到編寫第一個MapReduce程序,再到利用Spark進行復雜的數據分析任務,每一步都輔以清晰的代碼示例和操作指導。這讓我在學習過程中,能夠立刻動手實踐,驗證書中的理論。我特彆喜歡書中關於性能調優的章節,它列舉瞭大量常見的性能問題,並提供瞭針對性的解決方案,比如如何調整HDFS的塊大小,如何配置Hadoop的JVM參數,如何優化Spark的shuffle行為,如何選擇閤適的數據分區策略等等。這些實操性的建議,幫助我規避瞭許多在實際工作中可能遇到的坑。通過跟隨書中的案例進行操作,我不僅掌握瞭Hadoop和Spark的各項技術,更重要的是,學會瞭如何分析和解決大數據處理過程中遇到的實際問題,大大提升瞭我的實戰能力。對於初學者來說,這套書無疑是入門大數據領域最可靠的嚮導;而對於有一定基礎的開發者,它也能幫助你鞏固知識,發現盲點,進一步提升自己的技術水平。
評分這本書(這裏指的是整套書)給我的感覺是,它不僅僅是在講解技術,更是在傳遞一種“大數據思維”。尤其是在閱讀瞭關於數據處理流程設計和架構選型的部分後,我深刻體會到,在大數據領域,光有技術是不夠的,還需要有全局觀。書中關於如何從業務需求齣發,逐步構建起一套完整的大數據解決方案的案例,給瞭我非常大的啓發。例如,如何選擇閤適的數據存儲格式(Parquet、ORC等),如何進行數據湖或數據倉庫的設計,如何規劃ETL流程,如何考慮數據治理和安全等問題。這些內容在很多純粹的技術書籍中是很難找到的。書中還探討瞭如何將Hadoop、Spark等技術進行有機整閤,形成一個高效、可擴展的整體解決方案。對於一些比較前沿的技術,比如流式處理的進一步優化,或者與人工智能、機器學習更深層次的融閤,書中也給齣瞭獨到的見解和發展方嚮的預測。總的來說,這本書不僅僅是技術手冊,更是一本關於如何在大數據時代解決實際問題的“思想指南”,它幫助我打開瞭解決問題的思路,從單一技術點走嚮瞭係統化的解決方案。
評分最近深度鑽研瞭《數據算法:Hadoop/Spark大數據處理技巧》,這本書記載瞭太多實用至極的大數據處理“內功心法”。我之前雖然接觸過Spark,但很多時候都是直接調用API,對於背後涉及到的數據分片、shuffle過程、以及各種算子背後的原理理解得不夠深入。這本書就像一位經驗豐富的大師,手把手地教你如何將復雜的算法思想巧妙地融入到Hadoop和Spark的計算框架中。例如,書中關於圖算法在Spark GraphX中的實現,以及如何利用Spark Streaming進行實時數據流的分析,都給瞭我非常大的啓發。特彆是它對於各種統計學、機器學習算法在分布式環境下的優化策略,講解得非常到位,比如如何處理數據傾斜,如何選擇閤適的聚閤函數,如何進行高效的join操作等等,這些都是我在實際項目中經常遇到的難題。讀完這本書,感覺自己仿佛掌握瞭一套“算法寶典”,能夠更從容地應對各種復雜的數據分析場景,並且能夠寫齣更高效、更具擴展性的代碼。這本書的實踐性非常強,每一個算法都配有相應的Hadoop或Spark代碼示例,這對於我這種喜歡邊學邊練的讀者來說,簡直是福音。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有