發表於2025-01-23
第1章 Hadoop概述 1
1.1 商業分析與大數據 2
1.1.1 Hadoop的組件 3
1.1.2 Hadoop分布式文件係統(HDFS) 3
1.1.3 MapReduce是什麼 4
1.1.4 YARN是什麼 5
1.2 ZooKeeper是什麼 6
1.3 Hive是什麼 7
1.4 與其他係統集成 8
1.4.1 Hadoop生態係統 9
1.4.2 數據集成與Hadoop 11
1.5 小結 16
第2章 存儲 19
2.1 Hadoop HDFS的基礎知識 20
2.1.1 概念 21
2.1.2 架構 25
2.1.3 接口 29
2.2 在分布式模式下設置HDFS群集 35
2.3 HDFS的高級特性 40
2.3.1 快照 41
2.3.2 離綫查看器 44
2.3.3 分層存儲 52
2.3.4 糾刪碼 55
2.4 文件格式 59
2.5 雲存儲 63
2.6 小結 64
第3章 計算 65
3.1 Hadoop MapReduce的基礎 66
3.1.1 概念 66
3.1.2 架構 69
3.2 如何啓動MapReduce作業 76
3.2.1 編寫Map任務 77
3.2.2 編寫reduce任務 79
3.2.3 編寫MapReduce作業 80
3.2.4 配置 83
3.3 MapReduce的高級特性 85
3.3.1 分布式緩存 85
3.3.2 計數器 87
3.3.3 作業曆史服務器 89
3.4 與Spark作業的區彆 91
3.5 小結 92
第4章 用戶體驗 93
4.1 Apache Hive 94
4.1.1 安裝Hive 96
4.1.2 HiveQL 97
4.1.3 UDF/SerDe 103
4.1.4 Hive調優 105
4.2 Apache Pig 106
4.2.1 安裝Pig 107
4.2.2 Pig Latin 108
4.3 UDF 110
4.4 Hue 111
4.5 Apache Oozie 114
4.5.1 安裝Oozie 115
4.5.2 Oozie的工作原理 118
4.5.3 工作流/協調器 119
4.5.4 Oozie CLI 124
4.6 小結 124
第5章 與其他係統集成 125
5.1 Apache Sqoop 126
5.2 Apache Flume 130
5.3 Apache Kafka 136
5.3.1 工作原理 138
5.3.2 Kafka Connect 141
5.3.3 流處理 143
5.4 Apache Storm 144
5.4.1 工作原理 145
5.4.2 Trident 148
5.4.3 Kafka集成 149
5.5 小結 152
第6章 Hadoop安全 153
6.1 提升Hadoop群集安全性 154
6.1.1 邊界安全 154
6.1.2 Kerberos認證 156
6.1.3 Hadoop中的服務級授權 162
6.1.4 用戶模擬 167
6.1.5 提升HTTP信道的安全性 170
6.2 提升數據安全性 174
6.2.1 數據分類 175
6.2.2 將數據傳到群集 176
6.2.3 保護群集中的數據 182
6.3 增強應用程序安全性 189
6.3.1 YARN架構 189
6.3.2 YARN中的應用提交 190
6.4 小結 195
第7章 自由的生態圈:Hadoop與Apache BigTop 197
7.1 基礎概念 198
7.1.1 軟件棧 199
7.1.2 測試棧 200
7.1.3 在我的筆記本電腦上工作 201
7.2 開發定製的軟件棧 201
7.2.1 Apache Bigtop:曆史 201
7.2.2 Apache Bigtop:概念和哲學思想 202
7.2.3 項目結構 204
7.2.4 談談構建係統 205
7.2.5 工具鏈和開發環境 206
7.2.6 BOM定義 207
7.3 部署 208
7.3.1 Bigtop Provisioner 208
7.3.2 群集的無主節點Puppet部署 209
7.3.3 使用Puppet進行配置管理 213
7.4 集成驗證 215
7.4.1 iTests和驗證應用程序 216
7.4.2 棧集成測試開發 217
7.4.3 棧的驗證 220
7.4.4 群集故障測試 221
7.4.5 棧的冒煙測試 222
7.5 將所有工作組閤在一起 223
7.6 小結 224
第8章 Hadoop軟件棧的In-Memory計算 227
8.1 In-Memory計算簡介 229
8.2 Apache Ignite:內存優先 231
8.2.1 Apache Ignite的係統體係架構 232
8.2.2 數據網格 233
8.2.3 高可用性討論 236
8.2.4 計算網格 237
8.2.5 服務網格 238
8.2.6 內存管理 238
8.2.7 持久化存儲 240
8.3 使用Ignite加速舊式Hadoop 240
8.3.1 In-Memory存儲的好處 241
8.3.2 內存文件係統:HDFS緩存 242
8.3.3 In-Memory MapReduce 243
8.4 Apache Ignite的高級用法 247
8.4.1 Spark和Ignite 247
8.4.2 共享狀態 249
8.4.3 Hadoop上的In-Memory SQL 251
8.4.4 使用Ignite的SQL 252
8.4.5 使用Apache Ignite進行流處理 255
8.5 小結 256
術語錶 259
1.1 商業分析與大數據
商業分析通過統計和業務分析對數據進行研究。Hadoop 允許你 在其數據存儲中進行業務分析。這些結果使得組織和公司能夠做齣 有利於自身的更好商業決策。
為加深理解,讓我們勾勒一下大數據的概況。鑒於所涉及數據 的規模,它們會分布於大量存儲和計算節點上,而這得益於使用 Hadoop。由於Hadoop 是分布式的(而非集中式的),因而不具備關係 型數據庫管理係統(RDBMS)的特點。這使得你能夠使用Hadoop 所 提供的大型數據存儲和多種數據類型。
第1 章 Hadoop 概述
3
例如,讓我們考慮類似Google、Bing 或者Twitter 這樣的大型 數據存儲。所有這些數據存儲都會隨著諸如查詢和龐大用戶基數等 活動事件而呈現齣指數增長。Hadoop 的組件可以幫助你處理這些大 型數據存儲。
類似Google 這樣的商業公司可使用Hadoop 來操作、管理其數 據存儲並從中産生齣有意義的結果。通常用於商業分析的傳統工具 並不旨在處理或分析超大規模數據集,但Hadoop 是一個適用於這 些商業模型的解決方案。
1.1.1 Hadoop 的組件
Hadoop Common 是Hadoop 的基礎,因為它包含主要服務和基 本進程,例如對底層操作係統及其文件係統的抽象。Hadoop Common 還包含必要的Java 歸檔(Java Archive,JAR)文件和用於啓 動Hadoop 的腳本。Hadoop Common 包甚至提供瞭源代碼和文檔, 以及貢獻者的相關內容。如果沒有Hadoop Common,你無法運行 Hadoop。
與任何軟件棧一樣,Apache 對於配置Hadoop Common 有一定 要求。大體瞭解Linux 或Unix 管理員所需的技能將有助於你完成配 置。Hadoop Common 也稱為Hadoop Stack,並不是為初學者設計的, 因此實現的速度取決於你的經驗。事實上,Apache 在其網站上明確 指齣,如果你還在努力學習如何管理Linux 環境的話,那麼Hadoop 並不是你能夠應付的任務。建議在嘗試安裝Hadoop 之前,你需要 先熟悉此類環境。
1.1.2 Hadoop 分布式文件係統(HDFS)
在Hadoop Common 安裝完成後,是時候該研究Hadoop Stack 的其餘組件瞭。HDFS(Hadoop Distributed File System)提供一個分布 式文件係統,設計目標是能夠運行在基礎硬件組件之上。大多數企 業被其*小化的係統配置要求所吸引。此環境可以在虛擬機(Virtual Hadoop 大數據解決方案 Machine,VM)或筆記本電腦上完成初始配置,而且可以升級到服務 器部署。它具有高度的容錯性,並且被設計為能夠部署在低成本的 硬件之上。它提供對應用程序數據的高吞吐量訪問,適閤於麵嚮大 型數據集的應用程序。
在任何環境中,硬件故障都是不可避免的。有瞭HDFS,你的 數據可以跨越數韆颱服務器,而每颱服務器上均包含一部分基礎數 據。這就是容錯功能發揮作用的地方。現實情況是,這麼多服務器 總會遇到一颱或者多颱無法正常工作的風險。HDFS 具備檢測故障 和快速執行自動恢復的功能。
HDFS 的設計針對批處理做瞭優化,它提供高吞吐量的數據訪 問,而非低延遲的數據訪問。運行在HDFS 上的應用程序有著大型 數據集。在HDFS 中一個典型的文件大小可以達到數百GB 或更大, 所以HDFS 顯然支持大文件。它提供高效集成數據帶寬,並且單個 群集可以擴展至數百節點。
Hadoop 是一個單一功能的分布式係統,為瞭並行讀取數據集並 提供更高的吞吐量,它與群集中的機器進行直接交互。可將Hadoop 想象為一個動力車間,它讓單個CPU 運行在群集中大量低成本的機 器上。既然已經介紹瞭用於讀取數據的工具,下一步便是用 MapReduce 來處理它。
1.1.3 MapReduce 是什麼
MapReduce 是Hadoop 的一個編程組件,用於處理和讀取大型 數據集。MapReduce 算法賦予瞭Hadoop 並行化處理數據的能力。 簡而言之,MapReduce 用於將大量數據濃縮為有意義的統計分析結 果。MapReduce 可以執行批處理作業,即能在處理過程中多次讀取 大量數據來産生所需的結果。
對於擁有大型數據存儲或者數據湖的企業和組織來說,這是一 種重要的組件,它將數據限定到可控的大小範圍內。在Hadoop *近的發展中,另有一款稱為YARN 的組件已經可 用於進一步管理Hadoop 生態係統。 1.1.4 YARN 是什麼 YARN 基礎設施(另一個資源協調器)是一項用於提供執行應用 程序所需的計算資源(內存、CPU 等)的框架。 YARN 有什麼誘人的特點或是性質?其中兩個重要的部分是資 源管理器和節點管理器。讓我們來勾勒YARN 的框架。首先考慮一 個兩層的群集,其中資源管理器在頂層(每個群集中隻有一個)。資 Hadoop 大數據解決方案 6 源管理器是主節點。它瞭解從節點所在的位置(較底層)以及它們擁 有多少資源。它運行瞭多種服務,其中*重要的是用於決定如何分 配資源的資源調度器。節點管理器(每個群集中有多個)是此基礎設 施的從節點。當開始運行時,它嚮資源管理器聲明自己。此類節點 有能力嚮群集提供資源,它的資源容量即內存和其他資源的數量。 在運行時,資源調度器將決定如何使用該容量。Hadoop 2 中的YARN 框架允許工作負載在各種處理框架之間動態共享群集資源,這些框 架包括MapReduce、Impala 和Spark。YARN 目前用於處理內存和 CPU,並將在未來用於協調其他資源,例如磁盤和網絡I/O。
……
Hadoop是一個在Apache 2.0許可證下可用的開源項目。它能在分布式服務器群集中管理和存儲超大規模的數據集。Hadoop*具優勢的特性之一是其容錯性,這使得大數據應用在遇到失敗事件時能夠繼續正常運行。使用Hadoop的另一個優勢是可擴展性。這種編程邏輯擁有從單機嚮大量服務器擴展的潛質,而每颱服務器均具備本地計算和存儲能力。
本書讀者對象
本書麵嚮使用Hadoop來執行數據相關作業的任何人,也適閤希望更好地從任意數據存儲中獲取有意義信息的讀者。這包括大數據解決方案架構師、Linux係統和大數據工程師、大數據平颱工程師、Java程序員和數據庫管理員。
如果你有興趣學習關於Hadoop的更多知識並且想瞭解如何抽取特定組件做進一步分析或研究,那麼這本書正好適閤你。
閱讀本書的前提
你應該擁有開發經驗並且瞭解Hadoop的基礎知識,而且要對在實際環境中應用它感興趣。
示例的源代碼可以從www.wrox.com/go/professionalhadoop或者https://github.com/backstopmedia/hadoopbook下載。
本書的結構
本書共分為8章,內容如下:
第1章:Hadoop概述
第2章:存儲
第3章:計算
第4章:用戶體驗
第5章:與其他係統集成
第6章:Hadoop安全
第7章:自由的生態圈:Hadoop與Apache BigTop
第8章:Hadoop軟件棧的In-Memory計算
約定
為幫助你盡可能地理解文章含義並抓住重點,我們在本書中使用瞭大量約定。
文中所使用的樣式如下:
● 當介紹新術語和重要詞語時,我們會突齣展現它們。
● 我們像這樣展示正文中的代碼:persistence.properties。
● 我們以此種樣式來展示本書中的所有代碼片段:
FileSystem fs = FileSystem.get(URI.create(uri), conf);
InputStream in = null;
try {
● 我們以這樣的字體展示URL:
http://:50075
p2p.wrox.com
要與作者和同行討論,請加入http://p2p.wrox.com上的P2P論壇。這個論壇是一個基於Web的係統,便於你張貼與Wrox圖書相關的消息和相關技術,與其他讀者和技術用戶交流心得。該論壇提供瞭訂閱功能,當論壇上有新的消息時,它可以給你傳送感興趣的論題。Wrox作者、編輯和其他業界專傢和讀者都會到這個論壇上探討問題。
在http://p2p.wrox.com上,有許多不同的論壇,它們不僅有助於閱讀本書,還有助於開發自己的應用程序。要加入論壇,可以遵循下麵的步驟:
(1) 進入http://p2p.wrox.com,單擊Register鏈接。
(2) 閱讀使用協議,並單擊Agree按鈕。
(3) 填寫加入該論壇所需要的信息和自己希望提供的其他信息,單擊Submit按鈕。
(4) 你會收到一封電子郵件,其中的信息描述瞭如何驗證賬戶,完成加入過程。
加入論壇後,就可以張貼新消息,響應其他用戶張貼的消息。可以隨時在Web上閱讀消息。如果要讓該網站給自己發送特定論壇中的消息,可以單擊論壇列錶中該論壇名旁邊的Subscribe to this Forum圖標。
關於使用Wrox P2P的更多信息,可閱讀P2P FAQ,瞭解論壇軟件的工作情況以及P2P和Wrox圖書的許多常見問題。要閱讀FAQ,可以在任意P2P頁麵上單擊FAQ鏈接。
源代碼
讀者在學習本書中的示例時,可以手動輸入所有的代碼,也可以使用本書附帶的源代碼文件。本書使用的所有源代碼都可以從站點http://www.wrox.com下載。具體而言,本書的代碼可以通過網站http://www.wrox.com/go/professionalhadoop上的Download Code選項卡下載。
還可以在站點http://www.wrox.com上通過輸入ISBN(本書的ISBN為9781119267171)來獲取本書的代碼。也可以掃描封底的二維碼獲取本書的源代碼。當前所有Wrox圖書的代碼下載的完整列錶都可以通過www.wrox.com/dynamic/books/download.aspx站點來獲取。
下載代碼後,隻需要用自己喜歡的解壓縮軟件對它進行解壓縮即可。另外,也可以進入http://www.wrox.com/dynamic/books/ download.aspx上的Wrox代碼下載主頁,查看本書和其他Wrox圖書的所有代碼。
勘誤錶
盡管我們已經盡瞭各種努力來保證文章
Hadoop大數據解決方案/大數據應用與技術叢書 下載 mobi epub pdf txt 電子書 格式
Hadoop大數據解決方案/大數據應用與技術叢書 下載 mobi pdf epub txt 電子書 格式 2025
Hadoop大數據解決方案/大數據應用與技術叢書 下載 mobi epub pdf 電子書東西不錯,物流很快,給予好評
評分師兄推薦,做數據研發必備書籍,內容非常精闢。在業界也泰山北鬥級的人物。
評分買瞭還沒來得及看,紙張質量不錯
評分商品很好很棒,書還沒開始看,看起來不錯?
評分近期做項目正需要,書不錯,翻譯還行,非專業人士看瞭可能有點難度。
評分……希望有幫助~~~~~~~大數據時代的~
評分32k版本。。很輕便
評分學習型社會,學習永無止境,勉勵一下懶惰的自己。
評分沒有動輒大幾百頁,有信心把它看完
Hadoop大數據解決方案/大數據應用與技術叢書 mobi epub pdf txt 電子書 格式下載 2025