內容簡介
大數據讓我們以一種****的方式,通過對海量數據進行分析,獲得有巨大價值的産品和服務,最終形成變革之力。
《大數據開發工程師係列:Hadoop & Spark大數據開發實戰》圍繞Hadoop和Spark這兩個主流技術進行講解,主要內容包括Hadoop環境配置、分布式文件係統HDFS、分布式計算框架MapReduce、資源調度框架YARN與Hadoop新特性、大數據數據倉庫Hive、離綫處理輔助係統、SparkCore、Spark SQL、Spark Streaming等知識。
為保證學習效果,《大數據開發工程師係列:Hadoop & Spark大數據開發實戰》緊密結閤實際應用,利用大量案例說明和實踐,提煉含金量十足的開發經驗。
《大數據開發工程師係列:Hadoop & Spark大數據開發實戰》使用Hadoop和Spark進行大數據開發,並配以完善的學習資源和支持服務,包括視頻教程、案例素材下載、學習交流社區、討論組等終身學習內容,為開發者帶來全方位的學習體。
內頁插圖
目錄
前言
關於引用作品版權說明
第1章 初識Hadoop
本章任務
任務1 大數據概述
1.1.1 大數據基本概念
1.1.2 大數據對於企業帶來的挑戰
任務2 Hadoop概述
1.2.1 Hadoop簡介
1.2.2 HadooD生態係統
1.2.3 大數據應用案例
任務3 Hadoop環境措建
1.3.1 虛擬機安裝
1.3.2 Linux係統安裝
1.3.3 Hadoop僞分布式環境搭建
本章總結
本章作業
第2章 分布式文件係統HDFS
本章任務
任務1 初識HDFS
2.1.1 HDFS概述
2.1.2 HDFS基本概念
2.1.3 HDFS體係結構
任務2 HDFS操作
2.2.1 HDFS shell訪問
2.2.2 Java API訪問
任務3 HDFS運行機製
2.3.1 HDFS文件讀寫流程
2.3.2 HDFS副本機製
2.3.3 數據負載均衡
2.3.4 機架感知
任務4 HDFS進階
2.4.1 Hadoop序列化
2.4.2 基於文件的數據結構SequenceFile
2.4.3 基於文件的數據結構MapFile
本章總結
本章作業
第3章 分布式計算框架MapReduce
本章任務
任務1 MapReduce編程模型
3.1.1 MapReduce概述
3.1.2 MapReduce編程模型
3.1.3 MapReduce Woracount編程實例
任務2 MapReduce進階
3.2.1 MapReduce類型
3.2.2 MapReduce輸入格式
3.2.3 MapReduce輸齣格式
3.2.4 Combiner
3.2.5 Partitioner
3.2.6 RecordReader
任務3 MapReduce高級編程
3.3.1 Join的MapReduce實現
3.3.2 排序的MapReduce實現
3.3.3 二次排序的MapReduce實現
3.3.4 閤並小文件的MapReduce實現
本章總結
本章作業
第4章 YARN與Hadoop新特性
本章任務
任務1 初識資源調度框架YARN
4.1.1 YARN産生背景
4.1.2 初識YARN
4.1.3 YARN運行機製
任務2 HDFS新特性
4.2.1 HDFS NameNOde HA
4.2.2 HDFS NameN0de Federation
4.2.3 HDFSSnaoshots
4.2.4 WebHOFS RESTAPI
4.2.5 DistCp
任務3 YARN新特性
4.3.1 ResourceManager Restart
4.3.2 ResourceManager HA
本章總結
本章作業
第5章 大數據數據倉庫Hive
本章任務
任務1 初識Hive
5.1.1 Hiye簡介
5.1.2 Hiye架構
5.1.3 Hiye與Hadoop的關係
5.1.4 Hive與傳統關係型數據庫對比
5.1.5 Hive數據存儲
5.1.6 Hive環境部署
任務2 Hive基本操作
5.2.1 DDL操作
5.2.2 DML操作
5.2.3 Hive shell操作
任務3 Hive進階
5.3.1 Hive函數
5.3.2 Hive常用調優策略
本章總結
本章作業
第6章 離綫處理輔助係統
本章任務
任務1 使用Sqoop完成數據遷移
6.1.1 Sqoop簡介
6.1.2 導入MysQL數據到HDFS
6.1.3 導齣HOFS數據到MySQL
6.1.4 導入MySQL數據到Hive
6.1.5 Sqoop中Job的使用
任務2 工作流調度框架Azkaban
6.2.1 Azkaban簡介
6.2.2 Azkaban部署
6.2.3 Azkaban實戰
本章總結
本章作業
第7章 Spark入門
本章任務
任務1 初識Spark
7.1.1 Spark概述
7.1.2 Spark優點
7.1.3 Spark生態係統BDAs
任務2 Scala入門
7.2.1 Scala介紹
7.2.2 Scala函數
7.2.3 Scala麵嚮對象
7.2.4 Scala集閤
7.2.5 Scala進階
任務3 獲取Spark源碼並進行編譯
7.3.1 獲取Spark源碼
7.3.2 Spark源碼編譯
任務4 第次與Spark親密接觸
7.4.1 Spark環境部署
7.4.2 Spark完成詞頻統計分析
本章總結
本章作業
第8章 SparkCore
本章任務
任務1 SparK的基石RDD
8.1.1 RDD概述
8.1.2 RDD常用創建方式
8.1.3 RDD的轉換
8.1.4 ROD的動作
8.1.5 RDD的依賴
任務2 RDD進階
8.2.1 RDD緩存
8.2.2 共享變量(Shared Variables)
8.2.3 Spark核心概念
8.2.4 Spark運行架構
任務3 基於RDD的Spark編程
8.3.1 開發前置準備
8.3.2 使用SparkCore開發詞頻計數WordCount
8.3.3 使用SparkCore進行年齡統計
本章總結
本章作業
第9章 Spark SQL
本章任務
任務1 SparkSQL前世今生
9.1.1 為什麼需要SQL
9.1.2 常用的SQL on Hadoop框架
9.1.3 Spark SQL概述
任務2 Spark SQL編程
9.2.1 SparkSQL編程入口
9.2.2 DataFrame是什麼
9.2.3 DataFrame編程
任務3 SparkSQL進階
9.3.1 Spark SQL外部數據源操作
9.3.2 SparkSQL函數的使用
9.3.3 Spark SQL常用調優
本章總結
本章作業
第10章 Spark Streaming
本章任務
任務1 初始流處理框架及Spark Streaming
10.1.1 流處理框架概述
10.1.2 Spark Streaming概述
任務2 Spark Streaming編程
10.2.1 Spark Streaming核心概念
10.2.2 使用Spark Streaming編程
任務3 Spark Streaming進階
10.3.1 Spark Streaming整閤Flume
10.3.2 Spark Streaming整閤Kafka
10.3.3 Spark Streaming常用優化策略
本章總結
本章作業
前言/序言
叢書設計:
準備好瞭嗎?進入大數據時代!大數據已經並將繼續影響人類的方方麵麵。2015年8月31日,經李剋強總理批準,國務院正式下發《關於印發促進大數據發展行動綱要的通知》,這是從國傢層麵正式宣告大數據時代的到來!企業資本則以BAT互聯網公司為首,不斷進行大數據創新,從而實現大數據的商業價值。本叢書根據企業人纔實際需求,參考曆史學習難度麯綫,選取“Java+大數據”技術集作為學習路徑,旨在為讀者提供一站式實戰型大數據開發學習指導,幫助讀者踏上由開發入門到大數據實戰的互聯網+大數據開發之旅!
叢書特點:
1.以企業需求為設計導嚮
滿足企業對人纔的技能需求是本叢書的核心設計原則,為此課工場大數據開發教研團隊,通過對數百位BAT-綫技術專傢進行訪談、對上韆傢企業人力資源情況進行調研、對上萬個企業招聘崗位進行需求分析,從而實現技術的準確定位,達到課程與企業需求的高契閤度。
2.以任務驅動為講解方式
叢書中的技能點和知識點都由任務驅動,讀者在學習知識時不僅可以知其然,而且可以知其所以然,幫助讀者融會貫通、舉一反三。
3.以實戰項目來提升技術
本叢書均設置項目實戰環節,該環節綜閤運用書中的知識點,幫助讀者提升項目開發能力。每個實戰項目都設有相應的項目思路指導、重難點講解、實現步驟總結和知識點梳理。
4.以互聯網+實現終身學習
本叢書可通過使用課工場APP進行二維碼掃描來觀看配套視頻的理論講解和案例操作,同時課工場(www.kgc.cn)開闢教材配套版塊,提供案例代碼及案例素材下載。此外,課工場還為讀者提供瞭體係化的學習路徑、豐富的在綫學習資源和活躍的學習社區,方便讀者隨時學習。
讀者對象:
1.大中專院校的老師和學生
2.編程愛好者
3.初中級程序開發人員
4.相關培訓機構的老師和學員
讀者服務:
為解決本叢書中存在的疑難問題,讀者可以訪問課工場官方網站(www.kgc.cn),也可以發送郵件到ke@kgc.cn,我們的客服專員將竭誠為您服務。
緻謝:
本叢書是由課工場大數據開發教研團隊研發編寫的,課工場(kgc.cn)是北京大學旗下專注於互聯網人纔培養的高端教育品牌。作為國內互聯網人纔教育生態係統的構建者,課工場依托北京大學優質的教育資源,重構職業教育生態體係,以學員為本、以企業為基,構建教學大咖、技術大咖、行業大咖三咖一體的教學矩陣,為學員提供高端、靠譜、炫酷的學習內容!
感謝您購買本叢書,希望本叢書能成為您大數據開發之旅的好夥伴!
大數據開發工程師係列:Hadoop & Spark大數據開發實戰 下載 mobi epub pdf txt 電子書 格式