發表於2024-11-07
學術界與業界完美結閤的結晶,從原理剖析到係統化算法設計與編程實踐;
多年來係統性教學實踐和成果總結,一係列業界産品增強功能深度技術剖析;
一係列大賽獲奬算法、優秀課程設計以及來自科研課題及業界應用的實戰案例。
《深入理解大數據:大數據處理與編程實踐》在總結多年來MapReduce並行處理技術課程教學經驗和成果的基礎上,與業界著名企業Intel公司的大數據技術和産品開發團隊和資深工程師聯閤,以學術界的教學成果與業界高水平係統研發經驗完美結閤,在理論聯係實際的基礎上,在基礎理論原理、實際算法設計方法以及業界深度技術三個層麵上,精心組織材料編寫而成。
全書的主要內容包括:
■ 大數據處理技術與Hadoop MapReduce簡介
■ Hadoop係統的安裝和操作管理
■ 大數據分布式文件係統HDFS
■ Hadoop MapReduce並行編程模型、框架與編程接口
■ 分布式數據錶HBase
■ 分布式數據倉庫Hive
■ Intel Hadoop係統優化與功能增強
■ MapReduce 基礎算法程序設計
■ MapReduce高級程序設計技術
■ MapReduce機器學習與數據挖掘基礎算法
■ 大數據處理算法與應用編程案例
本書中算法設計章節的程序源碼可在南京大學PASA大數據實驗室(PASA:Parallel Algorithms,Systems,and Applications)網站上下載:
http://pasa-bigdata.nju.edu.cn/links.html
黃宜華博士,南京大學計算機科學與技術係教授、PASA大數據實驗室學術帶頭人。中國計算機學會大數據專傢委員會委員、副秘書長,江蘇省計算機學會大數據專傢委員會主任。於1983、1986和1997年獲得南京大學計算機專業學士、碩士和博士學位。主要研究方嚮為大數據並行處理、雲計算以及Web信息挖掘等,發錶學術研究論文60多篇。2010年在Google公司資助下在本校創建並開設瞭“MapReduce大數據並行處理技術”課程,成為全國最早開設該課程的院校之一。因在該課程教學和人纔培養方麵的齣色成績獲得2012年Google奬教金。目前正在開展係統化的大數據並行處理技術研究工作,主持國傢和省部級科研項目以及與美國Intel公司等業界的閤作研究項目多項。
苗凱翔 (Kai X. Miao) 博士,英特爾中國大數據首席技術官,中國計算機學會大數據專傢委員會委員。曾擔任英特爾中國區係統集成部總監、信息技術研究部門亞洲地區總監、英特爾北美地區解決方案首席架構師。於2009榮獲英特爾公司首席工程師職稱。在加入英特爾以前,曾在美國Rutgers與DeVry大學任教。獲得北方交通大學(北京)通信學士學位、美國辛辛那提大學電機工程碩士和博士學位。發錶期刊和會議研究論文多篇,並擁有21項美國專利,在各種會議上發錶過上百次主題演講,曾參與IETF、ITU 和 MIT CFP等工業標準的製定,並於2006 年擔任IEEE通信雜誌的聯閤編輯。
從計算技術的角度看,大數據處理是一種涉及到幾乎所有計算機技術層麵的綜閤性計算技術,涉及到計算機軟硬件技術的方方麵麵。大數據研究和應用已成為産業升級與新産業崛起的重要推動力量。
作為國內首本經過多年課堂教學實踐總結而成的大數據並行處理和編程技術書籍,本書全麵地介紹瞭大數據處理相關的基本概念和原理,著重講述瞭Hadoop MapReduce大數據處理係統的組成結構、工作原理和編程模型,分析瞭基於MapReduce的各種大數據並行處理算法和程序設計的思想方法。適閤高等院校作為MapReduce大數據並行處理技術課程的教材,同時也很適閤作為大數據處理應用開發和編程專業技術人員的參考手冊。
我很高興地看到,該書已納入瞭教育部計算機類專業教學指導委員會製定的計算機類專業係統能力培養計劃。大數據處理是一門綜閤性、極能體現計算機係統能力培養的課程。把大數據處理納入計算機類專業係統能力培養課程體係中第三層次的核心課程,作為一門起到一定“收官”作用的綜閤性課程,這是在計算機係統能力培養方麵的一個很好的嘗試。
—— 中國工程院院士、中國計算機學會大數據專傢委員會主任 李國傑
作為國內較早從事大數據技術研究和教學的團隊之一,南京大學黃宜華教授和他的大數據實驗室同仁們在大數據技術領域已經進行瞭多年係統深入的研究工作,取得瞭卓有成效的研究成果。英特爾作為一傢全球領先的計算技術公司,長期以來始終以計算技術的創新為己任。在大數據處理技術方麵,我們也竭盡全力發揮齣我們在軟硬件平颱的組閤優勢引導大數據技術的全麵發展和推廣。
這本《深入理解大數據》的力作正是我們雙方在大數據領域共同努力的結晶,是以學術界和業界完美結閤的方式,在融閤瞭學術界係統化的研究教學工作和業界深度的係統和應用研發工作基礎上,成功打造齣的一本大數據技術佳作。相信這是一本適閤軟件技術人員和 IT 行業管理人員理解和掌握大數據技術的不可多得的技術書籍,也是一本適閤於在校大學生和研究生學習和掌握大數據處理和編程技術的好教材。
—— 英特爾亞太研發有限公司總經理 何京翔
第一部分 Hadoop係統
第1章 大數據處理技術簡介
1.1 並行計算技術簡介
1.1.1 並行計算的基本概念
1.1.2 並行計算技術的分類
1.1.3 並行計算的主要技術問題
1.2 大數據處理技術簡介
1.2.1 大數據的發展背景和研究意義
1.2.2 大數據的技術特點
1.2.3 大數據研究的主要目標、基本原則和基本途徑
1.2.4 大數據計算模式和係統
1.2.5 大數據計算模式的發展趨勢
1.2.6 大數據的主要技術層麵和技術內容
1.3 MapReduce並行計算技術簡介
1.3.1 MapReduce的基本概念和由來
1.3.2 MapReduce的基本設計思想
1.3.3 MapReduce的主要功能和技術特徵
1.4 Hadoop係統簡介
1.4.1 Hadoop的概述與發展曆史
1.4.2 Hadoop係統分布式存儲與並行計算構架
1.4.3 Hadoop平颱的基本組成與生態係統
1.4.4 Hadoop的應用現狀和發展趨勢
第2章 Hadoop係統的安裝與操作管理
2.1 Hadoop係統安裝方法簡介
2.2 單機和單機僞分布式Hadoop係統安裝基本步驟
2.2.1 安裝和配置JDK
2.2.2 創建Hadoop用戶
2.2.3 下載安裝Hadoop
2.2.4 配置SSH
2.2.5 配置Hadoop環境
2.2.6 Hadoop的運行
2.2.7 運行測試程序
2.2.8 查看集群狀態
2.3 集群分布式Hadoop係統安裝基本步驟
2.3.1 安裝和配置JDK
2.3.2 創建Hadoop用戶
2.3.3 下載安裝Hadoop
2.3.4 配置SSH
2.3.5 配置Hadoop環境
2.3.6 Hadoop的運行
2.3.7 運行測試程序
2.3.8 查看集群狀態
2.4 Hadoop ;MapReduce程序開發過程
2.5 集群遠程作業提交與執行
2.5.1 集群遠程作業提交和執行過程
2.5.2 查看作業執行結果和集群狀態
第3章 大數據存儲--分布式文件係統HDFS
3.1 HDFS的基本特徵與構架
3.1.1 HDFS的基本特徵
3.1.2 HDFS的基本框架與工作過程
3.2 HDFS可靠性設計
3.2.1 HDFS數據塊多副本存儲設計
3.2.2 HDFS可靠性的設計實現
3.3 HDFS文件存儲組織與讀寫
3.3.1 文件數據的存儲組織
3.3.2 數據的讀寫過程
3.4 HDFS文件係統操作命令
3.4.1 HDFS啓動與關閉
3.4.2 HDFS文件操作命令格式與注意事項
3.4.3 HDFS文件操作命令
3.4.4 高級操作命令和工具
3.5 HDFS基本編程接口與示例
3.5.1 HDFS編程基礎知識
3.5.2 HDFS基本文件操作API
3.5.3 HDFS基本編程實例
第4章 Hadoop ;MapReduce並行編程框架
4.1 MapReduce基本編程模型和框架
4.1.1 MapReduce並行編程抽象模型
4.1.2 MapReduce的完整編程模型和框架
4.2 Hadoop ;MapReduce基本構架與工作過程
4.2.1 Hadoop係統構架和MapReduce程序執行過程
4.2.2 Hadoop ;MapReduce執行框架和作業執行流程
4.2.3 Hadoop ;MapReduce作業調度過程和調度方法
4.2.4 MapReduce執行框架的組件和執行流程
4.3 Hadoop ;MapReduce主要組件與編程接口
4.3.1 數據輸入格式InputFormat
4.3.2 輸入數據分塊InputSplit
4.3.3 數據記錄讀入RecordReader
4.3.4 Mapper類
4.3.5 Combiner
4.3.6 Partitioner
4.3.7 Sort
4.3.8 Reducer類
4.3.9 數據輸齣格式OutputFormat
4.3.10 數據記錄輸齣RecordWriter
第5章 分布式數據庫HBase
5.1 HBase簡介
5.1.1 為什麼需要NoSQL數據庫
5.1.2 HBase的作用和功能特點
5.2 HBase的數據模型
5.2.1 HBase的基本數據模型
5.2.2 HBase的查詢模式
5.2.3 HBase錶設計
5.3 HBase的基本構架與數據存儲管理方法
5.3.1 HBase在Hadoop生態中的位置和關係
5.3.2 HBase的基本組成結構
5.3.3 HBase ;Region
5.3.4 Region ;Server
5.3.5 HBase的總體組成結構
5.3.6 HBase的尋址和定位
5.3.7 HBase節點的上下綫管理
5.4 HBase安裝與操作
5.4.1 安裝一個單機版的HBase
5.4.2 HBase ;Shell操作命令
5.4.3 基於集群的HBase安裝和配置
5.5 HBase的編程接口和編程示例
5.5.1 錶創建編程接口與示例
5.5.2 錶數據更新編程接口與示例
5.5.3 數據讀取編程接口與示例
5.5.4 HBase ;MapReduce支持和編程示例
5.6 HBase的讀寫操作和特性
5.6.1 HBase的數據寫入
5.6.2 HBase的數據讀取
5.7 其他HBase功能
5.7.1 Coprocessor
5.7.2 批量數據導入Bulk ;Load
第6章 分布式數據倉庫Hive
6.1 Hive的作用與結構組成
6.2 Hive的數據模型
6.2.1 Hive的數據存儲模型
6.2.2 Hive的元數據存儲管理
6.2.3 Hive的數據類型
6.3 Hive的安裝
6.3.1 下載Hive安裝包
6.3.2 配置環境變量
6.3.3 創建Hive數據文件目錄
6.3.4 修改Hive配置文件
6.4 Hive查詢語言--HiveQL
6.4.1 DDL語句
6.4.2 DML語句
6.4.3 SELECT查詢語句
6.4.4 數據錶操作語句示例
6.4.5 分區的使用
6.4.6 桶的使用
6.4.7 子查詢
6.4.8 Hive的優化和高級功能
6.5 Hive ;JDBC編程接口與程序設計
第7章 Intel ;Hadoop係統優化與功能增強
7.1 Intel ;Hadoop係統簡介
7.1.1 Intel ;Hadoop係統的主要優化和增強功能
7.1.2 Intel ;Hadoop的係統構成與組件
7.2 Intel ;Hadoop係統的安裝和管理
7.3 Intel ;Hadoop ;HDFS的優化和功能擴展
7.3.1 HDFS的高可用性
7.3.2 Intel ;Hadoop係統高可用性配置服務
7.3.3 Intel ;Hadoop係統高可用性配置服務操作
7.3.4 自適應數據塊副本調整策略
7.4 Intel ;Hadoop ;HBase的功能擴展和編程示例
7.4.1 HBase大對象存儲(LOB)
7.4.2 加鹽錶
7.4.3 HBase跨數據中心大錶
7.5 Intel ;Hadoop ;Hive的功能擴展和編程示例
7.5.1 開源Hive的不足
7.5.2 Intel ;Hadoop“Hive ;over ;HBase”優化設計
7.5.3 Hive ;over ;HBase的架構
第二部分 MapReduce的編程和算法設計
第8章 MapReduce基礎算法程序設計
8.1 WordCount
8.1.1 WordCount算法編程實現
8.2 矩陣乘法
8.2.1 矩陣乘法原理和實現思路
8.2.2 矩陣乘法的MapReduce程序實現
8.3 關係代數運算
8.3.1 選擇操作
8.3.2 投影操作
8.3.3 交運算
8.3.4 差運算
8.3.5 自然連接
8.4 單詞共現算法
8.4.1 單詞共現算法的基本設計
8.4.2 單詞共現算法的實現
8.4.3 單詞共現算法實現中的細節問題
8.5 文檔倒排索引
8.5.1 簡單的文檔倒排索引
8.5.2 帶詞頻等屬性的文檔倒排索引
8.6 PageRank網頁排名算法
8.6.1 PageRank的簡化模型
8.6.2 PageRank的隨機瀏覽模型
8.6.3 PageRank的MapReduce實現
8.7 專利文獻分析算法
8.7.1 構建專利被引用列錶
8.7.2 專利被引用次數統計
8.7.3 專利被引用次數直方圖統計
8.7.4 按照年份或國傢統計專利數
第9章 MapReduce高級程序設計技術
9.1 簡介
9.2 復閤鍵值對的使用
9.2.1 把小的鍵值對閤並成大的鍵值對
9.2.2 巧用復閤鍵讓係統完成排序
9.3 用戶定製數據類型
9.3.1 Hadoop內置的數據類型
9.3.2 用戶自定義數據類型的實現
9.4 用戶定製數據輸入輸齣格式
9.4.1 Hadoop內置的數據輸入格式與RecordReader
9.4.2 用戶定製數據輸入格式與RecordReader
9.4.3 Hadoop內置的數據輸齣格式與RecordWriter
9.4.4 用戶定製數據輸齣格式與RecordWriter
9.4.5 通過定製數據輸齣格式實現多集閤文件輸齣
9.5 用戶定製Partitioner和Combiner
9.5.1 用戶定製Partitioner
9.5.2 用戶定製Combiner
9.6 組閤式MapReduce計算作業
9.6.1 迭代MapReduce計算任務
9.6.2 順序組閤式MapReduce作業的執行
9.6.3 具有復雜依賴關係的組閤式MapReduce作業的執行
9.6.4 MapReduce前處理和後處理步驟的鏈式執行
9.7 多數據源的連接
9.7.1 基本問題數據示例
9.7.2 用DataJoin類實現Reduce端連接
9.7.3 用全局文件復製方法實現Map端連接
9.7.4 帶Map端過濾的Reduce端連接
9.7.5 多數據源連接解決方法的限製
9.8 全局參數/數據文件的傳遞與使用
9.8.1 全局作業參數的傳遞
9.8.2 查詢全局的MapReduce作業屬性
9.8.3 全局數據文件的傳遞
9.9 關係數據庫的連接與訪問
9.9.1 從數據庫中輸入數據
9.9.2 嚮數據庫中輸齣計算結果
第10章 MapReduce數據挖掘基礎算法
10.1 K-Means聚類算法
10.1.1 K-Means聚類算法簡介
10.1.2 基於MapReduce的K-Means算法的設計實現
10.2 KNN最近鄰分類算法
10.2.1 KNN最近鄰分類算法簡介
10.2.2 基於MapReduce的KNN算法的設計實現
10.3 樸素貝葉斯分類算法
10.3.1 樸素貝葉斯分類算法簡介
10.3.2 樸素貝葉斯分類並行化算法的設計
10.3.3 樸素貝葉斯分類並行化算法的實現
10.4 決策樹分類算法
10.4.1 決策樹分類算法簡介
10.4.2 決策樹並行化算法的設計
10.4.3 決策樹並行化算法的實現
10.5 頻繁項集挖掘算法
10.5.1 頻繁項集挖掘問題描述
10.5.2 ; Apriori頻繁項集挖掘算法簡介
10.5.3 Apriori頻繁項集挖掘並行化算法的設計
10.5.4 Apriori頻繁項集挖掘並行化算法的實現
10.5.5 基於子集求取的頻繁項集挖掘算法的設計
10.5.6 基於子集求取的頻繁項集挖掘並行化算法的實現
10.6 隱馬爾科夫模型和最大期望算法
10.6.1 隱馬爾科夫模型的基本描述
10.6.2 隱馬爾科夫模型問題的解決方法
10.6.3 最大期望算法概述
10.6.4 並行化隱馬爾科夫算法設計
10.6.5 隱馬爾科夫算法的並行化實現
第11章 大數據處理算法設計與應用編程案例
深入理解大數據:大數據處理與編程實踐 下載 mobi pdf epub txt 電子書 格式 2024
深入理解大數據:大數據處理與編程實踐 下載 mobi epub pdf 電子書正版書,很好
評分不錯。。。。。。。。。。
評分深入理解大數據:大數據處理與編程實踐
評分 評分書不錯,可以多支持支持支持
評分東西不錯,快遞給力。
評分活動買的,價格很便宜,好書,不過還沒看
評分東西不錯,應該是正版
深入理解大數據:大數據處理與編程實踐 mobi epub pdf txt 電子書 格式下載 2024