産品特色
編輯推薦
中興大數據平颱DAP團隊誠意之作
大數據實踐指南
結閤案例
總結大數據建設實踐中的經驗與知識
內容簡介
如果你是一名IT工程師,CTO希望你在一周內提交一份公司未來IT係統基礎架構的初步建議;
如果你是一位IT營銷人員,客戶需要你在一周內嚮他匯報未來大數據係統的大緻技術方嚮;
…
在這個信息嚴重過剩的時代,一周內從浩渺的技術細節的海洋中抓住關鍵的技術脈絡,並進一步提齣有一定理論依據的技術思考,這幾乎是不可能完成的任務。
您是否想過閱讀一本關於大數據的圖書幫助解決如上問題?
浩如煙海的大數據領域圖書可以大緻歸納為三類:第一類是描述大數據的應用前景與社會意義;第二類是研討大數據作為一個大型IT係統的係統架構與技術架構;第三類是研討大數據領域的具體技術,例如HADOOP相關的編程等。
對於需要快速掌握大數據係統技術脈絡,或者是需要對未來IT係統做係統思考的技術工作者來說,需要的是第二類圖書所提供的係統化知識。但目前業界大數據相關的書籍與資料,大多是第一類與第三類,第二類非常稀少,以至於某些希望開展大數據課程教學的高校難以找到閤適的教材與參考數據。通過閱讀本書,您將可以迅速建立大數據技術架構相關的知識與脈絡,而不是迷失在浩如煙海的知識細節中。
本書的目的就是為瞭幫助讀者在短的時間內,係統地把握大數據相關的技術框架,建立係統架構級彆的技術思考能力與原則。本書適用於企業的IT與大數據的從業人員,IT與大數據相關的銷售人員,企業的首席技術官(CTO)、首席信息官(CIO),由於本書在大數據知識具備係統性,也可以作為高校大數據方麵課程的教材或輔導書。
內頁插圖
目錄
第一部分 大數據架構師入門
第1章 大數據概述 3
1.1 什麼是大數據 4
1.2 大數據的本質 6
1.3 大數據技術當前狀態 8
1.4 大數據的技術發展趨勢 11
第2章 大數據項目常見場景 13
2.1 實驗型部署場景 14
2.2 中小型部署場景 16
2.3 大型部署場景 19
第3章 大數據方案關鍵因素 23
3.1 數據存儲規模與數據類型 24
3.2 數據來源與數據質量 25
3.3 業務特徵 26
3.4 經濟可行性 27
3.5 運維管理要求 28
3.6 安全性要求 29
3.7 部署要求 31
3.8 係統邊界 32
3.9 約束條件 34
3.10 要點迴顧 34
第二部分 大數據架構師基礎
第4章 Hadoop基礎組件 39
4.1 Hadoop簡介 40
4.2 Hadoop版本演進 41
4.3 Hadoop2.0生態係統簡介 42
4.4 Hadoop分布式文件係統HDFS 43
4.5 Hadoop統一資源管理框架YARN 48
4.6 Hadoop分布式計算框架MapReduce 52
4.7 Hadoop分布式集群管理係統ZooKeeper 57
第5章 Hadoop其他常用組件 61
5.1 Hadoop數據倉庫工具Hive 62
5.2 Hadoop分布式數據庫 HBase 65
5.3 Hadoop實時流處理引擎 Storm 70
5.4 Hadoop交互式查詢引擎 Impala 74
5.5 其他常用組件 78
第6章 Spark內存計算框架 83
6.1 內存計算與Spark 84
6.2 Spark的主要概念 86
6.3 Spark核心組件介紹 96
6.4 Spark與Hadoop之間的關係 100
6.5 要點迴顧 104
第7章大數據中間件層 105
7.1 中間件層簡介 106
7.2 中間件層産品介紹 107
7.3 中間件層的應用 121
7.4 中間件層的發展 124
7.5 要點迴顧 128
第8章大數據分析 129
8.1 數據時代 131
8.2 先進分析 133
8.3 架構與平颱 136
8.4 數據分析流程 140
8.5 要點迴顧 143
第9章可視化技術 145
9.1 可視化技術引言 146
9.2 什麼是數據可視化 147
9.3 數據可視化設計 151
9.4 數據可視化的發展趨勢 160
9.5 要點迴顧 161
第10章大數據安全 163
10.1 安全體係 164
10.2 大數據係統安全 168
10.3 要點迴顧 180
第11章大數據管理 181
11.1 數據管理的範圍和定義 182
11.2 開源軟件的管理能力 183
11.3 國內主流管理 187
11.4 大數據管理展望 195
11.5 要點迴顧 195
第三部分大數據架構師實踐
第12章大數據項目實踐 199
12.1 大數據項目架構關鍵步驟 201
12.2 架構師實踐思考 213
第13章大數據部署實踐 217
13.1 中興通訊DAP大數據平颱功能和架構 218
13.2 DAP平颱特點 219
13.3 某銀行成功案例 220
第四部分 大數據架構師拓展
第14章分布式係統與大數據的關係 229
14.1 分布式係統概述 230
14.2 分布式係統關鍵協議和算法概述 237
14.3 分布式係統和大數據 241
第 15 章數據庫係統與大數據的關係 245
15.1 數據庫係統的曆史 246
15.2 各類係統求同存異 258
15.3 大數據的發展展望 259
第16章雲計算與大數據的關係 261
16.1 虛擬化概述 262
16.2 OpenStack雲管理架構實現 267
16.3 大數據基於雲計算IAAS部署的探討 274
後記 277
前言/序言
毫無疑問,這是屬於大數據的時代。隨著移動互聯網的進步、自媒體的風行和物聯網的興起,信息傳播技術和信息傳播渠道得到極大發展,海量級甚至銀河級的數據不斷湧現,呈現齣“信息爆炸”的態勢。這種情況下,似乎我們獲取信息變得更加容易和方便;而實際上,由於對個體有用的信息淹沒在浩如煙海的無關信息中,獲取“有用信息”反而變得更加睏難。
大數據相關技術就是在這種情況下應運而生的。作為一門新興技術,大數據技術被人熟知和掌握需要一個過程;同時,由於其始終處於一個高速發展的過程,對其認識也是不斷修正提高的過程。
鑒於此,本書總結瞭中興通訊大數據平颱DAP團隊對大數據技術的最新研究成果,結閤中興大數據平颱在各行業的應用實踐經驗,旨在幫助讀者建立係統化的大數據技術脈絡,並針對業界一些似是而非的問題進行係統性的講解與澄清。閱讀完本書,讀者就可以基本掌握大數據技術的係統架構和核心思想。
為何要寫這本書
在大數據項目建設過程中,往往需要三個層次的知識。第一個層次是關於大數據是什麼,能做什麼等理念方麵的知識;第二個層次是如果去端到端進行大數據方案設計,要厘清大數據方案所需的關注重點,並結閤具體的實踐案例進行說明;第三個層次是大數據相關的基礎技術知識,例如,對HDFS、MR、SPARK等技術點的掌握。
第一個層次的書籍,業界已經有很多,其中以《大數據時代》為典型代錶;第三個層次的書籍,業界也比較多,讀者不難獲得相關的學習材料。
但第二個層次的書籍,屬於承上啓下的層次。該層次的知識需要從實踐中總結齣經驗與知識。由於大型項目的建設周期長,建設復雜度高,涉及麵廣,所以從大型項目的實踐中總結齣知識有較高的難度。鑒於此,市麵上該層次的大數據書籍相對較少,大數據相關的從業者或建設者較難獲得這方麵的知識,往往隻能通過各類交流活動獲取這方麵的知識,不僅費時費力,而且難以將這些知識係統化。
基於如上原因,我們感覺迫切需要將我們在大型項目中積纍的經驗總結齣來,供業界同仁參考,同時,這也可以滿足我們內部人員學習大數據相關知識的需求。
本書讀者對象
如果您是IT市場營銷人員,或者是企業IT主管,您可以直接閱讀本書的第一部分與第三部分。通過對本書第一部分與第三部分的閱讀,將幫助您建立起大數據技術概念和框架。如果您對具體的大數據技術不感興趣,可以忽略掉第二部分純技術的內容。
如果您是大數據技術人員,本書將會是一本較好的參考資料,有助於幫助您超越自己所從事的具體模塊,將您的大數據知識體係係統化。
如果您是高校大數據相關課程的老師,由於本書較為係統,可以考慮將本書作為參考書或者教材。
如果您是大數據技術愛好者,也可以將本書作為泛讀書籍,讓您理解當前大數據的時代。當然,讀者如果能具備一定的IT基礎知識,將能夠更好地汲取本書中的知識。這不僅有助於您快速理解大數據相關知識,也有助於啓發您對特定專題的深入思考和獨到分析。
本書特色
本書是首本係統化的方案實踐方麵書籍,係統化地闡述瞭大數據方案應該如何思考,以及大數據的技術基礎知識,並輔以實際的案例進行說明。
以客戶化的語言,描述大數據項目建設中應該重點考慮的問題。即使不是技術專傢,也能很容易地理解本書第一部分的內容。
較為係統地闡述瞭大數據相關的體係,可以幫助讀者迅速係統化大數據相關的知識。
結閤實際的案例,總結在大數據建設實踐中的經驗與知識。
如何閱讀本書
本書內容分為四大部分,不同的讀者可以選擇不同的內容進行閱讀。
本書第一部分是“大數據架構師入門”,以虛構角色小明的視角,去理解大數據,理解客戶的煩惱,並提齣構建一個大數據係統時應該從哪些方麵考慮。閱讀完該部分後,讀者將對大數據方案具備一定的“提問題”的能力。也就是說,如果您麵前有一份大數據的建設方案,即使您以前對大數據瞭解甚少,也可以根據本書第3章的建議,去評判方案的完整性,評判方案的深度與廣度。
本書第二部分是“大數據架構師基礎”,本部分將較為係統地介紹大數據相關的基礎知識。如圖Ⅰ-1 所示,逐個介紹基礎支撐層、計算存儲層、中間件層、挖掘分析/應用層、展現層各部分內容,同時,對貫穿各層的安全和管理兩大模塊的相關內容做介紹,力圖為讀者呈現一個相對完整的大數據知識架構。
圖Ⅰ-1 大數據技術框架
其中,計算存儲層包括Hadoop架構、Spark架構等內容;中間件層包括中間件的作用與意義,以及業界常用中間件及應用場景;挖掘分析/應用層包括非結構化數據處理,常用分析挖掘算法,數據建模與應用,數據可視化技術等內容;展現層包括可視化相關的知識與內容;安全模塊包括物理安全、主機安全、網絡安全、數據安全等內容;管理模塊包括自動部署、自動升級、自動巡檢、自動維護等內容。
本書第三部分是“大數據架構師實踐”,主要包括大數據開發實踐中積纍的一些經驗,並結閤案例進行闡述。這些實戰中積纍的知識與智慧,將幫助理論聯係實踐,更好地理解大數據技術。
本書第四部分是“大數據架構師拓展”,主要包括與大數據相關的其他技術。
這些技術通常來說,並不屬於大數據的技術範疇,但由於這些技術與大數據關係緊密,作為一名架構師,也需要係統地瞭解與思考這些相關的技術,纔能對整個方案進行全局把握。該部分將試圖對這些技術進行簡單介紹,並試圖說明這些技術與大數據之間的關係。
對於不需要關注具體技術的讀者,則可以僅閱讀第一部分“大數據架構師入門”;如果對具體的案例感興趣,則可以閱讀第三部分“大數據架構師實踐”;如果是對技術感興趣的讀者,則可以閱讀第二部分“大數據架構師基礎”與第四部分“大數據架構師拓展”。
本書編寫團隊
大數據的知識非常廣泛,不同層麵的知識,以及不同技術模塊的知識,很難由一個人完全掌握,所以本書是編寫團隊共同努力的成果。編寫團隊的成員都是在大數據領域擔當重要工作崗位的技術骨乾,大傢在共同的理想與愛好下,聚集成一個團隊,並為大數據架構師們完成瞭業界首本全麵實踐指導類的書籍。在此,請允許我列舉參與編寫的團隊成員,並嚮他們緻以誠摯的謝意。感謝他們犧牲周末與節假日的休息時間,為大傢做的無私貢獻。
團隊成員包括:申山宏、硃科支、梁平、薛清華、馬彧、李敏、郭海生、楊榮康、牛傢浩、劉少麟、管雲、洪科、簡明、張強、艾紅芳、關濤、於波、劉淑霞、郭進良、汪紹飛、周治中、王利學、黃增建、孫利軍、肖文潔、周黎明。
勘誤與支持
盡管我們盡瞭各種努力來保證文章不齣錯誤,但由於編者水平有限,加上編寫時間倉促,難免會有錯訛之處。如果你在書中發現瞭錯誤,例如錯彆字、書寫錯誤等,請告訴我們,我們將整理成勘誤錶。通過勘誤錶,可以幫助其他讀者節省閱讀時間,提高閱讀體驗,並可以幫助我們提供更高質量的下一版。
錯誤反饋請發送,或者關注“中興大數據”微信公眾號(微信號ZTE_BigData)並留言,我們將在第一時間確認反饋。勘誤錶可以在“中興大數據”微信公眾號上獲取。
緻謝
感謝中興大數據平颱DAP團隊的所有成員,你們多年的潛心研究和積纍是本書的基石。
感謝所有評審本書,並對本書提齣過建議的朋友,你們的幫助對我們非常重要。
感謝關心本書的各界朋友,你們的關心與期望是我們的動力,更是對我們全心全意寫好這本書的鞭策。
《現代數據棧:構建可擴展、敏捷且智能的數據驅動型組織》 內容簡介 在當今這個數據爆炸式增長的時代,每一個組織都麵臨著一個核心挑戰:如何有效地捕捉、存儲、處理、分析並最終利用海量數據,將其轉化為可執行的洞察,從而驅動業務的創新和增長。傳統的、孤立的數據基礎設施已經難以滿足這種日益增長的需求。企業迫切需要一種更現代化、更靈活、更具成本效益的數據架構,以應對數據復雜性、數據量激增以及對實時洞察的迫切需求。 《現代數據棧:構建可擴展、敏捷且智能的數據驅動型組織》一書,正是為瞭迴應這一時代呼喚而生。本書並非僅僅是一本技術手冊,而是一套係統性的方法論,旨在幫助您構建和優化一個全新的、麵嚮未來的數據棧,賦能您的組織成為真正的數據驅動型企業。我們將從戰略層麵齣發,深入剖析現代數據棧的核心理念、關鍵組成部分以及它們之間如何協同工作,最終實現數據的最大價值。 第一部分:理解現代數據棧的基石 本書的開篇,我們將帶領讀者走進現代數據棧的理念世界。我們將清晰地界定“現代數據棧”的內涵,與傳統數據倉庫、數據湖等概念進行對比,突齣其在靈活性、可擴展性、易用性和成本效益方麵的顯著優勢。您將理解為何現代數據棧能夠打破數據孤島,實現數據的端到端整閤,從而提升數據分析的效率和廣度。 數據驅動型組織的崛起: 我們將探討數據為何成為現代商業的“新石油”,以及數據驅動型文化對組織成功的關鍵作用。理解數據在決策製定、産品創新、客戶體驗優化等方麵的核心價值。 現代數據棧的演進與驅動力: 深入分析推動數據棧現代化進程的關鍵技術趨勢,如雲計算的普及、開源技術的蓬勃發展、SaaS服務的成熟以及對自動化和自助服務的需求。 核心原則與設計理念: 詳細闡述構建現代數據棧所應遵循的核心原則,包括模塊化、鬆耦閤、自動化、安全性、可觀測性以及麵嚮業務的靈活性。我們將強調,現代數據棧的設計應始終圍繞業務目標展開,而非被技術所驅動。 第二部分:現代數據棧的關鍵技術組件 本書的第二部分將是內容的核心,我們將逐一剖析構成現代數據棧的各個關鍵技術組件,並詳細介紹它們的功能、優勢以及在實際應用中的選型考量。 數據采集與整閤(Data Ingestion & Integration): ELT(Extract, Load, Transform)範式: 詳細講解ELT如何取代傳統的ETL,以及它為何能更好地適應海量、多樣化數據。 流式數據處理(Stream Processing): 探索Apache Kafka、Amazon Kinesis等流處理平颱,以及它們如何實現實時數據接入和分析。 批量數據加載(Batch Data Loading): 介紹雲原生數據倉庫的批量加載能力,以及高效的數據管道構建。 API集成與Webhook: 探討如何利用API和服務鈎子從SaaS應用和其他外部係統中高效地提取數據。 數據清洗與預處理工具: 介紹dbt (data build tool) 等現代數據轉換工具,以及它們在數據建模、測試和文檔化方麵的革命性作用。 數據存儲與管理(Data Storage & Management): 雲數據倉庫(Cloud Data Warehouses): 深入分析Snowflake、Google BigQuery、Amazon Redshift等主流雲數據倉庫的架構、特性、性能優勢和成本模型。我們將討論它們如何實現彈性擴展、按需付費,並支持結構化和半結構化數據的存儲與查詢。 數據湖(Data Lakes)與數據湖倉一體(Lakehouses): 探討數據湖作為原始數據存儲的價值,以及數據湖倉一體(如Databricks Lakehouse Platform)如何融閤數據湖的靈活性和數據倉庫的結構化優勢,實現統一的數據管理和分析。 數據虛擬化(Data Virtualization): 介紹數據虛擬化技術,它如何在不移動數據的情況下,提供統一的數據視圖,加速數據訪問。 數據目錄與元數據管理(Data Catalogs & Metadata Management): 強調數據目錄的重要性,以及它如何幫助用戶發現、理解和信任數據。介紹Apache Atlas、Amundsen等元數據管理工具。 數據處理與分析(Data Processing & Analytics): SQL作為核心查詢語言: 強調SQL在現代數據棧中的核心地位,以及如何利用其強大的查詢能力進行數據分析。 大數據處理框架(Big Data Processing Frameworks): 簡要迴顧Apache Spark等在復雜數據處理場景下的應用,並解釋其與雲數據倉庫的協同工作模式。 BI工具與數據可視化(BI Tools & Data Visualization): 介紹Tableau、Power BI、Looker等主流BI工具,以及它們如何將數據轉化為直觀的圖錶和儀錶盤,賦能業務用戶。 機器學習與AI集成(Machine Learning & AI Integration): 探討如何將機器學習模型無縫集成到數據棧中,進行預測分析、異常檢測、個性化推薦等。介紹MLOps在數據棧中的作用。 數據安全與治理(Data Security & Governance): 數據安全與訪問控製: 詳細講解在雲環境下如何實現強大的數據安全防護,包括身份認證、訪問控製、數據加密等。 數據隱私與閤規性: 探討GDPR、CCPA等數據隱私法規的要求,以及如何在數據棧中實現閤規性。 數據血緣與數據質量(Data Lineage & Data Quality): 強調數據血緣的重要性,以及如何通過自動化工具監控和保障數據質量,確保分析結果的可靠性。 數據生命周期管理(Data Lifecycle Management): 介紹如何管理數據的存儲、歸檔和刪除,以優化成本和閤規性。 第三部分:構建與優化您的現代數據棧 在掌握瞭現代數據棧的核心組件後,本書將進入實踐層麵,指導讀者如何規劃、構建和持續優化自己的現代數據棧。 規劃您的現代數據棧: 需求分析與目標設定: 如何從業務需求齣發,明確數據棧需要支持的用例和目標。 技術選型策略: 如何根據自身情況(預算、技術能力、現有工具等)選擇閤適的工具和服務。本書將提供不同規模和行業場景下的參考架構。 數據建模與架構設計: 講解如何設計靈活、可擴展的數據模型,以支持未來的分析需求。 實施與部署: 敏捷開發與迭代: 介紹如何采用敏捷方法構建和部署數據棧,快速響應業務變化。 自動化運維與監控: 強調自動化在數據棧運維中的重要性,以及如何構建有效的監控體係。 CI/CD for Data: 探討持續集成/持續部署(CI/CD)在數據工程中的應用,加速數據管道的交付和更新。 優化與演進: 成本管理與優化: 提供在雲環境下控製數據棧成本的策略和技巧。 性能調優: 講解如何識彆和解決數據棧中的性能瓶頸。 持續學習與適應: 鼓勵讀者緊跟技術發展趨勢,不斷迭代和優化數據棧,以適應不斷變化的市場和業務需求。 第四部分:賦能數據驅動型組織 本書的最後一部分,將迴歸到人與組織層麵,探討如何通過現代數據棧賦能整個組織,實現數據價值的最大化。 構建數據文化: 如何在組織內部推廣數據驅動的思維方式,鼓勵員工利用數據進行決策。 提升數據素養(Data Literacy): 如何通過培訓和工具賦能非技術背景的員工理解和使用數據。 案例研究與最佳實踐: 分享來自不同行業(如金融、零售、科技、醫療等)的成功案例,展示現代數據棧如何驅動業務增長和創新。 麵嚮未來的展望: 探討數據棧的未來發展趨勢,如AI的深度融閤、元宇宙中的數據應用、以及數據民主化的進一步發展。 《現代數據棧:構建可擴展、敏捷且智能的數據驅動型組織》是一本集理論、技術和實踐於一體的指南。無論您是數據工程師、數據分析師、數據科學傢,還是IT決策者、業務領導者,本書都將為您提供清晰的路徑和實用的工具,幫助您駕馭復雜的數據世界,構建一個真正智能、響應迅速且具備未來競爭力的組織。通過掌握本書的核心理念和技術,您將能夠將數據從一項成本中心轉變為一項戰略資産,驅動您的業務邁嚮新的高度。