發表於2024-11-22
本書是麵嚮商業和技術專業人員的大數據指南,清楚地介紹瞭大數據相關的概念、理論、術語與基礎技術,並使用真實連貫的商業案例以及簡單的圖錶,幫助讀者更清晰地理解大數據技術。本書可作為高等院校相關專業“大數據基礎”、“大數據道路”等課程的教材,也可供有一定實踐經驗的軟件開發人員、管理人員和所有對大數據感興趣的人士閱讀。
?ThomasErlThomasErl是IT暢銷書作者,Arcitura教育公司的創始人,PrenticeHall齣版社“ThomasErl的服務技術叢書”的編輯。他的書發行量超過200000冊,成為國際暢銷書,並且已經獲得多個重要IT組織成員的正式認可,例如,IBM、Microsoft、Oracle、Intel、Accenture、IEEE、HL7、MITRE、SAP、CISCO、HP等。作為Arcitura公司的CEO,Thomas領導研發瞭國際公認的大數據科學專傢認證(BDSCP)、雲專傢認證(CCP)與SOA專傢認證(SOACP)的課程大綱,設立瞭一係列正式的、與廠商無關的工業認證,全球已有數韆IT從業人員獲得瞭這些認證。Thomas還作為演講傢與教育傢,在20多個國傢進行過巡迴演講。Thomas已經在諸多齣刊物上發錶過100多篇文章和訪談,包括《華爾街日報》與《CIO雜誌》。
WajidKhattakWajidKhattak是Arcitura教育公司的大數據研究者與教育者。他的研究領域包括大數據工程與架構、數據科學、機器學習、分析學與SOA。此外,他在商務智能報告解決方案與GIS方麵有著豐富的.NET軟件開發經驗。
Wajid於2003年在英國伯明翰城市大學獲得軟件工程學士學位,於2008年在該校以傑齣的成績獲得軟件工程與安全碩士學位。另外,Wajid還獲得瞭MCAD&MCTS;(Microsoft)、SOA架構師、大數據科學傢、大數據工程師以及大數據研究顧問(Arcitura)認證。
PaulBuhlerPaulBuhler博士是一位經驗豐富的IT專傢,他在商業公司、政府機構和學校均有過從業經驗。在麵嚮服務的計算概念、技術和實現方法領域,他是一位受人尊敬的研究者、實踐者與教育者。他在XaaS領域的研究已經延伸到瞭雲、大數據與萬物互聯網(IoE)。目前他的研究興趣是通過權衡響應式設計原則與基於目標的執行方式,減少業務策略與流程執行之間的差距。
作為Modus21的首席科學傢,PaulBuhler博士根據當前業務架構與流程執行框架的發展趨勢調整企業的戰略布局。目前,他還是查爾斯頓學院的閤作教授,負責本科生與碩士生計算機科學課程的教學工作。PaulBuhler博士在南卡羅來納大學獲得計算機工程博士學位,在約翰霍普金斯大學獲得計算機科學碩士學位,在塞特多大學獲得計算機科學學士學位。
譯者序
緻謝
作者簡介
第一部分 大數據基礎
第1章 理解大數據3
1.1 概念與術語4
1.1.1 數據集4
1.1.2 數據分析5
1.1.3 數據分析學5
1.1.4 商務智能11
1.1.5 關鍵績效指標11
1.2 大數據特徵12
1.2.1 容量12
1.2.2 速率13
1.2.3 多樣性13
1.2.4 真實性14
1.2.5 價值14
1.3 不同數據類型15
1.3.1 結構化數據16
1.3.2 非結構化數據17
1.3.3 半結構化數據17
1.3.4 元數據18
1.4 案例學習背景18
1.4.1 曆史背景18
1.4.2 技術基礎和自動化環境19
1.4.3 商業目標和障礙20
1.5 案例學習21
1.5.1 確定數據特徵22
1.5.2 確定數據類型24
第2章 采用大數據的商業動機與驅動25
2.1 市場動態25
2.2 業務架構27
2.3 業務流程管理30
2.4 信息與通信技術31
2.4.1 數據分析與數據科學31
2.4.2 數字化31
2.4.3 開源技術與商用硬件32
2.4.4 社交媒體33
2.4.5 超連通社區與設備33
2.4.6 雲計算34
2.5 萬物互聯網35
2.6 案例學習35
第3章 大數據采用及規劃考慮39
3.1 組織的先決條件40
3.2 數據獲取40
3.3 隱私性40
3.4 安全性41
3.5 數據來源42
3.6 有限的實時支持43
3.7 不同的性能挑戰43
3.8 不同的管理需求43
3.9 不同的方法論44
3.10 雲44
3.11 大數據分析的生命周期45
3.11.1 商業案例評估45
3.11.2 數據標識47
3.11.3 數據獲取與過濾47
3.11.4 數據提取48
3.11.5 數據驗證與清理49
3.11.6 數據聚閤與錶示50
3.11.7 數據分析52
3.11.8 數據可視化52
3.11.9 分析結果的使用53
3.12 案例學習54
3.12.1 大數據分析的生命周期55
3.12.2 商業案例評估55
3.12.3 數據標識56
3.12.4 數據獲取與過濾56
3.12.5 數據提取57
3.12.6 數據驗證與清理57
3.12.7 數據聚閤與錶示57
3.12.8 數據分析57
3.12.9 數據可視化58
3.12.10 分析結果的使用58
第4章 企業級技術與大數據商務智能59
4.1 聯機事務處理60
4.2 聯機分析處理60
4.3 抽取、轉換和加載技術61
4.4 數據倉庫61
4.5 數據集市62
4.6 傳統商務智能62
4.6.1 即席報錶63
4.6.2 儀錶闆63
4.7 大數據商務智能65
4.7.1 傳統數據可視化65
4.7.2 大數據的數據可視化66
4.8 案例學習67
4.8.1 企業技術67
4.8.2 大數據商務智能68
第二部分 存儲和分析大數據
第5章 大數據存儲的概念71
5.1 集群72
5.2 文件係統和分布式文件係統72
5.3 NoSQL73
5.4 分片74
5.5 復製75
5.5.1 主從式復製76
5.5.2 對等式復製77
5.6 分片和復製80
5.6.1 結閤分片和主從式復製80
5.6.2 結閤分片和對等式復製81
5.7 CAP定理82
5.8 ACID85
5.9 BASE88
5.10 案例學習91
第6章 大數據處理的概念93
6.1 並行數據處理93
6.2 分布式數據處理94
6.3 Hadoop94
6.4 處理工作量95
6.4.1 批處理型95
6.4.2 事務型95
6.5 集群96
6.6 批處理模式97
6.6.1 MapReduce批處理97
6.6.2 Map和Reduce任務98
6.6.3 MapReduce的簡單實例103
6.6.4 理解MapReduce算法104
6.7 實時模式處理107
6.7.1 SCV原則107
6.7.2 事件流處理110
6.7.3 復雜事件處理110
6.7.4 大數據實時處理與SCV110
6.7.5 大數據實時處理與MapReduce111
6.8 案例學習112
6.8.1 處理工作量112
6.8.2 批處理模式處理112
6.8.3 實時模式處理113
第7章 大數據存儲技術115
7.1 磁盤存儲設備115
7.1.1 分布式文件係統116
7.1.2 RDBMS數據庫117
7.1.3 NoSQL數據庫119
7.1.4 NewSQL數據庫128
7.2 內存存儲設備129
7.2.1 內存數據網格131
7.2.2 內存數據庫138
7.3 案例學習141
第8章 大數據分析技術143
8.1 定量分析144
8.2 定性分析145
8.3 數據挖掘145
8.4 統計分析146
8.4.1 A/B測試146
8.4.2 相關性分析147
8.4.3 迴歸性分析149
8.5 機器學習150
8.5.1 分類(有監督的機器學習)151
8.5.2 聚類(無監督的機器學習)152
8.5.3 異常檢測152
8.5.4 過濾153
8.6 語義分析154
8.6.1 自然語言處理155
8.6.2 文本分析155
8.6.3 情感分析156
8.7 視覺分析157
8.7.1 熱點圖157
8.7.2 時間序列圖159
8.7.3 網絡圖160
8.7.4 空間數據製圖161
8.8 案例學習162
8.8.1 相關性分析162
8.8.2 迴歸性分析162
8.8.3 時間序列圖163
8.8.4 聚類163
8.8.5 分類163
附錄A 案例結論165
索引167
譯者序現今,“大數據”已經成為全球科技界和企業界關注的熱點。數據為王的時代已經到來,各行各業高度關注大數據的研究和應用。企業關注的重點從追求計算機的計算速度轉變為追求大數據處理能力,從以軟件編程為主轉變為以數據為中心。在雲計算技術和海量數據存儲技術的助力下,大數據已經成為當前學術界、工業界的熱點和焦點。大數據的齣現將會對社會各個領域産生深刻影響。從公司戰略到産業生態,從學術研究到生産實踐,從城鎮管理到國傢治理,都將發生本質的變化,大數據將成為時代變革的力量。“用數據來說話、用數據來管理、用數據來決策、用數據來創新”的文化氛圍與時代特徵愈發鮮明。大數據時代需要一大批具備大數據知識的專業人纔,他們應能有效地將數據科學和各行各業的應用相結閤,推動新技術和新應用的發展。因此,掌握大數據核心技術且擁有專業領域知識的人纔儲備成為國傢大數據戰略布局的重中之重。
在本書中,IT暢銷書作者ThomasErl和他的團隊清楚地解釋瞭關鍵的大數據概念、理論和術語,以及基本的大數據技術和方法。本書分兩部分:第一部分主要從商業相關問題的討論引齣大數據的驅動力,解釋瞭如何通過大數據推動企業的發展,介紹瞭大數據的應用背景和基本概念;第二部分主要是大數據技術相關問題的討論,重點介紹瞭大數據的存儲技術和分析方法。本書的特色在於每一章後都有案例學習,用一傢大型的保險公司ETI對大數據的應用案例貫穿始終,為相關章節的知識應用提供瞭現實場景,以加深讀者對大數據實際應用的認識。另外,本書大量應用瞭簡單的圖錶說明。這些都使得本書非常實用且通俗易懂,因此,本書特彆適閤作為瞭解大數據基本知識和相關技術的入門教材,也可以作為高校的通識課教材來使用。
在本書翻譯過程中,武漢大學計算機學院的劉歆文、李卓、史成良、陳洪洋、賀瀟雅、萬言曆、陳昊等同學做瞭大量輔助性工作,在此,嚮這些同學的辛勤工作錶示衷心的感謝。
由於譯者能力有限,譯稿難免存在疏漏及不足之處,望廣大讀者不吝賜教。
大數據導論 下載 mobi pdf epub txt 電子書 格式 2024
大數據導論 下載 mobi epub pdf 電子書滿意滿意滿意
評分質量可以,相信京東,質量有保證!
評分剛剛開始看,還沒完全理解,暫不評論。物流很快
評分看完你就是大數據科學傢啦
評分還行吧。。。。。。。。。
評分京東買書,方便,發貨迅速,包裝完好
評分看起來還不錯
評分上課用的我感覺沒什麼好說的
評分好好閱讀好好閱讀好好閱讀好好閱讀好好閱讀
大數據導論 mobi epub pdf txt 電子書 格式下載 2024