大數據技術基礎下載 mobi epub pdf 電子書 2026

簡體網頁||繁體網頁

☆☆☆☆☆

中科普開著

圖書標籤:

大數據
數據分析
Hadoop
Spark
數據挖掘
雲計算
數據庫
Python
Java
機器學習

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到圖書大百科

book.teaonline.club

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：清華大學齣版社

ISBN：9787302437574

版次：1

商品編碼：11979800

包裝：平裝

開本：16開

齣版時間：2016-06-01

用紙：膠版紙

頁數：247

字數：396000

具體描述

産品特色

編輯推薦

　　本書針對初學者的知識體係，適當簡化大數據學習的難度，使得學習更加容易上手；知識架構是在培訓瞭多屆學員的基礎上總結整理得來的，已經經曆瞭實踐的考驗，證實瞭其的科學性；本書凝聚瞭10餘位技術大牛的研發和授課經驗，教學資料完整；書中的案例都為企業實際開發的案例，通過學習這些大量的實際案例，使得學習者在進入企業後可以快速融入大數據技術相關工作崗位。

內容簡介

　　本書的知識架構是在培訓瞭多屆學員的基礎上總結整理得來的，已經經過瞭實踐的考驗，證實瞭其科學性；本書當中的案例都為企業實際開發的案例，通過學習這些大量的實際案例，幫助學生在進入企業後可以很快融入大數據工作崗位。本書包括大數據概論、初識Hadoop、認識HDFS、HDFS的運行機製、訪問HDFS、HadoopI/O詳解、認識MapReduce編程模型、MapReduce應用編程開發、MapReduce的工作機製與YARN平颱、MapReduce高級開發、MapReduce實例共11章內容。本書既可作為高等院校學習大數據技術的教材，亦可作為廣大大數據技術學習者的入門用書。

作者簡介

　　中科普開（北京）科技有限公司成立於2010年，是國內緻力於IT新技術傳播、普及的領航者，專注於雲計算、大數據、物聯網、移動互聯網技術的培訓及谘詢服務。

第1章大數據概論001
1.1大數據時代背景001
1.1.1大數據的數據源001
1.1.2大數據的價值和影響002
1.1.3大數據技術應用場景003
1.1.4大數據技術的發展前景004
1.2大數據基本概念005
1.2.1大數據定義005
1.2.2大數據結構類型007
1.2.3大數據核心特徵007
1.2.4大數據技術008
1.2.5行業應用大數據實例010
1.3大數據係統011
1.3.1設計目標和原則011
1.3.2當前大數據係統012
1.4大數據與企業016
1.4.1大數據對企業的挑戰性016
1.4.2企業大數據的發展方嚮019
1.4.3企業大數據觀020
本章小結020
習題021
第2章初識Hadoop022
2.1Hadoop簡介022
2.1.1Hadoop概況022
2.1.2Hadoop的功能和作用023
2.1.3Hadoop的優勢023
2.1.4Hadoop的發展史024
2.1.5Hadoop的應用前景025
2.2深入瞭解Hadoop025
2.2.1Hadoop的體係結構025
2.2.2Hadoop與分布式開發027
2.2.3Hadoop生態係統029
2.3Hadoop與其他係統030
2.3.1Hadoop與關係型數據庫管理係統030
2.3.2Hadoop與雲計算032
2.4Hadoop應用案例032
2.4.1Hadoop在百度的應用032
2.4.2Hadoop在Yahoo！的應用033
2.4.3Hadoop在eBay的應用035
本章小結037
習題037
大數據
技術基礎
目錄
第3章認識HDFS039
3.1HDFS簡介039
3.2HDFS的特性和設計目標040
3.2.1HDFS的特性040
3.2.2HDFS的設計目標041
3.3HDFS的核心設計042
3.3.1數據塊042
3.3.2數據復製042
3.3.3數據副本的存放策略043
3.3.4機架感知045
3.3.5安全模式046
3.3.6負載均衡047
3.3.7心跳機製048
3.4HDFS的體係結構049
3.4.1Master/Slave架構049
3.4.2NameNode、SecondaryNameNode、DataNode050
本章小結055
習題055
第4章HDFS的運行機製056
4.1HDFS中數據流的讀寫056
4.1.1RPC實現流程056
4.1.2RPC實現模型057
4.1.3文件的讀取059
4.1.4文件的寫入060
4.1.5文件的一緻模型061
4.2HDFS的HA機製062
4.2.1為什麼有HA機製062
4.2.2HA集群和架構063
4.3HDFS的Federation機製064
4.3.1為什麼引入Federation機製064
4.3.2Federation架構066
4.3.3多命名空間管理067
本章小結067
習題068
第5章訪問HDFS069
5.1命令行常用接口069
5.1.1HDFS操作體驗069
5.1.2HDFS常用命令071
5.2Java接口073
5.2.1從Hadoop URL中讀取數據074
5.2.2通過FileSystem API讀取數據075
5.2.3寫入數據076
5.2.4創建目錄078
5.2.5查詢文件係統078
5.2.6刪除數據081
5.3其他常用接口081
5.3.1Thrift081
5.3.2C語言082
5.3.3HTTP082
本章小結082
習題083
第6章Hadoop I/O詳解084
6.1數據完整性084
6.1.1HDFS的數據完整性084
6.1.2驗證數據完整性085
6.2文件壓縮086
6.2.1Hadoop支持的壓縮格式086
6.2.2壓縮�步庋顧跛惴╟odec087
6.2.3壓縮和輸入分片091
6.3文件序列化092
6.3.1Writable接口093
6.3.2WritableComparable接口094
6.3.3Writable實現類095
6.3.4自定義Writable接口100
6.3.5序列化框架104
6.4Hadoop文件的數據結構104
6.4.1SequenceFile存儲104
6.4.2MapFile存儲108
本章小結111
習題111第7章識識MapReduce編程模型113
7.1MapReduce編程模型簡介113
7.1.1什麼是MapReduce113
7.1.2MapReduce程序的設計方法114
7.1.3新舊MapReduce簡介115
7.1.4Hadoop MapReduce架構116
7.1.5MapReduce的優缺點117
7.2WordCount編程實例118
7.2.1WordCount的設計思路118
7.2.2編寫WordCount代碼118
7.2.3運行程序119
7.2.4代碼講解120
7.3MapReduce的編程122
7.3.1配置開發環境122
7.3.2編寫Mapper類124
7.3.3編寫Reducer類125
7.3.4編寫main函數125
7.4MapReduce在集群上的運作127
7.4.1作業的打包和啓動127
7.4.2MapReduce的Web界麵128
7.4.3獲取結果130
本章小結131
習題131
第8章MapReduce應用編程開發132
8.1MapReduce類型與格式132
8.1.1MapReduce的類型132
8.1.2輸入格式137
8.1.3輸齣格式148
8.2Java API解析150
8.2.1作業配置與提交151
8.2.2InputFormat接口的設計與實現152
8.2.3OutputFormat接口的設計與實現157
8.2.4Mapper與Reducer解析159
本章小結163
習題163
第9MapReduce的工作機製與YARN平颱165
9.1YARN平颱簡介165
9.1.1YARN的誕生165
9.1.2YARN的作用166
9.2YARN的架構166
9.2.1ResourceManager167
9.2.2ApplicationMaster168
9.2.3NodeManager168
9.2.4資源模型169
9.2.5ResourceRequest和Container169
9.2.6Container規範170
9.3剖析MapReduce作業運行機製170
9.4基於YARN的運行機製剖析171
9.5Shuffle和排序175
9.5.1map端175
9.5.2reduce端176
9.6任務的執行178
9.6.1任務執行環境178
9.6.2推測執行179
9.6.3關於OutputCommitters180
9.6.4任務JVM重用181
9.6.5跳過壞記錄182
9.7作業的調度182
9.7.1公平調度器183
9.7.2容量調度器183
9.8在YARN上運行MapReduce實例184
9.8.1運行Pi實例184
9.8.2使用Web GUI監控實例185
本章小結189
習題190
第10章MapReduce高級開發191
10.1計數器191
10.1.1內置計數器191
10.1.2自定義的Java計數器193
10.2數據去重194
10.2.1實例描述194
10.2.2設計思路194
10.2.3程序代碼194
10.3排序195
10.3.1實例描述196
10.3.2設計思路196
10.3.3程序代碼196
10.4二次排序197
10.4.1二次排序原理197
10.4.2二次排序的算法流程198
10.4.3代碼實現199
10.5平均值202
10.5.1實例描述202
10.5.2設計思路202
10.5.3程序代碼203
10.6Join聯接204
10.6.1Map端Join204
10.6.2Reduce端Join205
10.6.3Join實現錶關聯205
10.7倒排索引209
10.7.1倒排索引的分析和設計209
10.7.2倒排索引完整源碼213
10.7.3運行代碼結果214
本章小結215
習題215
第11章MapReduce實例216
11.1搜索引擎日誌處理216
11.1.1背景介紹216
11.1.2數據收集216
11.1.3數據結構216
11.1.4需求分析217
11.1.5MapReduce編碼實現217
11.2汽車銷售數據分析223
11.2.1背景介紹224
11.2.2數據收集224
11.2.3數據結構 224
11.2.4需求分析224
11.2.5MapReduce編碼實現225
11.3農産品價格分析234
11.3.1背景介紹234
11.3.2數據收集235
11.3.3數據結構235
11.3.4需求分析236
11.3.5MapReduce編碼實現236
參考文獻248

精彩書摘

　　第1章大數據概論
　　本章提要
　　在這個日新月異發展的社會中，人們發現未知領域的規律主要依賴抽樣數據、局部數據和片麵數據，甚至無法獲得真實數據時隻能純粹依賴經驗、理論、假設和價值觀去認識世界。因此,人們對世界的認識往往是錶麵的、膚淺的、簡單的、扭麯的或者是無知的。然而大數據時代的來臨使人類擁有更多的機會和條件在各個領域更深入地獲得和使用全麵數據、完整數據和係統數據，深入探索現實世界的規律。大數據的齣現幫助商傢瞭解用戶、鎖定資源、規劃生産、做好運營及開展服務。
　　本章主要從大數據時代背景、大數據基本概念、大數據係統以及大數據與企業等方麵，讓讀者對大數據有初步的認識。
　　1.1大數據時代背景
　　中國龐大的人數和應用市場，其復雜性高並且充滿變化，從而成為世界上擁有最復雜的大數據的國傢。解決這種由大規模數據引發的問題，探索以大數據為基礎的解決方案，是中國産業升級、效率提高的重要手段。因此，解決大數據這一問題不僅提高公司的競爭力，也能提高國傢競爭力。
　　1.1.1大數據的數據源
　　近年來，隨著信息技術的發展，我國在各個領域産生瞭海量數據，主要分布如下。
　　1. 以BAT為代錶的互聯網公司
　　(1) 阿裏巴巴: 目前保存的數據量為近百個拍字節(PB)，90%以上是電商數據、交易數據、用戶瀏覽和點擊網頁數據、購物數據。
　　(2) 百度: 2013年的數據總量接近一韆個拍字節(PB)，主要來自中文網、百度推廣、百度日誌、UGC，由於占有70%以上的搜索市場份額從而坐擁龐大的搜索數據。
　　(3) 騰訊: 存儲數據經壓縮處理後總量在100PB左右，數據量月增10%，主要是大量社交、遊戲等領域積纍的文本、音頻、視頻和關係類數據。
　　大數據
　　技術基礎
　　00第1章
　　大數據概論
　　002. 電信、金融與保險、電力與石化係統
　　(1) 電信: 包括用戶上網記錄、通話、信息、地理位置等。運營商擁有的數據量都在10PB以上，年度用戶數據增長數十拍字節(PB)。
　　(2) 金融與保險: 包括開戶信息數據、銀行網點和在綫交易數據、自身運營的數據等。金融係統每年産生數據達數十拍字節(PB)，保險係統數據量也接近拍字節(PB)級彆。
　　(3) 電力與石化: 僅國傢電網采集獲得的數據總量就達到10個拍字節(PB)級彆，石化行業、智能水錶等每年産生和保存下來的數據量也達到數十拍字節(PB)級彆。
　　3. 公共安全、醫療、交通領域
　　(1) 公共安全: 在北京，就有50萬個監控攝像頭，每天采集視頻數量約3PB，整個視頻監控每年保存下來的數據在數百拍字節(PB)以上。
　　(2) 醫療衛生: 據瞭解，整個醫療衛生行業一年能夠保存下來的數據就可達到數百PB。
　　(3) 交通: 航班往返一次就能産生太字節(TB)級彆的海量數據；列車、水陸路運輸産生的各種視頻、文本類數據，每年保存下來的也達到數十拍字節(PB)。
　　4. 氣象與地理、政務與教育等領域
　　(1) 氣象與地理: 中國幅頁遼闊，氣象局保存的數據為4～5PB，每年約增數百個太字節(TB)，各種地圖和地理位置信息每年約增數十太字節(PB)。
　　(2) 政務與教育: 北京市政務數據資源網涵蓋旅遊、教育、交通、醫療等門類，一年上綫公布400餘個數據包。政務數據多為結構化數據。
　　5. 其他行業
　　綫下商業銷售、農林牧漁業、綫下餐飲、食品、科研、物流運輸等行業數據量還處於積纍期，整個體積都不算大，多則達到拍字節(PB)級彆，少則幾百太字節(TB)，甚至隻有數十太字節(TB)級彆，但增速很快。
　　1.1.2大數據的價值和影響
　　數量巨大、與微觀情境相結閤的運行記錄信息的最終結果就是大數據。盡管運行記錄信息不是大數據的全部，但卻應該是以後大數據的主流。目前看得到的金融、電信、航空、電商、零售渠道等領域中的大數據，多數也都是運行記錄信息。大數據具有采集過程價值未知、力爭全麵、即時、係統性並發的記錄方式，以及主受體統一和大微觀的特徵，這些特徵決定瞭大數據的價值發揮。
　　大數據的應用很廣泛，解決瞭大量的日常問題。大數據是利害攸關的，它將重塑人們的生活、工作和思維方式，比其他劃時代創新引起的社會信息範圍和規模急劇擴大所帶來的影響更大。大數據需要人們重新討論決策、命運和正義的性質。人們的世界觀正受到大數據優勢的挑戰，擁有大數據不但意味著掌握過去，更意味著能夠預測未來。因此，大數據給人們帶來瞭巨大的價值和影響。
　　(1) 全麵洞察客戶信息。全麵分析來自渠道的反饋、社會傳媒等多源信息，讓每個客戶作為個體瞭解全景。
　　(2) 提升企業的資源管理: 利用實時數據實現預測性維護，並減少故障，推動産品和服務開發。
　　(3) 數據深度利用。梳理結構化、非結構化、海量曆史/實時、地理信息4類數據資源，以企業核心業務及應用為主綫實現四類數據資源的關聯利用。
　　(4) 風險及時感知和控製。通過全麵數據分析改進風險模型，結閤交易流數據實時捕獲風險，及時有效地控製。
　　(5) 輔助智能決策。實時分析所有的運營數據和效果反饋，優化運營流程。利用投資迴報率最大程度減少信息技術成本。
　　(6) 更快和更大規模的産品創新。多源捕獲市場反饋，利用海量市場數據和研究數據來快速驅動創新。
　　1.1.3大數據技術應用場景
　　當前，大數據技術的應用涉及各個行業領域。
　　1. 大數據在金融行業的應用
　　近年來，隨著“互聯網金融”概念的興起，催生瞭一大批金融、類金融機構轉型或布局的服務需求，相關産業服務應運而生。而隨著互聯網金融嚮縱深發展，行業競爭日趨白熱化，金融、類金融機構在其中的短闆日益凸顯。為瞭更好地獲得最佳商機，金融行業也步入瞭大數據時代。
　　華爾街某公司通過分析全球3.4億微博賬戶留言來判斷民眾情緒。人們高興的時候會買股票，而焦慮的時候會拋售股票，它通過判斷全世界高興的人多還是焦慮的人多來決定公司股票的買入還是賣齣。
　　阿裏公司根據在淘寶網上中小企業的交易狀況篩選齣財務健康和誠信經營的企業，給他們提供貸款，並且不需要這些中小企業的擔保。目前阿裏公司已放貸款上韆億元，壞賬率僅為0.3%。
　　2. 大數據在政府的應用
　　為充分運用大數據的先進理念、技術和資源，加強對我國各地市場主體的服務和監管，推進簡政放權和政府職能轉變，提高政府治理能力，我國一些省市運用大數據加強對市場主體服務和監管實施方案已然齣爐。
　　3. 大數據在醫療健康的應用
　　隨著醫療衛生信息化建設進程的不斷加快，醫療數據的類型和規模也在以前所未有的速度迅猛增長，甚至産生瞭無法利用目前主流軟件工具的現象，這些醫療數據能幫助醫改在閤理的時間內達到擷取、管理信息並整閤成為能夠幫助醫院進行更積極的經營決策的有用信息。這些具有特殊性、復雜性的龐大的醫療大數據，僅靠個人甚至個彆機構來進行搜索，那基本是不可能完成的。
　　4. 大數據在宏觀經濟管理領域的應用
　　IBM日本分公司建立瞭一個經濟指標預測係統，它從互聯網新聞中搜索齣能影響製造業的480項經濟數據，再利用這些數據進行預測，準確度相當高。
　　印第安納大學學者利用Google提供的心情分析工具，根據用戶近韆萬條短信、微博留言預測瓊斯工業指數，準確率高達87%。
　　淘寶網建立瞭“淘寶CPI”，通過采集、編製淘寶網上390個類目的熱門商品價格來統計CPI，預測某個時間段的經濟走勢比國傢統計局的CPI還提前半個月。
　　5. 大數據在農業領域的應用
　　由Google前雇員創辦Climate公司，從美國氣象局等數據庫中獲得幾十年的天氣數據，各地的降雨、氣溫和土壤狀況及曆年農作物産量做成緊湊的圖錶，從而能夠預測美國任一農場下一年的産量。農場主可以去該公司谘詢明年種什麼能賣齣去、能賺錢，說錯瞭該公司負責賠償，賠償金額比保險公司還要高，但到目前為止還沒賠過。
　　通過對手機上的農産品“移動支付”數據、“采購投入”數據和“補貼”數據分析，可準確預測農産品生産趨勢，政府可依此決定齣颱激勵實施和確定閤適的作物存儲量，還可以為農民提供服務。
　　6. 大數據在商業領域的應用
　　沃爾瑪基於每個月4500萬的網絡購物數據，並結閤社交網絡上有關産品的大眾評分，開發機器學習語義搜索引擎“北極星”，方便瀏覽，在綫購物者因此增加10%～15%，銷售額增加十多億美元。
　　沃爾瑪通過手機定位，可以分析顧客在貨櫃前停留時間的長短，從而判斷顧客對什麼商品感興趣。
　　不僅僅是通過手機定位，實際上美國有的超市在購物推車上也安裝瞭位置傳感器，根據顧客在不同貨物前停留時間的長短來分析顧客可能的購物行為。
　　在淘寶網上買東西時，消費者會在阿裏的廣告交易平颱上留下記錄，阿裏不僅從交易記錄平颱把消費記錄拿來供自己使用，還會把消費記錄賣給其他商傢。
　　7. 大數據在銀行的應用
　　在信用卡服務方麵，銀行首先利用移動互聯網技術的定位功能確定商圈，目前已實際覆蓋全國161個商圈，纍計服務韆萬人次；其次利用用戶活動軌跡追蹤，確定高價值商業圈設計業務；再利用大數據進行客戶需求的體驗分析。既包括客戶的需要，也包括客戶的體驗，最終實現用戶體驗的LIKE麯綫。
　　1.1.4大數據技術的發展前景
　　據預測，到2020年，全球需要存儲的數據量將達到35萬億吉字節(GB)，是2009年數據存儲量的44倍。根據IDC的研究，2010年底全球的數據量已達到120萬拍字節(PB)。這些數據如果使用光盤存儲，摞起來可以從地球到月球一個來迴。對於商業而言，這裏孕育著巨大的市場機會，龐大的數據就是一個信息金礦。數據是企業的重要資産。因此，大數據將人們帶進瞭一個更有前景的領域。
　　在大數據時代，一批新的大數據技術正在湧現，將改變人們分析處理海量數據的方式，使人們更快、更經濟地獲得所需的結果。傳統商業智能限於技術瓶頸很大程度上是對抽樣數據進行分析。大數據技術就是要打破傳統商業智能領域的局限。大數據技術不但能處理結構化數據，還能分析和處理各種半結構化和非結構化數據，甚至從某種程度上，更擅長處理非結構化數據，例如Hadoop。而在現實生活中，這樣的數據更為普遍，增長得更為迅速。例如，社交媒體中的各種交互活動、購物網站用戶點擊行為、圖片、電子郵件等。可以說，正是此類數據的爆炸性催生瞭大數據相關技術的齣現和完善，從而讓人們知道在一個資源有限的世界中應該提取哪些有價值的信息。
　　大數據技術的齣現和完善還可以幫助健康保險公司不做體檢就能決定保險覆蓋麵，並降低提醒病人服藥的成本。通過大數據的相關性，語言可以得到翻譯，汽車可以在預測的基礎上自行駕駛。人們之所以能做所有的這些事，新工具的使用隻是一個很小的因素，比擁有更快的處理器、更多的存儲器，更智能的軟件和算法更重要的是，人們擁有瞭更多的數據，繼而世界上更多的事物被數據化瞭。顯然，人類量化世界的雄心先於計算機革命，但是數字工具將數據化提升到瞭新的高度。不僅移動電話能夠跟蹤到呼叫的人和被呼叫人所在的位置，而且同樣的數據也能用於斷定來人是否生病瞭。
　　能置身於信息流中央並且能夠收集數據的公司通常會繁榮興旺。有效利用大數據需要專業技術和豐富的想象力，即一個能容納大數據的心態，但價值的核心歸功於數據本身。有時，重要的資産並不僅僅是能清楚看到的信息，聰明的公司可以用它來改善現有的服務，或推齣全新的服務。
　　大數據將成為理解和解決當今許多緊迫的全球問題所不可或缺的重要工具。在應對氣候變化問題時，需要對汙染相關的數據進行分析得齣最佳方案，從而明確努力方嚮，找齣解決問題的方法。全球範圍內遍布的大量傳感設備，包括智能手機內部的傳感器，使人們能以更高的細節水平模擬環境。而世界貧睏人口迫切需要提高醫療保健服務，降低醫療費用，這很大程度上可以靠自動化來實現。當下許多似乎需要人類判斷力纔能進行的事情，其實可以完全交由計算機來做，比如癌細胞活檢、傳染病爆發前期的模式預測等。
　　大數據也被用於發展經濟和理解如何預防衝突。基於手機動嚮數據顯示，非洲許多貧民窟地區經濟活動十分活躍。大數據還揭示瞭最有可能引發種族關係緊張的社區以及解除難民危機的方式。隻有當科技應用於生活的方方麵麵時，大數據的使用範圍纔能進一步擴大。
　　大數據能幫助人們更好地進行已有的工作，並處理全新事務。在不久的將來，人們將在生活的方方麵麵使用到大數據。當大數據成為日常生活的一部分後，它將會極大地改變人們對未來的看法。
　　大數據時代造就瞭一個數據庫無所不在的世界，數據監管部門麵臨前所未有的壓力和責任。如何避免數據泄露對國傢利益、公眾利益、個人隱私造成傷害？如何避免信息不對稱，對睏難群體的利益構成傷害？在有效控製風險之前，也許還是讓“大數據”繼續待在籠子裏更好一些。
　　大數據的經濟價值已經被人們認可，大數據的技術正逐漸成熟，一旦完成數據的整閤和監管，大數據爆發的時代即將到來。人們現在要做的，就是選好自己的方嚮，為迎接大數據的到來提前做好準備。
　　以未來的視角看，無論是政府、互聯網公司、IT企業，還是行業用戶，隻要以開放的心態、創新的勇氣擁抱“大數據”，大數據時代就一定有屬於中國的機會。
　　1.2大數據基本概念〖*2〗1.2.1大數據定義麥肯锡(美國首屈一指的谘詢公司)是研究大數據的先驅。在其報告《Big data: The next frontier for innovation,competition and productivity》中給齣的大數據定義是: 大數據指的是大小超齣常規的數據庫工具獲取、存儲、管理和分析能力的數據集。但它同時強調，並不是說一定要超過特定太字節(TB)值的數據集纔能算是大數據。
　　國際數據公司(IDC)從大數據的四個特徵來定義，即海量的數據規模(Volume)、快速的數據流轉和動態的數據體係(Velocity)、多樣的數據類型(Variety)、巨大的數據價值(Value)。
　　亞馬遜公司(全球最大的電子商務公司)的大數據科學傢John Rauser 給齣瞭一個簡單的定義: 大數據是任何超過瞭一颱計算機處理能力的數據量。
　　維基百科中隻有短短的一句話: “巨量資料(Big Data)，或稱大數據，指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具，在閤理時間內達到擷取、管理、處理並整理成為幫助企業經營決策更積極目的的資訊。”
　　而在百度百科中是這樣定義的: “大數據(Big Data)，是指無法在可承受的時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集閤。”
　　綜閤上麵的定義，可以得齣以下幾點。
　　(1) 大數據並沒有明確的界限，它的標準是可變的。大數據在今天的不同行業中的範圍可以從幾十太字節(TB)到幾拍字節(PB)，但在20年前1GB的數據已然是大數據瞭。可見，隨著計算機軟硬件技術的發展，符閤大數據標準的數據集容量也會增長。
　　(2) 大數據不僅僅隻是大，它還包含瞭數據集規模已經超過瞭傳統數據庫軟件獲取、存儲、分析和管理能力的意思。
　　IDC報告顯示，計到2020年全球數據總量將超過40ZB(相當於4萬億GB)，這一數據量是2011年的22倍。在過去幾年，全球的數據量以每年58%的速度增長，在未來這個速度會更快。如果按照現在存儲容量每年增長40%的速度計算，到2017年需要存儲的數據量甚至會大於存儲設備的總容量。如何利用大數據解決科研、醫療、能源、商業、政府管理、城市建設等領域的問題，是全世界麵臨的問題。
　　舉幾個大傢熟悉例子: 2014年11月19日，百度在京召開“百度雲兩周年媒體溝通會”，正式宣布百度雲總用戶數突破兩億，百度雲數據存儲量達5EB，這些數據足以塞滿3.4億部16GB內存的iPhone6，如果將這些手機首尾相連，可以在地球和月球之間搭建16條星際通道。
　　2014年3月7日，在阿裏巴巴有史以來最大型對外開放的數據峰會“2014西湖品學大數據峰會”上，阿裏巴巴大數據負責人披露瞭阿裏巴巴目前的數據儲存情況。目前在阿裏巴巴數據平颱事業部的服務器上，攢下瞭超過100PB已處理過的數據，等於104857600GB，相當於4萬個西雅圖中央圖書館，580億本藏書。僅淘寶和天貓兩個子公司每日新增的數據量，就足以讓一個人連續不斷看上28年的電影。而如果將一個人作為服務器，則此人處理的數據量相當於每秒鍾看上837集的《來自星星的你》。
　　在2013年的數據大會上，騰訊公司數據平颱總經理助理蔣傑透露，騰訊QQ目前擁有8億用戶、4億移動用戶，在數據倉庫存儲的數據量單機群數量已達到4400颱，總存儲數據量經壓縮處理後約100PB，並且這一數據還在日增200～300TB、月增加率為10%的速度增長。
　　1993 年，《紐約客》刊登瞭一幅漫畫，標題是“互聯網上，沒有人知道你是一條狗”。據說作者彼得·施泰納因為此漫畫的重印而賺取瞭超過5 萬美元。當時關注互聯網社會學的一些專傢，甚至擔憂“計算機異性扮裝”而引發的社會問題。
　　20多年後，互聯網發生瞭巨大的變化，移動互聯、社交網絡、電子商務大大拓展瞭互聯網的疆界和應用領域。人們在享受便利的同時，也無償貢獻瞭自己的“行蹤”。現在互聯網不但知道對麵是一條狗，還知道這條狗喜歡什麼食物、幾點齣去遛彎、幾點迴窩睡覺。人們不得不接受這個現實，每個人在互聯網進入到大數據時代都將是透明存在的。
　　1.2.2大數據結構類型
　　當今企業存儲的數據不僅僅是內容多，而且結構已發生瞭極大改變，不再僅僅是以二維錶的規範結構存儲。大量的數據來自不是結構化的數據類型(半結構化數據、準結構化數據或非結構化數據)，如辦公文檔、文本、圖片、XML、 HTML、各類報錶、圖片、音頻和視頻等，並且這些數據在企業的所有數據中是大量且增長迅速的。企業80%的數據來自不是結構化的數據類型，結構化數據僅有20%。全球結構化數據增長速度約為32%，而不是結構化的數據類型增速高達63%。預計今年不是結構化的數據類型占有比例將達到互聯網整個數據量的75%以上。
　　(1) 結構化數據: 包括預定義的數據類型、格式和結構的數據。例如，關係型數據庫中的數據。
　　(2) 半結構化數據: 具有可識彆的模式並可以解析的文本數據文件。例如，自描述和具有定義模式的XML數據文件。
　　(3) 準結構化數據: 具有不規則數據格式的文本數據，使用工具可以使之格式化。例如，包含不一緻的數據值和格式化的網站點擊數據，可參考http://www.zkpk.org/。
　　(4) 非結構化數據: 沒有固定結構的數據，通常保存為不同類型的文件。例如，文本文檔、圖片、音頻和視頻。
　　1.2.3大數據核心特徵
　　業界通常用4個V，即Volume(數據量大)、Variety(類型繁多)、Value(價值密度低)、Velocity(速度快，時效高)來概括大數據的特徵。
　　……

前言/序言

　　為什麼要寫這本書
　　近年來，大數據（big data）一詞越來越多地被提及，人們用它來描述和定義信息爆炸時代産生的海量數據，並命名與之相關的技術發展與創新。它已經上過《紐約時報》、《華爾街日報》的專欄封麵，進入美國白宮官網的新聞，現身在國內一些互聯網主題的講座沙龍中，甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進瞭投資推薦報告。最早提齣“大數據”時代到來的是全球知名谘詢公司麥肯锡。麥肯锡稱: “數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生産因素。人們對於海量數據的挖掘和運用，預示著新一波生産率增長和消費者盈餘浪潮的到來。”“大數據”在物理學、生物學、環境生態學等領域以及軍事、金融、通信等行業存在已有時日，卻因為近年來互聯網和信息行業的發展而引起人們關注。數據正在迅速膨脹並變大，它決定著企業的未來發展，雖然很多企業可能還沒有意識到數據爆炸性增長帶來問題的隱患，但是隨著時間的推移，人們將越來越多地意識到數據對企業的重要性。
　　在如今的社會，大數據的應用越來越彰顯它的優勢，它占領的領域也越來越大，如電子商務、O2O、物流配送等，各種利用大數據進行發展的領域正在協助企業不斷地發展新業務和創新運營模式。有瞭大數據這個概念，對於消費者行為的判斷，産品銷售量的預測，精確的營銷範圍以及存貨的補給已經得到全麵的改善與優化。然而，這些數據的規模是如此龐大，以至於不能用G或T來衡量。
　　為瞭解決這些數據的存儲和相關計算問題，就必須構建一個強大且穩定的分布式集群係統作為搜索引擎的基礎架構支撐平颱，但是對於大多數互聯網公司而言，研發這樣一個高效性能係統往往要支付高昂的費用。經過多年的發展，如今已形成瞭以Hadoop為核心的大數據生態係統，開創瞭通用海量數據處理基礎架構平颱的先河。Hadoop是一個優秀的分布式計算係統，利用通用的硬件就可以構建一個強大、穩定、簡單並且高效的分布式集群計算係統，完全可以滿足互聯網公司基礎架構平颱的需求，付齣相對低廉的代價就可以輕鬆處理超大規模的數據。因此，使用Hadoop的公司越來越多，具有豐富工作經驗的Hadoop人纔也就越來越供不應求，從而學習和使用Hadoop的愛好者和開發者也越來越多，編寫這本書也正是為瞭幫助更多的人學習並掌握Hadoop技術，從而推動Hadoop技術在中國的推廣，進而推動中國信息産業的發展。
　　讀者對象
　　本書適閤以下讀者閱讀:
　　（1）大數據技術的學習者和愛好者；
　　（2）有Java基礎的開發者；
　　（3） Hadoop技術開發者；大數據
　　技術基礎
　　前言
　　（4） Hadoop集群運維開發者；
　　（5）分布式係統的相關研發人員。
　　如何閱讀本書
　　本書分為三個部分。
　　第一部分為簡介。簡介部分為第1章，主要介紹瞭大數據的時代背景，從大數據來源到大數據的價值和影響，以及對應用場景和發展前景的介紹，幫助用戶明白什麼是大數據，大數據是用來乾什麼的，以及大數據的發展前景是怎樣的。大數據的基本概念，首先明白什麼是大數據，大數據中數據結構的復雜度，重點明白大數據的四個核心特徵，接著瞭解大數據所使用的技術，最後介紹瞭一些大數據的應用實例，幫助大傢更好地理解大數據、大數據係統，理解其核心設計目標，在係統設計目標的實現過程中，係統還需遵循一定的設計原則。
　　第二部分為Hadoop技術的講解，包括第2章到第9章。從認識Hadoop開始到正式介紹Hadoop的基本應用，通過HDFS分布式文件係統和MapReduce並行計算模型從理論到實現機製的角度對Hadoop計算進行講解。講述瞭HDFS的特性和目標、核心設計、體係結構以及HDFS中數據流的讀寫、HA機製和Federation機製，同時重點介紹瞭HDFS的命令行接口和Java接口。接著介紹瞭Hadoop I/O，講述瞭數據的完整性、文件壓縮、問價序列化和Hadoop文件的數據結構。最後是對MapReduce的講解，由淺入深，講述瞭MapReduce的編程模型，MapReduce應用編程開發，包括MapReduce的類型格式，Java API解析，還重點講述瞭MapReduce的工作機製與YARN平颱，包括MapReduce作業運行機製的剖析、shuffle和排序、任務的執行、作業調度、YARN平颱的簡介和架構。
　　第三部分為實戰部分，包括第10章和第11章。首先是從幾個具體的小實例講解瞭簡單高效的MapReduce編程方式。然後通過最後的MapReduce編程實例，帶我們進入大數據實戰項目，幫助學習者更深入地掌握Hadoop技術。
　　勘誤和支持
　　除本書編委會以外，參加本書編寫的工作人員有: 毛妍、白高平、趙真。由於本書編寫者水平有限，書中難免會齣現一些錯誤或者不準確的地方，懇請讀者批評指正，可以將書中遇到的錯誤和問題發郵件，希望您能提齣更多寶貴的意見，期待您的真摯反饋。

《跨越星辰：宇宙探索的未知邊界》內容簡介：浩瀚無垠的宇宙，自古以來便激發著人類最深邃的好奇與無限的遐想。從仰望星空、編織神話，到如今駕馭科技、探索深空，《跨越星辰：宇宙探索的未知邊界》以詳實的內容、嚴謹的邏輯，為我們揭示瞭人類與宇宙對話的波瀾壯闊的曆程。本書並非對已知的宇宙規律進行簡單羅列，而是聚焦於那些我們尚未觸及、尚未理解的“未知邊界”，深入剖析人類為瞭跨越這些邊界所付齣的努力、取得的突破以及麵臨的挑戰。本書的開篇，將帶領讀者迴到人類文明的起點，迴顧那些古老文明是如何憑藉樸素的智慧和敏銳的觀察，描繪齣早期宇宙的圖景。從巴比倫人精確的天文觀測，到古希臘哲學傢對宇宙結構的思考，再到中國古代的天文儀器，我們將看到，對宇宙的認知，是人類文明得以萌芽和發展的重要驅動力。書中將詳細闡述早期天文學傢們是如何通過對日月星辰運行軌跡的記錄，逐漸建立起時間的概念，並為後來的科學發展奠定基礎。隨著科學革命的到來，人類探索宇宙的工具和理論發生瞭翻天覆地的變化。本書將深入探討哥白尼的日心說如何顛覆瞭地心說的統治地位，開普勒的三大定律如何精確描述瞭行星的運動，以及牛頓的萬有引力定律如何為我們理解宇宙運行的宏觀規律提供瞭普適性的解釋。我們將不僅僅停留在理論的介紹，更會深入分析這些科學革命是如何在當時的社會背景下引發思想的巨大碰撞，以及它們如何一步步將人類的視野從地球擴展到整個太陽係。進入20世紀，天文學的發展呈現齣爆炸性的增長。本書將重點介紹愛因斯坦的相對論，解釋它如何深刻地改變瞭我們對時間、空間、質量和能量的認知，並為理解黑洞、引力波等極端宇宙現象奠定瞭理論基礎。我們將探討哈勃望遠鏡的誕生及其帶來的革命性發現，如何證實瞭宇宙的膨脹，揭示瞭星係的遙遠與多樣，以及我們所處宇宙並非永恒不變的事實。本書將詳細描述這些裏程碑式的發現是如何通過精密的觀測和大膽的推測實現的，以及它們是如何不斷刷新我們對宇宙的認知上限。然而，真正的“未知邊界”在於宇宙的深處和其運作的本質。本書將花費大量篇幅，聚焦於那些尚未被完全理解的宇宙奧秘。我們將深入探討暗物質和暗能量的謎團。科學傢們通過對星係鏇轉速度、宇宙大尺度結構的觀測，推斷齣宇宙中存在著大量我們看不見的物質，即暗物質，它們在引力作用上扮演著至關重要的角色。而暗能量，則被認為是導緻宇宙加速膨脹的神秘力量。本書將詳細介紹探測暗物質和暗能量的各種前沿方法，包括粒子探測實驗、天文觀測等，並分析目前研究中存在的爭議和挑戰。我們將探討科學傢們是如何通過精巧的實驗設計，試圖捕捉那些幾乎無法直接觀測到的粒子，以及如何通過分析宇宙微波背景輻射等信息來揭示暗能量的性質。除瞭暗物質與暗能量，本書還將深入討論宇宙的起源與演化。大爆炸理論作為目前最為主流的宇宙起源模型，其證據鏈條將在這裏被詳細梳理。我們將探討早期宇宙的極端環境，誇剋-膠子等離子體、宇宙暴脹等概念，並深入分析這些理論如何解釋我們今天觀察到的宇宙的均一性和各嚮同性。同時，本書也將探討宇宙終極命運的可能性，例如熱寂、大撕裂、大擠壓等，並分析當前科學界對此的推測與展望。我們將跟隨科學傢們一起，通過模擬和理論推導，試圖預測宇宙在遙遠的未來將走嚮何方。生命的起源與地外生命的存在，是人類探索宇宙過程中最令人著迷的課題之一。《跨越星辰：宇宙探索的未知邊界》將專門開闢章節，深入探討這個問題。本書將迴顧地球生命起源的最新科學假說，從原始湯理論到深海熱泉假說，以及對早期生命形式的 DNA 和 RNA 的研究。隨後，我們將目光投嚮宇宙，分析搜尋地外生命（SETI）的曆程和方法。本書將詳細介紹地外文明搜尋的各種策略，例如利用射電望遠鏡監聽宇宙中的微弱信號，以及通過分析係外行星的大氣成分來尋找生物標記。我們將探討那些可能存在生命的類地行星，分析它們所處恒星的宜居帶，以及構成生命所必需的水、碳等元素的存在可能性。本書將引導讀者思考，如果生命在宇宙中並非獨一無二，那麼其形式和演化路徑又會是怎樣的？本書還將關注人類探索宇宙的實際行動。我們將詳細介紹載人航天技術的發展，從早期蘇聯和美國的太空競賽，到國際空間站的閤作，再到如今私人航天公司的崛起。本書將重點介紹載人火星探測的計劃和挑戰，包括長期太空旅行對人體的影響、生命維持係統的設計、火星資源的利用等。我們將深入分析月球基地建設的意義和可行性，以及小行星采礦等未來太空經濟的構想。本書將通過大量的案例分析，展現人類如何從夢想走嚮實踐，如何一步步將觸角延伸到更遠的星辰大海。最後，《跨越星辰：宇宙探索的未知邊界》並非僅僅停留在科學知識的層麵，它更是一次關於人類智慧、勇氣與前瞻性的思考。在探索未知邊界的過程中，我們不僅拓展瞭對宇宙的認知，更深刻地反思瞭人類自身在宇宙中的位置，以及我們作為智慧生命的責任。本書將強調科學探索的閤作精神，不同國傢、不同領域的科學傢如何攜手閤作，共同攻剋宇宙探索中的難題。同時，本書也將引發讀者對未來科技發展方嚮的思考，以及人類文明在浩瀚宇宙中的長遠發展前景。《跨越星辰：宇宙探索的未知邊界》旨在為所有對宇宙充滿好奇的讀者提供一次深度而引人入勝的探索之旅，它將點燃你的求知欲，拓展你的視野，讓你重新審視我們賴以生存的這顆藍色星球，並激勵你去仰望那片璀璨的星空，思考人類的未來，以及我們與宇宙之間永恒的聯係。這本書將帶你踏上一條由已知走嚮未知的壯麗徵程，去感受人類不懈探索宇宙的精神，去觸碰那隱藏在星辰大海深處的無限可能。

用戶評價

評分☆☆☆☆☆

這本書的寫作風格非常務實，它更多地關注“怎麼做”和“為什麼這麼做”，而不是停留在空泛的概念層麵。我曾嘗試閱讀過一些理論性極強的著作，結果往往是看得懂每一個字，但閤上書本後，卻無法將這些知識應用到實際工作中。這本書則完全不同，它通過大量的案例和實際場景的分析，讓我能夠將理論知識與實踐經驗相結閤。例如，在講解數據倉庫設計時，書中給齣瞭幾種不同的建模方法，並分析瞭它們各自的優缺點，讓我能夠根據實際需求選擇最閤適的方案。對於那些想要將大數據技術落地到企業實際業務中的朋友們來說，這本書無疑是一本不可多得的實踐指南。它不僅提供瞭技術上的指導，更重要的是，它傳遞瞭一種解決問題的思路和方法，讓我能夠在麵對復雜的數據挑戰時，能夠更有條理、更有效地去分析和解決。

評分☆☆☆☆☆

我一直認為，大數據技術是一個日新月異的領域，學習的重點不應該僅僅是掌握現有的工具，更重要的是理解其背後的核心思想和發展趨勢。這本書在這方麵做得非常齣色。它不僅介紹瞭當前主流的大數據技術，還對未來的發展方嚮進行瞭前瞻性的探討。我尤其對書中關於人工智能與大數據融閤的章節印象深刻，它讓我看到瞭大數據技術在未來將扮演更加重要的角色，並對機器學習、深度學習等技術有瞭更深的認識。這本書讓我感覺到，我所學的知識不僅僅是“點”，更是能夠“連接”未來的“綫”。它為我打開瞭一個更廣闊的視野，讓我不再局限於當前的某個技術點，而是能夠更長遠地規劃自己的學習路徑和職業發展。這本書讓我不僅學到瞭“是什麼”，更學到瞭“為什麼”和“將去嚮何方”。

評分☆☆☆☆☆

這本書簡直是我的救星！作為一名初入數據分析領域的新手，我之前對“大數據”這個概念總是感覺雲裏霧裏，知其然卻不知其所以然。市麵上充斥著各種高深的理論和復雜的算法，看得我頭暈眼花。直到我翻開這本書，纔感覺撥開瞭迷霧，看到瞭清晰的道路。作者用非常平實易懂的語言，將大數據背後的核心思想和基本框架娓娓道來。我特彆喜歡其中對數據采集、存儲、處理和分析流程的講解，每一個環節都剖析得入木三分，讓我理解瞭數據是如何從海量信息中提煉齣有價值的洞察的。書中還穿插瞭不少生動形象的比喻，比如將數據倉庫比作一個巨大的圖書館，將數據處理比作整理圖書的過程，這些都幫助我快速建立起宏觀的認知。最重要的是，這本書沒有直接上來就講那些令人望而卻步的技術細節，而是先搭建瞭一個堅實的基礎，讓我知道“為什麼”要這樣做，以及“大體上”是怎麼做的。這為我後續深入學習具體的工具和技術打下瞭堅實的基礎，讓我不再是那個一頭霧水的門外漢，而是擁有瞭初步的全局觀。

評分☆☆☆☆☆

這本書對於有一定數據基礎，但想係統性梳理大數據技術體係的同行來說，絕對是物超所值。我之前接觸過一些大數據相關的零散知識，比如 Hadoop 的一些組件，Spark 的一些 API，但總感覺像是在拼湊一塊不完整的拼圖。這本書就像是那個關鍵的“底闆”，將所有分散的碎片一一對應，然後牢牢地粘閤在一起，形成瞭一幅清晰完整的圖景。我非常欣賞作者在介紹不同技術時，不是簡單地羅列功能，而是深入分析瞭它們各自的設計理念、解決的問題以及在整個大數據生態中的位置。例如，在講到數據存儲時，它不僅介紹瞭 HDFS，還對比瞭 NoSQL 數據庫的優勢，讓我理解瞭在不同場景下選擇閤適存儲方案的重要性。在數據處理部分，它係統地闡述瞭批處理和流處理的區彆與聯係，並引齣瞭 MapReduce、Spark Streaming 等經典模型。讀完後，我感覺自己對大數據技術棧的理解不再是“點”的認知，而是“綫”和“麵”的連接，能夠更清晰地把握整個技術發展的脈絡和演進方嚮。

評分☆☆☆☆☆

這本書的結構安排和內容深度都非常適閤我這種想要快速掌握大數據技術精髓的開發者。我之前參與過一些數據密集型的項目，雖然能完成任務，但總覺得自己在“知其然，不知其所以然”的狀態。這本書提供瞭一個絕佳的視角，讓我能夠從更宏觀的層麵去理解大數據技術的設計哲學和工程實踐。我特彆喜歡書中關於數據治理和數據質量的部分，這部分往往是許多技術書籍容易忽略的，但對於實際項目來說卻至關重要。作者闡述瞭數據生命周期的各個階段，以及在每個階段需要關注的關鍵問題，這讓我深刻認識到，技術本身隻是工具，如何有效地管理和運用數據，纔是決定項目成敗的關鍵。此外，書中對大數據安全和隱私的討論，也讓我警醒，在享受技術帶來的便利的同時，也要時刻關注潛在的風險。這本書讓我明白，在大數據時代，技術能力和安全意識同樣重要，相輔相成。

評分☆☆☆☆☆

書像二手的，很髒，京東買瞭這麼多東西，這纔是最差的一次！

評分☆☆☆☆☆

滿減活動購入，價格便宜

評分☆☆☆☆☆

挺實用的對於初學者很閤適

評分☆☆☆☆☆

送貨慢的像蝸牛，送到之後什麼提醒都沒有，一星都不想給！！！！

評分☆☆☆☆☆

不錯正在看

評分☆☆☆☆☆

可以的