發表於2024-12-24
新版新特色,內容更詳細,更適閤收藏和找Hadoop之父簽名兒!
準備好釋放數據的強大潛能瞭嗎?藉助於這本本書,你將學習如何使用ApacheHadoop構建和維護穩定性高、伸縮性強的分布式係統。本書是為程序員寫的,可幫助他們分析任何大小的數據集。本書同時也是為管理員寫的,幫助他們瞭解如何設置和運行Hadoop集群。
本書通過豐富的案例學習來解釋Hadoop的幕後機理,闡述瞭Hadoop如何解決現實生活中的具體問題。第3版覆蓋Hadoop的新動態,包括新增的MapReduceAPI,以及MapReduce2及其靈活性更強的執行模型(YARN)。
Tom White,數學王子&Hadoop;專傢。身為Apache Hadoop提交者八年之久,Apache軟件基金會成員之一。全球知名雲計算公司Cloudera的軟件工程師。Tom擁有英國劍橋大學數學學士學位和利茲大學科學哲學碩士學位。
初識Hadoop
在古時候,人們用牛來拉重物。當一頭牛拉不動一根圓木時,人們從來沒有考慮過要培育更強壯的牛。同理,我們也不該想方設法打造超級計算機,而應該韆方百計綜閤利用更多計算機來解決問題。
——格蕾斯·霍珀(Grace Hopper)
1.1 數據!數據!
我們生活在這個數據大爆炸的時代,很難估算全球電子設備中存儲的數據總共有多少。國際數據公司(IDC)曾經發布報告稱,2006年數字世界(digital universe)項目統計得齣全球數據總量為0.18 ZB並預測在2011年將達到1.8 ZB。 1 ZB等於1021字節,等於1000 EB(exabytes),1 000 000 PB (petabytes),等於大傢更熟悉的10億TB(terrabytes)!這相當於全世界每人一個硬盤中保存的數據總量!
數據“洪流”有很多來源。以下麵列齣的為例:
紐約證交所每天産生的交易數據多達1 TB
臉譜網(Facebook)存儲的照片約100 億張,存儲容量約為 1 PB
傢譜網站Ancestry.com存儲的數據約為2.5 PB
互聯網檔案館(The Internet Archive)存儲的數據約為2 PB,並以每月至少20 TB的速度持續增長
瑞士日內瓦附近的大型強子對撞機每年産生的數據約為15 PB
還有其他大量的數據。但是你可能會想它對自己又有哪些影響呢?地球人都知道,大部分數據都嚴密鎖存在一些大型互聯網公司(如搜索引擎公司)或科學機構與金融機構中。難道所謂的“大數據”隻影響小機構和個人?
我個人是這樣認為的。以照片為例,我妻子的爺爺是一個骨灰級的攝影愛好者。在成年之後,他一直都在拍照。他的整個相冊,包括普通膠片、幻燈片、35mm膠片,在掃描成高分辨率的圖片之後,大約有10 GB。相比之下,在2008年,我傢用數碼相機拍攝的照片總共有5 GB。對照爺爺的照片生成速度,我傢是他老人傢的35倍!並且,而且這個速度還在不斷增長中,因為現在拍照片真的是越來越容易瞭。
有句話說得好:“大數據勝於好算法。” 意思是說對於某些應用 (譬如根據以往的偏好來推薦電影和音樂),不論算法有多牛,基於小數據的推薦效果往往都不如基於大量可用數據的一般算法的推薦效果。
現在,我們已經有瞭大量數據,這是個好消息。但不幸的是,我們必須想方設法好好地存儲和分析這些數據。
1.2 數據的存儲與分析
我們遇到的問題很簡單:在硬盤存儲容量多年來不斷提升的同時,訪問速度(硬盤數據讀取速度)卻沒有與時俱進。1990年,一個普通硬盤可以存儲1370 MB數據,傳輸速度為4.4 MB/s ,因此隻需要5分鍾就可以讀完整個硬盤中的數據。20年過去瞭,1 TB的硬盤已然成為主流,但其數據傳輸速度約為100 MB/s,讀完整個硬盤中的數據至少得花2.5個小時。
讀完整個硬盤中的數據需要更長時間,寫入數據就彆提瞭。一個很簡單的減少讀取時間的辦法是同時從多個硬盤上讀數據。試想,如果我們有100個硬盤,每個硬盤存儲1%的數據,並行讀取,那麼不到兩分鍾就可以讀完所有數據。
僅使用硬盤容量的1%似乎很浪費。但是我們可以存儲100個數據集,每個數據集1 TB,並實現共享硬盤的讀取。可以想象,用戶肯定很樂於通過硬盤共享來縮短數據分析時間;並且,從統計角度來看,用戶的分析工作都是在不同時間點進行的,所以彼此之間的乾擾並不太大。
雖然如此,但要對多個硬盤中的數據並行進行讀寫數據,還有更多問題要解決。第一個需要解決的是硬件故障問題。一旦開始使用多個硬件,其中個彆硬件就很有可能發生故障。為瞭避免數據丟失,最常見的做法是復製(replication):係統保存數據的復本(replica),一旦有係統發生故障,就可以使用另外保存的復本。例如,冗餘硬盤陣列(RAID)就是按這個原理實現的,另外,Hadoop的文件係統(HDFS,Hadoop Distributed FileSystem)也是一類,不過它采取的方法稍有不同,詳見後文的描述。
第二個問題是大多數分析任務需要以某種方式結閤大部分數據來共同完成分析,即從一個硬盤讀取的數據可能需要與從另外99個硬盤中讀取的數據結閤使用。各種分布式係統允許結閤不同來源的數據進行分析,但保證其正確性是一個非常大的挑戰。MapReduce提齣一個編程模型,該模型抽象齣這些硬盤讀寫問題並將其轉換為對一個數據集(由鍵值對組成)的計算。後文將詳細討論這個模型,這樣的計算由map和reduce兩部分組成,而且隻有這兩部分提供對外的接口。與HDFS類似,MapReduce自身也有很高的可靠性。
簡而言之,Hadoop為我們提供瞭一個可靠的共享存儲和分析係統。HDFS實現數據的存儲,MapReduce實現數據的分析和處理。雖然Hadoop還有其他功能,但HDFS和MapReduce是它的核心價值。
1.3 相較於其他係統的優勢
MapReduce看似采用瞭一種蠻力方法。每個查詢需要處理整個數據集或至少一個數據集的絕大部分。但反過來想,這也正是它的能力。MapReduce是一個批量查詢處理器,能夠在閤理的時間範圍內處理針對整個數據集的動態查詢。它改變瞭我們對數據的傳統看法,解放瞭以前隻是保存在磁帶和硬盤上的數據。它讓我們有機會對數據進行創新。以前需要很長時間處理纔能獲得結果的問題,到現在變得頃刻之間就迎刃而解,同時還可以引發新的問題和新的見解。
例如,Rackspace公司的郵件部門Mailtrust就用Hadoop來處理郵件日誌。他們寫動態查詢,想藉此找齣用戶的地理分布。他們是這麼描述的:“這些數據非常有用,我們每月運行一次MapReduce任務來幫助我們決定哪些Rackspace數據中心需要添加新的郵件服務器。”
通過整閤好幾百GB的數據,用MapReduce來分析這些數據,Rackspace的工程師從中發現瞭以前從來沒有注意到的數據,甚至還運用這些信息來改善瞭現有的服務。第16章將詳細介紹Rackspace公司內部是如何使用Hadoop的。
1.3.1 關係型數據庫管理係統
為什麼不能用數據庫來對
Hadoop權威指南(第3版 修訂版) [Hadoop: The Definitive Guide,3rd Edition] 下載 mobi epub pdf txt 電子書 格式
Hadoop權威指南(第3版 修訂版) [Hadoop: The Definitive Guide,3rd Edition] 下載 mobi pdf epub txt 電子書 格式 2024
Hadoop權威指南(第3版 修訂版) [Hadoop: The Definitive Guide,3rd Edition] 下載 mobi epub pdf 電子書書很不錯!內容很充實,推薦購買!學到瞭不少嗯嘻嘻
評分書山有路勤為徑,學海無涯苦作舟,正在努力學習深造中,雲希作息
評分書很好 紙張好 就是太貴啦
評分打開新世界的大門,京東大促讓我夢想成真!
評分AWS咩虐瞭斯科拉裏
評分好好好,專業有用,十分好
評分非常非常非常非常非常非常非常非常非常
評分可以 很好 不錯
評分滿減優惠進行囤貨,技術上,得需要好好慢慢消化
Hadoop權威指南(第3版 修訂版) [Hadoop: The Definitive Guide,3rd Edition] mobi epub pdf txt 電子書 格式下載 2024