發表於2024-11-22
本書是關於大數據和Spark的一個簡明手冊。它將助你學習如何用Spark來完成很多大數據分析任務,其中覆蓋瞭高效利用Spark所需要知道的重要主題:如何使用SparkShell進行交互式數據分析、如何編寫Spark應用、如何在Spark中對大規模數據進行交互分析、如何使用SparkStreaming處理高速數據流、如何使用Spark進行機器學習、如何使用Spark進行圖處理、如何使用集群管理員部署Spark、如何監控Spark應用等。本書還對其他配閤Spark一起使用的大數據技術進行瞭介紹,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本書也對機器學習和圖的概念進行瞭介紹。
前言Preface本書是大數據和Spark方麵的一本簡明易懂的手冊。它將助你學習如何用Spark來完成很多大數據分析任務。它覆蓋瞭高效利用Spark所需要知道的一切內容。
購買本書的好處之一就是:幫你高效學習Spark,節省你大量時間。本書所覆蓋的主題在互聯網上都可以找到,網上有很多關於Spark的博客、PPT和視頻。事實上,Spark的資料浩如煙海,你可能需要在網絡上不同地方花費數月來閱讀關於Spark的點滴和碎片知識。本書提供瞭一個更好的選擇:內容組織精妙,並以易懂的形式錶現齣來。
本書的內容和材料的組織基於我在不同的大數據相關會議上所組織的Spark研討會。與會者對於內容和流程方麵的積極反饋激勵我寫瞭這本書。
書和研討會的區彆之一在於後者具有交互性。然而,組織過幾次Spark研討會後,我瞭解到瞭人們普遍存在的問題,我把這些內容也收錄在本書中。如果閱讀本書時有問題,我鼓勵你們通過LinkedIn或Twitter聯係我。任何問題都可以問,不存在什麼“愚蠢的問題”。
本書沒有覆蓋Spark的每一個細節,而是包含瞭高效使用Spark所需要知道的重要主題。我的目標是幫你建立起堅實的基礎。一旦基礎牢固,就可以輕鬆學習一項新技術的所有細節。另外,我希望保持本書盡可能簡單。如果讀完本書後發現Spark看起來也挺簡單的,那我的目的也就達到瞭。
本書中的任何主題都不要求有先驗知識。本書會一步步介紹關鍵概念,每一節建立在前一節的基礎上。同樣,每一章都是下一章的基石。如果當下不需要,你可以略過後麵一些章節中講解的不同的Spark庫。不過我還是鼓勵你閱讀所有章節。即使可能和你當前的項目不相關,那些部分也可能會給你新的靈感。
通過本書你會學到很多Spark及其相關技術的知識。然而,要充分利用本書,建議親自運行書中所展示的例子:用代碼示例做實驗。當你寫代碼並執行時,很多事情就變得更加清晰。如果你一邊閱讀一邊練習並用示例來實驗,當讀完本書時,你將成為一名基礎紮實的Spark開發者。
在我開發Spark應用時,我發現瞭一個有用的資源—Spark官方API文檔,其訪問地址為http://spark.apache.org/docs/latest/api/scala。初學者可能覺得它難以理解,不過一旦你學習瞭基本概念後,會發現它很有用。
另一個有用的資源是Spark郵件列錶。Spark社區很活躍、有用。不僅Spark開發者會迴答問題,有經驗的Spark用戶也會誌願幫助新人。無論你遇到什麼問題,很有可能Spark郵件列錶中有人已經解決過這個問題瞭。
而且,也可以聯係我,我很樂意傾聽,歡迎反饋、建議和提問。
—MohammedGullerLinkedIn:www.linkedin.com/in/mohammedgullerTwitter:@MohammedGuller緻謝Acknowledgements許多人都直接地或間接地為本書作齣瞭貢獻。如果沒有他們的支持、鼓勵與幫助,我是無法完成本書的編寫的。我想藉此機會嚮他們錶示感謝。
首先,也是最重要的,我想要感謝我的妻子Tarannum和我的三個可愛的孩子Sarah、Soha、Sohail。寫書是一項艱巨的任務。在從事全職工作的同時寫書意味著我無法花費太多的時間在我的傢人身上。上班時間我忙於工作,晚上和周末我則全身投入到本書的寫作上。我對我傢人給予的全方位的支持和鼓勵錶示感謝。有時候,Soha和Sohail會提齣一些有意思的想法讓我陪他們一起玩,但是在大部分時候,他們還是讓我在本應該陪他們玩耍的時候專注於寫書。
接下來,感謝MateiZaharia、ReynoldXin、MichaelArmbrust、TathagataDas、PatrickWendell、JosephBradley、XiangruiMeng、JosephGonzalez、AnkurDave以及其他Spark開發者。他們不僅創造齣瞭一項卓越的技術,還持續快速改進它。沒有他們的發明,本書將不會存在。
當我在Glassbeam公司提議使用Spark來解決當時睏擾我們的一些問題時,Spark還是一項新技術且少有人瞭解。我想要感謝工程副總裁AshokAgarwal和首席執行官PuneetPandit允許我使用Spark。如果沒有來自將Spark內置於産品中和日常使用的一手經驗,要寫齣一本有關Spark的書是相當睏難的。
接下來,我想感謝技術審校者SundarRajanRaman和HepingLiu。他們認真檢查瞭本書內容的準確性並運行瞭書中的例子以確保它們能正常運行,還提齣瞭不少有幫助的建議。
最後,我想感謝Apress參與本書齣版的工作人員ChrisNelson、JillBalzano、KimBur-ton-Weisman、CelestinJohnSuresh、NikhilChinnari、DhaneeshKumar等。JillBalzano協調瞭與本書齣版相關的所有工作。作為一個編輯,ChrisNelson為本書作齣瞭卓越的貢獻。我十分感謝他的建議與編輯,有瞭他的參與,本書變得更完美瞭。文字編輯KimBurton-Weisman認真閱讀瞭本書的每一句話以保證書寫正確,同時也改正瞭不少書寫錯誤。很榮幸能與Apress團隊一起工作。
—MohammedGuller
Spark大數據分析:核心概念、技術及實踐 下載 mobi pdf epub txt 電子書 格式 2024
Spark大數據分析:核心概念、技術及實踐 下載 mobi epub pdf 電子書商品質量很好,很滿意,配送速度快啊,而且配送員態度也非常好。
評分到瞭,速度很快,還沒看但是包裝不錯,感覺都是必讀的
評分此用戶未填寫評價內容
評分幫朋友買的!
評分價格實惠、書也不錯、值得購買
評分很好 很好 很好
評分不錯,就是發票為啥不是增值稅發票?
評分質量不錯,內容沒看呢!~~~~
評分有點薄
Spark大數據分析:核心概念、技術及實踐 mobi epub pdf txt 電子書 格式下載 2024