|
| ||||||||||||
| 機工 spark快數數據處理 | ||
| 定價 | 29.00 | |
| 齣版社 | 機械工業齣版社 | |
| 版次 | 1版1次印刷 | |
| 齣版時間 | 2014年05月 | |
| 開本 | 大32開 | |
| 作者 | (美)凱洛 著,餘璜 張磊 譯 | |
| 裝幀 | 平裝 | |
| 頁數 | 114 | |
| 字數 | --- | |
| ISBN編碼 | 9787111463115 | |
Spark是個開源的通用並行分布式計算框架,由加州大學伯剋利分校的AMP實驗室開發,支持內存計算、多迭代批量處理、即席查詢、流處理和圖計算等多種範式。Spark內存計算框架適閤各種迭代算法和交互式數據分析,能夠提升大數據處理的實時性和準確性,現已逐漸獲得很多企業的支持,如阿裏巴巴、百度、網易、英特爾等公司。
本書係統講解Spark的使用方法,包括如何在多種機器上安裝Spark,如何配置個Spark集群,如何在交互模式下運行個Spark作業,如何在Spark集群上構建個生産級的脫機/獨立作業,如何與Spark集群建立連接和使用SparkContext,如何創建和保存RDD(彈性分布式數據集),如何用Spark分布式處理數據,如何設置Shark,將Hive查詢集成到你的Spark作業中來,如何測試Spark作業,以及如何提升Spark任務的性能。
譯者序
作者簡介
前言
1章 安裝Spark以及構建Spark集群
1.1 單機運行Spark
1.2 在EC2上運行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通過SSH部署集群
1.8 鏈接和參考
1.9 小結
2章 Sparkshell的使用
2.1 加載個簡單的text文件
2.2 用Sparkshell運行邏輯迴歸
2.3 交互式地從S3加載數據
2.4 小結
3章 構建並運行Spark應用
3.1 用sbt構建Spark作業
3.2 用Maven構建Spark作業
3.3 用其他工具構建Spark作業
3.4 小結
4章 創建SparkContext
4.1 Scala
4.2 Java
4.3 Java和Scala共享的API
4.4 Python
4.5 鏈接和參考
4.6 小結
5章 加載與保存數據
5.1 RDD
5.2 加載數據到RDD中
5.3 保存數據
5.4 連接和參考
5.5 小結
6章 操作RDD
6.1 用Scala和Java操作RDD
6.2 用Python操作RDD
6.3 鏈接和參考
6.4 小結
7章 Shark-Hive和Spark的綜閤運用
7.1 為什麼用HiveShark
7.2 安裝Shark
7.3 運行Shark
7.4 加載數據
7.5 在Spark程序中運行HiveQL查詢
7.6 鏈接和參考
7.7 小結
8章 測試
8.1 用Java和Scala測試
8.2 用Python測試
8.3 鏈接和參考
8.4 小結
9章 技巧和竅門
9.1 日誌位置
9.2 並發限製
9.3 內存使用與垃圾迴收
9.4 序列化
9.5 IDE集成環境
9.6 Spark與其他語言
9.7 安全提示
9.8 郵件列錶
9.9 鏈接和參考
9.10 小結
Holden Karau 資深軟件開發工程師,現就職於Databricks公司,之前曾就職於榖歌、、微軟和Foursquare等著名公司。他對開源情有獨鍾,參與瞭許多開源項目,如Linux內核無綫驅動、Android程序監控、搜索引擎等,對存儲係統、推薦係統、搜索分類等都有深入研究。
譯者簡介
餘璜 阿裏巴巴核心係統研發工程師,OceanBase核心開發人員,對分布式係統理論和工程實踐有深刻理解,專注於分布式係統設計、大規模數據處理,樂於分享,在CSDN上分享瞭大量技術文章。
張磊 Spark愛好者,曾參與分布式OLAP數據庫係統核心開發,熱衷於大數據處理、分布式計算。
從實用角度係統講解Spark的數據處理工具及使用方法
手把手教你充分利用Spark提供的各種功能,快速編寫高效分布式程序
1章 安裝Spark以及構建
Spark集群
1.1 單機運行Spark
1.2 在EC2上運行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通過SSH部署集群
1.8 鏈接和參考
1.9 小結
本章將詳細介紹搭建Spark的常用方法。Spark的單機版便於測試,同時本章也會提到通過SSH用Spark的內置部署腳本搭建Spark集群,使用Mesos、Yarn或者Chef來部署Spark。對於Spark在雲環境中的部署,本章將介紹在EC2(基本環境和EC2MR)上的部署。如果你的機器或者集群中已經部署瞭Spark,可以跳過本章直接開始使用Spark編程。
不管如何部署Spark,首先得獲得Spark的個版本,截止到寫本書時,Spark的新版本為0.7版。對於熟悉github的程序員,則可以從git://github.com/mesos/spark.git直接復製Spark項目。Spark提供基本源碼壓縮包,同時也提供已經編譯好的壓縮包。為瞭和Hadoop分布式文件係統(HDFS)交互,需要在編譯源碼前設定相應的集群中所使用的Hadoop版本。對於0.7版本的Spark,已經編譯好的壓縮包依賴的是1.0.4版本的Hadoop。如果想更深入地學習Spark,推薦自己編譯基本源碼,因為這樣可以靈活地選擇HDFS的版本,如果想對Spark源碼有所貢獻,比如提交補丁,自己編譯源碼是必須的。你需要安裝閤適版本的Scala和與之對應的JDK版本。對於Spark的0.7.1版本,需要Scala 2.9.2或者更高的Scala 2.9版本(如2.9.3版)。在寫本書時,Linux發行版Ubuntu的LTS版本已經有Scala 2.9.1版,除此之外,近的穩定版本已經有2.9.2版。Fedora 18已經有2.9.2版。Scala官網上的新版在選擇Spark支持的Scala版本十分重要,Spark對Scala的版本很敏感。.........
|
這本書簡直是為我們這種在工作中被海量數據壓得喘不過氣來的工程師量身打造的!“現貨正版”四個字給瞭我極大的信心,不用擔心買到盜版或者內容陳舊的問題。我最頭疼的就是那些理論講得天花亂墜,但實際操作起來卻無從下手的大數據書籍。而這本書的重點在於“快速數據處理”和“係統講解Spark的數據處理工具及使用方法”,這讓我看到瞭希望。我尤其關注它如何講解Spark的各個組件,比如Spark SQL在處理結構化數據時的性能優勢,Spark Streaming在實時數據分析方麵的應用,以及MLlib在機器學習中的作用。我希望這本書能提供大量的代碼示例和實操指導,讓我們能夠邊學邊練,真正將理論知識轉化為解決實際問題的能力。我希望通過這本書,我能深刻理解Spark的內存計算機製,掌握RDD、DataFrame、Dataset的精髓,並且能夠靈活運用Spark來構建高效的數據處理管道。這本書的及時齣版,簡直就是給睏擾於大數據處理瓶頸的我們注入瞭一劑強心針。
評分當我看到這本書名時,腦海中立刻閃過“專業”、“實用”這樣的詞語。《現貨正版】Spark快速數據處理 係統講解Spark的數據處理工具及使用方法》這個書名,精準地傳達瞭這本書的核心價值。我一直認為,學習Spark不僅僅是掌握一些API調用,更重要的是理解它背後的原理和設計理念,這樣纔能在麵對復雜問題時,找到最有效的解決方案。這本書的“係統講解”讓我想象到它會深入剖析Spark的各個模塊,從分布式計算的模型到具體的執行引擎,再到各種數據源的集成。我尤其期待它在“數據處理工具及使用方法”方麵的講解,希望能夠看到大量貼閤實際業務場景的案例,例如如何使用Spark處理日誌數據、如何構建用戶畫像、如何進行實時推薦等。這本書的內容能否真正幫助我解決實際工作中遇到的數據處理挑戰,將是我衡量它價值的關鍵。我相信,一本優秀的Spark書籍,不僅能傳授知識,更能激發讀者的思考,引導他們走嚮更深層次的學習和應用。
評分這本書的吸引力在於它精準地擊中瞭我在大數據領域的核心痛點:效率!“快速數據處理”這四個字,就像是一聲召喚,讓我這個一直被處理速度睏擾的從業者毫不猶豫地選擇瞭它。我之前嘗試過一些其他框架,但總覺得在處理大規模數據集時,速度是一個難以逾越的瓶頸。而Spark以其內存計算的特性聞名,我一直渴望能係統地學習如何充分發揮它的潛力。這本書的“係統講解Spark的數據處理工具及使用方法”的承諾,正是我所需要的。我希望它能帶我深入瞭解Spark的各種API,不僅僅是會用,更要理解其背後的設計思想,這樣纔能寫齣更高效、更優雅的代碼。比如,它會不會講如何優化Spark的shuffle過程?如何選擇閤適的算子來提高性能?如何進行JVM調優來配閤Spark的內存管理?這些都是我在實際工作中經常會遇到的問題。這本書的齣現,給瞭我一個絕佳的機會,去係統地學習並掌握Spark這門強大的數據處理利器。
評分拿到這本書,我真的是迫不及待地想立刻開始我的Spark學習之旅!封麵設計簡潔大氣,書名直接點明瞭主題,讓我這種需要快速掌握Spark技術的小夥伴一眼就能抓住重點。我之前接觸過一些大數據處理框架,但總感覺不夠高效,聽說瞭Spark的名聲很久瞭,一直想係統地學習一下,這本書的內容涵蓋瞭Spark的核心概念、架構原理,以及各種常用組件的詳細介紹,像是Spark SQL、Spark Streaming、MLlib等等,這些都是我工作中最需要用到的。特彆吸引我的是,它聲稱能夠“係統講解Spark的數據處理工具及使用方法”,這正是我想要的!我希望這本書能幫我理清Spark的脈絡,理解它的執行機製,並且能夠通過實際案例快速上手,解決實際工作中遇到的數據處理難題。讀完這本書,我希望能真正掌握Spark的強大之處,讓我的數據分析和處理效率得到質的飛躍。這本書的篇幅看起來也很充實,感覺能挖到很多乾貨,我非常期待它能成為我手中不可或缺的Spark學習寶典。
評分說實話,我之前對Spark的瞭解一直停留在“聽說過,很厲害”的階段,真正想深入學習的時候,卻發現市麵上的資料要麼太零散,要麼太理論化,要麼就是針對性太強,無法形成一個完整的知識體係。這本《現貨正版】Spark快速數據處理 係統講解Spark的數據處理工具及使用方法》的齣現,簡直是填補瞭我的學習空白!我特彆看重它“係統講解”的定位,這意味著它不會像一些碎片化的教程那樣,隻教你某個具體的功能,而是會從整體架構到具體工具,一步步帶你構建起對Spark的全麵認知。我期待書中能深入剖析Spark的執行流程,比如DAG調度器、Catalyst優化器等核心組件的工作原理,這樣我纔能更好地理解為什麼Spark能做到“快速”。同時,它承諾的“數據處理工具及使用方法”也讓我充滿期待,我希望通過書中詳實的案例,能夠掌握Spark SQL進行復雜查詢,利用Spark Streaming實現流式計算,甚至能通過MLlib構建自己的機器學習模型。這本書的齣現,讓我看到瞭快速提升Spark技能的曙光。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有