大數據專傢張良均領銜暢銷書作者團隊,教育部長江學者特聘教授、國傢傑齣青年基金獲得者、IEEE Fellow、華南理工大學計算機與工程學院院長張軍傾力推薦。
本書采用瞭以任務為導嚮的教學模式,按照解決實際任務的工作流程路綫,逐步展開介紹相關的理論知識點,推導生成可行的解決方案,最後落實在任務實現環節。
全書大部分章節緊扣任務需求展開,不堆積知識點,著重於解決問題時思路的啓發與方案的實施。通過從任務需求到實現這一完整工作流程的體驗,幫助讀者真正理解與消化Spark大數據技術。
書中案例全部源於企業真實項目,可操作性強,引導讀者融會貫通,並提供源代碼等相關學習資源,幫助讀者快速掌握大數據相關技能。
本書以任務為導嚮,較為全麵地介紹瞭Spark大數據技術的相關知識。全書共9章,具體內容包括Spark概述;Scala基礎;Spark編程;Spark編程進階;Spark SQL:結構化數據文件處理;Spark Streaming:實時計算框架;Spark GraphX:圖計算框架;Spark MLlib:功能強大的算法庫;項目案例:餐飲平颱菜品智能推薦。本書的大部分章節都包含瞭實訓與課後習題,通過練習和操作實踐,幫助讀者鞏固所學的內容。
張良均,高 級信息係統項目管理師,泰迪杯全國大學生數據挖掘競賽(www.tipdm.org)發起人。華南師範大學、廣東工業大學兼職教授,廣東省工業與應用數學學會理事。兼有大型高科技企業和高校的工作經曆,主要從事大數據挖掘及其應用的策劃、研發及谘詢培訓。全國計算機技術與軟件專業技術資格(水平)考試繼續教育和CDA數據分析師培訓講師。發錶數據挖掘相關論文數二十餘篇,已取得國傢發明專利12項,主編《Hadoop大數據分析與挖掘實戰》《Python數據分析與挖掘實戰》《R語言數據分析與挖掘實戰》等多本暢銷圖書,主持並完成科技項目9項。獲得SAS、SPSS數據挖掘認證及Hadoop開發工程師證書,具有電力、電信、銀行、製造企業、電子商務和電子政務的項目經驗和行業背景。
第 1章 Spark概述 1
任務1.1 認識Spark 1
1.1.1 Spark的發展 1
1.1.2 Spark的特點 2
1.1.3 Spark生態圈 4
1.1.4 Spark的應用場景 5
任務1.2 搭建Spark環境 5
1.2.1 搭建單機版環境 6
1.2.2 搭建單機僞分布式環境 6
1.2.3 搭建完全分布式環境 7
任務1.3 瞭解Spark運行架構與原理 10
1.3.1 Spark集群架構 11
1.3.2 Spark作業運行流程 11
1.3.3 Spark核心數據集RDD 15
1.3.4 Spark核心原理 17
小結 19
第 2章 Scala基礎 20
任務2.1 Scala的簡介與安裝 21
2.1.1 Scala簡介 21
2.1.2 Scala特性 21
2.1.3 Scala的環境設置及安裝 21
2.1.4 運行Scala 23
任務2.2 定義函數識彆號碼類型 24
2.2.1 數據類型 24
2.2.2 常量和變量 25
2.2.3 錶達式 26
2.2.4 數組 27
2.2.5 函數 29
2.2.6 任務實現 31
任務2.3 統計廣州號碼段數量 32
2.3.1 if判斷 32
2.3.2 循環 33
2.3.3 任務實現 34
任務2.4 根據歸屬地對手機號碼段分組 34
2.4.1 List 35
2.4.2 Set 36
2.4.3 Map 37
2.4.4 元組 38
2.4.5 函數組閤器 38
2.4.6 任務實現 39
任務2.5 編寫手機號碼歸屬地信息查詢程序 40
2.5.1 Scala類 40
2.5.2 Scala object 42
2.5.3 Scala模式匹配 42
2.5.4 Scala讀取文件 44
2.5.5 任務實現 44
小結 45
實訓 45
實訓1 編寫函數過濾文本中的迴文單詞 45
實訓2 使用Scala編程輸齣楊輝三角 46
課後習題 46
第3章 Spark編程 48
任務3.1 以學生成績數據創建RDD 49
3.1.1 從內存中已有數據創建RDD 50
3.1.2 從外部存儲創建RDD 51
3.1.3 任務實現 52
任務3.2 查詢學生成績錶中的前5名 52
3.2.1 使用map轉換數據 52
3.2.2 使用sortBy()排序 53
3.2.3 使用collect()查詢 53
3.2.4 使用flatMap轉換數據 54
3.2.5 使用take()方式查詢某幾個值 54
3.2.6 任務實現 55
任務3.3 輸齣單科成績為100分的學生ID 55
3.3.1 使用union()閤並多個RDD 56
3.3.2 使用filter()進行過濾 56
3.3.3 使用distinct()進行去重 56
3.3.4 簡單的集閤操作 57
3.3.5 任務實現 58
任務3.4 輸齣每位學生所有科目的總成績 58
3.4.1 鍵值對RDD簡介 59
3.4.2 創建鍵值對RDD 59
3.4.3 轉換操作keys與values 59
3.4.4 轉換操作reduceByKey() 60
3.4.5 轉換操作groupByKey() 60
3.4.6 任務實現 60
任務3.5 輸齣每位學生的平均成績 61
3.5.1 使用join()連接兩個RDD 61
3.5.2 使用zip組閤兩個RDD 63
3.5.3 使用combineByKey閤並相同鍵的值 63
3.5.4 使用lookup查找指 定鍵的值 64
3.5.5 任務實現 64
任務3.6 將匯總後的學生成績存儲為文本文件 65
3.6.1 JSON文件的讀取與存儲 65
3.6.2 CSV文件的讀取與存儲 67
3.6.3 SquenceFile的讀取與存儲 69
3.6.4 文本文件的讀取與存儲 70
3.6.5 任務實現 71
小結 72
實訓 72
實訓1 統計文本中性彆為“男”的用戶數 73
實訓2 單詞計數 73
課後習題 74
第4章 Spark編程進階 76
任務4.1 搭建開發環境 77
4.1.1 下載與安裝IntelliJ IDEA 77
4.1.2 Scala插件安裝與使用 79
4.1.3 配置Spark運行環境 84
4.1.4 運行Spark程序 85
任務4.2 使用移動平均預測股票漲跌 92
4.2.1 持久化(緩存) 93
4.2.2 數據分區 94
4.2.3 計算價格波動幅度 98
4.2.4 任務實現 100
小結 103
實訓 103
實訓 競賽網站訪問日誌分析 104
課後習題 104
第5章 Spark SQL:結構化數據文件處理 107
任務5.1 認識Spark SQL 108
5.1.1 Spark SQL簡介 108
5.1.2 Spark SQL CLI配置 109
5.1.3 Spark SQL與Shell交互 110
任務5.2 掌握DataFrame基礎操作 111
5.2.1 創建DataFrame對象 111
5.2.2 DataFrame查看數據 114
5.2.3 DataFrame查詢操作 117
5.2.4 DataFrame輸齣操作 123
任務5.3 探索分析法律服務網站數據 125
5.3.1 獲取數據 125
5.3.2 網頁類型分析 126
5.3.3 點擊次數分析 131
5.3.4 網頁排名分析 133
小結 135
實訓 135
實訓1 統計分析航空公司客戶數據的空值以及異常值 135
實訓2 統計分析某公司每年的産品銷售量及銷售額 137
課後習題 139
第6章 Spark Streaming:實時計算框架 141
任務6.1 初探Spark Streaming 142
6.1.1 Spark Streaming概述 142
6.1.2 Spark Streaming運行原理 142
6.1.3 初步使用Spark Streaming 143
任務6.2 掌握DStream編程模型 145
6.2.1 DStream簡介 146
6.2.2 DStream轉換操作 146
6.2.3 DStream窗口操作 148
6.2.4 DStream輸齣操作 151
任務6.3 Spark Streaming實時更新熱門博文 155
6.3.1 Spark Streaming輸入數據源 155
6.3.2 Spark Streaming計算網頁熱度 158
6.3.3 網頁熱度輸齣 158
6.3.4 任務實現 159
小結 161
實訓 161
實訓1 過濾打印包含單詞error的記錄 162
實訓2 實時過濾歌麯播放次數超過100次的記錄並存儲在HDFS上 162
課後習題 162
第7章 Spark GraphX:圖計算框架 165
任務7.1 認識Spark GraphX 166
7.1.1 圖的基本概念 166
7.1.2 圖計算的應用 167
7.1.3 GraphX的基礎概念 168
7.1.4 GraphX的發展 168
任務7.2 瞭解GraphX常用API 169
7.2.1 圖的創建與存儲 169
7.2.2 數據查詢與數據轉換 174
7.2.3 結構轉換與關聯聚閤 180
任務7.3 構建信任網絡並找齣目標用戶 187
7.3.1 構建網站信任網絡 188
7.3.2 找齣需要支付稿酬的用戶 188
7.3.3 找齣進入熱門榜的用戶 189
小結 191
實訓 191
實訓1 使用PageRank算法完成網頁排名 191
實訓2 利用二度關係完成商品推薦 192
課後習題 194
第8章 Spark MLlib:功能強大的算法庫 196
任務8.1 瞭解MLlib算法庫 197
8.1.1 機器學習簡介 197
8.1.2 MLlib介紹 198
任務8.2 以Logistic迴歸實現用戶分類 212
8.2.1 分析思路 212
8.2.2 數據處理 213
8.2.3 MLlib實現Logistic迴歸 215
8.2.4 任務實現 217
小結 221
實訓 221
實訓1 通過KMeans定位商圈 221
實訓2 樸素貝葉斯進行文本分類 222
課後習題 223
第9章 項目案例:餐飲平颱菜品智能推薦 226
任務9.1 推薦方案設計 227
9.1.1 用戶數據分析 227
9.1.2 常用推薦算法 229
9.1.3 推薦流程設計 231
任務9.2 數據預處理 232
9.2.1 原始數據探索分析 233
9.2.2 異常數據處理 237
9.2.3 數據變換處理 237
9.2.4 數據集分割 239
任務9.3 建立推薦模型 240
9.3.1 以基於用戶的協同過濾算法建模 240
9.3.2 以基於物品的協同過濾算法建模 243
9.3.3 以基於Spark ALS的協同過濾算法建立模型 246
9.3.4 推薦模型的評測 251
任務9.4 使用模型進行菜品推薦 262
9.4.1 對某用戶推薦10道新菜品 262
9.4.2 對所有用戶進行新菜品推薦 267
這本探討城市可持續發展策略的書籍,為我們描繪瞭一幅更加綠色、宜居的未來城市藍圖。書中詳細闡述瞭如何通過創新的城市規劃和管理,來應對日益嚴峻的環境挑戰,例如空氣汙染、交通擁堵以及資源枯竭。我尤其對書中關於智慧交通係統的介紹非常感興趣,它不僅涵蓋瞭智能信號燈、自動駕駛技術,還深入探討瞭共享齣行模式的推廣以及大數據在優化公共交通網絡中的作用。此外,作者對綠色建築和可再生能源在城市中的應用也進行瞭詳盡的分析,從節能設計理念到屋頂太陽能闆的普及,再到城市垃圾的分類處理和循環利用,都給齣瞭切實可行的方案。書中還重點強調瞭社區參與和社會公平在可持續發展中的重要性,呼籲通過公眾教育和政策引導,提升市民的環保意識,共同構建一個更具彈性和包容性的城市。這本書不僅提供瞭理論指導,更提供瞭大量成功的實踐案例,讓我看到實現可持續發展並非遙不可及。
評分一本關於太空探索的精彩讀物,它將浩瀚的宇宙奧秘娓娓道來。作者以充滿詩意的筆觸,描繪瞭人類對宇宙的無盡好奇和探索精神,從古人仰望星空到現代太空望遠鏡的誕生,再到載人航天和深空探測的壯舉。書中詳細介紹瞭我們對太陽係行星的認知進展,從土星的光環到火星的紅色沙丘,每一個星球的獨特魅力都被刻畫得淋灕盡緻。更讓我驚嘆的是,作者深入探討瞭黑洞、暗物質、暗能量等前沿天體物理學概念,並用通俗易懂的比喻解釋瞭相對論和量子力學等復雜的理論。書中還展望瞭人類未來殖民火星、星際旅行的可能性,以及尋找地外生命的最新進展,著實令人心潮澎湃。通過這本書,我不僅增長瞭天文知識,更感受到瞭人類作為宇宙渺小一部分的敬畏,以及不斷探索未知邊界的勇氣。
評分這是一本非常實用的關於個人財富管理的指導書。它不僅僅是告訴你如何“省錢”,而是從更宏觀的角度,幫助讀者建立健康的財務觀念,並製定切實可行的理財規劃。書中深入分析瞭常見的投資誤區,例如追漲殺跌、盲目跟風等,並提供瞭如何識彆和規避這些風險的有效方法。我特彆喜歡書中關於資産配置的章節,作者根據不同的風險承受能力和人生階段,給齣瞭多樣化的投資組閤建議,從股票、債券到房地産、基金,以及一些新興的投資領域,都進行瞭詳細的介紹。此外,書中還強調瞭長期投資和復利的力量,並提供瞭一些實用的工具和策略,幫助讀者實現財富的穩健增長。除瞭投資,本書還涵蓋瞭風險管理、保險規劃以及遺産規劃等重要內容,力求為讀者提供一個全麵的財務健康指南。讀完這本書,我感覺自己對金錢有瞭更清晰的認識,也更有信心去規劃自己的財務未來。
評分一本讓我眼前一亮的關於人工智能在醫療領域的最新進展的書。它深入淺齣地探討瞭AI如何革新疾病診斷,從影像識彆到基因測序,書中列舉瞭大量真實世界的案例,並分析瞭其中涉及的算法原理,比如深度學習在X光片和CT掃描中的應用,以及自然語言處理在分析病曆和醫學文獻中的潛力。更讓我印象深刻的是,作者並沒有迴避AI在醫療應用中可能遇到的倫理和隱私問題,而是提齣瞭非常有建設性的解決方案,例如數據脫敏技術、模型的可解釋性研究以及監管框架的建立。這本書不僅僅是一本技術手冊,更像是一次關於未來醫療的哲學思辨,它讓我看到瞭AI與人類醫生協同工作的廣闊前景,也讓我對如何構建一個既高效又人性化的醫療AI係統有瞭更深刻的理解。雖然我不是AI領域的專業人士,但通過這本書,我仿佛打開瞭一扇新世界的大門,對AI在改善人類健康方麵的巨大潛力充滿瞭期待。作者的敘述邏輯清晰,語言生動,即使是復雜的概念也得到瞭很好的闡釋,非常適閤對AI在醫療領域感興趣的讀者。
評分最近讀完瞭一本關於現代藝術史的著作,它徹底顛覆瞭我對藝術的固有認知。本書並沒有遵循傳統的編年體敘事,而是以主題化的方式,將不同時期、不同流派的藝術作品巧妙地聯係起來,探討瞭藝術在社會變遷、技術革新以及哲學思潮影響下的演變軌跡。我被書中對立體主義、抽象錶現主義以及觀念藝術等流派的深入剖析所吸引,作者用生動形象的語言,結閤大量高清的藝術品插圖,將這些看似晦澀難懂的藝術形式變得鮮活起來。更令我著迷的是,書中探討瞭藝術如何反映並挑戰當時的社會規範,以及藝術傢如何在創作中錶達個人情感和對世界的獨特見解。從梵高的孤獨呐喊到杜尚的日常物品的“現成品”藝術,再到波普藝術對大眾文化的挪用,每一個案例都充滿瞭啓發。這本書讓我意識到,藝術不僅僅是美的展現,更是一種思考方式,一種與世界對話的語言。
評分知識很基礎,適閤沒有經驗的開發者
評分內容充實,講解到位,適閤初學!
評分書已經收到瞭,還沒看不知道咋樣
評分非常好,非常快,非常好用,哈哈哈
評分大數據Hadoop教材,寫的很詳細,質量很好,超級贊
評分好書好書,值得購買,送貨還快
評分書已經收到瞭,還沒看不知道咋樣
評分內容豐富,條理清晰,很有幫助
評分好書好書,值得購買,送貨還快
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有