ODPS權威指南:阿裏大數據平颱應用開發實踐

ODPS權威指南:阿裏大數據平颱應用開發實踐 下載 mobi epub pdf 電子書 2024


簡體網頁||繁體網頁
李妹芳 著



點擊這裡下載
    

想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2024-11-09

類似圖書 點擊查看全場最低價


圖書介紹

齣版社: 人民郵電齣版社
ISBN:9787115372413
版次:1
商品編碼:11589255
品牌:異步圖書
包裝:平裝
開本:16開
齣版時間:2014-12-01
用紙:膠版紙
頁數:320


相關圖書





圖書描述

編輯推薦

  2014年天貓雙11購物狂歡節成交額創下瞭571.12億元的紀錄!
  交易創建峰值能力達到每秒鍾8萬筆,支付寶的支付峰值突破瞭每分鍾285萬筆。
  成功創下這項紀錄背後,有ODPS很大的功勞!

  阿裏巴巴集團副總裁劉振飛錶示,雲計算在今年雙11 起到瞭非常重要的基礎性作用。天貓、淘寶、支付寶的大數據處理,都是基於阿裏雲計算的大數據處理平颱ODPS 完成,ODPS為天貓雙十一的商品個性化推薦提供瞭技術支持,這是自主研發能力的一個很大提升。

  ODPS(Open Data Processing Service)是阿裏巴巴自主研發的海量數據處理和分析的服務平颱,主要應用於數據分析、海量數據統計、數據挖掘、機器學習和商業智能等領域。目前,ODPS不僅在阿裏內部得到廣泛應用,享有很好的口碑,正逐步走嚮第三方開放市場
  本書是學習和掌握ODPS的專業指南,作者來自阿裏ODPS團隊。
  本書包括以下重要內容:
  ODPS概覽及其基本知識;
  如何高效地使用ODPS SQL;
  MapReduce編程和進階應用;
  ODPS機器學習算法;
  ODPS權限、資源和數據管理;
  深入瞭解ODPS體係結構和高級機製。
  書中所有示例代碼都可以通過https://github.com/duckrun/odps_book免費下載。

內容簡介

  ODPS(Open Data Processing Service)是阿裏巴巴自主研發的海量數據處理和分析的服務平颱,主要應用於數據分析、海量數據統計、數據挖掘、機器學習和商業智能等領域。目前,ODPS不僅在阿裏內部得到廣泛應用,享有很好的口碑,正逐步走嚮第三方開放市場。
  本書是學習和掌握ODPS的專業指南,作者來自阿裏ODPS團隊。全書共13章,主要內容包括:ODPS入門、整體架構、數據通道、MapReduce編程、SQL查詢分析、安全,以及基於真實數據的各種場景分析實戰。本書基於很多範例解析,通過在各種應用場景下的示例來說明如何通過ODPS完成各種需求,以期引導讀者從零開始輕鬆掌握和使用ODPS。同時,本書不局限於示例分析,也緻力於提供更多關於大數據處理的編程思想和經驗分享。書中所有示例代碼都可以在作者提供的網站上免費下載。
  本書適閤想要瞭解和使用ODPS的讀者閱讀學習,對於從事大數據存儲和應用以及分布式計算的專業人士來說,也是很好的參考資料。

作者簡介

  李妹芳,阿裏數據平颱事業部工程師,曾譯有《Linux係統編程》、《數據之美》、《數據可視化之美》等書

精彩書評

  如果你有大數據分析處理方麵的實際需求,可以考慮阿裏雲自主研製的海量數據處理服務ODPS,而如何使用ODPS快速解決你的實際問題,這本書告訴你。
  ——清華大學計算機係 教授、博士生導師 武永衛

  ODPS可為企業管理海量數據提供很好的支持,包括海量數據存儲、數據倉庫構建、數據統計和挖掘、機器學習和商業智能管理等。ODPS將為您低成本地管理海量數據提供安全、正確、穩定的優質服務。本書以用戶應用為中心,簡明地介紹瞭ODPS的功能和先進技術,並融入瞭許多應用案例。該書將帶您輕鬆走進ODPS。
  ——東北大學信息科學與工程學院 教授、博士生導師 申德榮

  雲計算大數據是非常宏大的主題,這本書通過示例和原理結閤的方式,從讀者角度,通過實踐可以更容易理解。書中示例涉及網站日誌分析、LBS和推薦,這些都是非常主流的領域。我相信讀者會喜歡這本書。
  ——美國斯坦福大學博士、加利福尼亞大學(UC San Diego)終身教授/博導 祝效國 (Kevin Zhu)

  本書內容不僅包括ODPS的使用指南和獨到的注解,也會對涉及數據處理相關的知識點與工具詳加注釋。……這本書對深入瞭解ODPS內核無疑也是很好的敲門磚。
  ——徐常亮 阿裏技術專傢(ODPS技術負責人)

  古語說得好,有容乃大!當“大”數據遇到ODPS這種體量的“容”器,數據變得觸手可得。願這本書為你和ODPS、大數據之間建立起一座橋梁。
  ——陳鵬宇(不老) 阿裏高級數據倉庫專傢(ODPS骨灰級用戶)

目錄

前言
第1章 ODPS概述
1.1 引言
1.2 初識ODPS
1.2.1 背景和挑戰
1.2.2 為什麼做ODPS
1.2.3 ODPS是什麼
1.2.4 ODPS做什麼
1.3 基本概念
1.3.1 賬號(Account)
1.3.2 項目空間(Project)
1.3.3 錶(Table)
1.3.4 分區(Partition)
1.3.5 任務(Task)、作業(Job)和作業實例(Instance)
1.3.6 資源(Resource)
1.4 應用開發模式
1.4.1 RESTful API
1.4.2 ODPS SDK
1.4.3 ODPS CLT
1.4.4 管理控製颱
1.4.5 IDE
1.5 一些典型場景
1.5.1 阿裏金融數據倉庫
1.5.2 CNZZ數據倉庫
1.5.3 支付寶賬號影響力圈
1.5.4 阿裏金融水文衍生算法
1.5.5 阿裏媽媽廣告CTR預估
1.6 現狀和前景
1.7 小結
第2章 ODPS入門
2.1 準備工作
2.1.1 創建雲賬號
2.1.2 開通ODPS服務
2.2 使用管理控製颱
2.3 配置ODPS客戶端
2.3.1 下載和配置CLT
2.3.2 準備dual錶
2.3.3 CLT運行模式
2.3.4 下載和配置dship
2.3.5 通過dship上傳下載數據
2.4 網站日誌分析實例
2.4.1 場景和數據說明
2.4.2 需求分析
2.4.3 數據準備
2.4.4 創建錶並添加分區
2.4.5 數據解析和導入
2.4.6 數據加工
2.4.7 數據分析
2.4.8 自動化運行
2.4.9 應用數據集市
2.4.10 結果導齣
2.4.11 結果展現
2.4.12 刪除數據
2.5 小結
第3章 收集海量數據
3.1 DSHIP工具
3.2 收集WEB日誌
3.2.1 場景和需求說明
3.2.2 問題分析和設計
3.2.3 實現說明
3.2.4 進一步探討
3.2.5 為什麼這麼難
3.3 MYSQL數據同步到ODPS
3.3.1 場景和需求說明
3.3.2 問題分析和實現
3.3.3 進一步探討
3.4 下載結果錶
3.5 小結
第4章 使用SQL處理海量數據
4.1 ODPS SQL是什麼
4.2 入門示例
4.2.1 場景說明
4.2.2 簡單的DDL操作
4.2.3 生成數據
4.2.4 單錶查詢
4.2.5 多錶連接JOIN
4.2.6 高級查詢
4.2.7 多錶關聯UNION ALL
4.2.8 多路輸齣(MULTI-INSERT)
4.3 網站日誌分析
4.3.1 準備數據和錶
4.3.2 維度錶
4.3.3 訪問路徑分析
4.3.4 TopK查詢
4.3.5 IP黑名單
4.4 天貓品牌預測
4.4.1 主題說明和前期準備
4.4.2 理解數據
4.4.3 兩個簡單的實踐
4.4.4 問題分析和算法設計
4.4.5 生成特徵
4.4.6 抽取正負樣本
4.4.7 生成模型
4.4.8 驗證模型
4.4.9 預測結果
4.4.10 進一步探討
4.5 小結
第5章 SQL進階
5.1 UDF是什麼
5.2 入門示例
5.3 實際應用案例
5.3.1 URL解碼
5.3.2 簡單的LBS應用
5.3.3 網站訪問日誌UserAgent解析
5.4 SQL實現原理
5.4.1 詞法分析
5.4.2 語法分析
5.4.3 邏輯分析
5.4.4 物理分析
5.5 SQL調優
5.5.1 數據傾斜
5.5.2 一些優化建議
5.5.3 一些注意事項
5.6 小結
第6章 通過TUNNEL遷移數據
6.1 ODPS TUNNEL 是什麼
6.2 入門示例
6.2.1 下載和配置
6.2.2 準備數據
6.2.3 上傳數據
6.2.4 下載數據
6.3 TUNNEL原理
6.3.1 數據如何傳輸
6.3.2 客戶端和服務端如何交互
6.3.3 如何實現高並發
6.4 從HADOOP遷移到ODPS
6.4.1 問題分析
6.4.2 客戶端實現和分析
6.4.3 Mapper實現和分析
6.4.4 編譯和運行
6.4.5 進一步探討
6.5 一些注意點
6.6 小結
第7章 使用MAPREDUCE處理數據
7.1 MAPREDUCE編程模型
7.2 MAPREDUCE應用場景
7.3 初識ODPS MAPREDUCE
7.4 入門示例
7.4.1 準備工作
7.4.2 問題分析
7.4.3 代碼實現和分析
7.4.4 運行和輸齣分析
7.4.5 擴展:使用Combiner?
7.5 TOPK查詢
7.5.1 場景和數據說明
7.5.2 問題分析
7.5.3 具體實現分析
7.5.4 運行和結果輸齣
7.5.5 擴展:忽略Stop Words
7.5.6 擴展:數據和任務統計
7.5.7 擴展: MR2模型
7.6 SQL和MAPREDUCE,用哪個?
7.7 小結
第8章 MAPREDUCE進階
8.1 再談SHUFFLE & SORT
8.2 好友推薦
8.2.1 場景和數據說明
8.2.2 問題定義和分析
8.2.3 代碼實現
8.3 LBS應用探討:周邊定位
8.3.1 場景和數據說明
8.3.2 問題定義和分析
8.3.3 代碼實現和分析
8.3.4 運行和測試
8.4 MAPREDUCE調試
8.4.1 帶bug的代碼
8.4.2 通過本地模式調試
8.4.3 通過Counter調試
8.4.4 通過log調試
8.5 一些注意點
8.6 小結
第9章 機器學習算法
9.1 初識ODPS算法
9.2 入門示例
9.2.1 通過CLT統計分析
9.2.2 通過XLab統計分析
9.3 幾個經典的算法
9.3.1 邏輯迴歸
9.3.2 隨機森林
9.4 天貓品牌預測
9.4.1 邏輯迴歸
9.4.2 隨機森林
9.4.3 腳本實現和自動化
9.4.4 進一步探討
9.5 小結
第10章 使用SDK訪問ODPS服務
10.1 主要的PACKAGE和接口
10.1.1 主要的Package
10.1.2 核心接口
10.2 入門示例
10.3 基於ECLIPSE插件開發
10.4 小結
第11章 ODPS賬號、資源和數據管理
11.1 權限管理
11.1.1 賬號授權
11.1.2 角色(Role)授權
11.1.3 ACL授權特點
11.1.4 簡單的Policy授權
11.1.5 Role Policy
11.1.6 ACL授權和Policy授權小結
11.2 資源管理
11.2.1 Project內的資源管理
11.2.2 跨Project的資源共享
11.3 數據管理
11.3.1 錶生命周期
11.3.2 數據歸並(Merge)
11.3.3 數據保護(Project Protection)
11.4 小結
第12章 深入瞭解ODPS
12.1 體係架構
12.1.1 客戶端
12.1.2 接入層
12.1.3 邏輯層
12.1.4 存儲/計算層
12.2 執行流程
12.2.1 提交作業
12.2.2 運行作業
12.2.3 查詢作業狀態
12.2.4 執行邏輯圖
12.3 底層數據存儲
12.3.1 CFILE是什麼
12.3.2 CFILE邏輯結構
12.4 內聚式框架
12.4.1 元數據
12.4.2 運維管理
12.4.3 多控製集群和多計算集群
12.5 跨集群復製
12.5.1 數據遷移
12.5.2 跨集群同步
12.6 小結
第13章 探索ODPS之美
13.1 R語言數據探索
13.1.1 安裝和配置
13.1.2 一些基本操作
13.1.3 分析建模
13.2 實時流計算
13.3 圖計算模型
13.4 準實時SQL
13.5 機器學習平颱
附錄一 ODPS消息認證機製
後記

































前言/序言

  談起ODPS,還得從阿裏金融的故事說起。一直以來,阿裏金融始終是ODPS的第一客戶,見證瞭ODPS一路的成長曆程。幾年的堅持和信任,我們一起走瞭過來,而且越走越好。
  2010年初,集群規模隻有幾十颱,為瞭完成阿裏金融的信貸産品的模型計算,每天增量同步1TB左右的數據,執行幾十個模型計算,運行時間在18小時左右。當時問題較多,實際上是24小時人肉運維,大傢都習慣瞭淩晨下班,一起解決各種問題。期間的痛自不必說,但一點點的進步,都讓人充滿喜悅。
  2011年初,集群規模達到100多颱,數據規模達到數百TB,模型計算任務量是原來的10倍左右,而運行時間卻不到原來的1/3。集群能力完成計算任務遊刃有餘,大傢第一次體會到一種說不清的舒暢。
  2012年,ODPS集群規模達到1500颱,阿裏金融數據倉庫的所有數據計算都運行在上麵,數據規模達到數PB,運行任務數韆個。用戶體驗也得到不斷改善。
  2013年,ODPS單集群規模達到5000颱,阿裏金融的數據倉庫專傢們,不再需要考慮集群方麵的問題(如升級、擴容、運維等),可以專注於自己的業務,包括數據采集、ETL和數據倉庫構建、BI分析和報錶,通過分布式編程模型生成特徵、衍生指標,通過統計和機器學習構建風險控製模型,把分析建模後的結果數據導齣到綫上係統服務,其中涉及數據安全性、正確性,平颱穩定性和易用性等諸多方麵。阿裏小貸推齣瞭“3-1-0”服務條款:3分鍾申請、1秒鍾獲貸和0人工審批,其背後實質上是“準入資質評估、個性化授信和風險監控”,而這一切離不開海量數據計算的支撐!基於ODPS,阿裏金融可以充分挖掘大數據的價值,實現數據化運營,在大促期間創下瞭30分鍾貸款5億元的紀錄!有瞭強大的存儲和計算支持,各種創新業務不斷開花結果。BI團隊也逐漸把業務遷移到ODPS上,和使用SAS相比,性能上有瞭很大提升。
  阿裏金融不但錘煉瞭ODPS,其成功也為ODPS贏得瞭口碑。在阿裏巴巴集團內,淘寶、支付寶、阿裏媽媽的業務都開始運行在ODPS集群。此外,外部的一些獨立軟件開發商也在使用ODPS。
  迴首走過的路,我們充滿感恩,尤其感謝阿裏金融的一路陪伴。這些年的辛苦耕耘,這些年的積纍和沉澱,我們也更有信心!
  作為一個海量數據處理平颱,ODPS涉及很多前沿技術領域,包括分布式、雲計算和大數據等。本書的定位是幫助ODPS用戶快速瞭解如何使用ODPS解決其實際問題,在內容介紹上是以用戶應用場景為中心,對功能和技術的介紹都是圍繞並服務於這一中心。作者假設用戶是帶著如何使用ODPS解決自身的大數據問題來閱讀本書,期望這本書能夠幫助用戶解決實際問題。
  由於ODPS更新發展非常快,鑒於“齣版”很難趕上“開放”的節奏,本書中也涉及一些尚未開放的功能。本書是依據目前的最新版來寫的,可能後續會有變更,請以最新用戶手冊為準。盡管如此,我相信本書依然是瞭解和學習ODPS必備的“敲門磚”。
  本書重點通過示例來說明如何通過ODPS完成各種需求,寫得盡量簡單、明白。本書不是手冊,因而不會羅列齣詳細的語法說明,也不會全麵覆蓋ODPS的所有功能。實際上,由於是基於示例引導,它展示的僅僅是ODPS功能的冰山一角。你可以通過實踐和使用手冊瞭解更多。本書的在綫地址是如果你願意參與一起改進,將不甚感激。
  緻謝
  感謝所有為本書付齣努力的同事們!要感謝的人太多,在此不一一列齣。但我卻不能不特彆提到阿裏巴巴研究員張東暉先生,如果沒有他的指導、幫助和鼓勵,就不會有這本書。感謝阿裏****和加州大學祝效國教授百忙中抽空閱讀本書並作序。
  最後,衷心希望這本書能帶給你美好的ODPS編程之旅!
  李妹芳
  於阿裏(北京),2014年9月


ODPS權威指南:阿裏大數據平颱應用開發實踐 下載 mobi epub pdf txt 電子書 格式

ODPS權威指南:阿裏大數據平颱應用開發實踐 mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2024

ODPS權威指南:阿裏大數據平颱應用開發實踐 下載 mobi pdf epub txt 電子書 格式 2024

ODPS權威指南:阿裏大數據平颱應用開發實踐 下載 mobi epub pdf 電子書
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

書沒塑封 隻有9成新 書沒塑封 隻有9成新

評分

技術前沿經典,慢慢品讀!

評分

應該很好吧,現在纔看到封麵

評分

京東購買,值得信賴!包裝配送售後都很讓人放心,大寫加粗的好評!

評分

比較適閤入門級的讀者

評分

很好很好很好很好很好

評分

不錯不錯不錯不錯不錯不錯不錯不錯不錯不錯

評分

看瞭一百頁左右,感覺還行,就是價格不便宜。

評分

送貨很快,不錯質量還好

類似圖書 點擊查看全場最低價

ODPS權威指南:阿裏大數據平颱應用開發實踐 mobi epub pdf txt 電子書 格式下載 2024


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有