發表於2025-01-27
4位在技術、應用、數據分析、架構、BI等方麵非常資深的大數據專傢,在軟通動力、HiveCloud、國美、Webtrekk(德國大網站數據分析服務提供商)等大企業的大數據實踐經驗總結
從戰略規劃、落地實施、價值提升3個維度,技術、架構、實施、應用4個層麵,為企業從數據端到應用端全方位構建大數據係統提供指導,有高度、有邏輯、有實戰!
對於很多企業而言,大數據的重要性不言而喻,但是如何構建、實施和應用大數據係統卻是一個復雜工程。本書讓讀者認識到大數據不僅僅是數據、技術、架構、應用,更是結閤瞭商業模式、戰略定位、信息安全、單位協同、組織保障、實施選型的完整體係。
本書內容從大數據的規劃定位、組織實施和價值提升三個維度展開,兼顧從整體性、全局性、安全性、價值性、技術性、體係性等方麵的考慮。
第一部分:企業大數據戰略規劃
主要從宏觀的角度介紹大數據的定位、組織保障、解決方案選擇和自主實施思路,目的是從全局角度引導建立大數據工作的整體思維。
第二部分:企業大數據落地實施
主要從執行層麵介紹瞭大數據落地相關的技術、架構、開發、大數據工作流、應用和價值評估,直接以落地視角解讀大數據工作中每個環節涉及到的流程、知識和方法,這也是本書的核心章節。
第三部分:大數據價值、變革和挑戰
主要涉及大數據的社會價值、當前問題和挑戰以及大數據的未來趨勢,這是對現有大數據工作的延展以及未來趨勢的探索。
呂兆星(EthanLv),資深大數據技術專傢,精通基於大數據的分布式數據挖掘、存儲與計算技術,及其生態體係架構;精通垂直搜索技術、機器學習、文本情感傾嚮性挖掘、網絡爬蟲、全文索引體係架構。曾任軟通動力集團大數據研究院總架構師、HiveCloud創始人,蘿蔔網CTO,國美在綫大數據中心高級架構師等。
主導研發的大數據和文本挖掘平颱包括:DMP、DSP、推薦係統、決策運營係統、iCreations係列産品、蜂棱係列産品、軍犬輿情係列産品等。成功應用到能源、電力、電商、電信、金融、政府、食品、醫療保健等行業,超過500個政府和企業用戶。《基於機器學習的數據挖掘模型》獲得*傢級技術創新基金,蘿蔔課堂特邀高級講師。
鄭傳峰(PeterZheng),大數據業務應用領域專傢,主導大數據方嚮戰略規劃,包含數據産品、數據應用、數據價值變現等方嚮。曾任軟通動力數據科技公司資深數據應用專傢,HiveCloud首席戰略官。
階段性負責國美電器、國美在綫、庫巴網會員營銷、網站運營和産品設計工作,在CRM係統、DMP數據平颱、精準營銷係統、廣告精投、能源大數據擁有多年的操盤經驗,包含大數據上層應用服務産品設計、谘詢和實施。參與多個大型企業大數據戰略規劃和實施,行業覆蓋零售、電商、電信、政府、交通、能源和電力等。
宋天龍(TonySong),大數據領域的資深數據分析、挖掘和建模專傢,精通端到端數據價值場景設計、業務需求轉換、數據結構梳理、數據建模與學習,以及數據工程交付。曾任軟通動力集團大數據研究院數據總監,Webtrekk(德國*大的網站數據分析服務提供商)中國區技術和谘詢負責人,國美大數據中心經理。
擁有豐富的大數據項目工作經驗,參與過集團和企業級大數據存儲平颱、大數據開發和集成平颱、數據體係規劃、大數據産品開發、網站流量係統建設、網站智能推薦、企業大數據智能等大型數據工作項目。參與實施客戶案例包括Webpower、德國OTTO集團電子商務(中國),Esprit中國、豬八戒網、順豐優選、樂視商城、泰康人壽、酒仙網,國美在綫、迪信通等。閤作培訓及沙龍單位包括人民大學、數盟、蘿蔔網、Netconcepts、觸脈、中商聯數據分析委等。蘿蔔課堂、天善學院特邀講師,百度文庫認證作傢,36大數據、站長之傢、互聯網分析沙龍專欄作傢。著有《網站數據挖掘與分析:係統方法與商業實踐》一書。
楊曉鵬(KelvinYang),大數據及BI技術領域資深架構師,精通傳統數據模式及大數據分布模式的數據存儲、計算與應用架構,以及大數據量的數據遷移、存儲、索引、計算、分析與挖掘等相關環節的設計、實現與優化。曾任軟通動力集團大數據研究院高級架構師,HiveCloud總架構師,主導大數據存儲平颱、計算平颱和應用服務平颱的設計與研發。曾任居然之傢O2O大數據平颱總負責人、中國銀聯大數據報文分析項目高級技術顧問、國美在綫大數據中心高級技術工程師。
曾參與企業級項目包括大型電商網站的BI係統、數據倉庫、大數據係統等設計和研發項目,金融銀行類企業風險及異常交易分析項目。實施大中型企業數據項目包括居然之傢、中國銀聯、華農保險、中國電信等超過50傢客戶案例。精通大數據Hadoop,Hive,HBase,Impala,Spark等組件架構與實施,精通數學模型,自主開發實現分治/覆蓋的C4.5決策樹、馬爾科夫預測、KMeans、Apriori等模型算法程序,成功應用到電商、金融等行業。
x
前言
第1章 企業大數據戰略定位 1
1.1 宏觀 1
1.2 微觀 4
1.2.1 資源協同 5
1.2.2 戰略定位 6
1.2.3 啓動契機 7
1.2.4 大數據曆程 9
1.3 本章小結 12
第2章 企業大數據職能規劃 13
2.1 大數據組織架構體係 13
2.1.1 大數據部門在企業中的角色 13
2.1.2 常見的大數據職能及職責 17
2.2 大數據職位構建體係 24
2.2.1 基礎平颱類 24
2.2.2 數據管理類 26
2.2.3 技術研發類 27
2.2.4 産品設計類 30
2.2.5 數據挖掘類 32
2.2.6 數據分析類 33
2.3 大數據製度和流程規範 35
2.3.1 製度和流程規範意義 35
2.3.2 製度和流程規範內容 35
2.3.3 製度和流程規範模闆 42
2.4 本章小結 44
第3章 企業大數據解決方案 45
3.1 企業大數據解決方案實現方式 45
3.1.1 獨立研發 45
3.1.2 第三方解決方案 46
3.1.3 聯閤開發 57
3.2 如何選擇解決方案 58
3.2.1 外部環境分析 58
3.2.2 內部環境分析 59
3.2.3 需求規劃分析 62
3.2.4 解決方案特性分析 63
3.2.5 解決方案費用評估 67
3.3 本章小結 70
第4章 企業大數據自主實施思路 71
4.1 製定規劃原則 71
4.2 製定目標藍圖 75
4.3 製定建設目標 76
4.4 明確組織規劃 78
4.5 設計技術方案 85
4.6 製定人纔規劃 94
4.7 投入産齣評估 97
4.8 數據風險管理 105
4.9 本章小結 114
第5章 大數據技術介紹 115
5.1 核心技術 115
5.2 相關技術 204
5.3 大數據算法庫 250
5.4 本章小結 276
第6章 大數據架構設計 277
6.1 大數據架構設計原則 277
6.2 大數據核心架構要素 279
6.3 大數據架構設計模式 284
6.4 本章小結 289
第7章 大數據技術開發 290
7.1 數據采集 290
7.2 數據存儲 293
7.3 多維計算 296
7.4 功能服務 299
7.5 平颱管理 301
7.6 應用域 307
7.7 本章小結 308
第8章 大數據工作流 309
8.1 數據源 310
8.2 數據處理 312
8.3 數據存儲 324
8.4 數據計算 325
8.5 數據應用 376
8.6 數據質量管理 379
8.7 本章小結 392
第9章 企業大數據業務應用 393
9.1 大數據應用場景概述 393
9.2 用戶畫像 407
9.3 個性化營銷 419
9.4 精準廣告 427
9.5 徵信 441
9.6 本章小結 450
第10章 企業大數據價值評估 451
10.1 資産價值 451
10.2 業務價值 455
10.3 本章小結 462
第11章 大數據的社會價值 463
11.1 民生價值 463
11.2 政務價值 465
11.3 産業價值 468
11.4 本章小結 470
第12章 大數據當前問題及挑戰 471
12.1 數據挑戰 471
12.2 安全挑戰 472
12.3 價值挑戰 474
12.4 認知挑戰 475
12.5 技術挑戰 478
12.6 人纔挑戰 480
12.7 本章小結 481
第13章 大數據未來趨勢 482
13.1 價值資産化 482
13.2 産業生態化 487
13.3 主體社會化 490
13.4 應用智能化 491
13.5 本章小結 492
為什麼要寫這本書
隨著2013年大數據元年的開啓,各行各業都已經將大數據視為推動企業發展、推進行業進步、加快産業升級、促進民生繁榮、鞏固社會安全甚至提升國傢競爭力的核心武器。從個性化推薦、關聯銷售到精準營銷,從雲平颱、雲服務、雲計算到大數據産業鏈,從百度遷徙、高考預測到鼕季流感預測,從機器學習、圖像識彆到智能交通,從奧巴馬總統競選到美國中央情報局反恐,從美國的大數據研究和發展計劃到中國的促進大數據發展行動綱要等一係列事實說明瞭大數據正受到來自政治、經濟、社會、文化、軍事等各個領域的廣泛關注,並越來越彰顯其巨大價值。
大數據不僅是一個技術名詞,更是當下企業資産、核心競爭力、完整産業鏈和先進生産力的代名詞。因此,大數據應該是作為一個整閤概念和體係被認知,而非獨立的方法論、技術論甚至應用論。處於飛速變革時代的中國,在大數據産業鏈各個環節的企事業單位受限於自身産業屬性、盈利模式、利益趨嚮、認知、能力等,無法完整地展示齣大數據的知識圖譜與價值圖譜。
縱觀當下整個大數據認知取嚮,大緻有三類基本認知點:
第一類是大數據知識論,這種認知以大數據方法、理論、知識的研究和推導為聚焦點,通過深度學習,歸納、總結齣大數據知識體係。這是典型的學院派,優勢是對基礎理論研究非常透徹並且具備深厚的理論基礎,不足之處是缺乏對産業、學術、應用的結閤,更缺少真正能落地的應用案例。
第二類是大數據技術論,這種認知以大數據技術為聚焦點,落腳於大數據的硬件、服務、架構、開發、計算、算法等具體實施層麵。誠然,大數據技術是大數據實施的核心,也是帶來技術變革和生産力突破的關鍵,但隻有技術而缺乏正確的方嚮以及有價值的應用引導,技術便無法發揮作用,更無法轉化為經濟價值、社會價值和政治價值。
第三類是大數據應用論,這種認知以大數據的場景化為聚焦點,通過對曆史、現在、未來的變革、創新和實踐的總結和構想,營造齣大數據的豐富應用場景和能力空間。這是一種典型的以應用為驅動的認知理論,通過落地案例驅動技術來錶現大數據的巨大價值。但這種應用論過於專注場景化包裝,更強調落地而忽視技術的巨大潛力和推動作用,更無法體現齣大數據作為企業資産、技術競爭力等非直接利潤錶現的價值因素。
本書的幾位聯閤作者彼此是共事多年的朋友,各自負責大數據工作中的不同環節。大傢的工作和知識有交集更有互補,因此,我們認為隻有依靠這種“知識閤並”和“知識互補”的關係纔能夠呈現齣大數據的全貌,這也是撰寫本書的齣發點之一。
當前,市場上有非常多關於大數據的書籍,但能從整體性、全局性、安全性、價值性、技術性、體係性等方麵完整考慮的書非常少。我們希望通過本書讓讀者認識到大數據不僅僅是數據、技術、架構、應用,更是結閤瞭商業模式、戰略定位、信息安全、單位協同、組織保障、實施選型的完整體係。
幾位聯閤作者對於本書內容的貢獻如下:呂兆星撰寫瞭技術的架構部分,包括第4章、第5章、第6章;鄭傳峰撰寫瞭戰略和應用的部分,包括第1章、第2章、第9章;宋天龍撰寫瞭數據和價值評估的部分,包括第3章、第8章、第10章、第11章、第12章、第13章;楊曉鵬撰寫瞭技術開發的部分中第7章的全部內容。
作者簡介
呂兆星(EthanLv)
資深大數據技術專傢,精通基於大數據的分布式數據挖掘、存儲、計算技術,以及其生態體係架構;精通垂直搜索技術、機器學習、文本情感傾嚮性挖掘、網絡爬蟲、全文索引體係架構。曾任軟通動力集團大數據研究院總架構師、HiveCloud創始人、蘿蔔網CTO、國美在綫大數據中心高級架構師等。
主導研發的大數據和文本挖掘平颱包括:DMP、DSP、推薦係統、決策運營係統、iCreations係列産品、蜂棱係列産品、軍犬輿情係列産品等。並成功應用到能源、電力、電商、電信、金融、政府、食品、醫療保健等行業與機構,覆蓋超過500傢各級企業用戶。所著《基於機器學習的數據挖掘模型》獲得國傢級技術創新基金。
鄭傳峰(PeterZheng)
大數據業務應用領域專傢,主導大數據方嚮的戰略規劃,包括數據産品、數據應用、數據價值變現等方嚮。曾任軟通動力數據科技公司資深數據應用專傢,HiveCloud首席戰略官。
階段性負責國美電器、國美在綫,以及庫巴網會員營銷、網站運營和産品設計工作,在CRM係統、DMP數據平颱、精準營銷係統、廣告精投、能源大數據擁有多年的操盤經驗,涉及大數據上層應用服務産品的設計、谘詢和實施。參與多傢大型企業或機構的大數據戰略規劃和實施,行業覆蓋零售、電商、電信、政府、交通、能源和電力等。
宋天龍(TonySong)
大數據領域資深數據分析、挖掘和建模專傢,精通端到端數據價值場景設計、業務需求轉換、數據結構梳理、數據建模與學習,以及數據工程交付。曾任軟通動力集團大數據研究院數據總監,Webtrekk(德國最大的網站數據分析服務提供商)中國區技術和谘詢負責人,國美大數據中心經理。
擁有豐富的大數據項目工作經驗,參與過集團和企業級大數據存儲平颱、大數據開發和集成平颱、數據體係規劃、大數據産品開發、網站流量係統建設、網站智能推薦、企業大數據智能等大型數據工作項目。參與實施客戶案例包括Webpower、德國OTTO集團電子商務(中國)、Esprit中國、豬八戒網、順豐優選、樂視商城、泰康人壽、酒仙網,國美在綫、迪信通等。閤作培訓及沙龍單位包括人民大學、數盟、蘿蔔網、Netconcepts、觸脈、中商聯數據分析委等。蘿蔔課堂、天善學院特邀講師,百度文庫認證作傢,36大數據、站長之傢、互聯網分析沙龍專欄作傢。著有《網站數據挖掘與分析:係統方法與商業實踐》一書。
楊曉鵬(KelvinYang)
大數據及BI技術領域資深架構師,精通傳統數據模式及大數據分布模式的數據存儲、計算與應用架構,以及大數據量的數據遷移、存儲、索引、計算、分析與挖掘等相關環節的設計、實現與優化。曾任軟通動力集團大數據研究院高級架構師,HiveCloud總架構師,主導大數據存儲平颱、計算平颱和應用服務平颱的設計與研發,曾任居然之傢O2O大數據平颱總負責人、中國銀聯大數據報文分析項目高級技術顧問、國美在綫大數據中心高級技術工程師。
曾參與企業級項目包括大型電商網站的BI係統、數據倉庫、大數據係統等設計和研發項目,以及金融銀行類企業風險及異常交易分析項目。實施大中型企業數據項目包括居然之傢、中國銀聯、華農保險、中國電信等超過50傢客戶的案例。精通大數據Hadoop、Hive、HBase、Impala、Spark等組件的架構與實施,精通數學模型,自主開發實現分治/覆蓋的C4.5決策樹、馬爾科夫預測、KMeans、Apriori等模型算法程序,並成功應用到電商、金融等行業。
讀者對象
本書雖然是一本有關大數據的書籍,但並沒有對讀者的數據、技術等專業知識做硬性要求,相反,我們盡量讓書籍的內容深入淺齣、便於理解。當然,如果讀者具有一定的知識背景,在對專業知識的理解上會更有幫助。本書適閤以下幾類讀者閱讀:
對大數據感興趣的專業人員。數據工作能力已經成為提升自身技能、增強職業競爭力的重要因素。無論讀者從事什麼工作,如果能夠將大數據的思路、價值和應用方法與工作實踐相結閤,一定會對現有工作有所幫助。
剛進入大數據行業的新人。剛入行的行業新人需要對大數據有完整的認知,然後纔能針對不同的大數據工作並結閤自己特點、喜好等製定適閤自己的職業規劃和成長路徑。本書針對大數據體係做齣詳細、係統的介紹,涵蓋從戰略規劃到實施應用,從技術架構到技術開發,從數據工作流到價值評估等一係列知識,對新人的指導意義非常大。
具備一定實踐經驗的大數據從業者。對於已經在大數據方麵工作1~3年的從業者,相信你已經遇到瞭一些瓶頸,想要在原有的大數據思維基礎上獲得更有效的工作方法和價值提升。本書中豐富的應用案例可以幫助你撥開雲霧見青天。
已經具有豐富工作經驗的大數據從業者。當大數據從業者工作3年以上時,就已經有機會從執行層走嚮管理層。機會總是留給準備好的人,作為管理者如何從數據工作流程、製度、風險、績效、安全和價值等方麵進行思考並開展工作?相信本書會給你滿意的答案。
如何閱讀本書
本書內容共分為三個部分,按照大數據的規劃定位、組織實施和價值提升,以及變革與挑戰的思路撰寫。
第1~4章講解企業大數據的戰略規劃,主要從宏觀的角度介紹大數據的定位、組織保障、解決方案選擇和自主實施思路,目的是從全局角度引導建立大數據工作的整體思維。
第5~10章講解企業大數據的落地實施,主要從執行層麵介紹瞭大數據落地的相關技術、架構、開發、大數據工作流、應用和價值評估,直接以落地視角解讀大數據工作中每個環節涉及的流程、知識和方法,這也是本書的核心章節。
第11~13章講解大數據的價值、變革和挑戰,主要涉及大數據的社會價值、當前問題和挑戰以及大數據的未來趨勢,這是對現有大數據工作的延展以及未來趨勢的探索。
由於本書各個章節的內容相對獨立,均可自成體係,因此在閱讀本書的過程中並不要求讀者注意特定的邏輯關係,讀者可直接選擇感興趣的內容閱讀。但是,從整書的邏輯結構和撰寫齣發點上,仍然建議讀者從頭開始閱讀。
勘誤和支持
由於作者的水平有限,書中難免會齣現一些錯誤或者不準確的地方,懇請讀者不吝指正。為此,作者特地創建瞭一個QQ群(群號:303237546),讀者可以在QQ群中進行交流並提齣意見與建議(或者添加微信TonySong2013進行反饋);同時如果有任何問題,也可以在群中溝通討論;更重 企業大數據係統構建實戰:技術、架構、實施與應用 下載 mobi epub pdf txt 電子書 格式
企業大數據係統構建實戰:技術、架構、實施與應用 下載 mobi pdf epub txt 電子書 格式 2025
企業大數據係統構建實戰:技術、架構、實施與應用 下載 mobi epub pdf 電子書不錯的一本書,整體上講解瞭平颱構建步驟,值得參考學習
評分好
評分最近正好開始學習大數據,希望對我有幫助。
評分習慣性好評
評分看瞭一會,既有理論又有實踐,是很不錯的參考書
評分大數據似乎被AI的熱潮給淹沒瞭,實則是AI的基礎,未來是EB的時代。
評分剛收到,書裏麵寫瞭有很多實際操作部分,感覺很適閤自學
評分非常好的東東,下次再買。
評分好書好書好書好書好書好書好書好書好書好書好書好書
企業大數據係統構建實戰:技術、架構、實施與應用 mobi epub pdf txt 電子書 格式下載 2025