大數據日知錄 架構與算法

大數據日知錄 架構與算法 下載 mobi epub pdf 電子書 2024


簡體網頁||繁體網頁
張俊林 著



點擊這裡下載
    

想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2024-11-22

類似圖書 點擊查看全場最低價


圖書介紹

齣版社: 電子工業齣版社
ISBN:9787121241536
版次:1
商品編碼:11540991
品牌:Broadview
包裝:平裝
叢書名: 十二五國傢重點圖書齣版規劃項目
開本:16開
齣版時間:2014-09-01
用紙:膠版紙
頁數:404
字數:587000
正文語種:中文


相關圖書





圖書描述

産品特色


編輯推薦

  1.大數據領域技術專傢、暢銷書《這就是搜索引擎:核心技術詳解》作者張俊林全新力作,曆時3年,質量上乘
  2.《大數據》《信息檢索導論》譯者王斌、機器學習專傢張棟、新浪微博平颱及大數據總經理劉子正、盛大文學首席數據官陳運文、CSDN/《程序員》創始人蔣濤聯袂力薦
  3.全麵梳理大數據相關技術,從數據、算法、策略、應用和係統架構等多個維度進行剖析,包羅萬象又深入淺齣
  4.內容全部是乾貨,緊跟技術前沿,是作者理論與實踐經驗的總結,非常值得一讀
  5.每章後列有精選高質量論文,可以節約讀者篩選讀物的時間

內容簡介

  大數據是當前流行的熱點概念之一,其已由技術名詞衍生到對很多行業産生顛覆性影響的社會現象,作為明確的技術發展趨勢之一,基於大數據的各種新型産品必將會對每個人的日常生活産生日益重要的影響。
  張俊林著的這本《大數據日知錄:架構與算法》從架構與算法的角度全麵梳理瞭大數據存儲與處理的相關技術。大數據技術具有涉及的知識點異常眾多且正處於快速演進發展過程中等特點,其技術點包括底層的硬件體係結構、相關的基礎理論、大規模數據存儲係統、分布式架構設計、各種不同應用場景下的差異化係統設計思路、機器學習與數據挖掘並行算法以及層齣不窮的新架構、新係統等。本書對眾多紛繁蕪雜的相關技術文獻和係統進行瞭擇優汰劣並係統性地對相關知識分門彆類地進行整理和介紹,將大數據相關技術分為大數據基礎理論、大數據係統體係結構、大數據存儲,以及包含批處理、流式計算、交互式數據分析、圖數據庫、並行機器學習的架構與算法以及增量計算等技術分支在內的大數據處理等幾個大的方嚮。通過這種體係化的知識梳理與講解,相信對於讀者整體和係統地瞭解、吸收和掌握相關的技術有很大的幫助與促進作用。

作者簡介

  張俊林,是技術書籍《這就是搜索引擎:核心技術詳解》的作者,目前擔任暢捷通智能平颱總監。在此之前,張俊林曾經在阿裏巴巴搜索技術中心、百度商務搜索部鳳巢廣告平颱以及新浪微博搜索部及數據係統部擔任資深技術專傢,新浪微博技術委員會成員,負責算法策略方嚮。張俊林還曾是智能信息聚閤網站“玩聚網”的聯閤創始人之一。他的研發興趣集中在:搜索技術、推薦係統、社交挖掘、自然語言處理與大數據算法架構等方麵,並在以上領域有多年工業界實踐經驗。張俊林本科畢業於天津大學管理學院,1999年至2004年在中科院軟件所直接攻讀博士學位,研究方嚮是信息檢索理論與自然語言處理,就學期間曾在ACL/COLING/IJCNLP等國際會議發錶多篇學術論文,另外,他在此期間領導設計的搜索係統曾在美國國防部DARPA主持的TREC第二屆高精度檢索係統評測中在17隻國際高水平研究團隊激烈競爭中勝齣並取得綜閤排名前列的優異成績。

內頁插圖

精彩書評

  我和俊林接觸不多但神交已久,幾年前我看過他一本搜索方麵的技術書籍,覺得寫得相當不錯,從此俊林的書都是必然要收藏的。看瞭這本書,感覺和上一本一樣齣色。和其他介紹大數據技術的書相比,這本書的涉及麵相當廣,覆蓋瞭當前大數據技術(分布式計算、大規模文件係統、NoSQL數據庫、常用數據結構和算法、批處理和流式計算、圖數據庫、分布式機器學習等)的方方麵麵。實在且實用,我想是這本書的特點,誠摯推薦對大數據技術感興趣的讀者閱讀。
  ——王斌
  中國科學院信息工程研究所研究員、博士生導師,《大數據》《信息檢索導論》譯者

  本書區彆於市場上已有的眾多大數據概念類書籍,重點講述瞭解決大數據問題的算法與架構,全書邏輯清晰,重點突齣,講述復雜算法時圖文並茂,可以看齣作者將實際工作經驗結閤理論,在本書上花瞭很多心血,相信能幫助從事大數據工作的所有工程技術人員。
  ——張棟
  原百度科學傢,鳳巢係統架構師;原Google研究員,機器學習專傢

  此書內容跨度很大,可稱為大數據領域“從入門到精通”的教科書,非常全麵且係統化。人人都在談論大數據,但事實上並沒有人告訴大傢大數據到底是什麼、涵蓋哪些方麵,而此書可以給齣答案。
  ——劉子正
  新浪微博平颱及大數據總經理

  這是一本大數據技術的百科全書——從大數據的存儲結構、內容管理,講到集群任務調度、分布式數據通信、流行的各類新式數據庫的介紹,還有基於機器學習技術的大數據實現以及大數據挖掘應用範例等內容,既包羅萬象,又深入淺齣。俊林的這本心血之作,是大數據研發人員絕好的技術嚮導。
  ——陳運文
  盛大文學首席數據官

  大數據已成為上到國傢領導人,下到媒體會議必談話題,但大數據的應用時代纔剛剛開始,各大互聯網公司都奇缺熟悉Hadoop、分布式係統開發和數據分析挖掘的人纔,張俊林這本書全麵展示瞭大數據相關的技術,理論算法和實踐,有廣度有深度,對於希望掌握大數據技術的開發者是必備利器。
  ——蔣濤
  CSDN總裁、《程序員》雜誌創始人

目錄

第0 章 當談論大數據時我們在談什麼 1
0.1 大數據是什麼2
0.2 大數據之翼:技術範型轉換.4
0.3 大數據商業煉金術6
0.4 “大數據”在路上.7
第1 章 數據分片與路由 9
1.1 抽象模型.10
1.2 哈希分片(HashPartition) 11
1.2.1 RoundRobin11
1.2.2 虛擬桶(VirtualBuckets) 12
1.2.3 一緻性哈希(ConsistentHashing) .13
1.3 範圍分片(RangePartition) 18
參考文獻19
第2 章 數據復製與一緻性20
2.1 基本原則與設計理念21
2.1.1 原教旨CAP 主義21
2.1.2 CAP 重裝上陣(CAPReloaded).23
2.1.3 ACID 原則.24
2.1.4 BASE 原則.24
2.1.5 CAP/ACID/BASE三者的關係.25
2.1.6 冪等性(Idempotent)26
2.2 一緻性模型分類.26
2.2.1 強一緻性27
2.2.2 最終一緻性28
2.2.3 因果一緻性.28
2.2.4 “讀你所寫”一緻性29
2.2.5 會話一緻性29
2.2.6 單調讀一緻性30
2.2.7 單調寫一緻性.30
2.3 副本更新策略.30
2.3.1 同時更新30
2.3.2 主從式更新.31
2.3.3 任意節點更新32
2.4 一緻性協議.32
2.4.1 兩階段提交協議(Two-PhraseCommit,2PC)33
2.4.2 嚮量時鍾(VectorClock) 38
2.4.3 RWN 協議.40
2.4.4 Paxos 協議.42
2.4.5 Raft 協議.45
參考文獻49
第3 章 大數據常用的算法與數據結構51
3.1 布隆過濾器(BloomFilter) 51
3.1.1 基本原理.52
3.1.2 誤判率及相關計算52
3.1.3 改進:計數BloomFilter53
3.1.4 應用54
3.2SkipList55
3.3 LSM 樹58
3.4 Merkle 哈希樹(MerkleHash Tree) .62
3.4.1 Merkle 樹基本原理62
3.4.2 Dynamo 中的應用.63
3.4.3 比特幣中的應用63
3.5 Snappy 與LZSS 算法65
3.5.1 LZSS 算法.65
3.5.2Snappy67
3.6 Cuckoo 哈希(CuckooHashing) 67
3.6.1 基本原理.68
3.6.2 應用:SILT 存儲係統.68
參考文獻.70
第4 章 集群資源管理與調度.71
4.1 資源管理抽象模型.72
4.1.1 概念模型72
4.1.2 通用架構.73
4.2 調度係統設計的基本問題.74
4.2.1 資源異質性與工作負載異質性74
4.2.2 數據局部性(DataLocality) 75
4.2.3 搶占式調度與非搶占式調度.75
4.2.4 資源分配粒度(AllocationGranularity) .76
4.2.5 餓死(Starvation)與死鎖(Dead Lock)問題.76
4.2.6 資源隔離方法77
4.3 資源管理與調度係統範型.77
4.3.1 集中式調度器(MonolithicScheduler).78
4.3.2 兩級調度器(Two-LevelScheduler) .79
4.3.3 狀態共享調度器(Shared-StateScheduler) 79
4.4 資源調度策略.81
4.4.1 FIFO 調度策略81
4.4.2 公平調度器(FairScheduler)81
4.4.3 能力調度器(CapacityScheduler) 82
4.4.4 延遲調度策略(DelayScheduling)82
4.4.5 主資源公平調度策略(DominantResource Fair Scheduling).82
4.5 Mesos.84
4.6YARN87
參考文獻90
第5 章 分布式協調係統.91
5.1 Chubby 鎖服務.92
5.1.1 係統架構93
5.1.2 數據模型94
5.1.3 會話與KeepAlive 機製.95
5.1.4 客戶端緩存.95
5.2 ZooKeeper96
5.2.1 體係結構.96
5.2.2 數據模型(DataModel) .97
5.2.3 API.98
5.2.4 ZooKeeper 的典型應用場景98
5.2.5 ZooKeeper 的實際應用.103
參考文獻.104
第6 章 分布式通信106
6.1 序列化與遠程過程調用框架107
6.1.1 ProtocolBuffer 與Thrift .108
6.1.2Avro.109
6.2 消息隊列.110
6.2.1 常見的消息隊列係統110
6.2.2 Kafka.111
6.3 應用層多播通信(Application-LevelMulti-Broadcast)114
6.3.1 概述.114
6.3.2 Gossip 協議.115
參考文獻118
第7 章 數據通道.120
7.1 Log 數據收集.120
7.1.1Chukwa121
7.1.2Scribe122
7.2 數據總綫123
7.2.1Databus125
7.2.2 Wormhole.127
7.3 數據導入/導齣.128
參考文獻.129
第8 章 分布式文件係統131
8.1 Google 文件係統(GFS) .132
8.1.1 GFS 設計原則.132
8.1.2 GFS 整體架構133
8.1.3 GFS 主控服務器134
8.1.4 係統交互行為.136
8.1.5 Colossus137
8.2 HDFS138
8.2.1 HDFS 整體架構.139
8.2.2 HA 方案140
8.2.3 NameNode 聯盟143
8.3 HayStack 存儲係統145
8.3.1 HayStack 整體架構.146
8.3.2 目錄服務147
8.3.3 HayStack 緩存.148
8.3.4 HayStack 存儲係統的實現.148
8.4 文件存儲布局.150
8.4.1 行式存儲151
8.4.2 列式存儲.151
8.4.3 混閤式存儲156
8.5 糾刪碼(ErasureCode).158
8.5.1 Reed-Solomon 編碼.159
8.5.2 LRC 編碼.164
8.5.3 HDFS-RAID 架構.166
參考文獻.166
第9 章 內存KV 數據庫.168
9.1 RAMCloud169
9.1.1 RAMCloud 整體架構169
9.1.2 數據副本管理與數據恢復170
9.2Redis172
9.3 MemBase.173
參考文獻175

前言/序言

  像移動互聯網、O2O、可穿戴設備等概念一樣,“大數據”從甫一提齣到颶風般席捲並風靡全球,從最初的技術名詞到形成滲透到各行各業的社會現象,所耗時間僅幾年而已,其興也勃焉。
  那麼,大數據是否會像很多曾經火熱現在已難覓蹤跡的流行概念一樣,將來某日,人們靜心抬眼,發現風已去而水波不興,徒留夕陽下波光粼粼的漣漪,讓人不禁哀嘆其亡也忽焉?
  本書的背景
  目前看仿佛有此跡象,當一個概念火爆到從街頭隨便抓一個路人,他都能跟你滔滔不絕地侃侃而談;當一個新名詞鋪天蓋地而來,讓你熟悉到再見一次就要吐的程度,這些確實是典型的泡沫將破的徵兆。目前業已齣現越來越多的質疑聲音,在這種狂熱的氛圍下,理性的質疑是最難能可貴的,畢竟大數據歸根結底是少數派的遊戲,而現狀好像是人人都處於大數據進行時的狀態,這讓其看上去顯得不甚理性。
  但是,從社會發展趨勢的角度,很明顯大數據會是目前肉眼可及的視野範圍裏能看到的最大趨勢之一。從傳統IT業到互聯網、互聯網到移動互聯網,從以智能手機和Pad為主要終端載體的移動互聯網到可穿戴設備的移動互聯網,然後再到萬物互聯的物聯網,這一定是不可違抗的發展規律和前進方嚮。伴隨著這個趨勢必然有越來越多、形態越來越豐富的超量數據不斷産生,而大數據明顯是由此衍生齣來的明確且必然的發展趨勢。
  所以,歸根結底,大數據概念是個短期內炒得過熱,但是從長期來看炒得不足的領域。再過十年如果迴望現在,也許會發現:我們今天正在巍峨群山的山腳徘徊,試圖找齣一條通往山頂的羊腸小道,如此而已。我們當然不能盲目跟風不斷追逐切換熱點,但是忽視趨勢的力量同樣也不是一個理性的選擇。
  本書的內容
  以上所述是本書誕生的大背景,目前市麵上陸陸續續已經有不少講大數據的書,有麵嚮大眾的概念普及類圖書,也有講解大數據技術的書,本書屬於第二類,專注於大數據處理有關的架構與算法,我相信這是一本比較全麵地分門彆類梳理大數據技術的書籍。從大約2010年年底起我開始關注並收集整理這方麵的技術資料,當然那時還沒有聽說過大數據的概念,現在的所謂大數據已經是後來的事情瞭,最初引起我關注的是NoSQL相關的技術,尤其是Google和亞馬遜的一係列相關工作,當時隱約地覺得這是一種新的技術發展趨勢,甚至是一次技術範型的大轉換,所以逐步開始投入越來越多的精力到其中,這包括將相關技術資料分門彆類地進行收集、閱讀和整理,利用業餘時間開始一章一節地慢慢寫本書,以及在實際工作中盡可能地應用這些技術和係統等若乾方麵。
  本書的寫作
  斷斷續續完成本書花瞭大約3年左右的時間,和最初預估的時間還是比較吻閤的,這一方麵是由於我可投入的時間本身就不多,但是還是希望能夠寫齣一本高質量的技術書籍,所以不得不慢工齣細活;另外一方麵是由於大數據處理作為一個新領域,其涉及的方方麵麵的技術點實在太多,而且正處於快速的發展過程中。這個領域是我接觸過的領域中知識涵蓋麵最廣的,從底層的硬件開始,到涉及基礎理論、大規模數據存儲係統、分布式架構設計、各種不同適用場景下的差異化係統設計思路、機器學習與數據挖掘並行算法、層齣不窮的新架構和新係統等,說無所不包有些誇張但是所需掌握知識點之多確實是很少見的。而且因為其處於快速發展的過程當中,所以各種技術紛繁蕪雜,並無一個成熟的知識分類體係可供參考,需要不斷梳理相關知識點之間的相互區彆和聯係並進行分門彆類,如何將紛雜多樣的技術梳理成清晰閤理的章節內容曾讓我頭疼不已,當然發展到目前,整個大數據技術體係脈絡已經日漸明晰,我相信參考本書目錄可以清晰地發現這一點。另外一個阻礙是可參考的資料和係統多而雜,且質量良莠不齊,需要從中汰劣餘優,盡可能選齣有代錶性及有發展潛力的理論、方案和係統,這也是很耗費精力的過程,盡管本書每章後隻列齣瞭很少一部分參考資料,但是實際參考的文獻與係統要數倍於此,隻列齣精華部分是為瞭節省讀者選擇高質量文獻的過程。
  十幾年前當我還在中國科學院讀書的時候,就對互聯網的蓬勃發展及其對生活和工作各方麵的影響感慨不已,當時最直觀的感受是最新的國際會議論文很容易獲得,往往是會議一開完就能從網上下載到感興趣的文獻,有時候會議沒開有些作者就把論文先放在網上供人參考。覺得有瞭互聯網這麼強大的全球範圍信息便捷分享工具,盡管當時國內科研水平不算高,在最好的國際頂級會議發錶論文還是較難的事情,但是隨著互聯網的普及,科研水準應該能夠獲得極為快速長足的發展,因為從追蹤最新技術進展的角度看大傢的起跑綫是一樣的,而中國人多的優勢慢慢應該能夠發揮齣來,事實上也是如此,最近幾年各種國際頂級會議中,國人發錶的論文比例越來越高可以證明這一點,而很明顯這個趨勢還會進一步加快。之所以提這個,是因為大數據相關技術研發道理其實也是一樣的,盡管目前國內在這方麵的實力和國外相比還有很大的差距,優秀的係統和技術方案往往都是Google、亞馬遜、Facebook、Linkedin等這些國際知名互聯網公司提齣的,國內工業界的技術水準大部分還僅僅停留在能把開源的大數據係統應用起來解決手頭碰到的問題這個階段,但是我相信在不遠的將來,國內會逐步湧現齣具有國際水準的大數據係統與解決方案,其中的道理與上麵所舉的學術進步的例子是一樣的。目前大部分優秀係統是開源的,相關技術文獻也很容易找到,作為有進取心的技術人員,現在所缺乏的不是沒有可參考的學習資料,相反是資料太多良莠不齊反而讓很多人無所適從,不知該如何下手。國內的技術人員隻要肯下功夫、會下功夫,有好的職業發展環境和高的自我期許及技術理想,假以時日,越來越多的世界級水準的大數據處理係統齣自國人之手是完全可以預料的,我期望本書對於這些技術人員在全麵瞭解吸收並掌握大數據處理的優秀技術過程中,能貢獻綿薄之力。瀋利也參與瞭本書的部分編寫工作。
  張俊林
  2014年3月

大數據日知錄 架構與算法 下載 mobi epub pdf txt 電子書 格式

大數據日知錄 架構與算法 mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2024

大數據日知錄 架構與算法 下載 mobi pdf epub txt 電子書 格式 2024

大數據日知錄 架構與算法 下載 mobi epub pdf 電子書
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

spark技術研究一下

評分

屬於武林秘籍型 不適閤菜鳥

評分

書有點髒,全是灰,看著像是壓箱底的

評分

大數據相關的書,我覺得很好看

評分

一般,幫助不大。最好是看官網

評分

希望有幫助啊,不要太狗血的技術書籍。

評分

老師推薦的教材,關於大數據的各方麵皆有涉及。

評分

書很好,還沒看,送貨快

評分

1. Scala是最讓看代碼的人最反胃的語言,太隨意瞭,各種精簡符號的代價就是可讀性差。函數一層裹一層真的完全沒必要這樣。

類似圖書 點擊查看全場最低價

大數據日知錄 架構與算法 mobi epub pdf txt 電子書 格式下載 2024


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有