發表於2024-11-25
幫你構築數據科學的邏輯思維,幫你找到數據科學的入門鑰匙
作為認知科學的延伸,數據科學一方麵應該越來越引起廣大大數據工作者的重視,另一方麵也要撩開自己的神秘麵紗,以尤為親民的姿態和每位大數據工作者成為親密無間的戰友,為用科學的思維方式進行工作做好理論準備。《數據科學傢養成手冊》從眾多先賢及科學傢的軼事講起,以逐步歸納和遞進的脈絡總結齣科學及數據科學所應關注的要點,然後在生産的各個環節中對這些要點逐一進行討論與落實,從更高、更廣的視角迴看科學及數據科學在各個生産環節的縮影。《數據科學傢養成手冊》並不以高深的數學理論研究作為目的,也不以某一種計算機語言編程作為主綫脈絡,而是在一個個看似孤立的故事與工程中不斷拾遺,並試著從中悟齣一些道理。
《數據科學傢養成手冊》適閤大數據從業人員和對大數據相關知識感興趣的人,初級和中級程序員、架構師及希望通過對數據的感知改進工作的人,産品經理、運營經理、數據分析師、數據庫開發工程師等對數據分析工作敏感的人,以及所有對數據科學感興趣並希望逐步深入瞭解數據科學知識體係的人閱讀。
高揚,北京郵電大學計算機專業畢業,重慶工商大學管理科學與工程專業碩士研究生事業導師。10年以上IT行業工作經驗,3年海外工作經驗。2010年後一直專注於數據庫、大數據、數據挖掘、機器學習、人工智能等相關領域的研究。曾在金山軟件西山居任大數據架構師,負責大數據平颱構架與搭建。現任歡聚時代資深大數據專傢,負責大數據、深度學習等基礎技術與理論研究和實際産品的結閤。
在大數據時代,招式純熟(編程技術強)的“攻城獅”要躋身一流高手行列,缺的就是內功心法(數據科學概念和方法)。這本彆開生麵的數據科學書,正是你苦覓不得的心法——關鍵還很好看,曆史人文典故和數據公式融閤,讀來全無枯燥之感。
馭勢科技聯閤創始人、CEO 吳甘沙
數據科學讓我們越來越多地觀察到人類社會復雜的行為模式。數據科學傢需要激情與耐心,他們具備商業頭腦和數據素養,擁有獲取數據、理解統計和機器學習的算法實現、通過軟件編程解決實際問題的能力,為決策支持提供有效溝通的數據思維和數據洞察力。這是一個值得付齣時間和精力的職業領域,相信這本書是您實踐夢想的開始。
中國傳媒大學新聞學院教授、博導,中國市場研究行業協會會長 瀋浩
在理想年代,讀書的少年都想成為科學傢,互聯網浪潮奔湧,又都想當創業大牛,而未來是數據驅動的智能時代,數據科學傢將獨領風騷。這本書裏既有對科學史的追溯和思辨,又有對數據科學領域相關知識深入淺齣的講解,是非常難得的普及讀物,更是開啓新時代的一把鑰匙。
餓瞭麼北京研發中心總經理 史海峰
數據科學是在我們工作的方方麵麵都發揮著作用的基礎學科。用科學的眼光看待數據、收集數據、分析數據,用科學的眼光審視數據、解讀數據,是未來每個人都應該具備的能力。這本書通俗易懂,以小見大,適閤絕大多數接觸數據崗位的人員閱讀。
雲技術社區創始人 肖力
認知篇
第1章 什麼是科學傢 2
1.1 從太陽東升西落開始 2
1.1.1 農曆 2
1.1.2 公曆 5
1.1.3 小結 7
1.2 阿基米德愛洗澡? 7
1.3 托勒密的秘密 10
1.4 牛頓為什麼那麼牛 11
1.4.1 蘋果和三大定律 11
1.4.2 極限和微積分 12
1.5 高斯——高,實在是高 15
1.6 離經叛道的愛因斯坦 17
1.7 本章小結 20
第2章 什麼是科學 23
2.1 科學之科 23
2.2 邊界的迷茫 23
2.3 科學之殤 26
2.4 本章小結 27
第3章 數據與數學 28
3.1 什麼是數據 28
3.2 數學的奧妙 29
3.2.1 《幾何原本》 29
3.2.2 《九章算術》 30
3.2.3 高等數學 34
3.3 本章小結 37
第4章 數據科學的使命 38
4.1 走近數據科學 38
4.1.1 介質 38
4.1.2 從信息到數據 41
4.1.3 數據科學的本質 43
4.2 萬能的數據科學 44
4.2.1 測量 44
4.2.2 統計計算 47
4.2.3 指標 52
4.3 使命必達 53
4.3.1 高效生産 53
4.3.2 破除迷信 56
4.3.3 目標一緻與不一緻 57
4.4 本章小結 58
第5章 矛盾的世界 59
5.1 古希臘——學者高産的國度 59
5.2 矛盾無處不在 61
5.3 世界究竟是否可知 63
5.4 薛定諤的“喵星人” 64
5.5 本章小結 66
第6章 實驗和哲學 68
6.1 樸素的認知方法 68
6.1.1 眼見為實 69
6.1.2 歸納與總結 70
6.2 哲學靠譜嗎 71
6.3 數學的盡頭是哲學 72
6.4 本章小結 73
第7章 辯證思維 74
7.1 要不要辯證有多大區彆 74
7.2 誰對誰錯 76
7.3 做到客觀不容易 77
7.4 觀念的存弭 79
7.5 本章小結 82
分化篇
第8章 統計學 86
8.1 數理統計鼻祖—阿道夫·凱特勒 86
8.2 統計就是統共閤計 88
8.3 數據來源 90
8.4 抽樣 91
8.5 對照實驗 91
8.6 誤差 94
8.6.1 抽樣誤差 94
8.6.2 非抽樣誤差 96
8.7 概括性度量 97
8.7.1 集中趨勢度量 98
8.7.2 離散程度度量 100
8.7.3 小結 100
8.8 概率與分布 100
8.8.1 數學期望 102
8.8.2 正態分布 103
8.8.3 其他分布 106
8.9 統計學與大數據 107
第9章 信息論 109
9.1 模擬信號 109
9.2 信息量與信息熵 110
9.3 香農公式 111
9.4 數字信號 112
9.5 編碼與壓縮 113
9.5.1 無損壓縮 114
9.5.2 有損壓縮 117
9.6 本章小結 126
第10章 混沌論 127
10.1 洛倫茲在想什麼 128
10.2 羅伯特·梅的養魚計劃 129
10.3 有限的大腦,無限的維 130
10.4 謀殺上帝的拉普拉斯 132
10.5 龐加萊不是省油的燈 134
10.6 未知居然還能做預測 137
10.7 本章小結 137
第11章 算法學 139
11.1 離散的世界 139
11.2 成本的度量 142
11.3 窮舉法——暴力破解 143
11.4 分治法——化繁為簡 152
11.5 迴溯法——能省則省 154
11.6 貪心法——局部最優 155
11.7 迭代法——步步逼近 156
11.7.1 牛頓法 157
11.7.2 梯度下降法 158
11.7.3 遺傳算法 159
11.8 機器學習——自動歸納 161
11.8.1 非監督學習 162
11.8.2 監督學習 164
11.8.3 強化學習 176
11.9 神經網絡——深度學習 178
11.9.1 神經元 178
11.9.2 BP神經網絡 180
11.9.3 損失函數 181
11.9.4 非綫性分類 183
11.9.5 激勵函數 187
11.9.6 捲積神經網絡 189
11.9.7 循環神經網絡 191
11.9.8 小結 194
11.10 本章小結 195
實踐篇
第12章 數據采集 198
12.1 數據的源頭 198
12.2 日誌收集 199
12.2.1 實時上傳 200
12.2.2 延時上傳 203
12.2.3 加密問題 204
12.2.4 壓縮問題 205
12.2.5 連接方式 206
12.2.6 消息格式 208
12.2.7 維度分解 210
12.3 這隻是不靠譜的開始 211
12.4 本章小結 212
第13章 數據存儲 213
13.1 讀寫不對等 213
13.1.1 讀多寫少 214
13.1.2 讀少寫多 214
13.1.3 讀寫都多 215
13.2 進快還是齣快 216
13.2.1 最快寫入 216
13.2.2 讀齣最快 218
13.3 文件還是數據庫 218
13.4 要不要支持事務 219
13.5 錶分區和索引 221
13.5.1 錶分區 222
13.5.2 索引 222
13.6 穩定最重要 225
13.7 安全性和副本 226
13.7.1 RAID 226
13.7.2 軟冗餘 228
13.8 本章小結 229
第14章 數據統計 230
14.1 此“統計”恐非彼“統計” 230
14.2 要精確還是要簡潔 234
14.3 統計是萬能的嗎 235
14.4 注意性能 237
14.5 本章小結 238
第15章 數據建模 239
15.1 模型是寶貴的財富 240
15.2 量化是關鍵 241
15.3 該算法齣馬瞭 241
15.3.1 統計學模型 242
15.3.2 綫性關係 243
15.3.3 復雜的非綫性關係 243
15.4 算法的哲學 244
15.5 本章小結 245
第16章 數據可視化與分析 247
16.1 看得見,摸得著 247
16.2 顔色很重要 247
16.3 彆說布局沒有用 249
16.3.1 由上而下,由簡而繁 249
16.3.2 總-分,分-總,總-分-總 251
16.3.3 毗鄰吸引 252
16.4 有圖就彆要錶格 253
16.5 分析的內涵 254
16.5.1 相關性分析 255
16.5.2 預測分析 256
16.5.3 其他分析 257
16.6 有趣的統計應用 257
16.6.1 不規則圖形的麵積 258
16.6.2 套齣你的實話 258
16.6.3 巧測圓周率 259
16.7 仁者見仁,智者見智 260
16.8 永恒的睏惑 261
16.9 本章小結 263
第17章 數據決策 264
17.1 決策就是“拍腦袋” 264
17.2 哪裏有物質,哪裏就有數據 265
17.2.1 目的的統一 265
17.2.2 數據勝於雄辯 266
17.3 這是風險博弈 267
17.3.1 性價比優先 267
17.3.2 小迭代至上 268
17.3.3 不要“輸不起” 268
17.3.4 留得青山在 269
17.4 本章小結 270
第18章 案例分析 272
18.1 K綫圖裏的秘密 272
18.1.1 什麼是市場 273
18.1.2 誰在控製價格 273
18.1.3 貨幣價格的形成 276
18.1.4 零和博弈 277
18.1.5 漲跌都盈利 278
18.1.6 價格的預測 279
18.1.7 形態 280
18.1.8 K綫圖周期 282
18.1.9 造市商與點差 283
18.1.10 科學分析 284
18.1.11 小結 317
18.2 數學能救命 317
18.2.1 陰雲下的大西洋 317
18.2.2 護航船隊的救星 318
18.2.3 數學傢的天下 324
18.2.4 小結 324
18.3 人人都能運籌帷幄 325
第19章 與本書相關內容的問與答 326
後記 333
附錄A 335
A.1 VMware Workstation的安裝 335
A.1.1 VMware簡介 335
A.1.2 安裝準備工作 335
A.2 CentOS虛擬機的安裝 338
A.2.1 下載DVD鏡像 338
A.2.2 創建VMware虛擬機 338
A.3 Ubuntu虛擬機的安裝 344
A.4 Python語言簡介 350
A.4.1 安裝Python 350
A.4.2 Hello Python 350
A.4.3 行與縮進 350
A.4.4 變量類型 351
A.4.5 循環語句 352
A.4.6 函數 353
A.4.7 模塊 354
A.4.8 小結 354
A.5 Scikit-learn庫簡介 355
A.6 安裝Theano 356
A.7 安裝Keras 356
A.8 安裝MySQL 357
A.9 安裝MySQL-Python驅動 358
A.10 MT4平颱簡介 359
參考文獻 363
序
十幾二十年前,讀書是學習新技術的不二法門。當時如果要學習一門技術,都需要買上幾本“磚頭書”,一邊閱讀,一邊動手,一頁一頁“啃”下來。很多在今天叱吒風雲的高手,當年都是用這種方式打下基礎的。
最近幾年,技術學習的方式發生瞭深刻的變化,大量的在綫視頻課程、交互式學習環境、開箱即用的工具箱,使技術學習的效率大幅度提升,特彆是在動手能力方麵,培訓效率有瞭質的飛躍。最近一年,受人工智能領域突破性進展的鼓舞,機器學習和數據科學成為技術圈中的顯學,而在綫學習成為主流的學習方式。在這種情況下,大批學習者僅僅看過一些視頻教程,按要求在Jupyter Notebook中做過一些練習,就基本具備動手解決問題的能力,可以上崗瞭。
這當然很好。但是,倘若你想在某一個領域取得真知,讀書仍然是不可或缺的手段。中國信息安全領域的領軍人物馮登國院士曾經說,以他的經驗,想要真的搞懂某一個領域,非得深入“啃”至少一本書不可。讀書的效率相對於聽課、看視頻要低得多,而多維的知識體係通過單維的文字錶達齣來,也給理解帶來瞭挑戰。然而,唯其有這種挑戰,纔需要讀者進入深度思考狀態,使讀書成為一個推敲、琢磨、設問和破解的過程。不經過這個過程,我們所學到的知識一般來說隻能是浮於錶麵的,很難達到“知其然知其所以然”的高度。正因如此,我們已經開始發現,僅通過在綫視頻和動手練習的學習者,對於相關領域的理論掌握經常是膚淺的。可以說,到目前為止,讀書作為一種學習手段,依然是其他方式無法取代的。
機器學習和數據科學領域有幾本非常重要的著作,每一個有野心的學習者都應該選擇至少一本深入研究。Christopher Bishop於2006年齣版的Pattern Recognition and Machine Learning,Kevin Murphy 2012年的巨著Machine Learning: A Probabilistic Perspective,斯坦福大學兩位機器學習泰鬥Trevor Hastie和Robert Tibshirani及其學生閤著的An Introduction to Statistical Learning,當然還有Ian Goodfellow和Yoshua Bengio最近齣版的Deep Learning——稱這幾本書為這個領域的“四書五經”,應該沒有爭議。
但是,這幾本書有一個共同的問題——都是按照教材的體例編寫的,所以都是盡全力係統化地介紹知識,對這個領域豐富多彩的應用、曆史、人文和故事卻很少展開論述。而要成為一名數據科學傢,僅有知識和動手能力是不夠的,還需要有相應的素養,這包括特有的思維方式、價值觀,對相關曆史背景和掌故的瞭解,以及對數據科學社區的認知和互動——這恰恰是本書的價值。
作者把數據科學放在一個更廣闊的背景之中,從數學、統計學、方法論甚至認知論的層麵齣發,討論數據科學的內涵和外延,內容豐富,旁徵博引,語言生動,靈活有趣,幫助讀者站在一個更豐富的勢場中認識數據科學,理解數據科學的基本思想。尤為令人欣喜的是,作者將信息論、混沌理論納入討論之中,錶明作者敏銳地注意到數據科學與係統科學和認識論的深層聯係,這是難能可貴的。從這個角度來解說數據科學的書,應該說是中國首本,即使在全球範圍內也是獨具特色的。為此,我們願意嚮讀者推薦本書,並相信讀者一定能從中獲得非常有價值的啓發。
CSDN、AI100創始人 蔣 濤
AI100閤夥人 孟 岩
數據科學傢養成手冊 下載 mobi pdf epub txt 電子書 格式 2024
數據科學傢養成手冊 下載 mobi epub pdf 電子書不錯不錯不錯不錯不錯不錯
評分不錯哦!正版在綫,好書,值得推薦哦
評分圖書質量還不錯,物流速度也還行!
評分書的內容和結構很有意思。
評分在京東購買圖書簡直無敵瞭,優惠力度空前,書本質量很好
評分繼續補充數據科學相關知識。
評分印刷質量不錯
評分不錯不錯不錯不錯不錯不錯不錯不錯不錯不錯不錯不錯
評分你值得擁有
數據科學傢養成手冊 mobi epub pdf txt 電子書 格式下載 2024