産品特色
編輯推薦
本書會精準地告訴你什麼是數據科學,它跟計算機科學有何差異,如何從數據中提煉價值,如何提升數據科學技能,獲得工作機會。本書包括以下內容:
源代碼、數據集,以及供復習的名詞字典
供數據科學傢參考的簡曆樣本、薪酬調查,以及職位描述樣本
什麼樣的公司在尋找數據科學傢
大數據及分析産業的嚴謹分析
能展示競爭優勢的實際麵試問題
能幫助切實理解數據分析的案例
數據科學竅門、秘方和規則
內容簡介
這是一本跟數據科學和數據科學傢有關的“手冊”,它還包含傳統統計學、編程或計算機科學教科書中所沒有的信息。
《數據天纔:數據科學傢修煉之道》有3個組成部分:一是多層次地討論數據科學是什麼,以及數據科學涉及哪些其他學科;二是數據科學的技術應用層麵,包括教程和案例研究;三是給正在從業和有抱負的數據科學傢介紹一些職業資源。《數據天纔:數據科學傢修煉之道》中有很多職業和培訓相關資源(如數據集、網絡爬蟲源代碼、數據視頻和如何編寫API),所以藉助《數據天纔:數據科學傢修煉之道》,你現在就可以開始數據科學實踐,並快速地提升你的職業水平。
《數據天纔:數據科學傢修煉之道》是寫給數據科學傢和相關專業人士的(如業務分析師、計算機科學傢、軟件工程師、數據工程師和統計學傢),也適閤有興趣轉投大數據科學事業的人閱讀。
作者簡介
Vincent Granville博士,是一名富有遠見的數據科學傢,有 15 年大數據、預測建模、數字分析和業務分析的經驗。Vincent 在評分技術、欺詐檢測和網絡流量優化及增長等領域,是舉世公認的專傢。在過去的 10 年中,他曾與 Visa 一起研究實時信用卡欺詐檢測,與CNET一起研究廣告組閤優化,與Microsoft(微軟公司)一起研究“改變點檢測”,與Wells Fargo(富國銀行)一起研究在綫用戶體驗,與InfoSpace一起研究搜索智能,與eBay一起研究自動競價,與各大搜索引擎、廣告網絡和大型廣告客戶一起研究點擊欺詐檢測。Vincent 也管理著LinkedIn上龐大的“大數據及分析數據科學傢”小組,該小組擁有超過100 000名成員。
近期,Vincent推齣瞭數據科學中心(Data Science Center)這個大數據、業務分析和數據科學界的領先社區。Vincent曾是劍橋大學和美國國傢統計科學學院的博士後。他曾入圍沃頓商業計劃競賽和比利時數學奧林匹剋的決賽。Vincent 已經在統計期刊上發錶瞭40篇論文,並且是許多國際會議的受邀演講嘉賓。他還開發瞭一種新的數據挖掘技術,被稱為隱性決策樹,他還擁有多項專利,是發錶數據科學書籍的第1人,並籌集瞭600萬美元的創業啓動資金。根據福布斯的排名,Vincent 是大數據領域前20位有影響力的人物之一,被VentureBeat、MarketWatch和美國有綫新聞網(CNN)專門報道。
吳博,利茲大學博士後,具備多年機器學習研發、數據科學從業經驗。曾任愛立信大數據高級研究員,多傢公司數據科學傢及數據變現業務負責人。現任深圳市宜遠智能科技有限公司創始人。
張曉峰,哈爾濱工業大學深圳研究生院計算機科學與技術學院副教授、博士生導師,主要研究方嚮為數據挖掘、隱私保護和機器學習等。曾在北大方正研究院、香港大學電子技術研究所工作。主持包括國傢自然科學基金麵上項目,以及其他省/市縱嚮、橫嚮課題十餘項。已在國內外重要學術刊物與會議上發錶SCI/EI索引論文40餘篇。
季春霖,深圳光啓高等理工研究院聯閤創始人,副院長;深圳市統計學會副會長;哈佛大學博士後,杜剋大學統計學博士,劍橋大學碩士;廣東省自然科學基金傑青項目獲得者;發錶包括Science在內的論文60餘篇,授權專利400餘項。熱衷於貝葉斯統計學及其應用。
精彩書評
數據科學傢是商業分析、統計學和計算機科學等領域的通纔,成為數據科學傢正成為年輕人的新夢想。光啓高等理工研究院季春霖副院長推薦我讀這本他參與翻譯的書之後,我一開始期望這是一本數學味、計算機味很濃的書籍。後來,完全齣乎意料,這本書行文竟然如此清晰明白,原理與觀點娓娓道來,並剖析瞭大量實際而有趣的案例,讀起來絲毫沒有教科書式的刻闆感。通過本書,你可以瞭解一個數據科學傢所需的完善的知識體係,包括商業分析、數據庫、統計模型、濛特卡洛模擬、機器學習、Hadoop、MapReduce、哈希連接等。本書顯然為有夢想的你在通往數據科學傢的道路上鋪就瞭階梯,我相信你隻要拾階而上,到達目的地就是確定無疑的。
——王磊 國傢統計局高級統計師
中國國際經濟交流中心金融學博士後
北京大學腫瘤醫院核醫學科客座教授
2017 年大數據行業已經從上半場開始挺進下半場,數據在不知不覺中影響著我們的生産、生活、娛樂等方方麵麵。我們深耕在行業,深知目前國內從行業角度真正缺乏的是有著商業精神的數據科學傢,本書從場景齣發給我們展示瞭如何成為數據天纔。我與吳博、曉峰、春霖交流很多,他們有深厚的學術素養,但仍實實在在地做著數據商業,恰恰這一點也是目前國內缺乏的,我一直認為在中國不缺數據技術人纔,但缺乏的是真正懂商業的數據天纔、數據科學傢。希望大傢能從本書中汲取知識,真正走嚮數據科學的商業之路。
——汪祥斌 DataEye 創始人、CEO
數據科學傢是“21 世紀性感的職位”,全球到 2018 年對數據科學傢有上韆萬的職位空缺,僅中國就稀缺上百萬這樣的人纔。這本《數據天纔:數據科學傢修煉之道》是成為數據科學傢的必備寶典。書中對數據科學有著翔實的介紹,並針對數據科學傢日常工作中所需的技能進行瞭深度的剖析,輔以大量的實用案例分析,有助於快速提升大傢對數據科學的理解和應用。本書勢必會成為繼維剋托·邁爾-捨恩伯格的《大數據時代》後的又一經典大作!
——劉金玲 中國大數據産業第1媒體“36 大數據”創始人
大數據是近年來媒體的熱點話題,大數據時代在科學領域裏的錶現就是數據科學的興起。那麼人們不禁會問:什麼是數據科學以及如何成為數據科學傢?作者通過本書及時地為讀者用一種全景式的方式給齣瞭答案。本書以通俗易懂的語言風格和眾多的真實案例,講活瞭大數據與數據科學,全麵而又深入淺齣地闡明瞭數據科學的實質與內涵,揭示瞭數據科學傢的修煉秘笈。相信不同讀者一定都能從書中得到啓發,瞭解價值,找到靈感,更好地以全新的視角審視自己的專業領域以及汲取更多的新理念、新思想。
——諶東宇 教授 深圳雲數通科技有限公司總裁
前海雲遊數據運營(深圳)有限公司首席數據官
西南交通大學數學學院客座教授
人生的關鍵決策隻有幾個,擇業就是其中之一。良好的職業決定和素質準備來自於對未來的場景有清晰而且正確的認知。吳博的這本譯著,不僅能夠幫助我們認識未來幾十年社會、商業和技術場景中的數據行業,數據科學傢的是和不是,更重要的是提供瞭修煉自己的寶鑒。本書橫跨中美視野、結閤生活事件的描述,使得我們帶著輕鬆、開心的心情完成對數據科學的認知、體悟,讓人有一種躍躍欲試和大展宏圖的感覺。實在是 4-0 時代必備的一本書!
——鄭立新 德摩資本董事長
2017 年 3 月 14 日於深圳
目錄
第1章 數據科學是什麼 1
-真僞數據科學對比 2
- - 僞數據科學的兩個例子 5
- - 新大學的麵貌 7
-數據科學傢 10
- - 數據科學傢與數據工程師 10
- - 數據科學傢與統計學傢 12
- - 數據科學傢與業務分析師 13
-13個真實世界情景中的數據科學應用 14
- - 情景1:國傢對烈性酒銷售的壟斷結束後,DUI(酒後駕駛)逮捕量減少 15
- - 情景2:數據科學與直覺 17
- - 情景3:數據故障將數據變成亂碼 19
- - 情景4:異常空間的迴歸 21
- - 情景5:分析與誘導在提升銷量上有何不同價值 22
- - 情景6:關於隱藏數據 24
- - 情景7:汽油中的鉛會導緻高犯罪率。真的嗎 25
- - 情景8:波音787(夢幻客機)問題 26
- - 情景9:NLP的7個棘手句子 27
- - 情景10:數據科學傢決定著我們所吃的食品 28
- - 情景11:用較好的相關性增加亞馬遜的銷售量 30
- - 情景12:檢測Facebook上的假檔案或假“喜歡”數 32
- - 情景13:餐廳的分析 33
-數據科學的曆史、開拓者和現代趨勢 33
- - 統計學將會復興 34
- - 曆史與開拓者 36
- - 現代的趨勢 38
- - 最近的問答討論 40
-總結 44
第2章 大數據的獨特性 45
-兩個大數據的問題 45
- - 大數據“詛咒” 45
- - 數據快速流動問題 50
-大數據技術示例 56
- - 大數據問題是數據科學所麵臨挑戰的縮影 56
- - 大規模數據集的聚類和分類 58
- - 1億行的Excel 63
-MapReduce不能做什麼 67
- - 問題 67
- - 3種解決方案 68
- - 結論:何時使用MapReduce 69
-溝通問題 70
-數據科學:統計學的終結 72
- - 8種最差的預測建模技術 72
- - 把計算機科學、統計學和行業專業知識結閤在一起 74
-大數據生態係統 78
-總結 79
第3章 成為一名數據科學傢 80
-數據科學傢的主要特徵 80
- - 數據科學傢的職能 80
- - 橫嚮與縱嚮數據科學傢 83
-數據科學傢的類型 86
- - 僞數據科學傢 86
- - 自學成纔的數據科學傢 86
- - 業餘數據科學傢 87
- - 極限數據科學傢 89
-數據科學傢人群特徵 90
-數據科學方麵的培訓 91
- - 大學課程 91
- - 公司和協會培訓項目 95
- - 免費培訓項目 96
-數據科學傢職業道路 98
- - 獨立顧問 98
- - 創業者 105
-總結 118
第4章 數據科學的技術(I) 119
-新型指標 120
- - 優化數字營銷活動的指標 121
- - 欺詐檢測的指標 122
-選擇閤適的分析工具 124
- - 分析軟件 124
- - 可視化工具 125
- - 實時産品 126
- - 編程語言 128
-可視化 128
- - 用R生成數據視頻 129
- - 更復雜的視頻 133
-無模型的統計建模 134
- - 無模型的統計建模是什麼 135
- - 該算法是如何工作的 135
- - 源代碼生成數據集 137
-三類指標:中心性、波動性、顛簸性 137
- - 中心性、波動性和顛簸性之間的關係 138
- - 定義顛簸性 138
- - 在Excel中計算顛簸性 139
- - 使用顛簸係數 141
-大數據的統計聚類 141
-大數據的相關性和擬閤度 143
- - 一係列新的秩相關性 146
- - 漸近分布與歸一化 148
- - -計算復雜度 152
- - 計算q(n) 152
- - 理論上的解決方案 155
-結構係數 156
-確定簇的數量 157
- - 方法 157
- - 例子 158
-網絡拓撲映射 159
-安全通信:數據加密 163
-總結 166
第5章 數據科學的技術(II) 167
-數據字典 168
- - 什麼是數據字典 168
- - 建立數據字典 169
-隱性決策樹 169
- - 實現方法 171
- - 示例:互聯網流量打分 173
- - 結論 175
-與模型無關的置信區間 175
- - 方法 175
- - 分析橋第一定理 176
- - 應用 177
- - 源代碼 178
-隨機數 179
-解決問題的4個辦法 181
- - 擁有超強直覺能力的業務分析師的直觀法 182
- - 軟件工程師的濛特卡洛模擬法 182
- - 統計學傢的統計建模方法 183
- - 計算機科學傢的大數據方法 183
-因果關係和相關性 183
-怎樣檢測因果關係 184
-數據科學項目的生命周期 186
-預測模型的錯誤 189
-邏輯相關迴歸 191
- - 變量之間的相互作用 191
- - 一階近似 191
- - 二階近似 193
- - 用Excel進行迴歸分析 195
-實驗設計 196
- - 有趣的指標 196
- - 把患者分成不同的人群進行治療 196
- - 私人定製的治療 197
-分析即服務和應用程序接口 198
- - 工作原理 199
- - 實施案例 199
- - 關鍵詞相關的API的源代碼 200
-其他主題 204
- - 當數據庫改變時,保存好數值 204
- - 優化網絡爬蟲 205
- - 哈希連接 206
- - 用於模擬簇的簡單源代碼 207
-Hadoop和大數據的新型閤成方差 208
- - Hadoop和MapReduce的介紹 208
- - 綜閤指標 209
- - Hadoop、數值的和統計的穩定性 210
- - 方差的抽象概念 211
- - 一個新的大數據定理 213
- - 平移不變性的度量標準 214
- - 實現:通信和計算成本 214
- - 最終意見 215
-總結 215
第6章 數據科學應用案例研究 217
-股票市場 217
- - 使迴報率提高500%的模式 217
- - 優化統計交易策略 220
- - 股票交易的API:統計模型 222
- - 股票交易的API:具體實現 225
- - 股票市場模擬 226
- - 些許數學知識 229
- - 新趨勢 231
-加密 232
- - 數據科學應用:隱寫術 232
- - 好的電子郵件加密 236
- - 驗證碼破解 239
-欺詐檢測 240
- - 點擊欺詐 241
- - 連續點擊評分與二進製欺詐/非欺詐 242
- - 數學模型與基準 244
- - 虛假轉化産生的偏差 245
- - 一些誤解 246
- - 統計麵臨的挑戰 246
- - 點擊評分優化關鍵詞齣價 247
- - 組閤優化自動快速的特徵選擇 249
- - 特徵的預測能力:交叉驗證 250
- - 勾連檢測和僵屍網絡的關聯規則檢測 254
- - 模式檢測的極值理論 255
-數字分析 256
- - 在綫廣告:到達率和頻率的計算公式 256
- - 電子郵件營銷:提高300%的性能 257
- - 在7天內優化關鍵詞廣告宣傳活動 258
- - 自動新聞提要優化 260
- - 用bit-ly進行競爭情報分析 261
- - 測量 Twitter 哈希標簽(hashtag)的收益 263
- - 用3個修補方法提升榖歌搜索 267
- - 改進相關性的算法 270
- - 廣告循環問題 272
-雜項 273
- - 簡單模型會獲得更好的銷售預測 273
- - 更好的醫療欺詐檢測 275
- - 歸因模型 276
- - 預測隕石撞擊 277
- - 在路口停車場收集數據 281
- - 數據科學的其他應用 282
-總結 282
第7章 踏上你的數據科學職業之路 283
-麵試問題 283
- - 關於工作經驗的問題 283
- - 技術問題 285
- - 一般性問題 286
- - 關於數據科學項目的問題 288
-測試你自己的視覺和分析思維 291
- - 通過肉眼的檢測模式 292
- - 識彆偏差 294
- - 誤導性的時間序列和隨機遊走 295
-從統計學傢到數據科學傢 296
- - 數據科學傢也是統計從業人員 297
- - 誰應該給數據科學傢教統計學 298
- - 雇傭問題 298
- - 數據科學傢與數據架構師密切閤作 299
- - 誰應該參與戰略思考 299
- - 兩種類型的統計學傢 300
- - 大數據與取樣 301
-數據科學傢的分類 302
- - 數據科學最流行的技能集閤 302
- - LinkedIn上的頂級數據科學傢 306
-400個數據科學傢職位頭銜 309
-薪酬調查 311
- - 根據技能和位置的薪酬分類 312
- - 創建自己的薪酬調查錶 316
-總結 317
第8章 數據科學資源 318
-專業資源 318
- - 數據集 318
- - 書籍 319
- - 會議與組織 322
- - 網站 324
- - 概念定義 324
-職業建設資源 327
- - 招聘數據科學傢的公司 328
- - 數據科學招聘廣告的樣本 329
- - 簡曆樣本 329
-總結 331
前言/序言
譯者序
本書最適閤有誌於在大數據與數據科學領域從業的人學習。格拉德威爾在《異類》一書中強調,“若要成為行業專傢,離不開十萬小時的刻意學習(deliberatelearning)”,這跟中國俗語裏“闆凳要坐十年冷”有些類似。但要實現刻意學習,就不能一味依賴通識科普書籍。在大數據與數據科學領域,市麵上已不缺通識性的科普書籍,唯缺這類燒腦、有專業性、適閤進行刻意學習的數據科學書籍。
本書不失專業性,但也不是令人生畏的大學教材。它處處體現理論與實踐的結閤,還兼顧技術與商業的平衡。這要歸功於原作者Vincent是學術、技術、商業三棲高手。比如書中對於星空雙星的估算、隕石撞地球的建模推算,讓作者在數學奧賽方麵的天分展現得淋灕盡緻;在垃圾郵件、水印加密、點擊欺詐等案例中,作者又分享瞭諸多為大公司實施數據項目的經驗;在方案選擇、股市預測等場景中,作者更側重商業視角,幫讀者提升對數據科學方法投入/産齣比及適用性的敏感度。
本書雖然專業度高,但也因為案例翔實、講求實際,適閤其他
數據天纔:數據科學傢修煉之道 下載 mobi epub pdf txt 電子書 格式