Python數據科學導論

Python數據科學導論 下載 mobi epub pdf 電子書 2024


簡體網頁||繁體網頁
[美] 戴維·謝倫(Davy Cielen),亞諾 D.B.梅斯曼(Arno D.B.Meysman) 著,劉義 譯



點擊這裡下載
    

想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2024-12-26

類似圖書 點擊查看全場最低價


圖書介紹

齣版社: 機械工業齣版社
ISBN:9787111578260
版次:1
商品編碼:12173375
品牌:機工齣版
包裝:平裝
叢書名: 數據科學與工程技術叢書
開本:16開
齣版時間:2017-09-01
用紙:膠版紙
頁數:222


相關圖書





圖書描述

內容簡介

本書涵蓋的主題非常廣泛,介紹瞭數據科學方方麵麵的知識,每一章都側重於介紹數據科學的某一方麵,為讀者以後的深入學習打下基礎。具體內容包括:第1、2章係統介紹大數據科學的背景知識及框架結構;第3~5章介紹機器學習相關知識;第6~9章介紹幾個比較有趣的數據科學主題。本書是學習數據科學知識的入門教材,在深入學習本書的實例前,需要掌握SQL、Python及HTML5的入門知識,瞭解統計學和機器學習相關知識。

目錄

譯者序
前言
關於本書
關於作者
關於封麵插圖
第1章 大數據世界中的數據科學1
1.1 數據科學和大數據的好處和用途2
1.2 數據種類3
1.2.1 結構化數據3
1.2.2 非結構化數據3
1.2.3 自然語言數據4
1.2.4 計算機數據4
1.2.5 圖類數據5
1.2.6 音頻、視頻和圖像數據5
1.2.7 流數據6
1.3 數據科學過程6
1.3.1 設置研究目標6
1.3.2 檢索數據6
1.3.3 數據準備7
1.3.4 數據探索7
1.3.5 數據建模7
1.3.6 展示與自動化7
1.4 大數據生態係統與數據科學7
1.4.1 分布式文件係統7
1.4.2 分布式編程框架9
1.4.3 數據集成框架9
1.4.4 機器學習框架9
1.4.5 NoSQL數據庫10
1.4.6 調度工具10
1.4.7 基準測試工具10
1.4.8 係統部署11
1.4.9 服務開發11
1.4.10 安全11
1.5 Hadoop工作示例介紹11
1.6 本章小結16
第2章 數據科學過程17
2.1 數據科學過程概述17
2.2 步驟1:定義研究目標並創立項目章程19
2.2.1 瞭解研究的目標和背景20
2.2.2 創立項目章程20
2.3 步驟2:檢索數據20
2.3.1 從存儲在公司內部的數據開始21
2.3.2 不要害怕去購買數據21
2.3.3 檢查數據質量以預防問題發生22
2.4 步驟3:數據的清洗、整閤以及轉換22
2.4.1 數據清洗22
2.4.2 盡可能早地修正錯誤27
2.4.3 從不同的數據源整閤數據28
2.4.4 數據轉換30
2.5 步驟4:探索性數據分析32
2.6 步驟5:構建模型35
2.6.1 模型與變量的選擇35
2.6.2 模型執行36
2.6.3 模型診斷與模型比較39
2.7 步驟6:展示結果並在其上搭建應用程序40
2.8 本章小結40
第3章 機器學習42
3.1 什麼是機器學習,為什麼需要關注它42
3.1.1 機器學習在數據科學中的應用43
3.1.2 機器學習在數據科學過程中的使用43
3.1.3 Python工具在機器學習中的應用44
3.2 建模過程45
3.2.1 特徵工程以及模型選取46
3.2.2 模型的訓練47
3.2.3 模型的驗證47
3.2.4 預測新的觀測值48
3.3 機器學習的類型48
3.3.1 有監督學習48
3.3.2 無監督學習53
3.4 半監督學習60
3.5 本章小結61
第4章 單機上處理大數據63
4.1 大數據處理過程中遇到的難題63
4.2 處理巨量數據的通用技術64
4.2.1 選擇閤適的算法65
4.2.2 選擇閤適的數據結構71
4.2.3 選擇閤適的工具73
4.3 處理大數據集的通用編程技巧75
4.3.1 不必重復發明輪子75
4.3.2 充分利用硬件76
4.3.3 減少計算需求76
4.4 案例研究1:預測惡意URL77
4.4.1 步驟1:確立研究目標77
4.4.2 步驟2:獲取URL數據77
4.4.3 步驟4:數據探索78
4.4.4 步驟5:建模79
4.5 案例研究2:在數據庫中建立一個推薦係統80
4.5.1 所需的工具及技術80
4.5.2 步驟1:研究問題82
4.5.3 步驟3:數據準備82
4.5.4 步驟5:建模86
4.5.5 步驟6:展示與自動化86
4.6 本章小結88
第5章 大數據世界的第一步89
5.1 數據分布存儲和框架處理89
5.1.1 Hadoop:存儲和處理大數據集的框架90
5.1.2 Spark:取代MapReduce以獲得更好的性能92
5.2 案例研究:藉貸的風險評估93
5.2.1 步驟1:研究目標94
5.2.2 步驟2:數據檢索95
5.2.3 步驟3:數據準備98
5.2.4 步驟4(數據探索)和步驟6(報告形成)101
5.3 本章小結111
第6章 瞭解NoSQL112
6.1 NoSQL簡介114
6.1.1 ACID:關係型數據庫核心原則114
6.1.2 CAP理論:多節點數據庫的問題115
6.1.3 NoSQL數據庫的BASE原則116
6.1.4 NoSQL數據庫的種類117
6.2 案例研究:這是什麼疾病123
6.2.1 步驟1:設置研究目標124
6.2.2 步驟2和步驟3:數據檢索與數據準備124
6.2.3 步驟4:數據探索131
6.2.4 再迴到步驟3:為描述疾病概況做數據準備137
6.2.5 再迴到步驟4:為描述疾病概況做數據探索140
6.2.6 步驟6:展示與自動化140
6.3 本章小結141
第7章 圖數據庫的興起143
7.1 互聯數據及圖數據庫概述143
7.2 圖數據庫Neo4j概述146
7.3 數據互聯案例:食譜推薦引擎152
7.3.1 步驟1:設置研究目標153
7.3.2 步驟2:數據檢索154
7.3.3 步驟3:數據準備155
7.3.4 步驟4:數據探索157
7.3.5 步驟5:數據建模159
7.3.6 步驟6:數據展示162
7.4 本章小結162
第8章 文本挖掘和文本分析164
8.1 現實世界中的文本挖掘165
8.2 文本挖掘技術169
8.2.1 詞袋169
8.2.2 詞乾提取和詞形還原170
8.2.3 決策樹分類器171
8.3 案例研究:Reddit帖子分類173
8.3.1 自然語言工具包173
8.3.2 數據科學過程綜述及第1步:研究目標175
8.3.3 第2步:數據檢索175
8.3.4 第3步:數據準備178
8.3.5 步驟4:數據探索180
8.3.6 再迴到步驟3:數據準備的調整182
8.3.7 步驟5:數據分析185
8.3.8 步驟6:展示與自動化188
8.4 本章小結189
第9章 麵嚮終端用戶的數據可視化191
9.1 數據可視化選項192
9.2 Crossfilter—JavaScript MapReduce庫194
9.2.1 安裝195
9.2.2 利用Crossfilter篩選藥品數據集198
9.3 用dc.js創建一個交互式控製麵闆201
9.4 控製麵闆開發工具205
......

前言/序言

  本書傳遞的知識永存我們心中。人類之所以為人類,人類之所以是現在的樣子,數據科學技術功不可沒。這本書不僅介紹計算機驅動的數據科學相關知識,還將教給讀者洞察連接的能力,以及如何以事實為依據演繹齣結論,如何從過去的經曆中汲取經驗。人類比地球上的任何其他生物更依賴於大腦。人類的生存依賴於人腦,人類在大自然中的位置完全取決於人腦的特性。古往今來,這一戰略解決瞭人類所麵臨的所有問題,在不久的將來,人類也不太可能改變它。
  當談到原始計算時,人類的大腦隻能引領我們走到目前的境地。現在,我們每天都接收到海量的數據,人腦分析已經無法跟上大數據時代信息所包含的潛在內容,我們已掌握的知識更難以滿足人類的好奇心。因此,我們利用機器為我們做一部分工作,比如:模式識彆,創建連接,以及為人類的眾多問題探尋答案。
  對知識永無止境的探索是人類的基因,依賴計算機為人類完成一些力所能及的工作是我們的使命。
  緻謝非常感謝Manning齣版社所有參與本書製作的人員,在你們的幫助下本書得以順利齣版。
  感謝Ravishankar Rajagopalan對本書的書稿做瞭全麵細緻的技術校對,感謝Jona-than Thoms和 Michael Roberts給瞭許多專業的建議。另外感謝眾多的評審人員,他們在本書的製作過程中提供瞭許多極有價值的意見反饋,他們是:Alvin Raj, Arthur Zubarev, Bill Martschenko, Craig Smith, Filip Pravica, Hamideh Iraj, Heather Campbell, Hector Cuesta, Ian Stirk, Jeff Smith, Joel Kotarski, Jonathan Sharley, J鰎n Dinkla, Marius Butuc, Matt R. Cole, Matthew Heck, Meredith Godar, Rob Agle, Scott Chaussee, Steve Rogers。
  首先,我想感謝我的妻子Filipa,她給瞭我靈感和動力,讓我得以戰勝所有的睏難。感謝她在我的職業生涯和創作這本書的過程中,始終陪伴在我身邊。感謝她擔負起傢庭的重擔,當我不在的時候獨自照顧我們的小女兒,讓我有瞭充裕的時間去追求我的目標並實現抱負。謹以此書嚮我的妻子緻敬,非常感謝她為我們的小傢庭所做的無私奉獻。
  同時,我想感謝我的女兒Eva以及我未齣生的兒子,他們給瞭我極大的歡樂並讓我笑口常開。他們活潑有趣、充滿愛心,是上帝送給我的最好的禮物,也是我所期望的最完美的小孩,和他們在一起總是充滿瞭樂趣。
  特彆要感謝我的父母,謝謝他們對我長期以來的支持。他們無盡的愛和鼓勵讓我從容完成瞭這本書,實現瞭人生的一個階段目標,並繼續我人生新的旅程。
  同時,真誠地感謝同我一起共事的小夥伴們,謝謝大傢齊心協力,一起攻堅瞭一個又一個難題。特彆要感謝Mo和Arno,他們給瞭我最有力的支持和很好的建議。非常感激大傢在本書的創作過程中付齣的時間和精力,你們棒極瞭!沒有你們,我可能都不會寫這本書。
  最後,真誠地感謝每一位支持我、理解我的朋友們。我常常忙得沒有空閑時間,謝謝你們的關愛和一如既往的支持,讓我能夠專心創作並完成這本書。
  Davy Cielen非常感謝我的傢庭和我的朋友們,他們在我完成本書的過程中,給瞭我一如既往的支持和鼓勵。外麵的新鮮事物很多,能在傢完成這本書的創作真的很不容易,謝謝大傢!特彆要感謝我的父母,我的兄弟Jago,還有我親愛的女朋友Delphine。不管我有什麼瘋狂的想法和離奇的舉動,你們一直堅守在我身邊,不離不棄。
  同時,謝謝我的教母,還有我的教父,他正在與癌癥作鬥爭,但他們的積極樂觀讓生活充滿瞭希望。
  還要感謝我的朋友們,他們給我買啤酒。也謝謝我女朋友Delphine的父母,她的兄弟Karel和未過門的妻子Tess,謝謝你們的熱情款待和美味佳肴。
  大傢為瞭美好的生活而努力奮鬥著。
  最後並且是最重要的一點,我想謝謝本書的閤著者也是我的鐵哥們Mo,以及本書的另一位閤著者Davy,謝謝你們深刻的洞察和獨特見解。為瞭成為一名企業傢和數據科學傢,我們每天共享跌宕起伏的人生,這是一段多麼精彩的旅程,我相信我們的未來會更精彩。
  Arno D. B. Meysman首先最重要的一點是我要感謝我的未婚妻Muhuba,謝謝她的愛、理解、關心和包容。最後,感謝Davy和Arno,和他們一起度過瞭很多開心時光並讓我們的創業夢想成真。他們堅持不懈的奉獻是我完成本書至關重要的資源。
  Mohamed Ali


Python數據科學導論 下載 mobi epub pdf txt 電子書 格式

Python數據科學導論 mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2024

Python數據科學導論 下載 mobi pdf epub txt 電子書 格式 2024

Python數據科學導論 下載 mobi epub pdf 電子書
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

評分

評分

評分

評分

評分

評分

評分

評分

類似圖書 點擊查看全場最低價

Python數據科學導論 mobi epub pdf txt 電子書 格式下載 2024


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有