發表於2024-11-26
1.在數據學科的角度,融閤瞭數學、計算機科學、計量經濟學的精髓。
2.為讀者闡釋瞭數據科學所要解決的核心問題—數據模型、算法模型的理論內涵和適用範圍
3.以常用的IT工具—Python為基礎,教會讀者如何建模以及通過算法實現數據模型,具有很強的實操性。
4.本書還為讀者詳解瞭分布式機器學習、神經網絡、深度學習等大數據和人工智能的前沿技術。
中國工程院院士、第三世界科學院院士、前中國科學院計算技術研究所所長李國傑,
易選股金融智能證券董事長,鍵橋通訊董事易歡歡作序推薦;
GrowingIO 創始人兼 CEO張溪夢,
復旦大學教授、博士生導師、復旦大學航空航天數據研究中心主任楊衛東,
美國羅格斯大學管理科學及信息係統係終身教授,中國計算機學會大數據專傢委員會委員林曉東,誠意推薦。
本書全麵講解瞭數據科學的相關知識,從統計分析學到機器學習、深度學習中用到的算法及模型,藉鑒經濟學視角給齣模型的相關解釋,深入探討模型的可用性,並結閤大量的實際案例和代碼幫助讀者學以緻用,將具體的應用場景和現有的模型相結閤,從而更好地發現模型的潛在應用場景。
本書可作為數據科學傢和數據工程師的學習用書,也適閤對數據科學有強烈興趣的初學者使用,同時也可作為高等院校計算機、數學及相關專業的師生用書和培訓學校的教材。
唐亙,數據科學傢,專注於機器學習和大數據。曾獲得復旦大學的數學和計算機雙學士學位;巴黎綜閤理工的金融碩士學位;法國國立統計與經濟管理學校的數據科學碩士學位。熱愛並積極參與Apache Spark和Scikit-Learn等開源項目。作為講師和技術顧問,為多傢機構(包括惠普、華為、復旦大學等)提供百餘場技術培訓。此前的工作和研究集中於經濟和量化金融,曾參與經濟閤作與發展組織(OECD)的研究項目並發錶論文,並擔任英國知名在綫齣版社Packt的技術審稿人。
我與本書作者素不相識,讀完作者發來的電子書稿後,感受到瞭以往在讀技術類書籍時從未有過的驚喜。國內已有不少介紹大數據和機器學習的教科書和參考書,但這本書與眾不同,它的重點不是傳統教科書式的概念導入和各種機器學習算法的羅列,而是強調統計學、機器學習和計算機科學3門學科的融會貫通,試圖呈現給讀者關於數據科學較全麵的知識體係。特彆是對常用的統計和機器學習軟件的詳細說明,對提高在校大學生、研究生的動手能力和企業科技人員解決實際問題的能力大有裨益。
中國工程院院士,第三世界科學院院士,曾任中國科學院計算技術研究所所長 李國傑
數據科學是一門交叉學科,涉及數理統計、代碼編程、商業分析等多個領域的知識。我們正在從 IT 時代步入 DT 時代,數據科學將扮演越來越重要的角色,企業對數據科學傢的需求也將快速增加。數據科學傢被《哈佛商業評論》評為“21世紀zui吸引人的職業”,可見其魅力所在。唐亙的這本書係統介紹瞭目前數據科學領域的核心知識和技能,幫助讀者搭建一個係統的知識體係。我把它推薦給對數據科學感興趣或者立誌成為下一位數據科學傢的你!
GrowingIO 創始人兼 CEO ,曾任 LinkedIn 美國商業分析部高級總監,《首席增長官》一書作者 張溪夢( Simon Zhang )
圖靈奬獲得者Jim Gray將數據科學稱作科學研究的“第四範式”(the fourth paradigm)。數據科學不僅會影響到科學的各個方麵,也會在各領域的應用中發揮重要的作用。唐亙以其堅實的數據科學基礎和多年的大數據分析經驗,用淺顯易懂的方式撰寫瞭這本《深入淺齣數據科學:從綫性迴歸到深度學習》。這本書沒有局限於坐而論道,讓讀者對各種模型有恐懼感,而是通過應用實例將問題、概念、模型和解決方案有機地聯係起來,使讀者能夠快速理解和應用數據科學。對於數據科學的學習者和不同領域的應用者來說,這本書非常值得一讀。
復旦大學教授,博士生導師,復旦大學航空航天數據研究中心主任 楊衛東
將一本技術書籍寫得通俗易懂而又深刻透徹是很難的,但唐亙這本《深入淺齣數據科學:從綫性迴歸到深度學習》做到瞭這一點。這本書從技術、方法、實踐這3個維度係統地介紹瞭數據科學的方方麵麵,內容詳實,解讀清晰,細節與全貌兼顧,既適閤初學者閱讀,也可以作為深入研究的參考用書。
美國羅格斯大學管理科學及信息係統係終身教授,中國計算機學會大數據專傢委員會委員 林曉東
第 1章 數據科學概述 1
1.1 挑戰 2
1.1.1 工程實現的挑戰 2
1.1.2 模型搭建的挑戰 3
1.2 機器學習 5
1.2.1 機器學習與傳統編程 5
1.2.2 監督式學習和非監督式學習 8
1.3 統計模型 8
1.4 關於本書 10
第 2章 Python安裝指南與簡介:告彆空談 12
2.1 Python簡介 13
2.1.1 什麼是Python 15
2.1.2 Python在數據科學中的地位 16
2.1.3 不可能繞過的第三方庫 17
2.2 Python安裝 17
2.2.1 Windows下的安裝 18
2.2.2 Mac下的安裝 21
2.2.3 Linux下的安裝 24
2.3 Python上手實踐 26
2.3.1 Python shell 26
2.3.2 第 一個Python程序:Word Count 28
2.3.3 Python編程基礎 30
2.3.4 Python的工程結構 34
2.4 本章小結 35
第3章 數學基礎:惱人但又不可或缺的知識 36
3.1 矩陣和嚮量空間 37
3.1.1 標量、嚮量與矩陣 37
3.1.2 特殊矩陣 39
3.1.3 矩陣運算 39
3.1.4 代碼實現 42
3.1.5 嚮量空間 44
3.2 概率:量化隨機 46
3.2.1 定義概率:事件和概率空間 47
3.2.2 條件概率:信息的價值 48
3.2.3 隨機變量:兩種不同的隨機 50
3.2.4 正態分布:殊途同歸 52
3.2.5 P-value:自信的猜測 53
3.3 微積分 55
3.3.1 導數和積分:位置、速度 55
3.3.2 極限:變化的終點 57
3.3.3 復閤函數:鏈式法則 58
3.3.4 多元函數:偏導數 59
3.3.5 極值與最值:最優選擇 59
3.4 本章小結 61
第4章 綫性迴歸:模型之母 62
4.1 一個簡單的例子 64
4.1.1 從機器學習的角度看這個問題 66
4.1.2 從統計學的角度看這個問題 69
4.2 上手實踐:模型實現 73
4.2.1 機器學習代碼實現 74
4.2.2 統計方法代碼實現 77
4.3 模型陷阱 82
4.3.1 過度擬閤:模型越復雜越好嗎 84
4.3.2 模型幻覺之統計學方案:假設檢驗 87
4.3.3 模型幻覺之機器學習方案:懲罰項 89
4.3.4 比較兩種方案 92
4.4 模型持久化 92
4.4.1 模型的生命周期 93
4.4.2 保存模型 93
4.5 本章小結 96
第5章 邏輯迴歸:隱藏因子 97
5.1 二元分類問題:是與否 98
5.1.1 綫性迴歸:為何失效 98
5.1.2 窗口效應:看不見的纔是關鍵 100
5.1.3 邏輯分布:勝者生存 102
5.1.4 參數估計之似然函數:統計學角度 104
5.1.5 參數估計之損失函數:機器學習角度 104
5.1.6 參數估計之最終預測:從概率到選擇 106
5.1.7 空間變換:非綫性到綫性 106
5.2 上手實踐:模型實現 108
5.2.1 初步分析數據:直觀印象 108
5.2.2 搭建模型 113
5.2.3 理解模型結果 116
5.3 評估模型效果:孰優孰劣 118
5.3.1 查準率與查全率 119
5.3.2 ROC麯綫與AUC 123
5.4 多元分類問題:超越是與否 127
5.4.1 多元邏輯迴歸:邏輯分布的威力 128
5.4.2 One-vs.-all:從二元到多元 129
5.4.3 模型實現 130
5.5 非均衡數據集 132
5.5.1 準確度悖論 132
5.5.2 一個例子 133
5.5.3 解決方法 135
5.6 本章小結 136
第6章 工程實現:計算機是怎麼算的 138
6.1 算法思路:模擬滾動 139
6.2 數值求解:梯度下降法 141
6.3 上手實踐:代碼實現 142
6.3.1 TensorFlow基礎 143
6.3.2 定義模型 148
6.3.3 梯度下降 149
6.3.4 分析運行細節 150
6.4 更優化的算法:隨機梯度下降法 153
6.4.1 算法細節 153
6.4.2 代碼實現 154
6.4.3 兩種算法比較 156
6.5 本章小結 158
第7章 計量經濟學的啓示:他山之石 159
7.1 定量與定性:變量的數學運算閤理嗎 161
7.2 定性變量的處理 162
7.2.1 虛擬變量 162
7.2.2 上手實踐:代碼實現 164
7.2.3 從定性變量到定量變量 168
7.3 定量變量的處理 170
7.3.1 定量變量轉換為定性變量 171
7.3.2 上手實踐:代碼實現 171
7.3.3 基於卡方檢驗的方法 173
7.4 顯著性 175
7.5 多重共綫性:多變量的煩惱 176
7.5.1 多重共綫性效應 176
7.5.2 檢測多重共綫性 180
7.5.3 解決方法 185
7.5.4 虛擬變量陷阱 188
7.6 內生性:變化來自何處 191
7.6.1 來源 192
7.6.2 內生性效應 193
7.6.3 工具變量 195
7.6.4 邏輯迴歸的內生性 198
7.6.5 模型的聯結 200
7.7 本章小結 201
第8章 監督式學習: 目標明確 202
8.1 支持嚮量學習機 203
8.1.1 直觀例子 204
8.1.2 用數學理解直觀 205
8.1.3 從幾何直觀到最優化問題 207
8.1.4 損失項 209
8.1.5 損失函數與懲罰項 210
8.1.6 Hard margin 與soft margin比較 211
8.1.7 支持嚮量學習機與邏輯迴歸:隱藏的假設 213
8.2 核函數 216
8.2.1 空間變換:從非綫性到綫性 216
8.2.2 拉格朗日對偶 218
8.2.3 支持嚮量 220
8.2.4 核函數的定義:優化運算 221
8.2.5 常用的核函數 222
8.2.6 Scale variant 225
8.3 決策樹 227
8.3.1 決策規則 227
8.3.2 評判標準 229
8.3.3 代碼實現 231
8.3.4 決策樹預測算法以及模型的聯結 231
8.3.5 剪枝 235
8.4 樹的集成 238
8.4.1 隨機森林 238
8.4.2 Random forest embedding 239
8.4.3 GBTs之梯度提升 241
8.4.4 GBTs之算法細節 242
8.5 本章小結 244
第9章 生成式模型:量化信息的價值 246
9.1 貝葉斯框架 248
9.1.1 濛提霍爾問題 248
9.1.2 條件概率 249
9.1.3 先驗概率與後驗概率 251
9.1.4 參數估計與預測公式 251
9.1.5 貝葉斯學派與頻率學派 252
9.2 樸素貝葉斯 254
9.2.1 特徵提取:文字到數字 254
9.2.2 伯努利模型 256
9.2.3 多項式模型 258
9.2.4 TF-IDF 259
9.2.5 文本分類的代碼實現 260
9.2.6 模型的聯結 265
9.3 判彆分析 266
9.3.1 綫性判彆分析 267
9.3.2 綫性判彆分析與邏輯迴歸比較 269
9.3.3 數據降維 270
9.3.4 代碼實現 273
9.3.5 二次判彆分析 275
9.4 隱馬爾可夫模型 276
9.4.1 一個簡單的例子 276
9.4.2 馬爾可夫鏈 278
9.4.3 模型架構 279
9.4.4 中文分詞:監督式學習 280
精通數據科學 從綫性迴歸到深度學習 下載 mobi pdf epub txt 電子書 格式 2024
精通數據科學 從綫性迴歸到深度學習 下載 mobi epub pdf 電子書不錯,比較係統!有代碼!
評分還可以吧還可以還可以還可以還可以吧
評分618的促銷雖然給力,但是券的數量太少瞭,但是確實是相當劃算,下次繼續囤書
評分挺好的,趁著特價買瞭一堆書
評分可以換哈哈哈哈哈哈~~
評分好,內容豐富 多樣。
評分給老公買的,不知道怎麼樣( ??????? ? ??????? )?,應該很不錯。
評分還不錯,比外麵買便宜,點贊點贊點贊點贊點贊點贊
評分不建議買
精通數據科學 從綫性迴歸到深度學習 mobi epub pdf txt 電子書 格式下載 2024