編輯推薦
    適讀人群 :本書麵嚮有以下需求的讀者:  ★ 希望學習原理而不是進行數學推導;  ★ 想看到有意義的現實世界應用;  ★ 想要可用的Python示例,以容易理解並能快速上手;  ★ 希望得一些到可用的想法,並能用自己的數據進行試驗。                                   本書是使用Python 進行深度學習實踐的一本初學指南,將帶領讀者學習使用Python構建深度神經網絡模型。
  本書不要求讀者具有深度神經網絡的相關經驗,也沒有羅列大量的公式,而是通過一些實際案例,以簡單直白的方式介紹深度神經網絡的兩項任務——分類和迴歸,解析深度學習模型中的一些核心問題,以期讓讀者對深度學習的全貌有一個清晰的認識。
  通過簡單易學的步驟,讀者將學會如何使用Python構建深度神經網絡模型。一旦掌握瞭這些步驟,讀者就能夠把這些知識轉換為強大的數據科學應用程序。
  本書包括以下精彩內容:
  ★ 釋放深度神經網絡的有效預測能力;
  ★ 動手開發二元分類的解決方案;
  ★ 為多元問題設計成功的應用;
  ★ 掌握有效模型構建的技術;
  ★ 調節深度神經網絡,以改善其性能。      
內容簡介
     本書是使用Python 進行深度學習實踐的一本初學指南。本書並未羅列大量的公式,而是通過一些實用的實際案例,以簡單直白的方式介紹深度神經網絡的兩項任務——分類和迴歸,解析深度學習模型中的一些核心問題,以期讓讀者對深度學習的全貌有一個清晰的認識。
  本書共9 章,分彆介紹瞭深度學習基礎理論、神經網絡基礎知識、構建定製化深度預測模型、性能提升技術、二元分類的神經網絡應用等內容,並藉助Python 語言對基本算法和實現模型進行瞭探索。
  本書適閤期望用較短時間在深度神經網絡領域初試牛刀的讀者,也適閤深度學習的初學者以及業內人士參考。     
作者簡介
     尼格爾·劉易斯(N.D. Lewis)是一位數據科學和預測領域的講師、作者和研究者。他在華爾街和倫敦從事投資管理工作多年,編著瞭統計、數據科學和量化模型方麵的數本圖書,並且在大學裏開設深度學習、機器學習和數據分析應用等方麵的課程。     
目錄
   第 1 章 如何閱讀本書    1
1.1 獲取Python     2
1.1.1 學習Python    3
1.1.2 軟件包     3
1.2 不需要等待     3
1.3 小結     4
附注       5
第 2 章 深度學習入門     6
2.1 為什麼要學習深度學習    7
2.1.1 最後一子     8
2.1.2 一件怪事     8
2.1.3 兩類人     9
2.2 什麼是深度學習    10
2.2.1 成功的藍圖    10
2.2.2 有監督學習和無監督學習    11
2.2.3 深度學習的流程    11
2.3 深度學習能解決什麼問題    12
2.4 哪些領域使用深度學習   14
2.4.1 深度學習能揭開永葆青春的秘密嗎   15
2.4.2 衰老的挑戰     15
2.4.3 眾多的理論     16
2.4.4 數據科學傢的答案    16
2.5 想使用深度學習——卻不知如何開始    17
2.6 小結    18
附注      18
第3 章 神經網絡基礎    27
3.1 曆史備忘錄    28
3.2 神經網絡的拓撲結構   29
3.3 神經元的作用    30
人工神經元     31
3.4 理解激活函數    31
3.4.1 數學計算    32
3.4.2 sigmoid 函數   34
3.4.3 運算成本    34
3.5 神經網絡如何進行學習   35
基本算法     36
3.6 解釋梯度下降算法    37
3.6.1 誤差麯麵    38
3.6.2 隨機梯度下降    39
3.7 小結     39
附注      40
第4 章 深度神經網絡簡介    42
4.1 深度神經網絡簡析    43
4.2 怎樣在一分鍾內解釋深度神經網絡    44
4.2.1 如何看待DNN    44
4.2.2 統計學傢的視角   45
4.2.3 一個關鍵的觀點   45
4.3 深度神經網絡的3 種使用方式   45
4.3.1 增強霧天的可視性   46
4.3.2 打擊黑客犯罪   50
4.3.3 不可思議的縮略圖    51
4.4 如何快速地近似任何函數   54
4.4.1 一個用Python 構建深度神經網絡的極簡方法  55
4.4.2 生成示例    56
4.4.3 檢查樣本    57
4.4.4 格式化數據    58
4.4.5 擬閤模型    60
4.4.6 性能錶現評估    61
4.5 有監督學習概述    62
4.5.1 有監督學習的目標   63
4.5.2 無監督學習    63
4.5.3 半監督學習    64
4.6 小結    65
附注      65
第5 章 如何構建可定製的深度預測模型   70
5.1 一個深度神經網絡預測的實際應用    71
5.1.1 樣本數據和神經網絡    71
5.1.2 可靠的性能錶現   72
5.2 明確預測目標    72
5.3 獲取數據的拷貝    74
5.4 標準化的重要性    75
5.5 使用訓練樣本和測試樣本   76
5.6 創建深度神經網絡迴歸模型的極簡方式  78
5.7 學習速率詳解    79
5.7.1 選擇最佳值    80
5.7.2 如果將模型擬閤到數據   81
5.8 評估模型在訓練集性能錶現的幾種方式  81
5.8.1 均方差    82
5.8.2 獲取預測和度量性能   83
5.9 小結    83
附注      84
第6 章 提高性能的一些技巧    85
6.1 sigmoid 激活函數的局限   86
6.2 選擇最佳層數的原則    89
6.3 如何快速改進模型    92
6.4 避免過度擬閤     93
6.5 應該包含多少個神經元   95
6.6 評估測試數據集上的性能   96
6.7 凍結網絡權重    97
6.8 保存網絡以供將來使用    98
6.9 小結     99
附注      99
第7 章 二元分類神經網絡的奧秘  101
7.1 感人至深——創造奇跡    102
7.1.1 一項二元分類任務    103
7.1.2 有用的結果    103
7.2 瞭解分類目標     104
7.3 使用Python 從網絡下載數據    105
7.4 處理缺失的觀測值    107
7.5 保存數據     111
7.6 衝量簡單入門     112
7.7 留齣法的秘密     113
7.8 如何用Python 快速構建一個深度神經網絡二元分類器  115
7.8.1 生成訓練集和測試集    117
7.8.2 指定模型     117
7.8.3 擬閤模型     118
7.8.4 混淆矩陣     119
7.9 小結     120
附注      120
第8 章 構建優秀模型之道   123
8.1 嘗試最簡單的想法提高成功率    124
8.2 輟學的威力     124
8.3 相似性     126
8.4 共適應     126
8.5 一個教訓     127
8.6 雙麯正切激活函數的威力以及如何有效地使用   127
8.7 如何從小批量方法中獲益    128
8.8 重建模型     129
8.9 關於不平衡樣本你應該知道的事    131
8.9.1 核心問題     131
8.9.2 查看測試集上的錶現    133
8.10 小結     134
附注      134
第9 章 深度神經網絡在多元分類問題的簡單應用 136
9.1 分類問題描述     138
9.1.1 查看樣本     139
9.1.2 檢查目標對象    140
9.2 關於softmax 激活函數的說明    140
9.3 使用rmsprop 算法構建多項式模型   141
9.3.1 關於rmsprop 算法的說明    143
9.3.2 模型性能錶現    144
9.4 Adagrad 學習算法概述    144
9.5 如何嘗試其他學習算法    146
9.5.1 Nesterov 的加速梯度下降算法   146
9.5.2 嘗試衝量法    147
9.5.3 常規隨機梯度下降法    148
9.5.4 在模型中使用Adadelta 算法   149
9.5.5 測試集性能錶現    150
9.6 小結     152
9.7 結束語     152
附注      152
 
    
				 
				
				
					《Python數據科學實踐指南》  麵嚮所有希望掌握數據驅動決策的專業人士與研究者  在信息爆炸的時代,數據已成為驅動創新、洞察趨勢、優化決策的核心要素。然而,原始數據本身並不能說話,它需要被理解、被分析、被轉化為有價值的知識。本書《Python數據科學實踐指南》應運而生,它是一本旨在幫助讀者從零開始,係統掌握數據科學核心技術與應用的全方位指南。我們不追求嘩眾取寵的理論模型,而是聚焦於實戰,以Python這一強大而靈活的編程語言為載體,帶領讀者深入數據科學的每一個關鍵環節。  本書內容涵蓋瞭從數據獲取、清洗、預處理,到探索性數據分析 (EDA)、可視化,再到機器學習模型的構建、評估與部署。我們認為,優秀的數據科學實踐並非僅僅依賴於算法的復雜性,更在於對數據本質的深刻理解,以及如何有效地利用工具來揭示數據背後的故事。因此,本書將大量篇幅用於介紹Python生態係統中那些經過時間檢驗、社區認可的強大庫,如NumPy、Pandas、Matplotlib、Seaborn、Scikit-learn等,並結閤大量真實世界的案例,詳細講解它們的使用方法與最佳實踐。  第一部分:數據準備與探索——數據世界的基石  數據分析的成功很大程度上取決於數據的質量。本書的第一部分將聚焦於數據準備與探索,為讀者打下堅實的基礎。     第一章:Python數據科學環境搭建與基礎        我們將首先引導讀者搭建穩定可靠的Python數據科學開發環境。這包括Anaconda的安裝與使用,以及Jupyter Notebook/Lab等交互式開發工具的配置。        隨後,我們將簡要迴顧Python的基礎語法,重點強調與數據處理相關的概念,如數據結構(列錶、元組、字典、集閤)、控製流、函數等,確保所有讀者都能快速進入狀態。     第二章:NumPy——科學計算的基石        NumPy是Python進行科學計算的基石,本書將深入介紹其核心——ndarray對象。我們將講解數組的創建、索引、切片、重塑,以及各種數學運算(點積、轉置、矩陣運算等)。        學習NumPy的嚮量化操作,理解其如何顯著提升計算效率,是掌握Python數據科學的第一步。我們將通過實例展示如何使用NumPy進行大規模數值計算。     第三章:Pandas——數據處理的利器        Pandas庫是數據分析領域事實上的標準,本書將係統講解其兩大核心數據結構:Series和DataFrame。        我們將詳細闡述如何使用Pandas進行數據的讀取與寫入(CSV、Excel、SQL數據庫等),數據的選擇、過濾、排序,以及缺失值和異常值的處理(填充、刪除、插補)。        數據閤並、連接(merge, join, concat)是處理多源數據的關鍵,本書將提供清晰的講解和豐富的示例。同時,我們還會介紹分組(groupby)和聚閤操作,這是從數據中提取統計信息的強大工具。     第四章:數據可視化——洞察數據之美        “一圖勝韆言”,數據可視化是將復雜數據轉化為直觀洞察的有效手段。        本書將重點介紹Matplotlib和Seaborn這兩個主流的Python可視化庫。我們將從基礎的圖錶類型(摺綫圖、散點圖、柱狀圖、餅圖)入手,逐步深入到更復雜的圖錶(箱綫圖、小提琴圖、熱力圖、地理信息圖)。        我們不僅教授如何繪製圖錶,更強調如何通過可視化來探索數據分布、發現變量之間的關係、識彆模式和異常。同時,也會討論如何創建清晰、有信息量且美觀的可視化作品。  第二部分:機器學習實戰——從模型到應用  掌握瞭數據處理與探索的技能後,本書將帶領讀者進入機器學習的領域,學習如何構建模型來解決實際問題。     第五章:機器學習基礎概念與Scikit-learn入門        本章將介紹機器學習的基本概念,包括監督學習、無監督學習、半監督學習和強化學習。我們將區分分類、迴歸、聚類等任務,並解釋過擬閤、欠擬閤、偏差-方差權衡等核心概念。        Scikit-learn是Python中最流行的機器學習庫之一。我們將介紹其統一的API接口,包括Estimator、Transformer、Pipeline等概念,並演示如何使用它來加載數據集、訓練模型、進行預測。     第六章:監督學習算法詳解與應用        迴歸模型: 我們將深入講解綫性迴歸、多項式迴歸、嶺迴歸、Lasso迴歸等模型,並分析它們在預測連續值時的優劣。        分類模型: 本章將覆蓋邏輯迴歸、支持嚮量機 (SVM)、決策樹、隨機森林、K近鄰 (KNN) 等經典分類算法。我們會討論它們的原理、參數調優以及適用場景。        模型評估: 對於監督學習模型,準確的評估至關重要。我們將介紹準確率、精確率、召迴率、F1分數、ROC麯綫、AUC值等評估指標,並講解交叉驗證技術。     第七章:無監督學習算法詳解與應用        聚類算法: 我們將講解K-Means、DBSCAN、層次聚類等聚類算法,並討論如何評估聚類結果的質量。聚類常用於用戶分群、市場細分等場景。        降維算法: 主成分分析 (PCA)、t-SNE等降維技術能夠幫助我們減少數據維度,便於可視化和提高模型效率。我們將演示如何使用這些技術來簡化高維數據。     第八章:特徵工程——提升模型性能的關鍵        特徵工程是機器學習流程中至關重要的一環,它直接影響模型的性能。        本章將介紹如何創建新的特徵、轉換現有特徵(如獨熱編碼、標準化、歸一化)、處理類彆型特徵、處理日期和時間特徵,以及特徵選擇和特徵提取的技術。我們將通過實踐案例展示特徵工程的強大威力。     第九章:模型選擇與調優        選擇閤適的模型以及對其進行精細調優是構建高性能係統的關鍵。        我們將介紹網格搜索 (Grid Search)、隨機搜索 (Random Search) 等超參數調優技術,以及如何利用管道 (Pipeline) 來簡化模型評估和調優過程。  第三部分:高級主題與實戰案例——學以緻用  在掌握瞭基礎和核心技術後,本書將帶領讀者探索更高級的主題,並通過豐富的實戰案例來鞏固所學知識。     第十章:文本數據處理與分析        在當今信息時代,文本數據無處不在。本章將介紹如何使用Python處理文本數據,包括文本的清洗、分詞、詞乾提取、詞形還原,以及TF-IDF、詞袋模型等文本錶示方法。        我們將初步接觸自然語言處理 (NLP) 的基礎概念,並展示如何使用Scikit-learn進行文本分類、情感分析等任務。     第十一章:時間序列分析基礎        時間序列數據在金融、氣象、銷售預測等領域具有廣泛應用。        本章將介紹時間序列數據的特點,包括趨勢、季節性、周期性,以及ARIMA、指數平滑等經典時間序列模型。我們將使用Python庫(如Statsmodels)進行時間序列的建模與預測。     第十二章:數據科學項目實戰        理論學習離不開實踐檢驗。本書將通過幾個貫穿始終的綜閤性案例,展示數據科學項目的完整流程。        這些案例可能涵蓋:            電商用戶行為分析: 分析用戶購買記錄,進行用戶分群,預測用戶流失。            房産價格預測: 利用房屋特徵預測其市場價格。            文本情感分析: 對社交媒體評論進行情感傾嚮分析。        在每個案例中,我們將指導讀者如何定義問題、收集數據、進行探索性分析、選擇和訓練模型,最終評估和解釋結果。  本書特色:     聚焦實戰: 每一章都配有大量的代碼示例,讀者可以跟隨學習,親手實踐。    案例驅動: 通過真實世界的數據集和場景,讓抽象的概念變得具體。    循序漸進: 內容從基礎到高級,適閤不同經驗水平的讀者。    Python生態優先: 充分利用Python在數據科學領域的豐富生態。    強調理解: 不僅教授“如何做”,更注重解釋“為何如此”。  無論您是初學者,還是希望提升數據分析和機器學習技能的開發者、分析師、研究人員,亦或是希望將數據驅動方法應用於業務決策的管理者,《Python數據科學實踐指南》都將是您不可或缺的得力助手。讓我們一起踏上這段精彩的數據科學探索之旅,用Python的力量釋放數據的無限潛能!