內容簡介
統計學習理論是研究利用經驗數據進行機器學習的一種一般理論,屬於計算機科學、模式識彆和應用統計學相交叉與結閤的範疇,其主要創立者是本書作者。統計學習理論基本內容誕生於20世紀60~70年代,到90年代中期發展到比較成熟並受到世界機器學習界的廣泛重視,其核心內容反映在Vapnik的兩部重要著作中,本書即是其中一部,另一部是《統計學習理論的本質》。 由於較係統地考慮瞭有限樣本的情況,統計學習理論與傳統統計學理論相比有更好的實用性,在該理論下發展齣的支持嚮量機方法以其有限樣本下良好的推廣能力而備受重視。
作者簡介
許建華,2002年於清華大學模式識彆與智能係統專業獲工學博士學位。現任南京師範大學計算機科學與技術學院教授。主要從事機器學習、模式識彆、神經網絡、信號處理理論、算法及應用研究。
張學工,1994年於清華大學模式識彆與智能係統專業獲工學博士學位。現任清華大學自動化係教授。主要從事生物信息學、機器學習與模式識彆理論、方法與應用研究。
目錄
引論:歸納和統計推理問題.
0.1 統計學中的學習理論體係
0.2 統計推理的兩種方法:特殊方法(參數推理)和通用方法(非參數推理)
0.3 參數方法的體係
0.4 參數體係的缺點
0.5 經典體係後的發展
0.6 復興階段
0.7 Glivenko-Cantelli-Kolmogorov理論的推廣
0.8 結構風險最小化原則
0.9 小樣本集推理的主要原則
0.10 本書的要點
第一部分 學習和推廣性理論
第1章 處理學習問題的兩種方法
1.1 基於實例學習的一般模型
1.2 最小化經驗數據風險泛函的問題
1.3 模式識彆問題
1.4 迴歸估計問題
1.5 解釋間接測量結果的問題
1.6 密度估計問題(Fisher-Wald錶達)
1.7 基於經驗數據最小化風險泛函的歸納原則
1.8 解函數估計問題的經典方法
1.9 隨機對象的識彆:密度和條件密度估計
1.10 解近似確定性積分方程的問題
1.11 Clivenko-Cantelli定理
1.12 不適定問題
1.13 學習理論的結構
第1章附錄 解不適定問題的方法
A1.1 解算子方程問題
A1.2 Tikhonov意義下的適定問題
A1.3 正則化方法
第2章 概率測度估計與學習問題
2.1 隨機實驗的概率模型
2.2 統計學的基本問題
2.3 估計一緻收斂於未知概率測度的條件
2.4 部分一緻收斂性和Glivenko-Cantelli定理的推廣
2.5 在概率測度估計一緻收斂的條件下最小化風險泛函
2.6 在概率測度估計部分一緻收斂的條件下最小化風險泛函
2.7 關於概率測度估計收斂方式和學習問題錶達的評述
第3章 經驗風險最小化原則一緻性的條件
3.1 一緻性的經典定義
3.2 嚴格(非平凡)一緻性的定義
3.3 經驗過程
3.4 學習理論的關鍵定理(關於等價性的定理)
3.5 關鍵定理的證明
3.6 最大似然方法的嚴格一緻性
3.7 頻率一緻收斂於概率的充分必要條件
3.8 有界實函數集均值一緻收斂於期望的充分必要條件
3.9 界函數集均值一緻收斂於期望的充分必要條件
3.10 Kant的劃分問題和Popper的不可證僞學說
3.11 不可證僞性定理
3.12 一緻單邊收斂性經驗風險最小化原則和一緻性的條件
3.13 學習理論的三個裏程碑
第4章 指示損失函數風險的界
4.1 最簡單模型的界:悲觀情況
4.2 最簡單模型的界:樂觀情況
4.3 最簡單模型的界:一般情況
4.4 基本不等式:悲觀情況
4.5 定理4.1的證明
4.6 基本不等式:一般情況
4.7 定理4.2的證明
4.8 主要的非構造性的界
4.9 VC維
4.10 定理4.3的證明
4.11 不同函數集的VC維的例子
4.12 關於學習機器推廣能力的界的評述
4.13 兩個等分樣本子集上頻率差的界
第4章附錄 關於ERM原則風險的下界
A4.1 統計推理中的兩種策略
A4.2 學習問題的最小最大損失策略
A4.3 經驗風險最小化原則的最大損失的上界
A4.4 樂觀情形下最小最大損失策略的下界
A4.5 悲觀情形下最小最大損失策略的下界
第5章 實損失函數風險的界
5.1 最簡單模型的界:悲觀情形
5.2 實函數集的容量
5.3 一般模型的界:悲觀情形
5.4 基本不等式
5.5 一般模型的界:普遍情形
5.6 一緻相對收斂的界
5.7 界損失函數集中風險最小化問題的先驗信息
5.8 界非負函數集的風險的界
5.9 樣本選擇與野值問題
5.10 界理論的主要結果
第6章 結構風險最小化原則
6.1 結構風險最小化歸納原則的構架
6.2 最小描述長度和結構風險最小化歸納原則
6.3 結構風險最小化原則的一緻性與關於收斂速率的漸近界
6.4 迴歸估計問題的界
6.5 函數逼近問題
6.6 局部風險最小化問題
第6章 附錄 基於間接測量的函數估計
A6.1 估計間接測量結果的問題
A6.2 關於利用間接測量估計函數的定理
A6.3 定理的證明
第7章 隨機不適定問題
7.1 隨機不適定問題
7.2 解隨機不適定問題的正則化方法
7.3 定理的證明
7.4 密度估計方法一緻性的條件
7.5 非參數密度估計子:基於經驗分布函數逼近分布函數的估計子
7.6 非經典估計子
7.7 光滑密度函數的漸近收斂速率
7.8 定理7.4的證明
7.9 密度估計問題中光滑(正則化)參數值的選取
7.10 兩個密度比值的估計
7.11 直綫上兩個密度比值的估計
7.12 直綫上條件概率的估計
第8章 估計給定點上的函數值
8.1 最小化總體風險的方法
8.2 總體風險的結構最小化方法
8.3 關於兩個樣本子集上頻率的一緻相對偏差的界
8.4 關於兩個樣本子集上均值的一緻相對偏差的界
8.5 在綫性決策規則集中估計指示函數的值
8.6 指示函數值估計的樣本選取
8.7 在與參數成綫性關係的函數集中估計實函數值
8.8 實函數值估計的樣本選取
8.9 估計指示函數值的局部算法
8.10 估計實函數值的局部算法
8.11 在給定樣本集中尋找最好點的問題
第二部分 函數的支持嚮量估計..
第9章 感知器及其推廣
9.1 Rosenblatt感知器
9.2 定理的證明
9.3 隨機逼近方法和指示函數的Sigmoid逼近方法
9.4 勢函數法與徑嚮基函數法
9.5 最優化理論中的三個定理
9.6 神經網絡
第10章 估計指示函數的支持嚮量方法
10.1 最優超平麵
10.2 不可分樣本集的最優超平麵
10.3 最優超平麵的統計特性
10.4 定理的證明
10.5 支持嚮量機的思想
10.6 支持嚮量方法的另一種構造方式
10.7 利用界選擇支持嚮量機
10.8 模式識彆問題的支持嚮量機的例子
10.9 轉導推理的支持嚮量方法
10.10 多類分類
10.11 關於支持嚮量方法推廣性的評述
第11章 估計實函數的支持嚮量方法
11.1 不敏感損失函數
11.2 魯棒估計子的損失函數
11.3 最小化包含ε不敏感損失函數的風險
11.4 函數估計的支持嚮量機
11.5 構造實函數估計的核
11.6 生成樣條的核
11.7 生成Fourier展開的核
11.8 函數逼近和迴歸估計的支持嚮量ANOVA分解
11.9 解綫性算子方程的支持嚮量方法
11.10 密度估計的支持嚮量方法
11.11 條件概率函數和條件密度函數的估計
11.12 支持嚮量方法與稀疏函數逼近之間的關係
第12章 模式識彆的支持嚮量機
12.1 二次優化問題
12.2 數字識彆問題:美國郵政服務數據庫
12.3 切距
12.4 數字識彆問題:NIST數據庫
12.5 將來的競爭
第13章 函數逼近、迴歸估計和信號處理的支持嚮量機
13.1 模型選擇問題
13.2 正則化綫性函數集上的結構
13.3 利用支持嚮量方法的函數逼近
13.4 迴歸估計的支持嚮量機
13.5 求解正電子放射層析成像(PET)問題的支持嚮量方法
13.6 關於支持嚮量方法的評述
第三部分 學習理論的統計學基礎
第14章 頻率一緻收斂於概率的充分必要條件
14.1 頻率一緻收斂於概率
14.2 基本引理
14.3 事件集的熵
14.4 熵的漸近性質
14.5 一緻收斂性的充分必要條件:充分性的證明
14.6 一緻收斂性的充分必要條件:必要性的證明
14.7 充分必要條件:必要性的證明(續)
第15章 均值一緻收斂子期望的充分必要條件
15.1 ε熵
15.2 僞立方體
15.3 集閤的ε擴張
15.4 輔助引理
15.5 一緻收斂性的充分必要條件:必要性的證明
15.6 一緻收斂性的充分必要條件:充分性的證明
15.7 定理15.1的推論
第16章 均值一緻單邊收斂於期望的充分必要條件
16.1 引言
16.2 最大體積部分
16.3 平均對數定理
16.4 走廊存在性定理
16.5 鄰近走廊邊界的函數的存在性定理(潛在不可證僞的定理)
16.6 必要條件
16.7 充分必要條件
注釋與參考文獻評述
參考文獻
中英文術語對照錶
前言/序言
《數據驅動的決策藝術:算法、模型與實戰指南》 在這個信息爆炸的時代,數據已成為企業、科研機構乃至個人做齣明智決策的基石。然而,海量的數據本身並不能直接轉化為價值,關鍵在於如何從中提煉齣有意義的模式、預測未來趨勢,並最終指導行動。《數據驅動的決策藝術》一書,正是為緻力於駕馭數據力量的讀者量身打造的權威指南。本書並非一本枯燥的理論堆砌,而是以清晰的邏輯、豐富的案例,係統地闡述瞭從基礎數據處理到復雜模型構建,再到實際應用部署的全過程,旨在幫助讀者掌握利用數據實現精準決策的核心技能。 本書的開篇,將引領讀者穿越數據世界的迷霧,深入理解數據分析的基礎。從數據的收集、清洗、預處理,到各種數據類型的識彆與存儲,再到數據可視化在理解數據特徵中的關鍵作用,本書都將一一詳解。我們相信,紮實的數據準備是後續一切分析工作的前提,因此,作者將花費大量篇幅介紹如何有效地識彆和處理數據中的噪聲、缺失值以及異常值,並演示多種技術,幫助讀者構建高質量、可信賴的數據集。數據可視化部分,則會介紹各種圖錶類型及其適用場景,教會讀者如何通過直觀的圖形語言來揭示數據中的隱藏關聯,為後續建模打下堅實基礎。 隨後,本書將聚焦於構建強大預測能力的算法與模型。我們將從經典統計模型齣發,如綫性迴歸、邏輯迴歸等,闡釋其背後的數學原理以及在實際問題中的應用。在此基礎上,本書將逐步深入到更復雜的機器學習算法。對於那些對非綫性關係和高維數據束手無策的傳統模型,我們將詳細介紹決策樹、隨機森林、梯度提升等集成學習方法,解釋它們如何通過組閤多個弱學習器來提升整體預測性能。此外,神經網絡和深度學習作為當前人工智能領域的核心驅動力,也將在本書中占據重要地位。讀者將瞭解不同類型的神經網絡架構,如多層感知機(MLP)、捲積神經網絡(CNN)以及循環神經網絡(RNN),並學習它們在圖像識彆、自然語言處理等領域的強大應用。本書的重點在於,並非僅僅羅列算法,而是深入剖析每種算法的工作機製,以及它們各自的優缺點,讓讀者理解“為什麼”選擇某種算法,以及“如何”調優以獲得最佳效果。 模型選擇與評估是數據科學實踐中至關重要的一環。《數據驅動的決策藝術》將係統地介紹各種模型選擇的策略,包括交叉驗證、正則化技術等,幫助讀者避免模型過擬閤或欠擬閤。更重要的是,本書將詳細闡述評估模型性能的各種指標,如準確率、精確率、召迴率、F1分數、ROC麯綫、AUC值等,並解釋在不同應用場景下,應該側重於哪些指標。作者將通過大量實例,指導讀者如何根據業務目標和數據特性,選擇最閤適的評估標準,從而客觀公正地衡量模型的優劣,並做齣明智的模型迭代決策。 本書的另一大亮點在於其豐富的實戰案例。理論的深度最終要落腳於解決實際問題。《數據驅動的決策藝術》將涵蓋多個不同領域的真實世界案例,包括但不限於: 市場營銷與客戶分析: 如何利用曆史購買數據構建客戶流失預測模型,識彆高價值客戶,並製定個性化的營銷策略;如何進行用戶畫像分析,理解用戶行為模式,優化産品推薦係統。 金融風控: 如何利用交易數據構建欺詐檢測模型,識彆異常交易行為;如何開發信用評分模型,評估藉貸申請人的違約風險。 醫療健康: 如何利用病患數據預測疾病發生概率,輔助醫生進行早期診斷;如何分析藥物療效數據,優化治療方案。 供應鏈管理: 如何基於曆史銷售數據進行需求預測,優化庫存管理;如何通過分析物流數據,提高運輸效率。 這些案例不僅僅是技術的簡單應用,更包含瞭從問題定義、數據準備、模型構建、結果解釋到最終決策落地的完整流程。讀者將通過這些案例,學習如何在真實世界的復雜環境中應用本書所介紹的工具與方法,並理解數據分析的商業價值。 除瞭核心算法與模型,本書還將探討數據驅動決策過程中的一些重要議題。例如,特徵工程的重要性將得到強調,介紹如何從原始數據中創造齣更具預測能力的特徵,這往往是提升模型性能的關鍵所在。讀者將學習到各種有效的特徵工程技術,包括數值特徵的變換、類彆特徵的編碼、文本特徵的處理以及時間序列特徵的提取等。 此外,模型的可解釋性也是一個日益受到重視的領域。《數據驅動的決策藝術》將介紹一些增強模型可解釋性的方法,如LIME、SHAP等,幫助讀者理解模型為什麼會做齣某個預測,這對於建立信任、滿足監管要求以及發現潛在的偏差至關重要。 對於希望將模型部署到生産環境中的讀者,本書也將提供相關的指導。雖然不深入代碼實現,但我們將討論模型部署的流程、常見的部署架構以及模型監控與維護的重要性,確保數據驅動的決策能夠真正落地並持續發揮作用。 本書的寫作風格力求簡潔明瞭,避免不必要的數學推導,而是側重於概念的理解和實際應用。書中穿插瞭大量的圖示、錶格和僞代碼,以增強內容的易讀性和教學性。無論是初學者還是希望深化理解的專業人士,都能從中獲得寶貴的知識和啓發。 《數據驅動的決策藝術:算法、模型與實戰指南》不僅僅是一本關於數據分析技術的書籍,它更是一門關於如何運用數據思維去理解世界、解決問題的藝術。我們希望通過本書,賦能讀者掌握這項在21世紀不可或缺的關鍵能力,在數據洪流中找到方嚮,做齣更明智、更有效、更具洞察力的決策。無論您是産品經理、市場營銷專傢、金融分析師、科研人員,還是任何希望提升決策能力的人,本書都將是您寶貴的知識夥伴。