發表於2024-12-26
人類各項科學技術的發展帶來瞭海量數據,“大數據”的概念鋪天蓋地。統計學這一專注於數據分析的學科理應適應於這一時代的重大變革和發展。顯然大數據帶給統計學的衝擊是全方麵的,不隻是局限於理論或者計算。國際上眾多統計學傢都在思考統計學在大數據時代應該扮演的角色。然而,提高統計學專業的學生相關計算機編程能力卻是刻不容緩。在這一背景之下,上海財經大學統計與管理學院開設瞭專業統計學碩士“數據科學與商務統計”方嚮,力圖增強相關碩士生從事大數據分析的計算能力以及分析商務數據(包括營銷數據、信用數據等)的應用能力。在這一指導思想之下,上海財經大學統計與管理學院開設瞭一係列相關課程。本講義就是針對該專業方嚮的《分布式統計計算》一課。這門課程嚮學生介紹分布式計算的思想以及在統計學上的應用,將統計學傳統方法和分布式計算方法相結閤,通過不同的統計學問題來強化學生的分布式統計計算的編程能力和對統計計算的理解。
馮興東教授於2009年畢業於美國伊利洛伊大學香檳分校(University of Illinois at Urbana-Champaign),獲得統計學博士學位。之後在美國國傢統計科學研究所(National Institute of Statistical Sciences)從事博士後研究工作,研究內容主要集中在蛋白質數據分析,該項研究屬於和美國多個著名高校癌癥研究實驗室的聯閤閤作項目。 2011年始任教於上海財經大學統計與管理學院。研究興趣包括大數據統計計算、數據降維、分位數迴歸、穩健性統計以及在金融和生物數據的應用等等。馮興東博士主持或參與多項國傢自然科學基金項目;其多項研究成果發錶於《The Annals of Applied Statistics》、《Biometrika》、《Journal of the American Statistical Association》、《The Annals of Statistics》等國際統計期刊上。
前言1
1Apache Spark簡介1
1.1Apache Spark的曆史與現狀1
1.2安裝和運行Apache Spark2
1.3Apache Spark編程簡介5
1.3.1Scala語言5
1.3.2Spark編程11
1.4公共數據集14
2Breeze程序包15
2.1創建嚮量、矩陣及其簡單計算15
2.2整行或整列的運算19
2.3常用數學計算20
2.4常用分布20
2.5基於Breeze包的分布式計算23
3隨機模擬和統計推斷24
3.1隨機數的産生24
3.1.1逆纍積分布函數法25
3.1.2拒絕法26
3.1.3案例: 從迴歸模型中模擬數據27
3.2EM優化31
3.2.1EM基本算法31
3.2.2收斂性分析31
3.2.3分布式EM算法32
3.2.4案例: 高斯混閤模型33
4馬爾科夫鏈濛特卡洛37
4.1Metropolis�睭astings算法38
4.2Slice取樣法40
4.3Gibbs取樣法41
5優化方法43
5.1交替方嚮乘子法43
5.1.1算法介紹43
5.1.2案例: 分位數迴歸分布式參數估計45
5.2數值計算方法50
5.2.1隨機梯度下降算法51
5.2.2有限內存BFGS算法61
6自舉法65
6.1自由自舉法66
6.2子集閤自舉法68
7常用大數據統計學習方法71
7.1聚類分析71
7.1.1K組中心法72
7.1.2隱狄利剋雷分配法74
7.1.3功效迭代聚類法77
7.2分類分析78
7.2.1Logistic迴歸79
7.2.2綫性支持嚮量機79
7.2.3綫性判彆分析81
7.2.4決策樹82
8數據降維87
8.1主成分分析87
8.2奇異值分解88
8.3案例89
8.3.1讀取圖片90
8.3.2處理圖片91
8.3.3存儲圖片92
8.3.4提取主成分嚮量93
附錄部分課程案例97
案例1基於EM算法的t分布參數估計97
案例2基於SCAD懲罰的綫性迴歸分析115
參考文獻124
分布式統計計算 下載 mobi pdf epub txt 電子書 格式 2024
分布式統計計算 下載 mobi epub pdf 電子書分布式統計計算 mobi epub pdf txt 電子書 格式下載 2024