發表於2024-11-09
本書注意將復雜方法溯源至常理、常識,對一個方法要解決的問題與解決問題的邏輯思路、前提條件,存在的障礙進行全麵介紹,引導讀者進入每種方法實際應用時的情景想定:比較重視教材方法的適用場景、變量類型和量綱、數據基礎,後續動作;尤其重視不同方法間以及同一類方法內部的子方法間的邏輯聯係,以及在介紹經典方法的同時,自然平滑地引入適閤處理大數據分析的方法。
本書內容廣泛,通俗易懂,對數學和數理統計的要求很低,是一本極具特色的統計學教科書和工具書,既適閤那些學習統計學課程的經濟學、社會學、管理學和統計學專業的大學高年級本科生與研究生,也適閤那些從事數據分析工作需正確理解各種多元統計方法的原理,掌握基本操作技巧的數據工程師,對於那些備考研究生的考生更不失為一本深入淺齣、簡明扼要的參考書。作者擁有多年授課經曆和豐富的實際經驗,力求說理透徹,應用地道,注意將復雜方法溯源至常理、常識,對一個方法要解決的問題與解決問題的邏輯思路、前提條件,存在的障礙進行全麵介紹,引導讀者進入每種方法實際應用時的情景設定: 比較重視交代方法的適用場閤、變量類型和量綱、數據基礎,後續動作;尤其重視不同方法間以及同一類方法內部的子方法間的邏輯聯係,以及在介紹經典方法的同時,自然、平滑地引入適閤處理大數據分析的方法。本書封麵貼有清華大學齣版社防僞標簽,無標簽者不得銷售。
第1章多元統計描述1
1.1多元統計分析的內容2
1.2數據及其來源4
1.3統計學的若乾基本概念8
1.4變量與變量值12
1.5隨機變量與隨機變量值16
1.6隨機變量的分布及其特徵20
1.7多元統計的分布圖與散點圖31
1.7.1分布圖係列32
1.7.2散點圖係列44
1.7.3混閤圖係列55
第2章多元統計推斷58
2.1統計推斷概述59
2.2簡單隨機抽樣與簡單估計理論63
2.3多元的點估計及其優良性71
2.3.1矩估計法71
2.3.2極大似然估計法72
2.3.3最小二乘估計74
2.3.4估計量的優良性76
2.4區間估計77
2.4.1使用t分布的單一置信區間82
2.4.2龐弗羅尼多重置信區間83
2.4.3威沙特分布87
2.5缺失值的處理94
2.5.1EM算法95
2.5.2比估計與迴歸估計97
2.6總體方差的估計101
第3章多元相關分析103
3.1多元相關分析概述104
3.2一對一的類型105
3.2.1一個分類變量對一個分類變量的情形105
3.2.2一個分類變量對一個數值變量的情形108
3.2.3一個數值變量與另一個數值變量的情形111
3.3多對多類型111
|多元統計分析目錄第4章列聯分析與對數綫性分析121
4.1分類型數據的錶示122
4.2高維列聯錶的獨立性檢驗124
4.2.1壓縮: 基於部分自變量的邊緣分布的獨立性檢驗126
4.2.2分層: 基於部分自變量的條件分布的獨立性檢驗127
4.2.3“綜閤”條件獨立性檢驗128
4.3對數綫性模型131
4.4分類樹135
第5章方差分析與聯閤分析138
5.1方差分析基本理論139
5.2單因素多變量方差分析142
5.3雙因素方差分析148
5.3.1雙因素單變量方差分析148
5.3.2雙因素多變量方差分析152
5.4多因素方差分析155
5.5聯閤分析160
5.5.1聯閤分析基本理論161
5.5.2聯閤分析的步驟165
5.5.3聯閤分析與方差分析的聯係168
5.5.4聯閤分析與方差分析的實證比較171
第6章判彆分析與logistic迴歸分析179
6.1數據基礎180
6.2判彆的準則181
6.2.1概率最大準則181
6.2.2判彆損失最小準則183
6.3判彆的方法185
第7章聚類分析207
7.1聚類分析的基本思想208
7.2類的定義209
7.3數據基礎213
7.4類間距離的度量216
7.5幾種聚類方法220
7.5.1譜係聚類220
7.5.2分解聚類220
7.5.3動態聚類222
7.5.4最優聚類問題的探索228
7.6對變量的聚類236
第8章主成分分析與因子分析239
8.1主成分分析概論240
8.1.1數據基礎240
8.1.2主成分分析的思想241
8.1.3模型的假設與求解244
8.1.4主成分的性質245
8.1.5主成分的選取標準246
8.1.6樣本主成分分析247
8.1.7相關問題討論252
8.2因子分析259
8.2.1因子分析概述259
8.2.2因子分析基礎259
8.2.3因子分析模型262
8.2.4模型的求解與評價263
8.2.5因子鏇轉266
8.2.6因子得分268
8.2.7因子分析案例269
第9章多元迴歸分析280
9.1多元迴歸思想概述281
9.2多元迴歸模型282
9.2.1參數的區間估計與檢驗284
9.2.2模型的預測287
9.2.3常見問題的討論293
9.3與其他統計方法的比較296
9.3.1與方差分析的比較296
9.3.2與路徑分析的比較299
參考文獻307
公元2009年,受時任教育部應用統計科學研究中心主任趙彥雲教授的鼓勵,作者作為第一負責人申請瞭一個名為“多元統計分析及其應用的統計理論研究”的教育部人文社會科學重點研究基地重大項目,並幸運地獲得瞭批準,項目編號為2009JJD910240,研究成果約定為一本專著。本書就是這一項目的主要成果之一,這其中還凝結瞭近20餘年教學與應用等方麵的經驗: 其中大部分內容在中國人民大學的本科生和研究生課堂講授過,涉及的所有方法都在研究課題或谘詢項目中有過實際應用。
經過幾年的努力,期間幾次延宕,現在這部專著終於要齣版瞭。值此付梓之際,感慨良多。作者誌大纔疏,兼生性疏懶,倘若不是受到一些專傢朋友的鼓勵(如暨南大學的劉建平教授對多元統計框架給予瞭肯定;首都經貿大學的紀宏教授2000年前後與本人的討論啓發瞭本書聚類分析部分的研究;北方工業大學的李從珠教授則把他的判彆分析的著作供我參考;中國科學院的馮士雍研究員和中國標準化研究院的肖惠總工程師在20世紀80年代中國人體尺寸數據案例上極具價值的慷慨相助;而北京航空航天大學的王惠文教授對本書部分內容的稱許令我受寵若驚)和我的學生尤其是碩士、博士們的幫助(劉東碩士最早、楊進碩士繼之幫我驗證瞭方差分析與聯閤分析結論一緻的想法;劉亞文博士、鄭坤碩士驗證瞭判彆分析與logistic迴歸結果的一緻;徐一丁博士驗證瞭聚類距離計算的不一緻;碩士生王維和於煥傑演算瞭大部分例題),成書恐怕遙遙無期,而那些已畢業的學生關於“何時見到書”的追問更是極其有力的鞭策,往往使我羞愧萬分,不得不暗下決心,務必有個交代。學生之中,劉亞文和於煥傑兩位齣力最多,前者縝密細緻,每每發現許多學理細節方麵的意外錯誤;後者聰明勤奮,常常能夠以令人吃驚的速度完成許多計算、繪圖、編輯、排版等繁瑣無比的工作。此外,我們項目組的主要成員廣東商學院林海明教授,在項目研究過程中發錶瞭許多很好的論文,但由於本書定位為專著,齣於尊重知識産權的考慮,在此領域其諸多貢獻並未體現於本書。藉此機會,作者要嚮所有貢獻者緻以最誠摯的謝意!
本書的內容在招標申請書已經列明,除個彆的如對應分析限於篇幅未予介紹外,令人欣慰的是其餘的都完全兌現瞭,有些不在計劃的如某些適用於大數據的分析與挖掘的內容也有涉獵,盡管作者認為,大數據的統計分析方法既不復雜,也不高級,但有關算法相對說實居於關鍵地位。敝帚自珍,高明不敢輕言,但學術上差不多畢生的心力融會於此,獨到處是有些的,相信會對讀者在透徹的理解與地道的應用方麵有所裨益。現將項目申請書中關於內容的說明轉錄如下,茲以為序。
“由於現實問題往往比較復雜,並非一兩個變量所能概括反映,多元統計分析本應是統計數據處理的最適閤的手段,但以往因沒有計算機或計算機不夠普及,極大限製瞭多元統計分析的應用,以至於多元統計分析長時期內被束之高閣,雖然有些多元統計分析方法如因子分析早在1904年就已提齣,而真正被廣泛應用卻是20世紀80年代以後的事情。在我國,多元統計分析的普及年代更晚。有記載許寶祿先生20世紀50年代中期曾說當時從事數理統計專業的連他本人在內不超過12人;從研究生課程裏抽齣一部分多元統計分析內容納入本科生課程在中國人民大學統計學院其曆史也僅有10年左右;時至今日,在國內的大多數高校裏,作為三大多元統計之一的迴歸分析仍在多元統計分析課程之外獨立地充當一門課程。
改革開放以後,伴隨著我國整個教育的進步,統計教育的改善也堪稱突飛猛進,大學裏設置統計學院係的越來越多,開齣統計課程的越來越多;中小學裏統計知識介紹甚至超越概率論進入瞭抽樣與推斷統計的領域。一方麵得益於這樣的大環境和計算機與統計軟件如SPSS、SAS和STATSTICA等的普及,多元統計分析中納入教學內容的方法日益增加。另一方麵,多元統計分析的應用領域,統計科學對科研經濟社會建設的全麵滲透而日趨擴展,從地質學、生物學、醫學、心理學迅速擴展到經濟學、社會學、營銷學、管理學和教育學等諸多領域;應用頻率也大幅地日漸增加,發錶在期刊上的多元統計分析文章明顯增多,具體信息見錶1。|多元統計分析前言續錶錶1部分多元方法在CPCI(原ISI proceedings)檢索的文獻數及學科分類判彆logistic聯閤方差因子主成分聚類對應閤計26668806591706100000+100000+1737985660 14469數學38.7 47.3 17.8 64.4 17.3 28.8 26.4 18.7 行為科學21.2 22.9 22.7 32.1 10.8 18.4 7.6 9.7 心理學19.7 20.7 24.2 28.6 8.7 17.3 7.2 8.5 神經科學12.7 12.1 5.3 26.5 10.8 10.4 6.6 7.4 生物化學14.3 15.5 26.2 47.8 12.9 35.5 15.5 生理學6.8 15.4 10.1 6.6 遺傳學9.9 8.2 14.3 33.2 9.4 35.2 11.2 老年病學12.2 31.9 6.8 14.2 12.9 5.1 兒科學11.7 22.7 5.2 13.5 7.5 6.4 心血管學7.4 18.1 11.9 12.5 免疫學5.1 11.3 3.3 8.6 22.4 9.4 健康護理5.8 20.1 15.2 7.4 環境生態學9.0 7.3 14.4 10.1 26.1 細胞生物學6.6 21.5 9.1 腫瘤學7.2 11.8 16.2 計算機科學15.9 11.8 6.6 12.6 9.5 13.0 人口學19.4 商業與經濟43.0 工程學6.2 11.1 8.4 0.0 10.1 化學6.4 7.3 11.9 13.0 6.4 農學4.9 6.2 0.0 8.5 6.5 7.4 微生物學6.4 17.4 4.4 傳染病學12.9 6.4 9.3 生物多樣性11.5 海洋及淡水生物學10.2 植物科學10.1 然而,由於多元統計方法的齣現與實際應用間隔太久,在我國其大規模應用也就是近幾年的事情,對內容的掌握尚屬生疏與實用場閤的明顯增多同時交匯,客觀上難免造成一些生吞活剝與誤用濫用現象的齣現。除此之外,多元統計分析的很多方法都是其他學科而非統計學科的人士所提齣,例如迴歸分析是遺傳學傢所發現,因子分析是心理學傢所開創,聯閤分析擁有心理學和營銷學的血緣,而分層分析則有教育學的基因,這些外來‘物種’極大豐富瞭統計學的內容,促進瞭統計學的應用。但眾多原本起於其他學科的方法在融入統計學大冶爐的過程中,難免因帶有濃厚的原來學科的色彩而有些水土不服,術語龐雜混亂,原理的統計學基礎薄弱,因此當我們今天從統計學的視角重新審視多元統計分析的構成時,可以發現其中存在著一些明顯的問題,以下是幾例。
1. 聚類分析、迴歸分析和判彆分析並稱三大多元統計方法,其使用價值之大可見一斑,但迄今仍未解決其理論基礎問題,緻使這一方法是否應歸到統計學科尚有疑問。
2. 距離判彆、費歇判彆和貝葉斯判彆三種判彆之間原理上存在怎樣的聯係?孰優孰劣?各自的使用場閤是什麼?
3. 聯閤分析與方差分析同屬自變量為分類型變量而因變量為數值型變量的分析方法,同樣使用F統計量作為判定依據,要達到的目標——衡量因素的重要性和優選因素的水平,也是一樣的。兩者之間原理上存在怎樣的聯係?孰優孰劣?各自的使用場閤是什麼?
4. logistic 迴歸分析與判彆分析同屬自變量為數值型變量而因變量為分類型變量的分析方法,要達到的目標也是一緻的,但logistic 迴歸分析多被看成迴歸分析的推廣,這一方法與判彆分析更近的‘親緣’卻不被公認,兩者之間原理上存在怎樣的聯係?孰優孰劣?各自的使用場閤是什麼?
5. 主成分分析被認為是求得因子的方法之一,與其他求取因子方法相比孰優孰劣?使用場閤上有何區彆?
6. 對應分析原本屬於列聯分析的復雜情形(因素水平較多),又被看做因子分析的深入,但列聯分析的‘自變量’和‘因變量’都是分類型變量,而因子限於處理數值型變量,一個數據如何既是數值型的又是分類型的?顯然存在著明顯的矛盾。
所有這些問題國內外文獻均無完整明確的敘述,教科書裏對此也不提及。但毫無疑問,這些問題的解決將有助於明確上述方法本身的統計學理論背景,廓清方法間的聯係是包含的還是並列的、抑或是遞進的,使學生和使用者從數學上的‘在這些條件下,方法甲與方法乙等價’的模糊敘述中解脫齣來,以清晰的邏輯和語言闡明在特定條件下究竟何種方法更優,或者倒過來說各個方法的適用場閤怎樣,從而促進對多元統計分析的理論推廣,防止對各種多元統計分析方法的誤用濫用。鑒於多元統計分析是統計數據處理最重要的工具,同時是統計學應用最為廣泛的一個分支,因此這項研究的理論意義與實際價值都是不難理解的,在降低多元統計分析的學習成本和誤用概率方麵尤其具有明顯的、巨大的促進作用。
本項研究的目標定為完成一篇對上述問題有很好答案的、確有新意的專著,期待可以成為全國統計學科發展與研究生培養的核心參考文獻之一。根據我們對有關課題的興趣與經驗的多年積澱,我們有信心使這項研究成功完成,也有信心這項研究結果可對多元統計分析的教學與科研有所助益。”
限於作者水平,本書難免存在一孔之見或錯漏舛誤,敬希同行不吝賜教,哪怕是嚴厲的理性批判,以使本書日後能夠漸臻完善,以饗讀者。
杜子芳2016年5月
應用統計工程前沿叢書:多元統計分析 下載 mobi pdf epub txt 電子書 格式 2024
應用統計工程前沿叢書:多元統計分析 下載 mobi epub pdf 電子書應用統計工程前沿叢書:多元統計分析 mobi epub pdf txt 電子書 格式下載 2024