産品特色
內容簡介
《大數據時代下的統計學》是一本討論時下熱門話題——大數據的書,生動活潑地闡釋瞭晦澀艱深的統計學原理,條理清晰地告訴讀者如何從數據中獲取智慧。
《大數據時代下的統計學》分為8章,第1章概述瞭大數據時代統計學麵臨的機遇和挑戰。第2、3章講述瞭統計學在思想方法及數據錶述上和大數據處理方法的異同;第4章介紹瞭對統計學影響深遠的正態分布;第5章探討瞭大數據時代統計推斷是否失效;第6章重點從統計學視角講述瞭大數據時代熱門的變量間的“相關性”問題;第7章以一種比較開放的態度討論統計學中一些有意思又實用的話題;第8章探討大數據能夠給企業、用戶及整個産業和社會帶來什麼價值。
擁有《大數據時代下的統計學》,不僅可以使讀者感受數字的美感和哲學的智慧,還能夠使讀者掌握思辨的洞察力。更重要的是,擁有《大數據時代下的統計學》就相當於擁有瞭一種武器,數據驅動的思維模式將會使讀者在生活、工作中受益匪淺。
作者簡介
楊軼莘,瑞典厄勒布魯大學商學院統計學博士畢業,北京諾貝倫思教育谘詢有限公司高級谘詢師,旗下商學院CN網站聯閤創始人和網站知識分享類微信節目《楊博夜話》製作人和主持人。
目錄
第1章 大數據時代下的統計學 1
1.1 統計學――天使還是惡魔 1
【知識點】統計學的定義 1
1.2 概率――上帝的指引 3
【案例1】硬幣的指引 3
【案例2】賭徒的錯覺 3
【知識點1】隨機性 4
【知識點2】概率 4
1.3 小概率事件必然不會發生的事件 6
【案例】挑戰者號航天飛機(STS Challenger)失事 6
【知識點】“必然會發生”和“必然不會發生”的事件 6
1.4 你真的瞭解數據嗎 7
【案例】淘寶的客戶評價體係 8
【知識點】數據的類型 8
1.5 數據來自哪裏 10
【案例】大數據,大偏差――榖歌的流感預測模型真的靠譜嗎 10
【知識點1】二手數據 11
【知識點2】相關關係和因果關係 11
第2章 樣本魅影 14
2.1 樣本――窺一斑而見全豹,觀滴水而知滄海 15
【案例1】客戶滿意度調查 15
【案例2】救護車壟斷業務調查 16
【知識點】隨機樣本,方便樣本和自願迴應樣本 17
2.2 抽樣――嘗一勺鍋裏的靚湯 18
【案例1】紅豆和綠豆 18
【案例2】“捉放法”估算魚苗成活率 19
【案例3】被解雇的市場調研部員工 20
【知識點1】簡單隨機抽樣 21
【知識點2】抽樣中存在的錯誤風險 22
【知識點3】訪問員 23
2.3 不迴應誤差――沉默不是金 24
【案例】不迴應的影響有多大 24
【知識點1】不迴應(Nonresponse) 24
【知識點2】如何降低不迴應率 25
2.4 措辭的藝術――僧推/敲月下門 26
【案例1】娛樂圈話題:鋒菲戀 26
【案例2】幾字之差對於民眾支持率的影響 27
【案例3】雙重否定的疑惑 28
【知識點1】響應誤差(Response Error) 29
【知識點2】有效性(Validity)和可靠性(Reliability) 29
2.5 大數據時代,當“樣本”已成往事 31
【案例】Farecast,美國創業夢 31
【知識點】大數據的4V特徵 32
第3章 描述數據 34
3.1 均值――可能會說謊的天平 34
【案例1】中關村創業者平均39歲 34
【案例2】令人啼笑皆非的統計局數據 35
【知識點】均值計算 36
3.2 尋找中位數――排序,數到中間 37
【案例1】騰訊筆試題:大數據量尋找中位數 37
【案例2】淘寶賣傢評分體係 38
【知識點1】求取中位數 39
【知識點2】四分位數 40
3.3 標準差、標準誤,傻傻分不清楚 42
【案例1】均值-方差證券資産組閤理論 42
【案例2】語文成績調研 42
【知識點1】標準差(Standard Deviation) 43
【知識點2】標準誤(Standard Error) 43
3.4 圖形替數據說話――“剩女”和相親市場 46
【案例】“剩女”和潛力巨大的相親市場 46
【知識點1】餅狀圖(Pie Chart) 48
【知識點2】條狀圖(Bar Chart) 49
【知識點3】散點圖(Scatter Plot) 50
3.5 數據可視化――“雲想衣裳花想容” 51
【案例】誰在開網店 51
【知識點1】什麼是數據可視化 54
【知識點2】數據可視化主要應用領域 55
【知識點3】數據可視化的工具 55
第4章 正態女神 57
4.1 期望――量化你的預期 58
【案例1】擲骰子和伯努利試驗 58
【案例2】賭場就是概率場 59
【知識點1】概率分布 60
【知識點2】期望(Expectation) 61
【知識點3】方差 62
4.2 大數定律――為什麼十賭九輸 63
【案例1】澳門風雲 63
【案例2】誰會是被騙的大傻瓜 64
【知識點】大數定律 65
4.3 正態分布――大道至簡,大美天成 65
【案例1】高爾頓釘闆 65
【案例2】女博士嫁人難,誰之過 67
【知識點】正態分布 68
4.4 中心極限定理 70
【案例】肯傢和麥傢的博弈 70
【知識點】中心極限定理 70
第5章 統計推斷 74
5.1 點估計――統計學傢比間諜乾得漂亮 75
【案例1】二戰中的德軍坦剋數 75
【案例2】首傢新鮮咖啡速遞服務企業 76
【知識點1】樣本統計量和總體參數 77
【知識點2】點估計 77
5.2 置信區間――責善切戒盡言 79
【案例】美國蓋洛普公司的民意調查 79
【知識點1】置信水平 79
【知識點2】置信區間 80
5.3 兩類錯誤:有罪被判罪和罪被判有罪哪個更嚴重 81
【案例1】法律中的人文精神 81
【案例2】抗擊埃博拉要避免兩類錯誤 82
【知識點1】零假設和備擇假設 84
【知識點2】兩類錯誤 84
5.4 假設檢驗――“湊巧”可以拒絕嗎 85
【案例1】奶茶情緣 85
【案例2】咖啡新鮮嗎 87
【知識點1】顯著性水平 88
【知識點2】p值 88
【知識點3】統計顯著 88
【知識點4】統計顯著 vs. 實際顯著 89
【知識點5】假設檢驗 vs. 置信區間 89
【知識點6】單側檢驗 vs. 雙側檢驗 90
5.5 p值――打開潘多拉魔盒的鑰匙 92
【案例】金榜題名望、少年得誌夢斷 92
【知識點1】p值的曆史和思想 93
【知識點2】p值誤用 94
第6章 變量間的關係 96
6.1 卡方分析――細膩的眼神裏豈容得半粒沙 97
【案例1】仙道遲到事件發生率分析 97
【案例2】性彆和文化程度是相互獨立的嗎 98
【知識點1】卡方分布 99
【知識點2】卡方檢驗 100
6.2 相關性分析――早起的鳥兒有蟲吃 102
【案例1】早起的鳥兒有蟲吃 102
【案例2】化妝品銷售額與廣告費的關係分析 103
【知識點1】相關關係 104
【知識點2】相關分析 105
【知識點3】相關錶、相關圖和相關係數 106
【知識點4】相關係數t統計量 107
6.3 ANOVA――地域,我們沒有什麼不同 107
【案例】地域歧視問題 107
【知識點1】方差分析 108
【知識點2】方差分析統計模型 109
【知識點3】離差平方和及其分解 110
【知識點4】均方 111
【知識點5】AMOVA F統計量 112
【知識點6】方差分析錶 113
6.4 迴歸分析――對不起,其實我也想長高 117
【案例1】子女身高遺傳學的發現 117
【案例2】身高地區差異分析 117
【知識點1】迴歸分析 119
【知識點2】隨機誤差項 119
【知識點3】最小二乘法 120
【知識點4】迴歸分析T檢驗 121
【知識點5】迴歸分析F檢驗 122
【知識點6】擬閤優度R2 123
第7章 統計雜談 124
7.1 為什麼對迴歸情有獨鍾 124
【迴歸和電影】 126
【迴歸和手遊】 128
7.2 調查問捲中的分類變量 132
【疼痛】 133
【Rank-Invariant】 134
【Svensson Method】 135
【工作環境和員工滿意度】 136
7.3 條件概率和更多的信息 138
【生男生女的問題】 139
【門後的世界:到底是誰錯瞭】 140
7.4 極大似然估計――看起來最像 142
【白狐,iphone 6 plus和房價】 143
7.5 R you happy 145
【名門閨秀SAS】 145
【國民初戀SPSS】 146
【小傢碧玉Stata、Minitab、Excel】 147
【清新蘿莉R】 148
7.6 貝葉斯 149
【起源】 150
【定義】 150
【自拍杆和藍牙耳機】 152
7.7 來自星星的統計陷阱 155
【被黑的統計機構】 155
【統計局的奈】 157
【王老吉狀告加多寶】 158
第8章 大數據,在水一方 161
8.1 洛陽紙貴――大數據思維 161
【案例1】罩杯和敗傢程度 166
【案例2】外灘踩踏悲劇 167
【案例3】大數據和途牛網 169
8.2 大數據驅動運營 171
【案例】DataEye,數據驅動手遊運營 175
8.3 商業智能――決策者的錦囊 177
【案例】廣告業的商業智能 178
8.4 市場智能――商業智能的衍生智慧 179
8.5 消費智能――當數據成為一種服務 182
精彩書摘
《大數據時代下的統計學》:
樣本統計量是樣本數據的函數。函數可以被理解為方程,通過這個方程濃縮瞭樣本中所有數據的信息。比如,樣本是100個學生的成績,樣本統計量是這100個學生的成績均值。均值是由100個樣本觀測值通過均值公式計算得到的。但是,樣本均值隻是一個值而已,它濃縮瞭樣本的信息,但所含的信息量卻不如那100個觀測值那樣多、那樣具體。但是,我們又離不開像均值這樣的統計量,因為我們不可能隨時隨地打開一個Excel錶格去查看那些冗長而雜亂的原始樣本數據。
點估計是參數估計的重要組成部分。點估計的常見方法有矩估計和極大似然估計,而德軍坦剋的例子中用的是最小方差無偏估計。
衡量一個點估計量的好壞有很多標準,其中比較常見的標準有:無偏性、有效性和一緻性。
由於抽樣具有隨機性。每次抽取的樣本一般不會相同,由樣本求的點估計的值也不盡相同。那麼,要確定一個點估計的好壞,單憑某一次抽取的樣本是不具有說服力的,必須通過很多次抽取的樣本來衡量。因此,一個自然而然的衡量標準就是,在大量重復的抽樣中,所得到的點估計值平均起來應該和總體參數一樣。更正式一點的說法是,點估計的期望值應該等於總體參數的值。這就是所謂的無偏性(Unbiasedness)。
有效性是指,對同一總體參數,如果有兩個無偏估計量,那麼其中標準差更小的估計量更有效(Effectiveness)。因為一個無偏的估計量並不意味著它就非常接近被估計的參數,它還必須和總體參數的離散程度比較小。迴顧一下之前章節提到的射擊靶心的4張圖,無偏卻不有效的情況就是,射中的點集中在靶心周圍一個直徑較大的圓內。如果把靶心看作總體參數,這樣的估計量距離靶心太離散瞭。
……
前言/序言
不知不覺中,人們進入瞭一個數據為王的時代。大數據的字眼以一種迅雷不及掩耳之勢進入人們的視野,更加強調瞭數據在這個時代的重要性。不管人們願意或者不願意,都在誠惶誠恐地擁抱著這個所謂的大數據時代。大數據的火熱也帶火瞭另外一個看上去有點神秘、有點距離感的學科:統計學。
為什麼編寫本書
筆者作為一個在校園裏學瞭11年統計學的資深學院派,深深地被這門學科打動:它有著數學的美感,充滿瞭哲學的智慧,並且透露齣思辨的洞察力。你可以把它看作一種工具,或者一種武器。有瞭它,你可以事半功倍地直擊事物本質的規律。
筆者很想把這門學科分享給有興趣的人。這就是編寫這本書的初衷。
統計學本身就是大數據時代的一門重要學科。隨著大數據逐漸走進公眾的視野,統計學也必然會迎來更多的關注。這就意味著,越來越多的非統計學專業人士會瞭解統計學、應用統計學。人們也必然需要更多的統計學讀物。
據筆者觀察,市場統計學的教材大多像教科書,充斥著枯燥的公式和深奧的理論。當然,也有一些幽默風趣、深入淺齣的入門書籍,如查爾斯·韋蘭的《赤裸裸的統計學》(Naked Statistics),但也因為是外國作品編譯的問題,在語言和寫作方式上很難符閤東方人的閱讀習慣。
這本書討論大數據,討論統計學,更討論二者之間韆絲萬縷的聯係。大數據時代將迎來技術的變革,以及工作方式和思維模式的變革。大數據時代也挑戰著傳統統計學的思維和研究模式。統計學這門學科是將要麵臨江河日下的被取代的危機,還是迎來一個破繭而齣的春天?本書試著拋磚引玉地給齣一部分答案。
大數據時代,對於統計學來說,是最好的時代,也是最壞的時代。統計學,必須與時俱進,勇敢地接受大數據時代的挑戰和變革,纔會走得更長遠。而大數據,沒有瞭統計學思維的輔助、修正和補充,當熱潮退去,也隻能在這個浮躁的時代中漸漸被人們遺忘。
本書特點
本書從當下熱門話題大數據切入,引入與之息息相關的統計學。深入淺齣地講述瞭在“數據為王”的時代下,統計學作為分析、解讀數據的學科,如何為商業、社會、生活等領域提供決策支持。
熱門性——業界和學術界熱議的詞“大數據”對大多數人來說仍是“猶抱琵琶半遮麵”。
經典性——久經時間考驗的統計學理論仍是實踐中數據處理的重要依據。
洞察性——站在統計學哲學的思想高度對時下熱門話題進行分析思考。
前瞻性——下一個時代是數據的時代。無論什麼行業,未來都是數據生意。
本書和市麵上很多書籍相比,有兩點最具特色:
本書將統計學和大數據結閤在一起,探討兩者的差異和相關性。
本書行文按照【案例】+【知識點】+【分析】的結構,清晰明瞭。應用的案例也都和人們的生活息息相關,更符閤國人閱讀習慣,更具代入感和認同感。
本書內容
本書共分為8章,各章內容如下。
第1章 大數據時代下的統計學,講解瞭統計學的基本原理、應用領域及數據的獲取方法。
第2章 樣本魅影,重點介紹瞭統計學最核心的思想,即用樣本信息推論總體,並和大數據的推論思想進行比較,強調二者在實踐中結閤使用的重要性。
第3章 描述數據,告訴讀者麵臨大量數據的時候,如何迅速提煉齣有用信息,以一種直接、感性的方式勾勒齣隱藏在冷冰冰的數據背後的內涵。
第4章 正態女神,隆重推齣瞭統計學最經典、最重要、最具代錶性的一個分布——正態分布,詳細介紹瞭關於正態分布的理論、應用和相關的知識點。
第5章 統計推斷,講述瞭統計推斷是用樣本來估計總體的,是一種具有科學依據的閤理猜測,盡管它不可能百分百準確,卻對人們認知事物有著不可估量的作用。
第6章 變量間的關係,從大數據思維的其中一個角度切入,即強調事物的相關關係而非因果關係,重點講述瞭究竟什麼是相關關係,它的統計學內涵、方法及應用。
第7章 統計雜談,以一種漫談的方式,深入淺齣地講解瞭統計學一些熱門應用的理論。特彆強調瞭這些理論在實踐中的誤用,並告訴讀者正確的使用方法和解讀方法。
第8章 大數據,在水一方,探討瞭大數據巨大的商業價值,除此之外還強調如何從大數據中獲取洞察力和決策力。
關於作者
本書由楊軼莘主筆編寫,其中第6章由王輝撰寫。
楊軼莘:瑞典厄勒布魯大學商學院統計學博士畢業,北京諾貝倫思教育谘詢有限公司高級谘詢師,旗下商學院CN網站聯閤創始人和網站知識分享類微信節目《楊博夜話》製作人和主持人。
王輝:北京大學匯豐商學院金融學(數量金融方嚮)研究生。善於統計綜閤評價方法的應用、金融計量學、經濟計量分析領域的研究。2013—2014年,主持項目《社區養老現狀和需求研究》,獲第四屆全國大學生市場調查分析大賽一等奬和第三屆海峽兩岸市場調查分析大賽二等奬。2014—2015年,參與硃喜安教授的國傢社科基金課題《綜閤評價方法的優良標準研究》。
大數據時代下的統計學 下載 mobi epub pdf txt 電子書 格式