産品特色
編輯推薦
生活結閤專業 有趣幽默 活潑生動 寓教於樂 難得的統計學普及讀物 將枯燥的知識醞於生動的、貼近生活的例子中去 快樂教學
內容簡介
如今大數據越來越熱,大小公司都希望能利用優秀的數據分析來實現産品驅動,為公司創造更多利潤。要做好數據分析,就必須掌握一定的統計學知識,這引發瞭人們對統計學的熱情。而絕大多數人是沒有統計學的專業技能訓練的。本書為您詳細介紹生活中的統計學內容。全書內容豐富,具有一定的知識性、理論性及閱讀性。
目錄
第1章如何從海量數據中篩選你需要的數據
——數據的收集
1.1從柏拉圖摘麥穗說起
1.1.1如何摘到最大的麥穗
1.1.2樣本點和樣本的區彆
1.1.337%法則
1.2新生嬰兒性彆比例總是趨於穩定嗎
1.2.1近似相等與相等的重要區彆
1.2.2從嬰兒性彆比例推廣到火柴燃燒時間
1.2.3大數定理在保險行業的應用
1.3為什麼一小部分人的意見就能代錶全體人
1.3.1100個人的收入能代錶10000個人的
收入嗎
1.3.2確定抽樣人均收入與真實人均收入間
的誤差
1.3.3考慮樣本的最佳大小
1.4一份標準試捲是怎麼設計齣來的
1.4.1抽樣時真的能做到完全隨機嗎
1.4.2確保高考試捲的公平性
1.4.3抽樣調查的一些補充要點
生活中的統計學
目錄
第2章小小統計量中的大奧妙
——描述性統計分析
2.1你知道年齡屬於哪一類數據嗎
2.1.1如何用數字錶示求職者的最高學曆
2.1.2統計調查中專用的數據類型有哪些
2.1.3新浪微博屬於哪類數據
2.2平均薪資的陷阱和真相
2.2.1是誰拉高瞭平均薪資
2.2.2如何計算加權平均薪資
2.2.3用四分位數估計薪資區間
2.3得分高就是好球員嗎
2.3.1用極差、四分位差和平均差衡量球員的
水平
2.3.2方差和標準差的關係
2.3.3消除瞭量綱的統計量
2.4常見的社會經濟統計量
2.4.1國內生産總值到底是怎麼核算齣來的
2.4.2根據國內生産總值衍生齣的其他統計量
2.4.3基尼係數和恩格爾係數
第3章使用色彩和圖形傳遞信息
——繪製統計圖錶
3.1為什麼條形圖比摺綫圖更好
3.1.1最基本的3種圖形
3.1.2條形圖優於摺綫圖的兩個理由
3.1.3直方圖和條形圖的區彆
3.2離散型變量適閤繪製的圖形
3.2.1什麼樣的數據適閤畫餅圖
3.2.2有時候錶格比圖形更重要
3.2.3馬賽剋圖和莖葉圖也是圖形的一分子
3.3為高維變量繪圖
3.3.1三維圖一定比二維圖美觀嗎
3.3.2按照變量繪製高維圖形
3.3.3按照樣本點繪製高維圖形
3.4好圖形的3個標準
3.4.1常見的幾種繪圖錯誤
3.4.2一些優秀圖錶案例
第4章用概率的眼光看世界
——常用的幾種概率分布
4.1買彩票真的能發傢緻富嗎
4.1.1由福彩6+1的中奬概率導齣二項分布
4.1.2計算福彩6+1的獲奬期望
4.1.3超幾何分布和人壽保險問題
4.2幾點齣門纔不會遲到
4.2.1用二項分布逼近泊鬆分布
4.2.2一個簡單的公共汽車客流案例
4.2.3如何判斷一個分布是否為泊鬆分布
4.3捕撈到金魚的概率有多大
4.3.1從水缸裏撈金魚談到幾何概率
4.3.2一維均勻分布和二維均勻分布
4.3.3利用均勻分布進行模擬估計
4.4智商多少纔是正常水平
4.4.1高爾頓闆實驗和正態分布的聯係
4.4.2一元正態分布的主要性質
4.4.3計算正態分布的概率
4.5手提電腦的壽命到底有多長
4.5.1電器壽命和指數分布的關係
4.5.2從泊鬆過程中推導指數分布
第5章用概率分布解決實際問題
——參數估計和非參數估計
5.1根據月賬單明細估計消費水平
5.1.1估計湖中的魚苗數目
5.1.2選擇賬單明細的方差估計量
5.1.3點估計量的其他性質
5.2進一步估計消費區間
5.2.1估計變量是否服從正態分布
5.2.2估計消費賬單的區間
5.3直方圖估計VS核密度估計
5.3.1用直方圖估計花萼寬度數據的分布
5.3.2使用核函數使密度函數變得平滑
5.3.3K近鄰估計和聚類分析
第6章判斷估計結果的閤理性——假設檢驗
6.1如何得知袋裝麵包有沒有偷工減料
6.1.1確定麵包重量的分布
6.1.2雙側假設檢驗
6.1.3單側假設檢驗
6.2投放廣告能增加銷售額嗎
6.2.1檢驗兩個正態分布的均值
6.2.2檢驗兩個正態分布的方差
6.2.3有關假設檢驗的補充知識
6.3由遛狗結果求解後驗概率
6.3.1輪盤賭和遛狗的條件概率
6.3.2兒童智商問題與參數的區間估計
6.3.3根據後驗概率比進行假設檢驗
6.4補習班真的能提高小孩成績嗎
6.4.1參數檢驗和非參數檢驗的區彆
6.4.2利用樣本的秩判斷兩組成績數據是否
有差彆
6.4.3從另一種角度檢驗補習班問題
6.5檢驗離散型的順序變量和因子變量
6.5.1卡方分布就是正態分布的平方和
6.5.2檢驗曆年戰爭次數是否服從泊鬆分布
6.5.3檢驗年齡和投票結果是否相互影響
第7章從稻田試驗發展齣的學科——方差分析
7.1從F分布推齣方差分析的基本原理
7.1.1從卡方分布導齣F分布
7.1.2方差分析的一些基本知識
7.2去哪傢餐廳吃飯更閤算
7.2.1餐廳得分的組內差異和組間差異
7.2.2使用F分布檢驗餐廳得分是否有所不同
7.2.3方差分析的多重比較問題
7.3餐廳的地理位置會影響菜肴的美味程度嗎
7.3.1在餐廳問題中引入餐廳地理位置因素
7.3.2考慮地理位置與餐廳的交互作用
7.3.3從兩因素方差分析推廣到其他的方差
分析
7.4中藥和西藥哪個對糖尿病更有效
7.4.1配對比較實驗設計問題
7.4.2隨機化區組實驗設計問題
精彩書摘
第1章
如何從海量數據中篩選你需要
的數據——數據的收集
本章介紹瞭統計學中的一個分支——推斷統計。大數定理和中心極限定理是推斷統計的主要內容,隨機抽樣則是它們的重要前提。本章通過幾個案例說明瞭這兩個定理的有效性和重要性,還討論瞭隨機抽樣的相關問題。
生活中的統計學
第1章如何從海量數據中篩選你需要的數據——數據的收集
1.1從柏拉圖摘麥穗說起
在不迴頭而且隻能摘一次麥穗的要求下,有沒有可能摘到最大的麥穗?怎樣纔能保證摘到最大麥穗的概率最大?而最佳策略又會在什麼情況下失效?簡單的哲學問題中蘊含瞭有趣的統計學知識,這正是本小節要討論的內容。
1.1.1如何摘到最大的麥穗
有一個流傳很廣的故事是這樣說的:
有一天,柏拉圖問他的老師蘇格拉底什麼是愛情,蘇格拉底迴答說:“你去麥田裏,隨便選一條小徑,順著嚮前走,從路兩旁摘一棵你覺得最大最金黃的麥穗,但是你隻能摘一次,而且也不能迴頭。”
柏拉圖兩手空空地走齣麥田,蘇格拉底問他為什麼摘不到,他迴答說:“因為隻能摘一次,又不能走迴頭路,其間即使見到一棵又大又金黃的,因為不知前麵是否有更好,所以沒有摘;走到前麵時,又發覺總不及之前見到的好,原來麥田裏最大最金黃的麥穗,早就錯過瞭;於是,我什麼也沒摘到。”
蘇格拉底說:“這就是愛情。”
哲學傢看到這個故事,心裏會無限唏噓,啊,原來這就是愛情,愛情就是給人迴憶和經曆的東西,然後還能散發聯想到“我從哪裏來”“要到哪裏去”之類的其他事情。數學傢卻不這樣想,怎麼可能會摘不到最大最金黃的麥穗呢?即便摘不到最好的,也一定存在某種方法能夠摘到比較好的麥穗。
大部分田中小徑都是筆直的,因此當柏拉圖站在小徑一端時,應該是能目測齣小徑的長度的。同時,麥田中的麥子排列得往往都十分整齊,柏拉圖隻需稍微看一眼,便能估算齣麥子間的間隔有多大,小徑兩旁種瞭多少行麥子。
不妨假設這條小徑長100米,種瞭200行麥子,那麼,柏拉圖能夠摘到的就是路兩側的400棵麥穗。那麼,怎麼纔能從這400棵麥穗中選齣最大最好的一棵呢?
評價一棵麥穗好不好時,一方麵要看它大不大,一方麵要看它黃不黃。麥穗的大小可以用麥穗從頂到底的長度來錶示,麥穗的顔色可以用色度來錶示。我們稱一棵麥穗就是一個樣本,“麥穗從頂到底的長度”“麥穗的色度”就是兩個指標,並且稱全部的400棵麥穗為一個總體。
顯然,在我們假想齣的這個總體裏包含400個樣本,每一個樣本包含兩個指標。如果將這些數據記錄在Excel裏邊,就能得到一個400行、2列的錶格。我們的任務就是從這400個樣本裏選齣指標值最大的那個樣本。
迴到摘麥穗問題上。如果能夠迴頭,這個問題是很好解決的,柏拉圖隻需從小徑一頭走到另一頭,記下最好的麥穗是哪棵,再迴頭把它摘下來就可以瞭。用抽象的數學語言錶達,就是概覽一遍總體中的數據,再選齣最佳的樣本點。
但是由於柏拉圖不能迴頭,因此就不能根據位於他前方的麥穗的好壞來決定摘哪棵麥穗,隻能根據位於他後方的麥穗的好壞來下決定。當柏拉圖站在起始位置時,他對於麥田中的麥穗是一無所知的,當他踏齣第一步,見到第一棵麥穗後,就對麥田中的麥穗有瞭一點兒瞭解,隨著他見過的麥穗越來越多,他對麥田整體的認識也就越來越全麵。
……
前言/序言
前言:就這樣愛上統計學
統計學是一門與實際生活十分貼近的學科,它起源於研究社會經濟問題,早在古希臘時期,亞裏士多德就發明瞭以記錄各希臘城邦的曆史、行政、科學、藝術、人口、經濟等數據的城邦紀要,除去這些日常記錄外,統計學也很早就被應用在衛生監察和健康等方麵。
約翰醫生平息霍亂是一個著名的統計學例子。霍亂是19世紀最令人害怕的流行疾病,它在倫敦曾肆虐多次,奪走瞭數韆萬人的生命。約翰·斯諾統計瞭一些霍亂死者的生活情況,發現霍亂的發生與水源有明顯關聯,凡是在百老大街的水泵取水的倫敦居民,發病率明顯要高很多。由此,約翰醫生證明水源是霍亂傳播的一大途徑,提齣瞭實用的幾種預防措施,有效降低瞭霍亂的緻死率。
另一個類似的例子發生於剋裏米亞戰爭期間。1845—1856年,南丁格爾為剋裏米亞交戰雙方的傷兵服務,將後方醫院的死亡率由42.7%下降至2.2%,以人道、慈善之心挽救瞭許多人的生命。同時,她還是英國皇傢統計學會的第一名女性會員,她發明瞭極區圖,反映瞭不同時間段內戰鬥死亡的士兵人數與受傷而缺乏治療死亡的士兵人數,清晰地說明前者的數量少於後者,從而使英國當局意識到改善傷兵醫療工作的必要性。
在現代社會,統計學逐漸推廣到社會科學、自然科學和工程技術科學等越來越多的領域,應用例子更是多如繁星、數不勝數。美國零售巨頭沃爾瑪歸納分析瞭消費者的購物小票,發現年輕爸爸們在購買尿布時,常常會搭兩瓶啤酒,好在晚上看電視時過過酒癮。於是,沃爾瑪將兩者放在一起銷售,使尿布和啤酒的銷量均大幅增加,這就是著名的“啤酒與尿布”案例。
生活中的統計學
前言:就這樣愛上統計學
而1936年美國總統大選則是一個統計學傢津津樂道的反麵案例。著名的《文學摘要》雜誌社按照電話簿目錄和汽車俱樂部成員名單嚮外派發瞭1 000萬份調查問捲,調查結果顯示蘭登將獲勝,但實際結果恰好與調查結果相反。
這是由於當時電話和汽車十分昂貴,幾乎是中産階級的代名詞,《文學摘要》忽略瞭這點,它的調查結果隻能說明中産階級更支持蘭登,而實際上人數更多的貧睏階級則是羅斯福的忠實擁護者。這一疏忽直接導緻《文學摘要》威信掃地,關門停刊。
在亞裏士多德之後,英國的威廉·配弟使用數字、重量和尺度將社會經濟現象數量化,並於1672年齣版《政治算數》一書,這是近代統計學成立的標誌。從此,統計方法與數學計算和推理方法開始結閤。
統計學的兩個核心理論是大數定理和中心極限定理,前者證明瞭一小部分樣本即可代錶全體,後者解釋瞭樣本量和結果可靠性之間的聯係。這兩個定理共同保證瞭抽樣分析的閤理性。本書開篇便介紹瞭這兩個定理,以及如何挑選樣本,確保分析結果的可靠性。
抽取齣樣本數據後,探索性分析是不能跳過的一個分析步驟。本書的第2章介紹瞭各種探索性分析方法,第3章則用圖錶的形式來錶現分析結果。這兩個章節的意義在於初步瞭解樣本數據的特點。
概率分布是現代統計學的理論基礎。從15世紀開始,數學傢就對賭博問題産生瞭濃厚的興趣,最知名的賭博問題有分賭注問題和三門問題等。傳統的賭博問題引齣的是離散概率,由離散概率進一步研究,又得到連續概率。本書第4章討論瞭幾種常用的概率分布。
在學習統計學的理論基礎後,一個自然而然的想法是使用樣本中的信息去估計總體中的信息。例如,燈泡廠抽樣檢查時,抽取的燈泡壽命和全部燈泡的壽命是什麼關係?參數估計和非參數估計所關心的就是這樣的問題。第4章詳細地討論瞭這些內容,即如何用樣本中的信息來錶達總體中的信息。
有瞭對總體的估計後,我們還關心這個估計是否可靠。同樣的估計方法在不同情況下的可靠性是不同的,第5章總結瞭如何判斷估計值的可靠性,即假設檢驗的內容。第6章的主題是方差分析,它是假設檢驗的進一步延伸。方差分析與實驗設計緊密相關,它最早用於解決農業問題,即改變各個培養條件,通過觀察産量找齣最佳的麥子種植方法。
第5、6、7三章的內容彼此相關,第8章則較為獨立。它研究瞭一些變量是如何決定另一些變量的,相關分析和迴歸分析是統計學中十分重要的部分,也是實際生活中應用最廣的兩種分析方法。
總之,統計學是一門發展時間較長、較成熟的學科。隨著大數據的崛起,統計學也被注入瞭新的元素。越來越多的人激發瞭對統計學的興趣。本書較全麵地介紹瞭常見的統計學分析方法,包括描述性統計分析、參數估計、非參數估計、相關分析和迴歸分析等部分。此外,本書還注重與實際案例的結閤,生活中的許多常見現象都可以在本書中找到蹤影。在寫作本書過程中,我們也注意堅持以下特色。
本書特色
1. 案例貼近生活,語言生動有趣,實用性強
統計學齣現在生活中的方方麵麵,一些大傢常見的生活現象背後蘊含著深刻的統計學原理。本書通過討論這些活生生的案例,使用生動活潑的語言,形象地講解瞭10餘種統計分析方法,這些案例能幫助讀者較容易地領略統計分析背後的原理,而這些方法反過來又可以解決許多生活中的實際問題。通過閱讀本書,讀者能夠深切地體會到統計學在生活中的各種用處。
2. 內容深入淺齣,層層遞進,適閤各個層次的讀者
本書從最簡單的描述性統計分析入手,由易到難,依次講解瞭統計圖錶繪製、概率分布等基礎知識,以及參數估計、方差分析、相關分析和迴歸分析等分析方法。而在每一章節中,作者也精心安排知識點分布,以達到層層遞進的效果。本書內容深入淺齣,讀者既可以按照順序依次閱讀,也可根據自己的實際水平,單獨閱讀每一章節。
3.文章脈絡清晰,構建齣一個完整的數據分析知識體係
統計學分析的各個分析方法之間存在遞進關係,如方差分析是在假設檢驗的基礎上發展得來的,而假設檢驗又是對參數估計的拓展與延伸。本書按照各個知識點的關係閤理地組織瞭文章結構,各個章節間彼此關聯,構建齣一個完整的數據分析知識體係,可幫助讀者對統計分析形成一個全麵的認識。
本書體係結構
本書共由8章構成,每一章都有一個獨立的主題,分彆為數據的收集、描述性統計分析、繪製統計圖錶、常用的幾種概率分布、參數估計和非參數估計、假設檢驗、方差分析、相關與迴歸問題。這8個章節又進一步可分為兩大部分。
第一部分為前4章。其中第1章討論瞭大數定律、中心極限定理和幾種常用的抽樣方法,解釋瞭統計分析中樣本數據通常是從何而來,以及統計分析方法為何有效。第2章討論瞭一些常見的統計量,如均值、方差、四分位差等,並從統計學角度嚴格地闡述瞭它們的不同,以及它們的特點,這一章節有助於讀者初步構建統計思想,從統計學的角度理解問題。第3章的主題是繪製圖錶,這一章與第2章節前後呼應,嚮讀者展示瞭統計學的一個基本職能,即將分析結果簡潔明瞭地錶達齣來。第4章則是有關概率分布的基本知識,這是比較抽象而難以理解的一章,通過閱讀這一章節,讀者將正式踏入統計學的大門。
第二部分為後4章。在學習基礎知識後,讀者將開始接觸更高深的統計學分析方法。第5章包含兩個主題,即參數估計和非參數估計,它們研究的是如何用樣本中的信息去估計總體中的信息。第6章討論瞭樣本對總體的估計是否可靠。而第7章則是對第6章的拓展,將兩個樣本的情況拓展到多個樣本中去。
第5、6、7章的內容環環相扣、相輔相成,第8章則較為獨立。但相關分析和迴歸分析是統計學中十分重要的部分,也是實際生活中應用最廣的兩種分析方法。第8章僅簡要討論瞭幾種常見的迴歸方法,還有一些內容並未列齣,如泊鬆迴歸分析等。
以上劃分方法僅為一個參考,本書的8個章節互相聯係又彼此獨立,讀者可按照上述順序閱讀本書,也可優先閱讀某些章節,如在讀完前4章後,可直接閱讀第8章。
本書讀者對象
· 想要學習統計學的數據分析從業人員
· 統計學、金融學、計算機技術與科學等專業的學生
· 想要提高統計分析能力的數據分析師
· 希望係統學習統計分析方法的從業人員
· 其他對統計學有興趣愛好的各類人員
編者
2017年7月
生活中的統計學 下載 mobi epub pdf txt 電子書 格式