發表於2024-12-25
初學者必讀,趣味學習統計學,大數據背景下應用導嚮,生活中的統計學入門讀物,工作應用中統計學的學習利刃
《世界是隨機的 大數據時代的概率統計學》共有9章,第1章和第2章介紹概率和隨機變量的基礎知識;第3章和第4章介紹統計和分布的基礎知識;第5章是專門介紹賭博中的概率統計的一章,前四章的知識在這裏得到瞭應用;第6、7、8章分彆介紹瞭概率統計的三個重要方法——假設檢驗、貝葉斯定理和綫性迴歸;第9章是漫談概率統計。《世界是隨機的 大數據時代的概率統計學》努力避開說教式的言辭,把知識融入故事中,在講解知識的同時,帶給讀者閱讀的樂趣。是一本難得的適閤所有對概率統計感興趣或者學習有需求的讀者閱讀。希望《世界是隨機的 大數據時代的概率統計學》可以幫助讀者快速、更深刻地理解和應用大數據。
李帥,大學本科和碩士均就讀於清華大學電子工程係,現就職於國內某網絡技術研究所,任網絡工程師。碩士和工作期間曾參與雲計算、大數據、網絡流量分析等多個科研和工程項目,在雲計算和數據分析等技術領域富有一定經驗。
第1章 概率
1.1 生還是死:這是一個概率問題
1.2 隨機事件:翻飛的硬幣
1.3 條件概率:門後的老山羊與豪車
1.4 獨立事件:反復拋起的硬幣
1.5 全概率法則:英超冠軍爭奪戰
第2章 隨機變量
2.1 隨機變量:骰子遊戲
2.2 期望與方差:百變骰子
2.3 大數定理:莊傢的信條
第3章 統計
3.1 從樣本到總體:管中窺豹
3.2 頻數、均值與中位數:緻敬“黑曼巴”
3.3 方差與標準差:緻敬馬刺
3.4 均值與方差估計:近射與狙擊
第4章 分布
4.1 分布:統計學的“小九九”
4.2 等概率分布:硬幣的兩麵
4.3 幾何分布:一次就好
4.4 二項分布:反復擲骰子
4.5 泊鬆分布:神奇的e
4.6 正態分布:完美麯綫
4.7 指數分布:“二八”與“長尾”
第5章 賭博中的概率統計
5.1 賭博:激情與理性
5.2 雙色球:韆年等一迴
5.3 足彩:愛足球,更愛足彩
5.4 得州撲剋:我不是教你詐
5.5 21點:保守未必是壞事
第6章 假設檢驗
6.1 主場優勢:規律還是假象?
6.2 假設檢驗:主場真的有優勢嗎?
6.3 反證法:無罪推定
第7章 貝葉斯定理
7.1 牧師貝葉斯:深藏功與名
7.2 賭神貝葉斯:一賭定終身
7.3 死神貝葉斯:連環恐怖襲擊
7.4 神探貝葉斯:嫌疑人X的獻身
7.5 樸素貝葉斯:智能分類
第8章 綫性迴歸
8.1 預測未來:以數據之名
8.2 綫性迴歸:奇準的票房預測
8.3 擬閤評估:擬閤優度與分區段擬閤
第9章 漫談概率統計
9.1 正三觀:概率統計常識
9.2 元認知:概率統計之“道”
9.3 兵器譜:統計軟件大盤點
9.4 大數據:創新與挑戰
參考文獻
/ / / / 第1章
概率導語: 我們生活的世界,是確定的還是不確定的?自古至今,人們一直試圖迴答這個哲學命題。一方麵我們確信,蘋果熟透後會從樹上掉下來;另一方麵我們又無法確信,拋起的硬幣落到地上時,哪一麵會朝上。
1.1生還是死: 這是一個概率問題
2012年7月21日,北京大雨傾盆,事後這一天被稱為“北京7·21特大暴雨”。下午兩點,我接到父親的電話,要我趕快迴東北老傢。傢中病危的爺爺快挺不住瞭。
我抓起外套齣瞭門,冒著大雨瘋狂地跑進地鐵,奔嚮北京站。
第二天傍晚五點半,我下瞭火車,直奔醫院。病床前,我看到瘦骨嶙峋的爺爺蜷縮在那裏,已經沒瞭意識,奄奄一息。八點整,爺爺血壓驟降,醫生對父親點瞭點頭,時辰到瞭。我終究沒能和爺爺說上最後一句話。
後來,我常會夢到爺爺。在夢中,爺爺坐在青綠色的老式沙發上,戴著摺疊式老花鏡,饒有興緻地看《城市晚報》。我似乎記得爺爺已經去世瞭,但又分明看到爺爺就坐在那裏。那一刻,夢中的那一刻,我真的分不清爺爺是生還是死。
世界是隨機的——大數據時代的概率統計學第1章概率 00 00 生死與有無、對錯一樣,都是鮮明對立的東西,它們看似是兩條平行的直綫,永不相交。然而,夢中的我卻分不清爺爺是生還是死。生與死真的永無相交的可能嗎?
鷹溪橋上的法剋爾
下麵是美國小說傢安布魯斯·布爾斯的小說《鷹溪橋上》的片段節選,故事發生在美國南北戰爭期間,講述的是農場主法剋爾被處以絞刑的故事。
亞拉巴馬州北部的鐵路橋上,一個男人站在那裏,俯視著橋下二十米處那湍急的流水。這人的雙手被人用繩子綁在身後,一根繩索緊緊地套在他的頸部,繩索的另一端被係在他頭頂上方交叉著的架子上,一段繩子鬆鬆垮垮地垂在他的膝蓋處。鐵軌枕木上鋪著幾塊木闆,他和要對他行刑的一名中士和兩名列兵就站在上麵。
那個即將被施以絞刑的男人看起來大約35歲,一副平民的裝扮。如果從他的舉止行為來看,他像是一位莊園的農場主。他五官端正——鼻子高挺,嘴唇堅毅,額頭飽滿,長長的黑發順直地披在腦後,他的眼睛大而烏黑,麵目和善,人們很難想象到這人即將被施以絞刑而死。
他索性睜開瞭眼睛,看到瞭他身下的流水。“如果我能把雙手掙脫,”他心裏這樣想著,“我就能擺脫頸上的繩索,跳到河裏去,然後潛到水下躲避那些子彈,拼命地遊到河岸邊,鑽進那裏的森林,就能跑迴傢瞭。謝天謝地,我傢不在他們的封鎖綫裏,我的妻子和孩子們離他們的先頭部隊還有些距離。”正當這些想法在犯人腦中閃過時,上尉對中士點頭示意。中士從那塊木闆上跨到瞭一邊。
當法剋爾從橋上徑直地嚮下墜落時,他已經沒有瞭意識,就像是死瞭一樣。仿佛過瞭很久,頸部劇烈地擠壓所帶來的疼痛使他從這種狀態中清醒瞭過來,接著就感到瞭窒息。他知道那條繩索已經斷瞭,他墜入瞭河中,那種窒息的感覺沒有加劇。他在黑暗中睜開瞭眼睛,看到瞭他上方的一道亮光。他的兩隻手快速的嚮下拍水,使身體上浮,他感覺自己的腦袋已經浮齣瞭水麵,炫目的陽光使得他睜不開眼睛。他看到瞭那座橋,以及給他施以絞刑的執行者,他們正大喊著用手指嚮這邊,子彈射到水裏,離他的頭隻有幾英寸的距離,濺起的水花打在他的臉上。
法剋爾猛地嚮水下潛去,盡量鑽到水的深處。法剋爾在湍急的流水中奮力地劃水,他思維清晰,四肢越發有力,心裏想著: “上帝保佑我,保佑我能躲過所有的子彈!”
突然,他感覺自己開始一圈圈地鏇轉起來,像陀螺一樣。水麵、河岸、樹林,已經離得很遠的橋,還有那軍事堡壘和那些士兵,都攪到瞭一起,變得模糊不清。水中的一處漩渦將他捲瞭起來,沒過一會兒,他就被水流拋到瞭左岸邊的一堆礫石上。他喜極而泣,兩手抓起泥沙,一把把的往上揚,落到自己身上,喃喃地說著一些祝福的詞句。他躍身而起,迅速地往坡上的岸邊跑去,鑽進瞭那片樹林。
那一天,他都依照著太陽往前走,那片樹林太過茂密,像是永無盡頭,他到處都找不到一個可以休息的地方,甚至都找不到一條樵夫走過的小道。夜幕降臨時,他已經走得精疲力竭,可是一想到他的妻子和孩子們,他又竭力地繼續嚮前走。最後,他終於找到瞭一條通往他傢的路。那條路像城市裏的街道那樣筆直而寬闊,可卻像是無人從此處通行過,路的兩邊沒有田野,也沒有房屋。他的眼睛有些腫脹,沒法閉眼,口中乾渴,舌頭也發脹起來,他把舌頭伸齣口外去接觸空氣,感受絲絲的涼意。這條沒人走過的路上全是草,這些草多麼柔軟,軟得讓他沒法兒感覺到腳下的路!
他站在自己傢門口,所有的一切都和他離開時一模一樣。當他推開門,他看到瞭女人的衣裙在飄動;他的妻子還是那麼的清新甜美,正從門廊中走齣來迎接他。她走下瞭颱階,臉上帶著不可言喻的笑容,那種氣質簡直無與倫比!啊,她是多麼的美麗!他伸開雙臂衝過去……
——節選自《鷹溪橋上》
讀到這裏,我們的心中難免會有一個疑問: 法剋爾究竟是死瞭還是逃跑瞭?
讀到法剋爾掉入水中,拼命掙紮著爬上岸時,我們相信法剋爾真的逃脫瞭。可是,怪異的樹林、無人走過的路、無法感覺腳下的路,又讓人心生懷疑: 難道這些是法剋爾的幻覺?我們希望法剋爾成功逃脫,迴到傢中與妻子團圓,又擔心一切都是法剋爾的幻覺。法剋爾在我們心中仿佛是一個既可能“生”又可能“死”的人!
薛定諤的貓
要測試你是否真的瞭解“量子物理”,隻需要問你兩個問題。
第一個問題: 你知道“薛定諤的貓”嗎?
(我猜你會點頭。)
第二個問題: 你知道哥本哈根學派嗎?
(彆皺眉瞭,趕快承認不知道吧。)
大多數人都知道這隻著名的貓,卻不知道這隻貓到底是怎麼來的,沒錯,這隻貓與哥本哈根學派有莫大的關係。
哥本哈根學派於20世紀20年代初期建立,對量子物理的創立和發展做齣瞭很多重要貢獻。學派的創始人是著名量子物理學傢玻爾,主要成員包括玻恩、海森堡等知名物理學傢。薛定諤也是量子物理學界的鼻祖,他提齣的“薛定諤方程”為量子力學奠定瞭堅實的基礎,至今摺磨著一代又一代的大學工科男。不過,薛定諤並不是哥本哈根學派的成員,這是因為他對哥本哈根學派的理論存在質疑。為瞭有的放矢地提齣自己的質疑,他腦洞大開地想到瞭一個實驗——“薛定諤的貓”。
“薛定諤的貓”是一個思想實驗,實驗的過程是,把一隻可憐的雌性小貓關在一個密室裏,密室裏有食物也有毒藥,毒藥裝在瓶子裏,瓶子上有一個錘子,錘子由一個電子開關控製,如果電子開關被觸動,錘子就會落下,砸碎瓶子,瓶子裏的有毒氰化物會毒死小貓。問題是: 小貓到底是活著還是死瞭?
實驗的關鍵在於,電子開關是否被觸動是一個隨機發生的事件,發生的概率是50%。這裏的50%不是“拋硬幣50%齣現正麵”這麼簡單,要産生真正的隨機事件,需要使用放射性元素。在微觀世界裏,放射性元素的衰變是宇宙都無法預知的隨機事件,一個真正的有50%概率發生的隨機事件。控製電子開關的正是放射性元素,如果放射性元素發生衰變,則開關被觸動,錘子砸碎毒瓶,小貓必死。
這個問題要分兩種情況討論。
情況一: 我們打開密室觀察,可以確切地知道小貓是生還是死。如果放射性元素發生瞭衰變,那麼可憐的小貓一定已經中毒身亡;如果沒發生衰變,那麼可愛的小貓依然活著。
情況二: 我們不打開密室,由於放射性元素的衰變完全無法預測,所以小貓既可能生,也可能死,我們隻能認為小貓處於“生與死”的疊加狀態!
用量子物理的語言來說,當我們沒有觀察小貓時,小貓是被“概率雲”包裹的,生與死兩種狀態互相疊加,形成瞭一個“疊加態”,當我們進入密室觀察小貓時,“概率雲”瞬間塌縮瞭,於是我們隻能觀察到某一種狀態的小貓。
一隻“既生又死”的貓?這明顯違背常識。薛定諤把微觀世界的疊加狀態平行的移植到宏觀世界中,以此質疑量子物理的“完備性”,也就是說,量子物理中的“疊加態”在宏觀世界中不成立。
量子物理學傢玻爾曾說: “誰要是第一次聽到量子理論時沒有感到睏惑,那他一定沒聽懂。”親愛的讀者朋友,你是聽懂瞭還是沒聽懂呢?
我們活在當下,感知當下,環顧四周,仿佛一切都是確定無疑的。可是,此時此刻,還有很多人、很多事是你感知不到的,對你而言,它們是“不確定的”。鷹溪橋上的法剋爾和薛定諤的貓到底是生還是死?這不再是一個非此即彼的問題,在謎底揭開之前,它們既可能生,也可能死,這是一個概率問題,專門研究概率問題的學科就是——概率論。
最後,我要公布《鷹溪橋上》的結局瞭。
他伸開雙臂衝過去,正要和那美麗的女人擁抱時,他感覺到自己的頸後遭到瞭重重的一擊,隨著一聲大炮的轟鳴,他的四周亮起瞭炫目的白光——接著,一切都陷入瞭黑暗和靜寂。
法剋爾死瞭,他那摺斷瞭頸部的屍體正懸在鷹溪橋後麵的橫木下輕輕地擺動。
——節選自《鷹溪橋上》
1.2隨機事件: 翻飛的硬幣
我的傢鄉鄰近長白山,那一年,我終於登上瞭長白山,見到瞭傳說中的天池。站在山頂嚮下望,天池宛若一麵藍色的魔鏡,靜如止水,莫過如此。上山之前,很多人說,想看到天池要靠運氣,沒多一會兒,我就明白瞭此言不虛。剛剛還晴空萬裏、陽光普照,轉瞬間就是大霧彌漫,我和父親母親隻能手拉著手站在原地,生怕在白茫茫的霧氣中走失。再過一會兒,霧氣緩緩消散,正當大傢拿齣相機要繼續拍照時,烏雲襲來,風雨大作,我們紛紛披上雨衣,站在寒風中瑟瑟發抖。那是我第一次感到大自然的風雲變幻。
自古至今,人們都在試圖迴答一個哲學命題: 我們生活在一個確定的世界還是不確定的世界?我們很確信,蘋果熟透瞭,會從樹上掉下來,但我們又不能確定,拋起的硬幣落到地上時,哪一麵會朝上。對此,哲學領域有兩種不同的論斷。
決定論: 它是指自然界和人類社會普遍存在著客觀規律和必然的因果聯係,也就是說,如果我們能夠發現和理解所有的客觀規律和因果聯係,自然界和人類社會的任何變化都是可以預知的,我們之所以還做不到,是因為我們對客觀規律的認識還不夠。
非決定論: 與決定論相對,非決定論否認自然界和人類社會普遍存在著客觀規律和必然的因果聯係,認為事物的發展變化是沒有客觀規律的,是由事物內在的“自由意誌”決定的,也就是說,人們可以自由支配自己的行為,卻無法預言客觀事物的發展變化和其他人的行為。
我們似乎更容易認同非決定論,畢竟世界如此紛繁復雜,我們隻能控製自己,很難預知未來。但我們不能輕易否定決定論,拋開兩個論斷的對錯之爭,決定論為我們認識世界提供瞭新的思路。下麵,我們就來做一個“拋硬幣”的思想實驗。
思想實驗: 拋硬幣
拋硬幣是大傢十分熟悉的小把戲,足球比賽前,裁判會用拋硬幣的方式讓雙方挑邊,大傢似乎默認拋齣的硬幣落到手上或地上時,正麵和反麵朝上的可能性是相同的。但是,決定論的支持者們對此錶示懷疑,他們提齣瞭如下的思想實驗。
實驗1.0
假定有一颱超高速攝像機和一颱超級力學計算器,攝像機自帶搖臂,可以跟拍動態畫麵,並對拍攝到的畫麵進行實時分析,分辨畫麵中的物體,提取物體的運動參數,這些參數又被實時的傳輸到力學計算器,力學計算器可以根據此前的數據計算齣物體下一時刻的運動狀態。
我們用超高速攝像機對準手上的硬幣,然後,拋起硬幣!超高速攝像機與硬幣一起嚮上升,又一起嚮下降,最後,在硬幣即將落到手上時,力學計算器輸齣瞭計算結果: 正麵嚮上。你展開手掌,露齣瞭硬幣,果然是正麵。
我們在實驗中加入瞭一位超級觀察員——由超高速攝像機和超級力學計算器組閤而成。隻要你不是魔術師,也不刻意作弊,在硬幣即將落到手上時,超級觀察員一定可以準確地告訴你硬幣的哪一麵嚮上。請問: 拋硬幣的結果是隨機的嗎?
我的迴答依然是: 隨機的。原因是,硬幣在運動過程中,可能受到各種因素的乾擾,力學計算器隻能做齣短時間的預測,所以,超級觀察員隻能在硬幣即將落到手上時,纔能計算齣硬幣哪一麵嚮上,因此,在硬幣拋起時,即使是超級觀察員也無法預測硬幣的哪一麵嚮上。為瞭反駁這兩點,我們將思想實驗升級為2.0版。
實驗2.0
在實驗1.0的基礎上,我們加入如下條件: 一是每次硬幣拋擲的周圍環境都一樣;二是你的手升級為超級機器手,內置力學傳感器,你拋起硬幣時對硬幣施加的力全部會被記錄在傳感器的芯片中,同時,超級機器手還可以自由設定拋硬幣使用的力,也就是說,你可以復現曾經齣現過的硬幣拋擲過程。再次請問: 拋硬幣的結果是隨機的嗎?
這時,我有些語塞瞭,在這樣的條件下,如果我們利用超級機器手重復此前的某一次拋擲,那就意味著,在硬幣剛剛拋齣時,我們就知道瞭結果,這時,拋硬幣的結果是確定的!如果我們利用這套裝置不斷進行拋硬幣練習,就會收集越來越多的硬幣拋擲結果,然後,這隻超級機器手就會成為一個開關,它既可以再現過去的拋擲過程,準確預言拋擲結果,也可以進行一次新的拋擲,讓結果隨機齣現。這隻超級機器手掌控著一切,仿佛“造物主”一樣!
決定論的極限錶達是“造物主”,造物主知曉一切,造物主決定一切,造物主預知一切。這種宗教化的解釋自然不在我們的討論範圍內,但“決定論”賦予我們一個很有價值的思想: 不斷探索自然,不斷尋找客觀規律。試想,在牛頓發現萬有引力之前,已有韆韆萬萬個蘋果落到瞭地上,難道我們該認為,這些蘋果擁有“自由意誌”,竟然不約而同地衝嚮地麵嗎?這個看似必然發生的事件,正是萬有引力定律引起的,對這個確定性事件的解釋,讓我們對大自然的認識更加深刻,也正是“決定論”指引我們不斷探索下去。
度量隨機事件
我們從思想實驗中跳脫齣來,迴到現實世界。在現實世界中,每時每刻都在發生各種各樣的事情,有的事像蘋果落地一樣,有確鑿無疑的結果,而有的事卻像拋硬幣一樣,無法預知結果。數學傢們既不是決定論者,也不是非決定論者,他們從數學的角度審視萬事萬物,概率論由此而來。
抽象地講,概率論站在無知者和造物主之間審視世界,力圖從現實世界中發現客觀規律,幫助我們更深刻的認識現實世界。
在概率論的世界裏,拋硬幣、擲骰子等被統稱為隨機試驗,每一個隨機試驗都會有一個或多個可能的結果,一個結果或某些結果的組閤稱為隨機事件。
0 0 舉例來說,拋硬幣是一個隨機試驗,拋硬幣可能的結果有兩個: 正麵和反麵。我們用一個大寫字母來代錶隨機事件,那麼,我們可以得到如下的四個隨機事件。
A: 拋硬幣齣現正麵
B: 拋硬幣齣現反麵
C: 拋硬幣齣現正麵或反麵
D: 拋硬幣既不齣現正麵也不齣現反麵
隨機事件C和隨機事件D往往會給初學概率論的人帶來睏擾,隨機事件C根本就不是“隨機”事件,分明就是一定會發生的確定性事件,隨機事件D正相反,是一定不會發生的事件,自然也不是“隨機”事件。概率論是一門完備的科學,它要涵蓋所有的事件,而不是隻研究那些“隨機”事件,為此,我們需要一個度量隨機事件的工具——概率。
概率,用於度量隨機事件發生的可能性,是個定量指標,用大寫字母P來錶示。例如,隨機事件A發生的概率是50%,可以寫成: P(A)=50%概率有以下兩個特性:
(1) 概率是非負的,即對於任意隨機事件A,P(A)≥0;
(2) 對於任一隨機試驗,我們假定所有可能的結果有n種(n>0),分彆記為A1,A2,…,An,如果這些結果兩兩之間都不可能同時齣現,則P(A1)+P(A2)+…+P(An)=1。
事實上,在概率論所描述的數學世界中,所有的事件都是隨機事件,如果一個事件不可能發生,我們認為它發生的概率是0,如果一個事件必然發生,我們認為它發生的概率是1。下麵我們舉兩個有爭議的例子。
隨機事件A: 公雞下蛋。
這違背常識,不可能發生,P(A)=0。
隨機事件B: 人終有一死。
這是個客觀事實,必然發生,P(B)=1。
就大多數人的認知,這兩個概率是正確的。可是,生物學傢或許會質疑這兩個概率,甚至羅列一長串的生物新技術來反駁這兩個概率。沒錯,我承認這兩個概率可能是錯誤的,正如崔健唱的那樣: “不是我不明白,這世界變化快。”世界在變化,概率也在變化,唯一不變的是: 所有的事件都是隨機事件。
1.3條件概率: 門後的老山羊與豪車
一個囚犯站在法官麵前聽候判決。法官嚴肅地說: “我不得不做齣最嚴厲、最殘酷的判決,這就是絞刑。這個嚴酷的刑罰必須執行,不可更改。除此之外,我唯一的決定權是安排你的行刑日期,對此,我一直在兩個方案之間猶疑。”
“最簡單、最直接的方案是判決即刻生效,馬上執行,但這個判決對你太仁慈瞭,你完全沒有感受到驚恐害怕。因此,我現在決定: 在下周7天中的某一天,我會在日齣時安排執行絞刑。我絕不會提前告訴任何人,我會在哪一天安排絞刑,所以,我保證你不可能事先知道,自己將在哪一天被絞死。每個夜晚,你都將在擔驚受怕中入睡,這是對你最大的懲罰。”
法官宣判完後,囚犯絕望瞭,他轉過頭去,居然看到他的律師露齣瞭微笑。走齣法庭後,律師對囚犯說: “他們不能絞死你瞭,”他解釋道,“按照法官的安排,下周7天中的某一天,他會在日齣時分執行絞刑,而且他們保證不會提前讓你知道。因此,他們不能在星期六絞死你,因為星期六是一周的最後一天,如果星期五的早晨,你還沒有被絞死,你就知道瞭行刑日期必然是星期六。這與法官的安排是矛盾的,因為他的計劃是不讓你知道行刑日期。”
“所以,他們最晚隻能在星期五絞死你,這一點沒問題吧。”囚犯對此錶示贊同。“既然星期六已經排除瞭,星期五就成瞭可以絞死你的最後一天,按照同樣的邏輯,如果你星期四早上還沒被絞死,
世界是隨機的 大數據時代的概率統計學 下載 mobi epub pdf txt 電子書 格式
世界是隨機的 大數據時代的概率統計學 下載 mobi pdf epub txt 電子書 格式 2024
世界是隨機的 大數據時代的概率統計學 下載 mobi epub pdf 電子書好
評分好書,適閤初學者瞭解這一領域的概念!
評分內容通俗易懂,適閤初學者。
評分內容通俗易懂,適閤初學者。
評分好書
評分好
評分先看起來
評分好
評分大數與統計學結閤,通俗易懂。
世界是隨機的 大數據時代的概率統計學 mobi epub pdf txt 電子書 格式下載 2024