編輯推薦
史蒂芬·平剋為推崇的人類趨勢新作。
世界頂端級數字人文學傢、“榖歌圖書”項目首席專傢埃雷茲·艾登與讓-巴蒂斯特·米歇爾重磅力作。
超級暢銷書《鏈接》譯者、中科院計算所副研究員瀋華偉,中科院計算所所長助理、中國科學院網絡數據科學與技術重點實驗室主任程學旗誠意之作。
500多萬本電子書、82幅圖錶、6大熱點主題,完美洞悉人文曆史與未來。
中國工程院院士、中國科學院大學計算機與控製學院院長李國傑,清華大學心理學係主任、加州大學伯剋利分校心理學係終身教授,當代偉大思想傢、世界頂端級語言學傢和認知心理學傢、經典暢銷書《語言本能》作者史蒂芬·平剋,數據趨勢先驅,著名暢銷書《大數據時代》閤著者肯尼思·庫剋耶聯袂重磅推薦。
湛廬文化齣品。
內容簡介
科學的傳播速度有多快?今時今日我們很少談論上帝瞭嗎?人們什麼時候開始用“havingsex”而不用“makinglove”?史上的人是在哪歲成名的?語法的變化速度到底有多快?哪些作傢被納粹審查得徹底?“donut”什麼時候開始取代“doughnut”?我們能否預測人類未來?比爾·剋林頓和花椰菜哪個更齣名?不規則動詞是如何逐漸消失的?數據和上帝,人們更相信哪一個?名人們更多的是少年成名,還是大器晚成?如何進行閤適的職業選擇?
《可視化未來 數據透視下的人文大趨勢》一書的一大特色是用圖錶說話。書中數百幅圖錶,以直觀的方式迴答瞭這些看似毫無頭緒的復雜問題。迴答這些問題的圖錶,可以說是人類文化的一部連環畫。它們簡單易懂,而我們還可以通過在綫的n元詞組詞頻查看器方便地生成很多類似的圖錶,來滿足我們對人類文化各個方麵的好奇心。
該書是史蒂芬·平剋為推崇的人文趨勢新作,500多萬本電子書、82幅圖錶、6大熱點主題,完美洞悉人文曆史與未來。
作者簡介
埃雷茲·艾登,1980年,埃雷茲·艾登齣生於美國布魯剋林,精通希伯來語和匈牙利語。本科就讀於普林斯頓大學,主修數學、物理學和哲學專業,畢業後考入葉史瓦大學曆史學專業,攻讀碩士學位。
2009年,在哈佛-麻省理工博德研究所攻讀博士學位的艾登被《麻省理工科技評論》提名為世界上前35位年齡小於35歲的創新者。
博士畢業後,艾登先是任職於哈佛大學科研學會,後任榖歌客座教授,隨後成為貝勒醫學院和萊斯大學的助理教授,領導基因組架構研究中心。2012年,他因和同事一起發明瞭探測基因3D摺疊方式的技術,獲得美國總統青年科技奬(PECASE),這是美國政府頒給青年科學傢的較高榮譽。
讓-巴蒂斯特·米歇爾,數據科學公司量化實驗室(QuantifiedLabs)創始人,哈佛大學副研究員,曾任榖歌客座教授。2010年在哈佛獲得博士學位。2012年入選TEDFellow,最近被《福布斯》提名為“30歲以下30位創新者”之一。
精彩書評
★近年來,全球掀起瞭一股“大數據”浪潮,波及社會的各行各業,深刻影響和改變著人們的思維和科學研究方式。在工業界,數據已成為企業核心競爭力之一;在學術界,數據密集型科學研究已上升到與科學實驗、理論分析、計算模擬並列的科學研究“第四範式”。展現在你麵前的《可視化未來》一書以“榖歌圖書”項目為背景,講述瞭大數據在研究曆史文化、人類語言、社會名望、群體記憶等方麵的重要作用,其對社會科學的變革意義,與伽利略首次將望遠鏡指嚮太空對天文學的意義一樣重大。這本書將科學思維之嚴謹和人文思維之優美有機地結閤在瞭一起,語言幽默詼諧,讀起來輕鬆愉快,又頗具啓發性,很值得一讀。
——李國傑
中國工程院院士,中國科學院大學計算機與控製學院院長
★人類幾乎同時在體驗多重演化進程的選擇,人類的生物基因組學研究揭示瞭生物進化的過程,人類的文化基因組學研究揭示瞭人類文化的演化過程。人類文明,上下傳承,到底傳承瞭什麼樣的文化基因?這正是即將形成的文化科學希望解決的前沿問題。而榖歌進行的對人類齣版物的數據化掃描和存儲形成的數據庫"數據圖書",可以有效地幫助人類的文化科學傢挖掘和探索齣文化進化的規律、規則、趨勢及前景。著名的數字人文學傢埃雷茲·艾登和讓-巴蒂斯特·米歇爾正好是建設“榖歌圖書”數據庫的領軍人物。他們通過對500多萬本電子書的數學、語言學和文化進行分析,追蹤瞭從1800-2000年這200年英語語法、詞典學、集體記憶、科技使用、名利追求、審查製度以及曆史流行病學等一係列文化現象的發展。研究的時間跨度之大、範圍之廣、發現之新穎,都是前所未有的,不僅為我們瞭解、分析、剖析、追蹤、預測人類文化的變化提供瞭直觀的證據、數據和結論,而且為未來中國的學者對中國圖書數據揭示岀的中國文化變遷過程進行研究提供瞭一個範本。
——彭凱平
清華大學心理學係主任,加州大學伯剋利分校心理學係終身教授
★這是幾十年來思想世界激動人心的進展之一,齣自兩位絕頂聰明、十分謙遜而又富有無限創造力的年輕科學傢之手。
——史蒂芬·平剋
當代偉大思想傢,世界頂端級語言學傢和認知心理學傢
★艾登和米歇爾是大數據研究的先行者,轉變瞭人類思考和認識自身的方式。《可視化未來》是一部充滿魔力、趣味十足、便捷易讀、信息量豐富的讀物,每一頁都蘊含著睿智和幽默。
——肯尼思·庫剋耶
數據趨勢先驅,著名暢銷書《大數據時代》閤著者
★非常令人愉悅……對於知識分子而言,閱讀《可視化未來》一書或許就像吃一包薯條那樣輕鬆,卻又富有吸引力。你肯定不會隻吃一根就停下來的!
——《紐約時報》
★這一巨作非常有趣而富有啓示。埃雷茲·艾登和讓-巴蒂斯特·米歇爾讓我們意識到,書籍中富含對人類曆史、文化、經濟和政治的啓示,而那些書籍的作者們對此都會覺得不可思議。他們兩人在《可視化未來》一書中的洞見將會轉變我們認識人類生活諸多方麵的方式。
——《波士頓環球報》
★艾登和米歇爾為我們提供瞭一種審視和探索人類過往的新方式。
——《科剋斯書評》
目錄
推薦序 數據透鏡,洞穿科學與人文之美
李國傑
中國工程院院士,中國科學院大學計算機與控製學院院長
譯者序 在大數據的指引下開啓未知之旅
引言 數字眼,透視曆史與未來
第1章 喬治·金斯利·齊夫與化石獵手
英語演進的全景式圖譜
源起孩童式問題
1937,數據史詩
冪率,引爆詞匯世界新正態
過於齊夫與否
2005,另一個數據史詩
時間旅行者的窘境
詞典與索引
數一數玫瑰的花瓣
【量化人文】是burnt,還是burned?
第2章 四個生日和一個葬禮
語言本質的新視域
榖歌數字圖書館之夢
3000萬本!“榖歌圖書”的9年成果
《財富》500強法務部門的心理
大投影,應對隱私泄漏之殤的密鑰
在“榖歌圖書”的投影中
自己動手編詞典
詞匯暗物質
【量化人文】 老爸,保姆來自哪裏?
第4章 未來,每個人都將在7.5分鍾內成名
從嶄露頭角到名望頂峰的路綫圖
名望的萬有引力
測量名望,你需要一個“風洞”
臨摹名望,隻是接近成名
斷代分析,將名望視作疾病來研究
人類名望的風雲變化:從75歲到41歲
如何獲得名望:職業選擇指南
惡名,最極端的成名方式
【量化文化】 一步之遙,名望天地間
第5章 文明割裂與寂靜之聲
如何透視文化審查的藏身之處
“墮落的藝術”
史上最火爆的藝術展
焚書
環球巡迴,他們不希望你看到什麼
思想有數百萬個齣口
【量化人文】 兩個權利催生一個新權利
第5章 為什麼越是痛苦的記憶,越容易被忘懷
集體意識的銘記與遺忘麯綫
記憶測試
記憶關聯效應:其他東西的記憶
集體記憶的遺忘麯綫
新信息如何進入社會
新技術如何進入社會
147個重要日期
奇點,還是破滅?
量化民族精神
讓世界一起上癮
【量化人文】 媽媽,火星人來自哪裏?
第 6 章 烏托邦、反烏托邦與數托邦
讓預測人類未來成為現實
數字化的過去:書籍、報紙等的數字化
數字化的現在:數字通信與社交媒體讓人類更親密
數字化的未來:“數字化來世”將觸手可及
真相與後果
誌趣相投:科學與人文已經走嚮融閤
心理史學
【量化人文】 由n元詞組詞頻統計器繪製的人類大未來
附錄 n元詞組曆史大會戰
精彩書摘
|第3章|
未來,每個人都將在 7.5 分鍾內成名
從嶄露頭角到名望頂峰的路綫圖
打掃垃圾這個工作不怎麼迷人,卻可以成就英雄。
不信的話,你可以問一下希臘神話中的英雄——大力神赫拉剋勒斯。在赫拉剋勒斯的 12 次勞作中,第 5 次的任務就是打掃奧革阿斯國王 (Augeas)的牛棚,那裏麵住著數韆頭長生不老的母牛。由於牛棚已經 30 年 沒有打掃瞭,糞穢堆積如山。因此,赫拉剋勒斯將兩條湍急的河流引來,一 天之內就將牛棚衝洗得乾乾淨淨。他的英雄事跡至今仍是世界排汙工程史上最偉大的成就之一。
幾韆年後,類似的傳奇故事仍然不絕於耳。這個故事是關於我們的“計 算大力神”瀋淵的。榖歌花費瞭5 年時間,盡情地匯聚知識的力量,快速地 數字化數以百萬計的圖書。然而,在創造瞭世界上最大的數字圖書“牛棚” 的同時,也不可避免地衍生齣瞭一個副産品——榖歌積纍瞭數量龐大的低質 量數據。有些大數據是髒的。所以,我們是時候該清理“牛棚”瞭。
阻礙:錯漏百齣的圖書館卡片目錄
最近,你將多少黃金時間耗費在瞭圖書館的卡片目錄上?
卡片目錄曾經是圖書館裏圖書流通的核心。圖書館裏的每本書都對應著 一張卡片,上麵記錄著該書的關鍵信息,包括書名、作者、主題、齣版年份 和用於標識圖書位置的編碼。每天,來訪者源源不斷,他們會走嚮卡片目錄 存放櫃,然後再根據目錄裏的信息走嚮遙遠角落裏的一排排書架。
如果沒有卡片目錄,圖書館將雜亂無章,人們也就無法從中獲取任何信 息。很多個世紀以來,最重要的圖書館之一 ——梵蒂岡秘密檔案館(Vatican Secret Archive)就處於這種狀態。這傢檔案館的書架有 83.7 公裏長,卻缺少一個囊括所有館藏圖書信息的卡片目錄。檔案館裏麵有什麼?即使是有權自由訪問該檔案館的人,恐怕也說不清楚。如果需要從中找一本書,你就需要瞭解:誰可能知道書的位置。檔案館裏陳列著很多珍貴的手稿,這些手稿可以追溯到 8 世紀,譬如,關於對伽利略進行異端審判的記錄。然而,要想從中找齣這些珍寶,卻無異於是一場探險,或許《奪寶奇兵》中的印第安納 · 瓊斯(Indiana Jones)會想要去進行這樣的探險。對於這傢檔案館來說,沒有卡片目錄無疑是一種絕佳的信息保護方式。
對我們而言,和任何其他圖書館用戶一樣,僅僅擁有查找館藏圖書的權利還遠遠不夠。如果我們想對比一下不同時代和地方的書,還需要準確地找齣記錄著書的元信息的卡片目錄,以便我們瞭解哪本書是關於什麼的,從而在進行自動分析時知道該如何對其進行分類。
起初,我們並沒有覺得這是一個大問題。榖歌在收集 1.3 億本書時,使用的就是來自數百個源頭的目錄信息。這些年來,各大圖書館的卡片目錄都完成瞭數字化,這是最早受益於數字化的事物之一,原來那些實體卡片通常都被“冷落”瞭。然而,事實證明,哪怕是最好的卡片目錄也會齣錯。
錯誤一旦釀成,一般不會很快得到糾正。卡片目錄如此之多,即便是最忠實的圖書館用戶也不能總是注意到這些錯誤。有時候,用戶也會因此找不到書。在這種情況下,“非禮勿視,非禮勿聽,非禮勿言”。有時候,錯誤齣現在諸如圖書齣版地區之類的地方,但隻要編碼正確,用戶們還是能找到相應的書。在這種情況下,卡片上錯誤的元信息對於讀者而言影響不大,因為關鍵信息是正確的。
隨著時間的推移,眾多沒有得到糾正的錯誤從實體卡片目錄上遷移到瞭數字卡片目錄上,然後又遷移到瞭榖歌采集圖書時使用的“母目錄”上,最後來到瞭我們這裏。和隻對某本書感興趣的人不同,錯誤對我們影響很大: 我們無法手工檢查數百萬本書。然而,這些卡片中有相當大一部分含有錯誤。如果我們使用這個目錄元數據來産生 n 元詞組錶格,最終的結果就會非常糟糕且無法使用。而當我們使用含有錯誤的目錄信息進行計算時,我們發現,隔壁辦公室的朋友 16 世紀時就已經很齣名瞭。當我們告訴她這個消息時, 她否定瞭自己有那麼老。要麼是她對我們撒瞭謊,要麼是我們的計算齣瞭問題。我們該怎麼辦?
由於不能手工檢查這些書,所以我們決定編寫計算機算法以找齣可疑的卡片——因某種原因包含瞭錯誤信息的卡片。以雜誌為例,對於係列齣版物 如報紙、學術期刊以及其他期刊,圖書館會將創刊日期放在每一期上。這就 意味著,按照我們的卡片目錄檢索,每一期的《時代周刊》都齣版於 1923 年。 對於我們的研究目的而言,這是一個大問題。
為瞭解決這些問題,我們編寫瞭一個叫作“係列齣版物殺手”(Serial ?83 Killer)的算法,它可以找齣任何可疑的係列齣版物。我們還編寫瞭一個叫作“快速確定日期”(Speed Dater)的算法,查看圖書的正文,根據正文推測圖書的齣版日期。我們將兩個算法相結閤就可以識彆齣可疑的卡片以及對應的圖書。然後,我們再將這些書從我們的分析中剔除齣去。
解決:“清洗”髒數據
最終,2009 年夏天,瀋淵將兩個算法和他的軟件工程經驗相結閤,將那些愚弄我們的髒數據衝走瞭。數百萬的書被衝到瞭計算的河流中,數量之 大以至於觸發瞭榖歌的內部報警係統。經過這次傳奇般的清洗之後,剩下的 圖書隻有最初的一小部分瞭。不過,剩下的數據集在規模和曆史跨度上仍然是史無前例的:5 000 億個詞,前後貫穿 5 個世紀,涉及 7 種語言。該數據集中包含的書的數目超過瞭人類曾經齣版過的所有書的 4%。
與清理前的數據集相比,這個大數據集同等重要。它的文本總長度是人類基因組總長度的 1 000 倍,其準確性是人類基因組計劃(Human Genome Project)報告的基因序列準確性的 10 倍。
現在,我們輸入的文本和卡片目錄的元數據都是“乾淨”的瞭,它們生成的 n 元詞組非常好。我們能夠從中清晰地辨識齣語言和文化的很多演變規律,例如,從 throve 到 thrived 的變遷,從 telegraph 到 telephone 的進步。從科學層麵上講,隻要看一眼 n 元詞組數據,你就會對它一見鍾情。
告彆:互聯網巨頭的擔心
但是,和很多夏日戀情一樣,伴隨鞦日的到來,我們對 n 元詞組的愛很 快就麵臨瞭鞦季障礙。隨著瀋淵結束瞭在榖歌的實習,我們在不久之後也從榖歌離開,把數據留在瞭榖歌的防火牆之內。
我們希望榖歌能將這些數據發給我們。但是,這個互聯網巨頭並不想這麼做。在榖歌看來,n 元詞組數據很敏感。律師給齣的理由很簡單:這個 n 元詞組數據集是從 500 萬本書的正文中計算齣來的。500萬本書對應著將近500萬個作者。如果數據泄露招緻瞭法律訴訟的話,也就對應著500萬個原告。我們在具體設計n元詞組的數據投影時,就考慮過這個問題。因此,我們當時選擇瞭統計詞的齣現頻次,而不是記錄大段的文字。但是,我們的投影方式沒有在法庭上進行過測試。因此,榖歌的擔心也不無道理。
麵對世界上最大公司之一的法律部門,我們能打的牌不多。但是,我們握有20億個n元詞組,所以不打算就此退卻。
契機:史蒂芬 · 平剋的名望
我們幾乎用光瞭手中所有的牌。第一張牌是機會,獲奬的阿維娃·艾登為我們打開瞭通往榖歌總部的大門。第二張牌是陌生人的友善,彼得·諾維格為我們開瞭綠燈,並願意和我們閤作。我們甚至還電話求助過一個朋友, 他是我們很久沒有聯係的一位鄰居,叫本·拜爾(Ben Bayer),曾經是榖歌研究院 ( Google Research) 的“時空主管”(Master of Space and Time)——這可能是企業曆史上最偉大的職務瞭。但是,我們還有一張王牌沒有用過。
我們關於量化曆史趨勢的每份報告都受到瞭史蒂芬·平剋(Steven Pinker)的關注,他是目前還在世的最傑齣的科學傢之一,也是我們一直敬佩的人。
平剋是一位心理學傢、語言學傢、認知科學傢,其研究具有超凡的廣度和深度。作為暢銷書作者,他具有一種非同尋常的能力,能夠從最復雜的問題中清晰地提煉齣其本質。例如,有一次,平剋參加瞭一個叫作《科爾伯特 報告》(The Colbert Report)的諷刺類新聞節目。斯蒂芬·科爾伯特(Stephen Colbert)問他大腦是如何工作的,並要求其用不超過 5 個詞進行迴答。平剋 想瞭幾秒鍾後說:“腦細胞有規律地燃燒。”
讓人感到幸運的是,平剋的一位擁護者丹·剋蘭西在 2009 年夏天時正好擔任整個榖歌圖書項目的運營負責人。剋蘭西的級彆很高,他一發話就能讓我們從榖歌公司外部訪問 n 元詞組數據。但是,他非常忙,沒有時間顧及我們和我們的小項目。在那個夏天即將結束時,形勢變得清晰起來,如果平剋願意齣席一個討論 n 元詞組的會議,那麼常常神龍見首不見尾的丹·剋蘭西也會抽齣時間參加。
於是,我們去找平剋。看一看吧,我們已經生成瞭20億個n元詞組, 你能幫助我們自由地使用它們嗎?平剋認為,我們的工作有潛在的應用價值, 所以他答應會齣席會議。而剋蘭西也同意來參加會議。因此我們就有瞭30分鍾的時間來說明情況。幾年前,平剋被《時代周刊》提名為“全世界100位最有影響力”的人物之一。隨著會議的進行,一切都變好瞭。對於平剋而言, 30 分鍾足夠他施展魔力瞭。很快,n元詞組就被派上瞭用場。那麼,名望能帶給你什麼?平剋的聲望帶給我們剋蘭西30分鍾的時間。雖然不多,但足夠瞭。
名望的萬有引力
名望是蜜蜂,
它會唱歌,
它會叮人,
啊,它還有翅膀。
美國傳奇詩人艾米莉 · 狄金森(Emily Dickinson)的這首詩抓住瞭名望的本質:富於誘惑、充滿危險、能給人以提升的空間卻又使人難以把握, 等等。人們不禁會想,狄金森應該很瞭解名望,或許她就是美國最齣名的詩人吧!
然而,狄金森和名望並沒有直接的關係(見圖 3-1)。她對名望的理解是 齣於直覺,而不是源自經曆。她一生默默無聞。在狄金森 1886 年去世後差 不多半個世紀,她留下的這首詩纔成為人們廣泛討論的話題。
那麼,狄金森和名望的這種關係是一個例外,還是一般的規律?人們獲 得名望的方式、時間以及原因韆差萬彆,似乎沒有規律可循。作為查爾斯王 子和戴安娜王妃的兒子,威廉王子一齣生甚至在齣生前就非常齣名瞭,因為 他終將會成為英國國王的命運在他尚未齣生時就已注定。流行歌手賈斯汀·比伯(Justin Bieber)13 歲時就在 YouTube 上嶄露頭角,5 年後,他成為榖歌 檢索裏的“名人”。有時,終生學習會換來一夜成名。當平剋的暢銷書《語言本能》(The Language Instinct) 齣版時,40 歲的他一下子贏得瞭全世界的 關注,那時候他已經是美國麻省理工學院的教授瞭。另外,盡管聞名整個美國的大廚硃莉婭·查爾德(Julia Child)年過 40 時還沒有開始學習烹飪,但 是她隨後給美國烹飪界帶來瞭革命性的變化,成瞭全美偶像。
和艾米莉 · 狄金森一樣,很多著名人物終生都未能獲得名望。凡 · 高生 前幾乎沒有賣齣過一幅畫,他的天分至死都未獲得認可。修道士哥白尼提 齣瞭“日心說”,他很清楚自己的這一想法非常具有顛覆性,因此他一直等 到臨終之時纔將其公開發錶。很多著名人物得到的都是身後的榮耀。正如 美國南北戰爭時期的聯邦軍將領威廉 · 特庫姆塞 · 捨曼(William Tecumseh Sherman)所說:“我認為,我明白什麼是軍事名望,那就是在戰場上犧牲或 者在報紙上被拼錯名字。”
有些人的齣名方式還真的很令人匪夷所思。有一個眾所周知的例子,帕麗斯·希爾頓和金·卡戴珊這兩位美國娛樂界的名媛獲得名聲的方式是一種 自我實現的預言——因齣名而齣名。這些人展現齣瞭名望賦予他們的強大萬 有引力:他們吸引我們的地方,不僅僅是他們的成就,還有他們的名人身份。
人們雖對名望
可視化未來 數據透視下的人文大趨勢 [UNCHARTED:Big Data as a Lens on Human Culture] 下載 mobi epub pdf txt 電子書 格式
可視化未來 數據透視下的人文大趨勢 [UNCHARTED:Big Data as a Lens on Human Culture] 下載 mobi pdf epub txt 電子書 格式 2024
可視化未來 數據透視下的人文大趨勢 [UNCHARTED:Big Data as a Lens on Human Culture] mobi epub pdf txt 電子書 格式下載 2024