發表於2024-11-22
吳軍,博士,畢業於清華大學和美國約翰·霍普金斯大學,是自然語言處理和搜索專傢,矽榖風險投資人。獲奬暢銷書《浪潮之巔》及《數學之美》的作者。
吳軍博士是榖歌公司早期員工之一。在榖歌,他和辛格(美國工程院院士,世界搜索專傢)、Matt Cutts(榖歌反作弊官方發言人)等三位同事一起開創瞭網絡搜索反作弊的研究領域,並因此獲得榖歌工程奬。2003年,他和榖歌全球架構的總工程師硃會燦博士等共同成立瞭中日韓文搜索部門。吳軍博士是當前榖歌中日韓文搜索算法的主要設計者。在榖歌期間,他還領導瞭許多研發項目,得到瞭當時公司首席執行官埃裏剋?施密特和創始人謝爾蓋·布林的高度評價。
2010年—2012年,他加盟騰訊公司,齣任負責搜索和搜索廣告的副總裁,同時擔任國傢重大專項“新一代搜索引擎和瀏覽器”項目的總負責人。2012年迴到榖歌,負責開發瞭被認為是“下一代搜索”的榖歌自動問答係統。同年,他作為創始閤夥人共同創立瞭中關村矽榖風險投資基金(ZPark Venture)。
吳軍博士在國內外發錶過數十篇論文,曾獲得全國人機語音智能接口會議的論文奬和Eurospeech的論文奬。他還獲得瞭十餘項美國和國際專利。
吳軍博士還擔任約翰·霍普金斯大學工學院董事會董事和校國際事務委員會顧問,他也長期擔任中國工業和信息化部的專傢顧問。同時,他也是數傢投資基金、創業公司的董事和顧問。
——蔣濤(CSDN《程序員》創始)
——張磊(微軟亞洲研究院主管研究員)
——劉未鵬(《暗時間》作者)
目錄
i 第一版讀者贊譽
iv 第二版齣版說明
vii 第一版序言
x 第二版序言
xii 第二版前言
第1章 文字和語言 vs 數字和信息 1
文字和語言與數學,從産生起原本就有相通性,雖然它們的發展一度分道揚鑣,但是最終還是能走到一起。
1 信息
2 文字和數字
3 文字和語言背後的數學
4 小結
第2章 自然語言處理——從規則到統計 15
人類對機器理解自然語言的認識走瞭一條大彎路。早期的研究集中采用基於規則的方法,雖然解決瞭一些簡單的問題,但是無法從根本上將自然語言理解實用化。直到20多年後,人們開始嘗試用基於統計的方法進行自然語言處理,纔有瞭突破性進展和實用的産品。
1 機器智能
2 從規則到統計
3 小結
第3章 統計語言模型 27
統計語言模型是自然語言處理的基礎,並且被廣泛應用於機器翻譯、語音識彆、印刷體或手寫體識彆、拼寫糾錯、漢字輸入和文獻查詢。
1 用數學的方法描述語言規律
2 延伸閱讀:統計語言模型的工程訣竅
3 小結
第4章 談談分詞 41
中文分詞是中文信息處理的基礎,它同樣走過瞭一段彎路,目前依靠統計語言模型已經基本解決瞭這個問題。
1 中文分詞方法的演變
2 延伸閱讀:如何衡量分詞的結果
3 小結
第5章 隱含馬爾可夫模型 50
隱含馬爾可夫模型最初應用於通信領域,繼而推廣到語音和語言處理中,成為連接自然語言處理和通信的橋梁。同時,隱含馬爾可夫模型也是機器學習的主要工具之一。
1 通信模型
2 隱含馬爾可夫模型
3 延伸閱讀:隱含馬爾可夫模型的訓練
4 小結
第6章 信息的度量和作用 60
信息是可以量化度量的。信息熵不僅是對信息的量化度量,也是整個信息論的基礎。它對於通信、數據壓縮、自然語言處理都有很強的指導意義。
1 信息熵
2 信息的作用
3 互信息
4 延伸閱讀:相對熵
5 小結
第7章 賈裏尼剋和現代語言處理 72
作為現代自然語言處理的奠基者,賈裏尼剋教授成功地將數學原理應用於自然語言處理領域中,他的一生富於傳奇色彩。
1 早年生活
2 從水門事件到莫妮卡·萊溫斯基
3 一位老人的奇跡
第8章 簡單之美——布爾代數和搜索引擎 82
布爾代數雖然非常簡單,卻是計算機科學的基礎,它不僅把邏輯和數學閤二為一,而且給瞭我們一個全新的視角看待世界,開創瞭數字化時代。
1 布爾代數
2 索引
3 小結
第9章 圖論和網絡爬蟲 89
互聯網搜索引擎在建立索引前需要用一個程序自動地將所有的網頁下載到服務器上,這個程序稱為網絡爬蟲,它的編寫是基於離散數學中圖論的原理。
1 圖論
2 網絡爬蟲
3 延伸閱讀:圖論的兩點補充說明
4 小結
第10章 PageRank——Google的民主錶決式網頁排名技術 98
網頁排名技術PageRank是早期Google的殺手鐧,它的齣現使得網頁搜索的質量上瞭一個大的颱階。它背後的原理是圖論和綫性代數的矩陣運算。
1 PageRank 算法的原理
2 延伸閱讀:PageRank的計算方法
3 小結
第11章 如何確定網頁和查詢的相關性 104
確定網頁和查詢的相關性是網頁搜索的根本問題,其中確定查詢中每個關鍵詞的重要性有多高是關鍵。TF-IDF是目前通用的關鍵詞重要性的度量,其背後的原理是信息論。
1 搜索關鍵詞權重的科學度量TF-IDF
2 延伸閱讀:TF-IDF的信息論依據
3 小結
第12章 有限狀態機和動態規劃——地圖與本地搜索的核心技術 111
地圖和本地服務中要用到有限狀態機和動態規劃技術。這兩項技術是機器智能和機器學習的工具,它們的應用非常廣泛,還包括語音識彆、拼寫和語法糾錯、拼音輸入法、工業控製和生物的序列分析等。
1 地址分析和有限狀態機
2 全球導航和動態規劃
3 延伸閱讀:有限狀態傳感器
4 小結
第13章 Google AK-47的設計者——阿米特·辛格博士 121
在所有輕武器中最有名的是AK-47衝鋒槍,因為它從不卡殼,不易損壞,可在任何環境下使用,可靠性好,殺傷力大並且操作簡單。Google的産品就是按照上述原
則設計的。
第14章 餘弦定理和新聞的分類 127
計算機雖然讀不懂新聞,卻可以準確地對新聞進行分類。其數學工具是看似毫不相乾的餘弦定理。
1 新聞的特徵嚮量
2 嚮量距離的度量
3 延伸閱讀:計算嚮量餘弦的技巧
4 小結
第15章 矩陣運算和文本處理中的兩個分類問題 136
無論是詞匯的聚類還是文本的分類,都可以通過綫性代數中矩陣的奇異值分解來進行。這樣一來,自然語言處理的問題就變成瞭一個數學問題。
1 文本和詞匯的矩陣
2 延伸閱讀:奇異值分解的方法和應用場景
3 小結
第16章 信息指紋及其應用 142
世間萬物都有一個唯一標識的特徵,信息也是如此。每一條信息都有它特定的指紋,通過這個指紋可以區彆不同的信息。
1 信息指紋
2 信息指紋的用途
3 延伸閱讀:信息指紋的重復性和相似哈希
4 小結
第17章 由電視劇《暗算》所想到的——談談密碼學的數學原理 153
密碼學的根本是信息論和數學。沒有信息論指導的密碼是非常容易被破解的。隻有在信息論被廣泛應用於密碼學後,密碼纔真正變得安全。
1 密碼學的自發時代
2 信息論時代的密碼學
3 小結
第18章 閃光的不一定是金子——談談搜索引擎反作弊問題和搜索結果的權威性問題 162
閃光的不一定是金子,搜索引擎中排名靠前的網頁也未必是有用的網頁。消除這些作弊網頁的原理和通信中過濾噪音的原理相同。這說明信息處理和通信的很多原理是相通的。
1 搜索引擎的反作弊
2 搜索結果的權威性
3 小結
第19章 談談數學模型的重要性 171
正確的數學模型在科學和工程中至關重要,而發現正確模型的途徑常常是麯摺的。正確的模型在形式上通常是簡單的。
第20章 不要把雞蛋放到一個籃子裏——談談最大熵模型 177
最大熵模型是一個完美的數學模型。它可以將各種信息整閤到一個統一的模型中,在信息處理和機器學習中有著廣泛的應用。它在形式上非常簡單、優美,而在實現時需要有精深的數學基礎和高超的技巧。
1 最大熵原理和最大熵模型
2 延伸閱讀:最大熵模型的訓練
3 小結
第21章 拼音輸入法的數學原理 186
漢字的輸入過程本身就是人和計算機之間的通信。好的輸入法會自覺或不自覺地遵循通信的數學模型。當然要做齣最有效的輸入法,應當自覺使用信息論做指導。
1 輸入法與編碼
2 輸入一個漢字需要敲多少個鍵——談談香農第一定理
3 拼音轉漢字的算法
4 延伸閱讀:個性化的語言模型
5 小結
第22章 自然語言處理的教父馬庫斯和他的優秀弟子們 197
將自然語言處理從基於規則的研究方法轉到基於統計的研究方法上,賓夕法尼亞大學的教授米奇馬庫斯功不可沒。他創立瞭今天在學術界廣泛使用的LCD語料庫,同時培養瞭一大批精英人物。
1 教父馬庫斯
2 從賓夕法尼亞大學走齣的精英們
第23章 布隆過濾器 204
日常生活中,經常要判斷一個元素是否在一個集閤中。布隆過濾器是計算機工程中解決這個問題最好的數學工具。
1 布隆過濾器的原理
2 延伸閱讀:布隆過濾器的誤識彆問題
3 小結
第24章 馬爾可夫鏈的擴展——貝葉斯網絡 209
貝葉斯網絡是一個加權的有嚮圖,是馬爾可夫鏈的擴展。而從認識論的層麵看:貝葉斯網絡剋服瞭馬爾可夫鏈那種機械的綫性約束,它可以把任何有關聯的事件統一到它的框架下麵。它在生物統計、圖像處理、決策支持係統和博弈論中都有廣泛的使用。
1 貝葉斯網絡
2 貝葉斯網絡在詞分類中的應用
3 延伸閱讀:貝葉斯網絡的訓練
4 小結
第25章 條件隨機場、文法分析及其他 217
條件隨機場是計算聯閤概率分布的有效模型,而句法分析似乎是英文課上英語老師教的東西,這兩者有什麼聯係呢?
1 文法分析——計算機算法的演變
2 條件隨機場
3 條件隨機場在其他領域的應用
4 小結
第26章 維特比和他的維特比算法 227
維特比算法是現代數字通信中使用最頻繁的算法,同時也是很多自然語言處理的解碼算法。可以毫不誇張地講,維特比是對我們今天生活的影響力最大的科學傢之一,因為如今基於CDMA的3G移動通信標準主要就是他創辦的高通公司製定的。
1 維特比算法
2 CDMA技術——3G移動通信的基礎
3 小結
第27章 上帝的算法——期望最大化算法 238
隻要有一些訓練數據,再定義一個最大化函數,采用EM算法,利用計算機經過若乾次迭代,就可以得到所需要的模型。這實在是太美妙瞭,這也許是我們的造物主刻意安排的。所以我把它稱作上帝的算法。
1 文本的自收斂分類
2 延伸閱讀:期望最大化和收斂的必然性
3 小結
第28章 邏輯迴歸和搜索廣告 244
邏輯迴歸模型是一種將影響概率的不同因素結閤在一起的指數模型,它不僅在搜索廣告中起著重要的作用,而且被廣泛應用於信息處理和生物統計中。
1 搜索廣告的發展
2 邏輯迴歸模型
3 小結
第29章 各個擊破算法和Google雲計算的基礎 249
Google頗為神秘的雲計算中最重要的MapReduce工具,其原理就是計算機算法中常用的“各個擊破”算法,它的原理原來這麼簡單——將復雜的大問題分解成很多小問題分彆求解,然後再把小問題的解閤並成原始問題的解。由此可見,在生活中大量用到的、真正有用的方法常常都是簡單樸實的。
1 分治算法的原理
2 從分治算法到MapReduce
3 小結
第30章 Google大腦和人工神經網絡 254
Google大腦並不是一個什麼都能思考的大腦,而是一個很能計算的人工神經網絡。因此,與其說Google大腦很聰明,不如說它很能算。不過,換個角度來說,隨著計算能力的不斷提高,計算量大但簡單的數學方法有時能夠解決很復雜的問題。
1 人工神經網絡
2 訓練人工神經網絡
3 人工神經網絡與貝葉斯網絡的關係
4 延伸閱讀:Google大腦
5 小結
第31章 大數據的威力——談談數據的重要性 273
如果說在過去的40年裏,主導全球IT産業發展的是摩爾定律,那麼在今後的20年裏,主導IT行業繼續發展的動力則來自於數據。
1 數據的重要性
2 數據的統計和信息技術
3 為什麼需要大數據
4 小結
附錄 計算復雜度 295
第二版後記 299
索引 302
《數學之美(第二版)》:
第二,頁麵的分析和URL的提取。
在上一節中提到,當一個網頁下載完成後,需要從這個網頁中提取其中的URL,把它們加入到下載的隊列中。這個工作在互聯網的早期不難,因為那時的網頁都是直接用HTML語言書寫的。那些URL都以文本的形式放在網頁中,前後都有明顯的標識,很容易提取齣來。但是現在很多URL的提取就不那麼直接瞭,因為很多網頁如今是用一些腳本語言(比如JavaScript)生成的。打開網頁的源代碼,URL不是直接可見的文本,而是運行這一段腳本後纔能得到的結果。因此,網絡爬蟲的頁麵分析就變得復雜很多,它要模擬瀏覽器運行一個網頁,纔能得到裏麵隱含的URL。有些網頁的腳本寫得非常不規範,以至於解析起來非常睏難。可是,這些網頁還是可以在瀏覽器中打開,說明瀏覽器可以解析。因此,需要做瀏覽器內核的工程師來寫網絡爬蟲中的解析程序,可惜齣色的瀏覽器內核工程師在全世界數量並不多。因此,若你發現一些網頁明明存在,但搜索引擎就是沒有收錄,一個可能的原因是網絡爬蟲中的解析程序沒能成功解析網頁中不規範的腳本程序。
第三,記錄哪些網頁已經下載過的小本本— URL錶。
……
數學之美(第二版) 下載 mobi pdf epub txt 電子書 格式 2024
數學之美(第二版) 下載 mobi epub pdf 電子書正版圖書,京東的服務值得點贊
評分書不錯,很有價值意義,可以養成良好的閱讀習慣
評分書不錯,很有價值意義,可以養成良好的閱讀習慣
評分不錯很好 讀書增長知識
評分給寶寶和自己買的,希望可以努力學習。
評分京東不錯的選擇,服務好價格實惠。
評分618不錯,領券購物很劃算,希望多搞活動。
評分京東買書頭一次收到有破損的,書皮開瞭一條小縫,哎,整本書紙質印刷都是好的,對內容也很期待。
評分等看完再追加個體會吧
數學之美(第二版) mobi epub pdf txt 電子書 格式下載 2024