發表於2024-11-22
本文麵嚮的讀者對象是具有傳統計算機科學知識背景的研究人員和科學工作者,主要介紹基於統計的語言處理技術——單詞標注(word tagging)、基於概率上下文無關語法(PCFG,probabilistic context-free grammar)的剖析(parsing,又稱為句法分析)、語法歸納(grammar induction)、句法排歧(syntactic disambiguation)、詞義分類(semantic word classes)、詞義排歧(word-sense disambiguation)等技術,同時還介紹瞭相關的數學知識,每一章還附有一定數量的練習題。本書在國外好評如潮,已經成為學習統計自然語言處理的不可缺少的入門書之一。
歐仁·查尼阿剋(Eugene Charniak),美國布朗大學計算機科學係教授兼係主任。
鬍鳳國,中國傳媒大學文學院副教授。
馮誌偉,計算語言學傢,專門從事語言學和計算機科學的跨學科研究,現為國傢教育部語言文字應用研究所研究員、博士生導師、學術委員會委員。
“這是一本有趣的關於自然語言處理(NLP,Natural Language Processing)統計模型的普及讀物。書寫得很好,富有趣味性,稍有點數學知識背景的讀者都能讀懂。它為讀者精選瞭許多統計NLP方麵的話題加以介紹。書中對隱馬爾可夫模型(HMM,Hidden Markov Model)的嚮前—嚮後算法(forward-backward algorithm)和概率上下文無關語法的內部—外部算法(inside-outside algorithm)進行瞭直觀的描述,具有很強的可操作性……這是自然語言處理領域為數不多的既自成體係又淺顯易懂的好書之一。”
——David M. Magerman
圖目錄1
第1章標準模型1
1.1兩種技術1
1.2形態學和單詞知識3
1.3句法和上下文無關語法5
1.4綫圖分析10
1.5意義和語義處理19
1.6練習21
第2章統計模型和英語的熵24
2.1概率論基礎24
2.2統計模型28
2.3語音識彆30
2.4熵31
2.5馬爾可夫鏈37
2.6交叉熵38
2.7用交叉熵對模型進行評測40
2.8練習44
第3章隱馬爾可夫模型及其兩個應用45
3.1英語的三元語法模型45
3.2隱馬爾可夫模型50
3.3詞性標注53
3.4練習59
第4章隱馬爾可夫模型的算法61
4.1尋找最可能的路徑61
4.2HMM輸齣概率計算65
4.3HMM訓練69
4.4練習80
第5章概率上下文無關語法83
5.1概率語法83
5.2 PCFG和句法歧義87
5.3 PCFG和語法歸納89
5.4 PCFG和非語法性91
5.5 PCFG和語言模型92
5.6 PCFG的基本算法94
5.7練習95
第6章PCFG的數學原理96
6.1PCFG的關係96
6.2PCFG為句子指派概率98
6.3PCFG訓練106
6.4練習109
第7章概率語法學習111
7.1簡單的方法為什麼會失敗112
7.2依存語法學習114
7.3通過括號語料庫進行學習118
7.4部分語法的改進121
7.5練習126
第8章句法排歧127
8.1處理介詞短語的簡單方法127
8.2使用語義信息133
8.3關係從句依附問題135
8.4詞匯/語義信息的統一應用139
8.5練習143
第9章詞類和詞義145
9.1聚類145
9.2根據下一個單詞進行聚類146
9.3利用句法信息進行聚類151
9.4單詞聚類中的問題155
9.5練習157
第10章詞義及排歧159
10.1利用外部信息判定詞義160
10.2不利用外部信息判定詞義163
10.3意義和選擇限製168
10.4討論172
10.5練習174
參考文獻175
符號錶179
英中對照術語錶181
中英對照術語錶190
統計語言學習 下載 mobi pdf epub txt 電子書 格式 2024
統計語言學習 下載 mobi epub pdf 電子書統計語言學習 mobi epub pdf txt 電子書 格式下載 2024