发表于2024-11-22
本文面向的读者对象是具有传统计算机科学知识背景的研究人员和科学工作者,主要介绍基于统计的语言处理技术——单词标注(word tagging)、基于概率上下文无关语法(PCFG,probabilistic context-free grammar)的剖析(parsing,又称为句法分析)、语法归纳(grammar induction)、句法排歧(syntactic disambiguation)、词义分类(semantic word classes)、词义排歧(word-sense disambiguation)等技术,同时还介绍了相关的数学知识,每一章还附有一定数量的练习题。本书在国外好评如潮,已经成为学习统计自然语言处理的不可缺少的入门书之一。
欧仁·查尼阿克(Eugene Charniak),美国布朗大学计算机科学系教授兼系主任。
胡凤国,中国传媒大学文学院副教授。
冯志伟,计算语言学家,专门从事语言学和计算机科学的跨学科研究,现为国家教育部语言文字应用研究所研究员、博士生导师、学术委员会委员。
“这是一本有趣的关于自然语言处理(NLP,Natural Language Processing)统计模型的普及读物。书写得很好,富有趣味性,稍有点数学知识背景的读者都能读懂。它为读者精选了许多统计NLP方面的话题加以介绍。书中对隐马尔可夫模型(HMM,Hidden Markov Model)的向前—向后算法(forward-backward algorithm)和概率上下文无关语法的内部—外部算法(inside-outside algorithm)进行了直观的描述,具有很强的可操作性……这是自然语言处理领域为数不多的既自成体系又浅显易懂的好书之一。”
——David M. Magerman
图目录1
第1章标准模型1
1.1两种技术1
1.2形态学和单词知识3
1.3句法和上下文无关语法5
1.4线图分析10
1.5意义和语义处理19
1.6练习21
第2章统计模型和英语的熵24
2.1概率论基础24
2.2统计模型28
2.3语音识别30
2.4熵31
2.5马尔可夫链37
2.6交叉熵38
2.7用交叉熵对模型进行评测40
2.8练习44
第3章隐马尔可夫模型及其两个应用45
3.1英语的三元语法模型45
3.2隐马尔可夫模型50
3.3词性标注53
3.4练习59
第4章隐马尔可夫模型的算法61
4.1寻找最可能的路径61
4.2HMM输出概率计算65
4.3HMM训练69
4.4练习80
第5章概率上下文无关语法83
5.1概率语法83
5.2 PCFG和句法歧义87
5.3 PCFG和语法归纳89
5.4 PCFG和非语法性91
5.5 PCFG和语言模型92
5.6 PCFG的基本算法94
5.7练习95
第6章PCFG的数学原理96
6.1PCFG的关系96
6.2PCFG为句子指派概率98
6.3PCFG训练106
6.4练习109
第7章概率语法学习111
7.1简单的方法为什么会失败112
7.2依存语法学习114
7.3通过括号语料库进行学习118
7.4部分语法的改进121
7.5练习126
第8章句法排歧127
8.1处理介词短语的简单方法127
8.2使用语义信息133
8.3关系从句依附问题135
8.4词汇/语义信息的统一应用139
8.5练习143
第9章词类和词义145
9.1聚类145
9.2根据下一个单词进行聚类146
9.3利用句法信息进行聚类151
9.4单词聚类中的问题155
9.5练习157
第10章词义及排歧159
10.1利用外部信息判定词义160
10.2不利用外部信息判定词义163
10.3意义和选择限制168
10.4讨论172
10.5练习174
参考文献175
符号表179
英中对照术语表181
中英对照术语表190
统计语言学习 下载 mobi pdf epub txt 电子书 格式 2024
统计语言学习 下载 mobi epub pdf 电子书统计语言学习 mobi epub pdf txt 电子书 格式下载 2024