内容简介
《计算语言学研究系列:先秦文献信息处理》研究先秦文献的信息处理,包括先秦文献的词汇处理、历史知识处理以及词汇与历史知识的智能检索。对先秦文献做词汇处理,目的在于追本溯源,了解先秦汉语词汇的基本面貌。用计算语言学方法梳理这一时期的历史事件、人名、地名等知识,有助于更好地理解先秦文献。与现当代中文文献相比,先秦传世文献规模很小,但相关的注疏文献十分丰富。因此《计算语言学研究系列:先秦文献信息处理》采用了与一般中文信息处理不同的方法——基于注疏文献的方法。对比实验表明,这种方法在先秦文献信息处理中具有显著优势。
作者简介
陈小荷,江西丰城人。北京大学现代汉语专业文学博士。现任南京师范大学文学院语言科学及技术系教授、博士生导师,兼中国中文信息学会理事、《中文信息学报》编委。主要研究方向为中文信息处理、汉语语法学。代表作有《现代汉语自动分析-VisualC++实现》《汉语口语里表示“……再说”的语素“着”》等。主持国家社会科学基金项目1项,江苏省高校社科重点研究基地重大项目1项,参与国家社会科学基金重大项目1项。
内页插图
目录
第一章 绪论
第一节 先秦文献
第二节 先秦文献信息处理
第三节 先秦文献信息处理的特点
第四节 基于注疏文献的处理方法
第二章 注疏文献处理
第一节 注疏文献的选取
第二节 注疏文献的内容分析
第三节 先秦文献与其注疏文献的句子对齐和注释对齐
第三章 词语切分
第一节 先秦汉语分词规范
第二节 基于统计模型的自动分词方法
第三节 利用注疏文献的自动分词方法
第四章 词性标注
第一节 词类体系
第二节 基于统计的分词标注一体化方法
第三节 基于注疏文献的词性校正
第五章 古今字、通假字资源建设
第一节 古今字、通假字研究现状
第二节 古今字、通假字数据库的构建
第三节 通假字标注实验
第四节 实验结果及其分析
第六章 词汇概貌
第一节 语料来源和说明
第二节 先秦文献的汉字统计
第三节 先秦文献的词汇统计
第四节 计算每种文献的特色词
第五节 成语来源统计
第七章 词义消歧
第一节 古代汉语词义特点和消歧难点
第二节 义项区分的颗粒度
第三节 基于CRF模型的消歧实验
第四节 分类器集成的消歧实验
第八章 专名标注
第一节 关于“专名”和“命名实体”的辨析
第二节 先秦时期的人名与地名
第三节 基于统计的专名识别
第四节 基于注疏文献的专名识别
第五节 人名所指歧义消解
第六节 基于专名标注的事件划分
第九章 版本异文发现
第一节 异文和版本异文
第二节 个案和研究方法
第三节 基于相似度计算的句珠配对
第四节 基于同文排除的异文配对
第五节 基于双序列比对的一体化处理
第六节 实验结果及其分析
第十章 《左传》中的春秋社会网络分析
第一节 社会网络分析的基本方法和软件
第二节 社会关系数据的获取和网络的定义
第三节 人物-事件网络分析
第四节 人物关系网络分析
第五节 人物关系网络的深入分析
后记
精彩书摘
一、先秦文献信息处理的研究目标
“中国古典文献学是综合运用版本、校勘、目录、注释、考证、辨伪、辑佚、编纂、检索等方面的理论与方法,科学地分析、整理、研究中国古代文献,进而探讨古代文献的产生、分布、交流和利用的规律,并总结对古代文献进行分析、整理、研究工作的规律与方法的学科。”
古典文献信息处理并不是要取代古典文献学。它的首要任务是要为古典文献学提供数字化处理的技术手段。中国古典文献有几千年的历史积累,卷帙浩繁,熟悉文献而又能融会贯通的专家不多,仅凭人力实在难以完成对古典文献的分析、整理和研究工作。电子计算机的问世以及汉字在计算机上的输入输出的实现,给古典文献处理带来了福音。例如,以现在的眼光来看,给文献编制逐字索引是一件很简单的事情,一部电子版的《左传》几秒钟即可完成索引。如果用以前抄卡片的方法编制逐字索引,一个人需要做好几年,还容易出错。
如果仅仅是为古典文献处理提供现代化的技术手段,古典文献信息处理还不足以成为一门学科。作为一门学科,它必须有自己的理论、方法和研究目标。作为语言信息处理(具体到中文信息处理)的一个分支,古典文献信息处理的理论基础是信息论和概率论,基本的研究方法是语料库统计,基本的工具是语言计算模型。它的研究目标也与古典文献学有所区别:
第一,古典文献学主要关注文献内容,古典文献信息处理除了关注文献内容之外,还应该特别关注文献的语言形式。先秦汉语是汉语发展的源头,先秦文献信息处理的一个重要的研究目标就是要从先秦文献中探寻这个源头的基本面貌,包括先秦汉语的语音、词汇和语法面貌,为汉语史的研究提供可靠的统计数据。鉴于课题的性质,我们主要是做了先秦汉语的词汇处理:对25种先秦文献全面地进行了词语切分和词性标注,在此基础上自动生成了先秦汉语词表,以先秦文献为参照考察了成语来源以及古今字和通假字的分布。(见第五章“古今字、通假字资源建设”,第六章“词汇概貌”)第二,古典文献学对文献内容的关注,主要体现在对文献真实性的关注,包括文献产生的时间、作者或编者、整篇或某一部分是否系后人伪托而成、各个版本之间的关系等等。古典文献信息处理对文献内容的关注,除了上述方面之外,还可体现为基于内容的计算。拿先秦文献信息处理来说,可以做《左传》和《国语》的事件抽取、人物关系抽取、先秦诸子思想比较等等。我们的检索系统不仅可以做字词检索,还可以检索《左传》中的人物、地理实体和事件,并以可视化界面展示社会网络分析的结果。(见第十章“《左传》中的春秋社会网络分析”)
二、先秦文献信息处理的任务
先秦文献信息处理的首要任务是文献数字化,数字化的基本含义是把文献变成机器可读的文本。方正超大字符集有6万多汉字,Unicode5.0及其以上版本有7万多汉字,已经基本够用。目前急需的是:(一)能支持超大字符集的各种方便快捷的汉字输入法:拼音输入(音韵学家使用)、字形输入(以笔画或部首为码元)、手写输入①。(二)能尽量避免图形操作的造字工具。理想的造字工具应该是,用户只需输入若干字根以及字形的结构类型(上下结构、左右结构等),即可完成造字过程。(三)能支持繁体直排版的字符识别软件。对于古籍而言,理想的字符识别软件应能得到不同字号和字体的输出(区分正文和注释),保留专名标记,甚至嵌入造字模块。
现在从网上下载的先秦文献电子文本存在许多问题:录入较早的是GB2312-80编码的简体文本,繁体文本不多。有些繁体文本是从简体文本自动转换过来的,简繁转换错误未经校对。冷僻字通常用两个汉字组合表示。此外还有脱字、讹字等等。这些电子文本大多是热心网友的无私奉献,应该好好加以利用。人工校对是不可避免的,但应该研究辅助校对工具,尽量减少人工劳动。辅助校对工具应能运用本校法(对于篇幅较大的文献)和他校法(对于有多个版本的文献)自动发现可能的错误。
……
前言/序言
计算语言学研究系列:先秦文献信息处理 下载 mobi epub pdf txt 电子书 格式