内容介绍
语义网技术的发展,使管理海量规模的语义网数据成为巨da挑战。本书介绍如何使用人ji交互技术更为有效地进行知识获取、集成和检索,从而更好地构建基于人ji交互的知识管理系统。主要内容有三部分:基于人ji交互的知识获取及集成、基于人ji交互的知识检索和基于人ji交互的知识管理系统原型。
目录
目录
前言
di1章 绪论 1
1.1 研究背景与意义 1
1.1.1 RDF语义网知识库 3
1.1.2 RDF语义网知识库知识管理的挑战 4
1.1.3 基于人ji交互的知识管理 8
1.2 主要内容 10
di2章 知识管理的基础知识 14
2.1 知识库及知识管理 14
2.2 知识获取与集成 15
2.3 知识检索 17
2.4 关键字检索 19
2.4.1 图上关键字检索 20
2.4.2 RDF知识库上的关键字检索 22
2.5 交互式信息检索 23
2.6 基于综合集成方fa的知识管理 24
2.7 本章小结 25
di3章 基于人ji交互的知识获取与集成 26
3.1 da规模知识库的知识获取与集成 26
3.2 具有自感知能力的知识获取 28
3.2.1 知识库丰度的自感知 28
3.2.2 知识源重要性的自感知 30
3.3 自底向上的知识集成 31
3.4 基于人ji交互的知识获取与集成整体方案 34
3.5 自底向上知识集成方fa实验 36
3.5.1 实验环境 36
3.5.2 实验结果及分析 39
3.6 本章小结 41
di4章 基于人ji交互的知识检索 43
4.1 知识库的检索技术和存在的问题 43
4.2 基于关键字查询的知识检索 46
4.2.1 关键字检索基本定义 46
4.2.2 结果相关度评价 48
4.2.3 计算关键字匹配节点 50
4.2.4 图扩展和发现匹配树 52
4.2.5 复杂度分析 53
4.3 基于语义限制的知识检索的基本概念 54
4.4 以人ji交互为基础的知识检索 57
4.4.1 整体流程 57
4.4.2 人ji交互的结构感知算fa 59
4.5 人ji交互实验研究 63
4.5.1 实验设定 63
4.5.2 纯粹关键字查询实验 66
4.5.3 人ji互动知识检索实验 70
4.5.4 关键字查询系统的性能 78
4.5.5 人ji交互性能实验总结 80
4.6 本章小结 83
di5章 基于人ji交互的知识管理系统原型 85
5.1 系统构架 85
5.1.1 细节实现 89
5.1.2 交互界面 91
5.2 知识存储与管理 92
5.2.1 数据管理 92
5.2.2 字典管理 95
5.2.3 索引管理 95
5.3 知识检索 97
5.3.1 交互界面设计 97
5.3.2 知识检索执行引擎 99
5.4 面向人ji交互的系统设计和实现 101
5.5 本章小结 102
di6章 总结与展望 103
参考文献 106
在线试读
di1章 绪论
1.1 研究背景与意义
现代电子信息技术的飞速发展引发了yi场信息革命,促进了互联网的迅速发展,使互联网的全球化普及成为信息革命的重要标志。互联网产业(包括移动终端、移动互联网)的迅猛发展推动了知识经济成为继农业经济、工业经济之后yi种新的经济发展方式。它是yi种以知识在生产中占主导地位,建立在知识和信息的生产、分配和使用基础上的经济形态。近年来,在信息化浪chao的推动下,随着da数据时代的到来,很多guojiakai始陆续迈向知识经济时代。知识经济时代有很多有别于工业经济时代的特征:知识与信息成为企业、ji构乃至guojia重要的无形资本;以知识经济为导向的知识密集型产业在国民经济中所占的比重越来越da;对从事知识经济产业的劳动者的知识水平和技能要求越来越高;以知识和信息为主体的创新越来越成为企业发展的关键。例如,互联网搜索引擎公司(谷歌和百度等)、社交网站(脸谱和微博等)、电商网站(yamaxun和京东网等)的迅猛发展,中关村传统电子卖场的没落,这些都能看出知识经济时代的来临势不可挡。
互联网之所以能够推动知识经济的发展,与da数据的出现密切相关。在互联网时代,广da网民可以非常便捷地制造和消费网络数据,在众多领域积累起规模越来越庞da的数据,于是产生了da数据的概念。da数据的种类有很多,如互联网网页数据、日志数据、社交网络数据、科xue研究数据等,这些数据da部分与互联网相关。这些da数据的本质是dang数据的规模和复杂性超过现有数据处理平台的软硬件能够处理的范畴时,人们在有限的成本下迫切寻求高性能的da数据处理解决办fa。da数据通常蕴含着很多重要的价值,而其中更为重要的是知识。借助自然语言处理技术的进步,人们可以从互联网da数据中抽取出规模庞da的知识条目,不断积累而形成da规模的、kai放的资源描述框架(resource description framework,RDF)语义网知识库。这些面向kai放领域的知识库,能够在很多与知识经济相关的产业中发挥重要作用,为众多的应用领域提供如语义检索和信息推荐等知识服务。
在知识经济模式下,知识的积累、利用和创新越来越重要。随着企业、ji构和政府等在数据和知识方面的不断积累,如何有效地对知识的获取、更新和使用过程进行系统的管理,就显得尤为重要,这就是知识管理。其目的是系统地处理、寻求、理解和使用知识,以从知识资产中得到回报、创造价值。在知识管理体系中,知识生命周期的概念非常重要,McElroy早在1999年就提出把知识生命周期分为知识产生、知识声明、知识验证、知识整合、知识评价反馈五个阶段,这五个阶段构成yi个完整的闭环系统。随着知识管理研究的进展,知识生态系统的概念越来越受到人们的重视,它既包括知识管理的各要素(人、知识、组织、技术、知识流程等),又包含这些要素的相互作用ji制。它是动态的、kai放的系统,各要素之间既相互联系又相互影响,随着知识环境的改变而不断进行演化。总体来讲,尤其是在互联网环境下,知识生态系统具有适应性、系统性、kai放性和动态性等复杂巨系统的yi些特征。
在知识和信息迅速膨胀的今天,针对如何从技术手段上有效地实现知识管理,产生了知识工程这门xue科。它主要研究设计和实现知识库系统及其应用系统的理论、方fa和技术,是研究知识获取、知识表示、知识管理和知识运用的yi门xue科。知识工程的发展借助了人工智能、数据库技术、数理逻辑、认知科xue和心理xue等多xue科的交叉发展。传统信息产业的数据管理主要针对的是结构化数据,而知识远比结构化数据复杂,会涉及很多非结构的信息,从而造成了知识管理的高复杂性和跨xue科的特点。在这样的背景下,文献和提出了利用系统工程的思想和方fa来综合研究知识管理中的问题,形成了知识系统工程这样yi门研究对知识进行组织和管理的xue科。文献指出在系统综合集成方fa的指引下,把人、知识和工具结合起来,把定性方fa和定量方fa、理论和实践、动态过程和静态过程、宏观层次和微观层次、集中状态和分散状态等集成起来;它是从整体上思考和解决问题的系统方fa论。本书的研究也是受此思想启发,针对da规模知识库的获取、集成和检索过程,研究如何借鉴系统工程的yi些思想,更好地利用和发挥知识库的价值。
1.1.1 RDF语义网知识库
无论是知识管理还是知识系统工程,yi个重要的研究内容就是知识的表达、获取、集成、存储和检索。在传统意义上,知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其他有关信息。知识表示就是对知识的描述,其采用yi组特定的符号将知识编码成便于计算ji处理的数据结构。知识表示是人工智能和知识工程中使用知识库求解问题的基础,主要以本体的形式存在。近年来,随着语义网技术的发展,在以互联网之父Tim Berners-Lee为代表的计算ji科xue家的推动下,知识的表示kai始走向标准化、kai放化和互联网化。其中yi个典型代表就是RDF的提出,它是国际万维网(world wide web,WWW)提出的互联网上知识和信息描述的基本框架,如今已成为很多互联网和RDF语义网知识库用来表达信息实体的描述规范。RDF的基本原理是采用主语(subject)、谓词(predicate)、宾语(object)的三元组形式来表达信息实体(主语)在某个谓词上所具有的属性值(宾语),其中,主语和部分宾语yi般采用统yi资源标识符(uniform resource identifier,URI)的形式来唯yi标识yi个信息实体。例如,要表示Albert Einstein出生在德国,可以使用如下形式的三元组:
<http://www.w3.org/rdf#Albert_Einstein,
http://www.w3.org/rdf#bornin,
http://www.w3.org/rdf#Germany>
其中,http://www.w3.org/rdf#Albert_Einstein代表yi个人物的信息实体的URI;http://www.w3.org/rdf#bornin表示的是yi个谓词,代表yi个人的出生地;http://www.w3.org/rdf#Germany则对应于宾语——德国。由于三元组为主语和宾语建立了语义关联,所以数据有了更为丰富的语义信息。RDF采用的这种信息描述方式很好地表达了互联网和语义网实体的属性和实体之间的关联关系,也为不同应用程序之间在不丧失语义的情况下进行数据交换奠定了基础。
在这样的背景下,RDF成为语义数据描述的yi种典型的标准,被广泛应用于描述知识库中的数据。尤其是近年来,随着信息抽取和数据集成等技术的发展,出现了规模越来越da的用RDF表达的知识库,如DBpedia、Freebase、YAGO等。这些数据库采用RDF来表达网络资源及其之间的联系。例如,原语义网技术公司Metaweb(2010年被谷歌收购)维护的Freebase知识库中,可以用RDF表示包括电影、体育、化xue、生物、地理、生物医xue等众多领域的知识条目信息。随着更多RDF数据集的出现,人们还提出了关联数据(linkeddata,LD)的概念,用于将不同组织ji构发布的数据关联起来,形成规模更为庞da的RDF数据集。截至2012年3月,LD收集的三百多个数据集已经包含了超过520亿条RDF三元组,从LD的发展趋势上可以看到,整个互联网上关联数据的规模急剧膨胀。
由于很多海量RDF数据集包含da量来自不同领域的实体以及实体之间的关联信息,所以也常被称为RDF语义网知识库。yi些应用kai始借助RDF语义网知识库所能提供的知识,支持实体检索、语义检索、问答系统等应用,谷歌的知识图谱就是其中的yi个例子。如今,以RDF语义网知识库为主体的知识图谱受到越来越多的检索引擎公司的重视,在其检索产品中发挥着越来越重要的作用。随着互联网技术的不断发展,尤其是在以语义为核心的Web3.0相关技术领域,存储海量RDF数据的RDF语义网知识库成为基于语义的信息查询和知识检索等重要应用的基础平台。RDF语义网知识库在da数据的背景下发展起来,是具有很多da数据特征的、kai放的、复杂的巨系统。这些特点必然为其基础上的知识管理带来很多新的挑战,这也是本书所要研究的核心问题。
1.1.2 RDF语义网知识库知识管理的挑战
RDF语义网知识库的技术发展,可以使来自不同领域的知识通过RDF的表达形式集成起来,提供面向众多领域的知识服务。为了能够提供高质量的知识服务,知识库需要不断丰富和完善知识内容。因此,kai放性是RDF语义网知识库的yi个重要特征,它可以兼容来自不同领域、不同数据源的知识条目,并利用信息抽取技术,从众多知识源头不断获取新知识,再通过这些知识条目的相互引用,将更多的知识编织(集成)到yi起。所以,RDF语义网知识库包含了海量的、来自众多领域(知识库子系统)的实体信息。各个子系统知识库的知识条目可以互联关联,形成不同子系统之间的信息关联和信息交互。
随着RDF语义网知识库规模的不断壮da和知识获取途径的不断增多,相对于传统意义上专家系统中的知识库,RDF语义网知识库规模非常庞da(可以包含上亿个节点)。如果考虑知识条目的来源是da规模的互联网网页,整个知识库系统就完全符合da数据的特征:数据量da,数据多样性强(既有结构化的三元组信息,又有非结构化的网页信息),数据是动态和kai放的,结构复杂(实体之间关联关系的多样性)。因此,RDF语义网知识库中的数据具备典型的da数据特征,可以看成知识da数据。
从复杂巨系统的角度来看,面向kai放领域的RDF语义网知识库,作为知识da数据的载体,其本身也是kai放的复杂巨系统。其kai放性,更多地体现在系统与外界的信息交换。yi方面,系统需要不断从外界(互联网上)获取新知识,子知识库系统之间也通过RDF数据搭建的桥梁,频繁地信息交换与融合,有着紧密的联系。另yi方面,从用户的角度出发,知识库需要在知识服务中和人发生交互,需要为不同领域、不同需求的用户提供知识服务,并且还可以利用yi些专家的交互和反馈,完善知识库系统的信息质量。知识da数据的复杂性也体现在多方面。shou先,知识库包含众多领域的信息实体,这些信息实体之间又有各种各样的关联关系,从整个知识图谱的角度来看,知识库本身非常复杂,尤其是在知识检索过程中,如何准确地理解用户的检索意图,如何在复杂的知识网络中定位和用户查询相关的信息片段,具有非常da的挑战。其次,知识库融合了多知识库的信息,信息种类多且这些信息之间存在冗余重复、不yi致等因素,互相之间所采用的数据源的差异性也很da,这都增加了系统的复杂性。再次,不同知识库子系统的结构也随着知识的不断获取和更新而不断发生演化,是yi个动态的复杂结构。从上述角度来看,RDF语义网知识库是不折不扣的具有da数据特征的kai放复杂巨系统。
da数据的这些特征也给RDF语义网知识库的知识管理带来了很多新的挑战,本书从知识管理的两个重要方面即知识获取和集成以及知识检索入手,论述目前的研究工作存在的挑战。
1.知识获取和集成的挑战
RDF语义网知识库之所以应用范围广、重要性高,源于其所具有动态性和kai放性的da数据特征。知识da数据需要从众多的知识源头获取新知识,不断地将新知识融入系统现有的知识条目中,以持续不断地维护知识库中知识条目的新颖性、丰富性,并且不断增da知识库的规模,涵盖更多的信息实体。现有的RDF语义网知识库知识获取和更新的渠道不尽相同,有全自动化的知识抽取方fa,也有使用基于众包思想的人工编辑技术。
基于全自动化的知识抽取方fa采用自然语义处理中信息抽取方面的技术,自动化地分析网页中蕴含的知识条目,如YAGO和DBpedia。其优点是知识获取的效率高,能够在很短的时间内从da量的网页中收集到很多知识,不足之处是知识抽取的精度有限。尽管目前很多知识抽取方fa在高质量的知识源上能够达到95%以上的抽取精度,但对于质量要求非常高的RDF语义网知识库,这样的精度还有很da的提升空间。为了获取更多的自动知识抽取精度比较低的不常见的实体,尤其是在需要增加知识召回率的前提下,对知识抽取的精度要求就更为重要。在知识更新方面,这些方fa不适合主动地获取新知识,没有采取增量地管理和维护知识库中知识条目。另外yi种知识获取和集成方fa采用的是人工编辑的方式,即集群众智慧获取新知识,如Freebase和Wikidata。然而,由于这种方fa基于纯粹手工编辑的方式,知识积累的效率比较低,而且由于用户水平参差不齐,知识的质量也很难得到很好的控制。
基于人机交互的知识管理系统 下载 mobi epub pdf txt 电子书 格式