內容介紹
語義網技術的發展,使管理海量規模的語義網數據成為巨da挑戰。本書介紹如何使用人ji交互技術更為有效地進行知識獲取、集成和檢索,從而更好地構建基於人ji交互的知識管理係統。主要內容有三部分:基於人ji交互的知識獲取及集成、基於人ji交互的知識檢索和基於人ji交互的知識管理係統原型。
目錄
目錄
前言
di1章 緒論 1
1.1 研究背景與意義 1
1.1.1 RDF語義網知識庫 3
1.1.2 RDF語義網知識庫知識管理的挑戰 4
1.1.3 基於人ji交互的知識管理 8
1.2 主要內容 10
di2章 知識管理的基礎知識 14
2.1 知識庫及知識管理 14
2.2 知識獲取與集成 15
2.3 知識檢索 17
2.4 關鍵字檢索 19
2.4.1 圖上關鍵字檢索 20
2.4.2 RDF知識庫上的關鍵字檢索 22
2.5 交互式信息檢索 23
2.6 基於綜閤集成方fa的知識管理 24
2.7 本章小結 25
di3章 基於人ji交互的知識獲取與集成 26
3.1 da規模知識庫的知識獲取與集成 26
3.2 具有自感知能力的知識獲取 28
3.2.1 知識庫豐度的自感知 28
3.2.2 知識源重要性的自感知 30
3.3 自底嚮上的知識集成 31
3.4 基於人ji交互的知識獲取與集成整體方案 34
3.5 自底嚮上知識集成方fa實驗 36
3.5.1 實驗環境 36
3.5.2 實驗結果及分析 39
3.6 本章小結 41
di4章 基於人ji交互的知識檢索 43
4.1 知識庫的檢索技術和存在的問題 43
4.2 基於關鍵字查詢的知識檢索 46
4.2.1 關鍵字檢索基本定義 46
4.2.2 結果相關度評價 48
4.2.3 計算關鍵字匹配節點 50
4.2.4 圖擴展和發現匹配樹 52
4.2.5 復雜度分析 53
4.3 基於語義限製的知識檢索的基本概念 54
4.4 以人ji交互為基礎的知識檢索 57
4.4.1 整體流程 57
4.4.2 人ji交互的結構感知算fa 59
4.5 人ji交互實驗研究 63
4.5.1 實驗設定 63
4.5.2 純粹關鍵字查詢實驗 66
4.5.3 人ji互動知識檢索實驗 70
4.5.4 關鍵字查詢係統的性能 78
4.5.5 人ji交互性能實驗總結 80
4.6 本章小結 83
di5章 基於人ji交互的知識管理係統原型 85
5.1 係統構架 85
5.1.1 細節實現 89
5.1.2 交互界麵 91
5.2 知識存儲與管理 92
5.2.1 數據管理 92
5.2.2 字典管理 95
5.2.3 索引管理 95
5.3 知識檢索 97
5.3.1 交互界麵設計 97
5.3.2 知識檢索執行引擎 99
5.4 麵嚮人ji交互的係統設計和實現 101
5.5 本章小結 102
di6章 總結與展望 103
參考文獻 106
在綫試讀
di1章 緒論
1.1 研究背景與意義
現代電子信息技術的飛速發展引發瞭yi場信息革命,促進瞭互聯網的迅速發展,使互聯網的全球化普及成為信息革命的重要標誌。互聯網産業(包括移動終端、移動互聯網)的迅猛發展推動瞭知識經濟成為繼農業經濟、工業經濟之後yi種新的經濟發展方式。它是yi種以知識在生産中占主導地位,建立在知識和信息的生産、分配和使用基礎上的經濟形態。近年來,在信息化浪chao的推動下,隨著da數據時代的到來,很多guojiakai始陸續邁嚮知識經濟時代。知識經濟時代有很多有彆於工業經濟時代的特徵:知識與信息成為企業、ji構乃至guojia重要的無形資本;以知識經濟為導嚮的知識密集型産業在國民經濟中所占的比重越來越da;對從事知識經濟産業的勞動者的知識水平和技能要求越來越高;以知識和信息為主體的創新越來越成為企業發展的關鍵。例如,互聯網搜索引擎公司(榖歌和百度等)、社交網站(臉譜和微博等)、電商網站(yamaxun和京東網等)的迅猛發展,中關村傳統電子賣場的沒落,這些都能看齣知識經濟時代的來臨勢不可擋。
互聯網之所以能夠推動知識經濟的發展,與da數據的齣現密切相關。在互聯網時代,廣da網民可以非常便捷地製造和消費網絡數據,在眾多領域積纍起規模越來越龐da的數據,於是産生瞭da數據的概念。da數據的種類有很多,如互聯網網頁數據、日誌數據、社交網絡數據、科xue研究數據等,這些數據da部分與互聯網相關。這些da數據的本質是dang數據的規模和復雜性超過現有數據處理平颱的軟硬件能夠處理的範疇時,人們在有限的成本下迫切尋求高性能的da數據處理解決辦fa。da數據通常蘊含著很多重要的價值,而其中更為重要的是知識。藉助自然語言處理技術的進步,人們可以從互聯網da數據中抽取齣規模龐da的知識條目,不斷積纍而形成da規模的、kai放的資源描述框架(resource description framework,RDF)語義網知識庫。這些麵嚮kai放領域的知識庫,能夠在很多與知識經濟相關的産業中發揮重要作用,為眾多的應用領域提供如語義檢索和信息推薦等知識服務。
在知識經濟模式下,知識的積纍、利用和創新越來越重要。隨著企業、ji構和政府等在數據和知識方麵的不斷積纍,如何有效地對知識的獲取、更新和使用過程進行係統的管理,就顯得尤為重要,這就是知識管理。其目的是係統地處理、尋求、理解和使用知識,以從知識資産中得到迴報、創造價值。在知識管理體係中,知識生命周期的概念非常重要,McElroy早在1999年就提齣把知識生命周期分為知識産生、知識聲明、知識驗證、知識整閤、知識評價反饋五個階段,這五個階段構成yi個完整的閉環係統。隨著知識管理研究的進展,知識生態係統的概念越來越受到人們的重視,它既包括知識管理的各要素(人、知識、組織、技術、知識流程等),又包含這些要素的相互作用ji製。它是動態的、kai放的係統,各要素之間既相互聯係又相互影響,隨著知識環境的改變而不斷進行演化。總體來講,尤其是在互聯網環境下,知識生態係統具有適應性、係統性、kai放性和動態性等復雜巨係統的yi些特徵。
在知識和信息迅速膨脹的今天,針對如何從技術手段上有效地實現知識管理,産生瞭知識工程這門xue科。它主要研究設計和實現知識庫係統及其應用係統的理論、方fa和技術,是研究知識獲取、知識錶示、知識管理和知識運用的yi門xue科。知識工程的發展藉助瞭人工智能、數據庫技術、數理邏輯、認知科xue和心理xue等多xue科的交叉發展。傳統信息産業的數據管理主要針對的是結構化數據,而知識遠比結構化數據復雜,會涉及很多非結構的信息,從而造成瞭知識管理的高復雜性和跨xue科的特點。在這樣的背景下,文獻和提齣瞭利用係統工程的思想和方fa來綜閤研究知識管理中的問題,形成瞭知識係統工程這樣yi門研究對知識進行組織和管理的xue科。文獻指齣在係統綜閤集成方fa的指引下,把人、知識和工具結閤起來,把定性方fa和定量方fa、理論和實踐、動態過程和靜態過程、宏觀層次和微觀層次、集中狀態和分散狀態等集成起來;它是從整體上思考和解決問題的係統方fa論。本書的研究也是受此思想啓發,針對da規模知識庫的獲取、集成和檢索過程,研究如何藉鑒係統工程的yi些思想,更好地利用和發揮知識庫的價值。
1.1.1 RDF語義網知識庫
無論是知識管理還是知識係統工程,yi個重要的研究內容就是知識的錶達、獲取、集成、存儲和檢索。在傳統意義上,知識庫中的知識源於領域專傢,它是求解問題所需領域知識的集閤,包括基本事實、規則和其他有關信息。知識錶示就是對知識的描述,其采用yi組特定的符號將知識編碼成便於計算ji處理的數據結構。知識錶示是人工智能和知識工程中使用知識庫求解問題的基礎,主要以本體的形式存在。近年來,隨著語義網技術的發展,在以互聯網之父Tim Berners-Lee為代錶的計算ji科xue傢的推動下,知識的錶示kai始走嚮標準化、kai放化和互聯網化。其中yi個典型代錶就是RDF的提齣,它是國際萬維網(world wide web,WWW)提齣的互聯網上知識和信息描述的基本框架,如今已成為很多互聯網和RDF語義網知識庫用來錶達信息實體的描述規範。RDF的基本原理是采用主語(subject)、謂詞(predicate)、賓語(object)的三元組形式來錶達信息實體(主語)在某個謂詞上所具有的屬性值(賓語),其中,主語和部分賓語yi般采用統yi資源標識符(uniform resource identifier,URI)的形式來唯yi標識yi個信息實體。例如,要錶示Albert Einstein齣生在德國,可以使用如下形式的三元組:
<http://www.w3.org/rdf#Albert_Einstein,
http://www.w3.org/rdf#bornin,
http://www.w3.org/rdf#Germany>
其中,http://www.w3.org/rdf#Albert_Einstein代錶yi個人物的信息實體的URI;http://www.w3.org/rdf#bornin錶示的是yi個謂詞,代錶yi個人的齣生地;http://www.w3.org/rdf#Germany則對應於賓語——德國。由於三元組為主語和賓語建立瞭語義關聯,所以數據有瞭更為豐富的語義信息。RDF采用的這種信息描述方式很好地錶達瞭互聯網和語義網實體的屬性和實體之間的關聯關係,也為不同應用程序之間在不喪失語義的情況下進行數據交換奠定瞭基礎。
在這樣的背景下,RDF成為語義數據描述的yi種典型的標準,被廣泛應用於描述知識庫中的數據。尤其是近年來,隨著信息抽取和數據集成等技術的發展,齣現瞭規模越來越da的用RDF錶達的知識庫,如DBpedia、Freebase、YAGO等。這些數據庫采用RDF來錶達網絡資源及其之間的聯係。例如,原語義網技術公司Metaweb(2010年被榖歌收購)維護的Freebase知識庫中,可以用RDF錶示包括電影、體育、化xue、生物、地理、生物醫xue等眾多領域的知識條目信息。隨著更多RDF數據集的齣現,人們還提齣瞭關聯數據(linkeddata,LD)的概念,用於將不同組織ji構發布的數據關聯起來,形成規模更為龐da的RDF數據集。截至2012年3月,LD收集的三百多個數據集已經包含瞭超過520億條RDF三元組,從LD的發展趨勢上可以看到,整個互聯網上關聯數據的規模急劇膨脹。
由於很多海量RDF數據集包含da量來自不同領域的實體以及實體之間的關聯信息,所以也常被稱為RDF語義網知識庫。yi些應用kai始藉助RDF語義網知識庫所能提供的知識,支持實體檢索、語義檢索、問答係統等應用,榖歌的知識圖譜就是其中的yi個例子。如今,以RDF語義網知識庫為主體的知識圖譜受到越來越多的檢索引擎公司的重視,在其檢索産品中發揮著越來越重要的作用。隨著互聯網技術的不斷發展,尤其是在以語義為核心的Web3.0相關技術領域,存儲海量RDF數據的RDF語義網知識庫成為基於語義的信息查詢和知識檢索等重要應用的基礎平颱。RDF語義網知識庫在da數據的背景下發展起來,是具有很多da數據特徵的、kai放的、復雜的巨係統。這些特點必然為其基礎上的知識管理帶來很多新的挑戰,這也是本書所要研究的核心問題。
1.1.2 RDF語義網知識庫知識管理的挑戰
RDF語義網知識庫的技術發展,可以使來自不同領域的知識通過RDF的錶達形式集成起來,提供麵嚮眾多領域的知識服務。為瞭能夠提供高質量的知識服務,知識庫需要不斷豐富和完善知識內容。因此,kai放性是RDF語義網知識庫的yi個重要特徵,它可以兼容來自不同領域、不同數據源的知識條目,並利用信息抽取技術,從眾多知識源頭不斷獲取新知識,再通過這些知識條目的相互引用,將更多的知識編織(集成)到yi起。所以,RDF語義網知識庫包含瞭海量的、來自眾多領域(知識庫子係統)的實體信息。各個子係統知識庫的知識條目可以互聯關聯,形成不同子係統之間的信息關聯和信息交互。
隨著RDF語義網知識庫規模的不斷壯da和知識獲取途徑的不斷增多,相對於傳統意義上專傢係統中的知識庫,RDF語義網知識庫規模非常龐da(可以包含上億個節點)。如果考慮知識條目的來源是da規模的互聯網網頁,整個知識庫係統就完全符閤da數據的特徵:數據量da,數據多樣性強(既有結構化的三元組信息,又有非結構化的網頁信息),數據是動態和kai放的,結構復雜(實體之間關聯關係的多樣性)。因此,RDF語義網知識庫中的數據具備典型的da數據特徵,可以看成知識da數據。
從復雜巨係統的角度來看,麵嚮kai放領域的RDF語義網知識庫,作為知識da數據的載體,其本身也是kai放的復雜巨係統。其kai放性,更多地體現在係統與外界的信息交換。yi方麵,係統需要不斷從外界(互聯網上)獲取新知識,子知識庫係統之間也通過RDF數據搭建的橋梁,頻繁地信息交換與融閤,有著緊密的聯係。另yi方麵,從用戶的角度齣發,知識庫需要在知識服務中和人發生交互,需要為不同領域、不同需求的用戶提供知識服務,並且還可以利用yi些專傢的交互和反饋,完善知識庫係統的信息質量。知識da數據的復雜性也體現在多方麵。shou先,知識庫包含眾多領域的信息實體,這些信息實體之間又有各種各樣的關聯關係,從整個知識圖譜的角度來看,知識庫本身非常復雜,尤其是在知識檢索過程中,如何準確地理解用戶的檢索意圖,如何在復雜的知識網絡中定位和用戶查詢相關的信息片段,具有非常da的挑戰。其次,知識庫融閤瞭多知識庫的信息,信息種類多且這些信息之間存在冗餘重復、不yi緻等因素,互相之間所采用的數據源的差異性也很da,這都增加瞭係統的復雜性。再次,不同知識庫子係統的結構也隨著知識的不斷獲取和更新而不斷發生演化,是yi個動態的復雜結構。從上述角度來看,RDF語義網知識庫是不摺不扣的具有da數據特徵的kai放復雜巨係統。
da數據的這些特徵也給RDF語義網知識庫的知識管理帶來瞭很多新的挑戰,本書從知識管理的兩個重要方麵即知識獲取和集成以及知識檢索入手,論述目前的研究工作存在的挑戰。
1.知識獲取和集成的挑戰
RDF語義網知識庫之所以應用範圍廣、重要性高,源於其所具有動態性和kai放性的da數據特徵。知識da數據需要從眾多的知識源頭獲取新知識,不斷地將新知識融入係統現有的知識條目中,以持續不斷地維護知識庫中知識條目的新穎性、豐富性,並且不斷增da知識庫的規模,涵蓋更多的信息實體。現有的RDF語義網知識庫知識獲取和更新的渠道不盡相同,有全自動化的知識抽取方fa,也有使用基於眾包思想的人工編輯技術。
基於全自動化的知識抽取方fa采用自然語義處理中信息抽取方麵的技術,自動化地分析網頁中蘊含的知識條目,如YAGO和DBpedia。其優點是知識獲取的效率高,能夠在很短的時間內從da量的網頁中收集到很多知識,不足之處是知識抽取的精度有限。盡管目前很多知識抽取方fa在高質量的知識源上能夠達到95%以上的抽取精度,但對於質量要求非常高的RDF語義網知識庫,這樣的精度還有很da的提升空間。為瞭獲取更多的自動知識抽取精度比較低的不常見的實體,尤其是在需要增加知識召迴率的前提下,對知識抽取的精度要求就更為重要。在知識更新方麵,這些方fa不適閤主動地獲取新知識,沒有采取增量地管理和維護知識庫中知識條目。另外yi種知識獲取和集成方fa采用的是人工編輯的方式,即集群眾智慧獲取新知識,如Freebase和Wikidata。然而,由於這種方fa基於純粹手工編輯的方式,知識積纍的效率比較低,而且由於用戶水平參差不齊,知識的質量也很難得到很好的控製。
基於人機交互的知識管理係統 下載 mobi epub pdf txt 電子書 格式