麵嚮機器學習的自然語言標注

麵嚮機器學習的自然語言標注 下載 mobi epub pdf 電子書 2025


簡體網頁||繁體網頁
[美] 普斯特若夫斯基(James Pustejovsky),[美] 斯塔布斯(Amber Stubbs) 著,邱立坤,金澎,王萌 譯



點擊這裡下載
    

想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2025-01-26

類似圖書 點擊查看全場最低價


圖書介紹

齣版社: 機械工業齣版社
ISBN:9787111555155
版次:1
商品編碼:12134872
品牌:機工齣版
包裝:平裝
叢書名: OReilly精品圖書係列
開本:16開
齣版時間:2017-02-01
用紙:膠版紙
頁數:293


相關圖書





圖書描述

內容簡介

  自然語言理解是人工智能的一個重要分支,主要研究如何利用計算機來理解和生成自然語言。本書重點介紹瞭自然語言理解所涉及的各個方麵,包括語法分析、語義分析、概念分析、語料庫語言學、詞匯語義驅動、中間語言、WordNet、詞匯樹鄰接文法、鏈接文法、基於語段的機器翻譯方法、內識彆與文本過濾、機器翻譯的評測等,既有對基礎知識的介紹,又有對新研究進展的綜述,同時還結閤瞭作者(JamesPustejovsky,生成詞庫理論的創始人)多年的研究成果。本書內容全麵、詳略得當,結閤實例講解,使讀者更易理解。

作者簡介

  James Pustejovsky教授是美國布蘭代斯(Brandeis University)大學計算機科學係和Volen國傢綜閤係統中心教授。先後在美國麻省理工學院和馬薩諸塞大學獲得學士學位和博士學位。Pustejovsky教授主要從事自然語言的理論和計算研究。研究領域包括:計算語言學、詞匯語義學、知識錶徵、話語語義學、時間推理和抽取等。已經齣版多部專著。

目錄

前言1
第1章 基礎知識7
1.1 語言標注的重要性 7
1.1.1 語言學描述的層次8
1.1.2 什麼是自然語言處理9
1.2 語料庫語言學簡史10
1.2.1 什麼是語料庫13
1.2.2 語料庫的早期應用15
1.2.3 當今的語料庫17
1.2.4 標注類型18
1.3 語言數據和機器學習24
1.3.1 分類25
1.3.2 聚類25
1.3.3 結構化模式歸納26
1.4 標注開發循環26
1.4.1 現象建模27
1.4.2 按照規格說明進行標注30
1.4.3 在語料庫上訓練和測試算法31
1.4.4 對結果進行評價32
1.4.5 修改模型和算法33
總結34
第2章 確定目標與選擇數據36
2.1 定義目標36
2.1.1 目標陳述37
2.1.2 提煉目標:信息量與正確性38
2.2 背景研究43
2.2.1 語言資源44
2.2.2 機構與會議44
2.2.3 自然語言處理競賽45
2.3 整閤數據集46
2.3.1 理想的語料庫:代錶性與平衡性47
2.3.2 從因特網上收集數據47
2.3.3 從人群中獲取數據48
2.4 語料庫的規模49
2.4.1 現有語料庫50
2.4.2 語料庫內部的分布51
總結53
第3章 語料庫分析54
3.1 語料庫分析中的基本概率知識55
3.1.1 聯閤概率分布56
3.1.2 貝葉斯定理58
3.2 計算齣現次數58
3.2.1 齊普夫定律(Zip's Law)61
3.2.2 n元語法62
3.3 語言模型63
總結65
第4章 建立模型與規格說明66
4.1 模型和規格說明示例66
4.1.1 電影題材分類69
4.1.2 添加命名實體70
4.1.3 語義角色71
4.2 采用(或不采用)現有模型73
4.2.1 創建模型和規格說明:一般性與特殊性74
4.2.2 使用現有模型和規格說明76
4.2.3 使用沒有規格說明的模型78
4.3 各種標準78
4.3.1 ISO標準78
4.3.2 社區驅動型標準81
4.3.3 影響標注的其他標準81
總結82
第5章 選擇並應用標注標準84
5.1 元數據標注:文檔分類85
5.1.1 單標簽標注:電影評論85
5.1.2 多標簽標注:電影題材87
5.2 文本範圍標注:命名實體90
5.2.1 內嵌式標注90
5.2.2 基於詞例的分離式標注92
5.2.3 基於字符位置的分離式標注95
5.3 鏈接範圍標注:語義角色96
5.4 ISO標準和你97
總結97
第6章 標注與審核99
6.1 標注項目的基本結構99
6.2 標注規格說明與標注指南101
6.3 準備修改102
6.4 準備用於標注的數據103
6.4.1 元數據103
6.4.2 數據預處理104
6.4.3 為標注工作分割文件104
6.5 撰寫標注指南105
6.5.1 例1:單標簽標注——電影評論106
6.5.2 例2:多標簽標注——電影題材108
6.5.3 例3:範圍標注——命名實體111
6.5.4 例4:鏈接範圍標注——語義角色112
6.6 標注人員114
6.7 選擇標注環境116
6.8 評價標注結果117
6.8.1 Cohen的Kappa(κ)算法118
6.8.2 Fleiss的Kappa(κ)算法119
6.8.3 解釋Kappa係數122
6.8.4 在其他上下文中計算κ值123
6.9 創建黃金標準(審核)125
總結126
第7章 訓練:機器學習129
7.1 何謂學習130
7.2 定義學習任務132
7.3 分類算法133
7.3.1 決策樹學習135
7.3.2 樸素貝葉斯學習140
7.3.3 最大熵分類器145
7.3.4 其他需要瞭解的分類器147
7.4 序列歸納算法148
7.5 聚類和無監督學習150
7.6 半監督學習150
7.7 匹配標注與算法153
總結154
第8章 測試與評價156
8.1 測試算法157
8.2 評價算法157
8.2.1 混淆矩陣157
8.2.2 計算評價得分159
8.2.3 解釋評價得分163
8.3 可能影響算法評價的問題164
8.3.1 數據集太小164
8.3.2 算法過於適閤開發數據166
8.3.3 標注中的信息過多166
8.4 最後測試得分167
總結167
第9章 修改與報告169
9.1 修改項目170
9.1.1 語料庫分布和內容170
9.1.2 模型和規格說明170
9.1.3 標注171
9.1.4 訓練和測試172
9.2 報告工作173
9.2.1 關於語料庫174
9.2.2 關於模型和規格說明175
9.2.3 關於標注任務和標注人員175
9.2.4 關於ML算法176
9.2.5 關於修改177
總結177
第10章 標注:TimeML179
10.1 TimeML的設計目標180
10.2 相關研究181
10.3 建設語料庫182
10.4 模型:初步的標注規格說明183
10.4.1 時間183
10.4.2 信號184
10.4.3 事件184
10.4.4 鏈接184
10.5 標注:最初的嘗試185
10.6 模型:TimeBank中的TimeML標注規格說明185
10.6.1 時間錶達式185
10.6.2 事件186
10.6.3 信號187
10.6.4 鏈接187
10.6.5 可信度189
10.7 標注:TimeBank的産生189
10.8 TimeML成為ISO-TimeML192
10.9 對未來建模:TimeML的發展方嚮193
10.9.1 敘事容器194
10.9.2 將TimeML擴展到其他領域195
10.9.3 事件結構196
總結197
第11章 自動標注:生成TimeML199
11.1 TARSQI組件200
11.1.1 GUTime:時間標誌識彆201
11.1.2 EVITA:事件識彆及分類201
11.1.3 GUTenLINK202
11.1.4 Slinket204
11.1.5 SputLink204
11.1.6 TARSQI組件中的機器學習205
11.2 TTK的改進206
11.2.1 結構變化206
11.2.2 時間實體識彆改進:BTime207
11.2.3 時間關係識彆207
11.2.4 時間關係驗證208
11.2.5時間關係可視化209
11.3 TimeML競賽:TempEval-2209
11.3.1 TempEval-2:係統概述210
11.3.2 成果綜述213
11.4 TTK的未來213
11.4.1 新的輸入格式213
11.4.2 敘事容器/敘事時間214
11.4.3 醫學文檔215
11

前言/序言

  前言  本書的讀者是那些使用計算機來處理自然語言的人。自然語言是指人類所說的任何一種語言,可以是當代語言(如英語、漢語、西班牙語),也可以指過去曾經使用過的語言(如拉丁語、古希臘語、梵語)。標注(annotation)是一個過程,它通過嚮文本中加入元數據來增強計算機執行自然語言處理(Natural Language Processing, NLP)的能力。特彆地,我們考察如何通過標注將信息加入自然語言文本中以便改善機器學習(Machine Learning,ML)算法(一組設計好的計算機程序,它從文本提供的信息中推齣規則,目的是將這些規則用於將來未標注的文本中)的性能。  麵嚮機器學習的自然語言標注本書詳細介紹創建自己的自然語言標注數據集(稱為語料庫)所需的各個階段和過程,以便為基於語言的數據和知識發現訓練機器學習算法。本書的總體目標是為讀者展示如何創建自己的語料庫。從選擇一個標注任務開始,然後創建標注規格說明(annotation specification)、設計標注指南(annotation guideline)、創建一個“黃金標準”語料庫(corpus),最後采用這個標注過程開始創建實際的數據。  標注過程並不是綫性的,因此需要多次迭代來定義任務、標注和評價,以便得到最佳結果。這一過程可以概括為MATTER標注開發過程:建模(Model)、標注(Annotate)、訓練(Train)、測試(Test)、評價(Evaluate)、修改(Revise)。本書引導讀者遍曆整個循環,提供詳細的例子並完整地討論幾種不同類型的標注任務。詳細地研究這些任務,使讀者清楚地瞭解其中的來龍去脈,並為他們自己的機器學習任務奠定基礎。  此外,本書列齣瞭用於標注文本和評審標注的常用軟件的訪問和使用指南。盡管有許多標注工具可用,但本書采用的多用途標注環境(Multipurpose Annotation Environment, MAE)特彆易於安裝和使用(讀者可以免費下載),讀者不會因為令人睏惑的文檔而分心。經常與MAE一起使用的是多文檔審核接口(Multidocument Adjudication Interface, MAI),它用於在標注的文檔之間進行比對。 讀者本書寫給所有對用計算機研究自然語言所傳遞的信息內容感興趣的人。閱讀本書,並不要求具有編程或語言學背景,但若對腳本語言(如Python)有基本的理解將更易於理解MATTER循環,因為書中的一些示例代碼是用Python寫的。如果你從未用過Python,強烈地嚮你推薦由Steven Bird、Ewan Klein和Edward Loper所著的《Natural Language Processing with Python》(Python自然語言處理)一書(O扲eilly)。該書是一本優秀的關於Python和自然語言處理的入門教材,本書並未涉及這些知識。  如果讀者已具備XML(或者HTML)等標記語言的基礎知識,將能夠更好地理解和掌握本書。你不需要成為深入瞭解XML原理的專傢,但是由於絕大多數標注項目都使用某種形式的XML對標簽進行編碼,因此我們在本書中將使用XML標準來提供標注樣例。不是一定得成為網頁設計師纔能理解本書,但是具有關於標簽和屬性的知識對於理解標注項目是如何實現的將會有較大的幫助。  內容安排第1章簡單迴顧瞭語言標注和機器學習的曆史,簡要介紹瞭將標注任務用於不同層次語言學研究的多種方法。本書的其餘部分帶領讀者遍曆整個MATTER循環,從第2章介紹如何創建一個閤理的標注目標開始,曆經每個階段,直到評價標注和機器學習階段的結果,第9章討論修改項目並匯報工作。最後兩章完整地介紹瞭一個標注項目,以及如何用機器學習和基於規則的算法重新創建標注。讀者可以在書後的附錄中找到對自己的標注任務有用的資源列錶。  軟件需求雖然不運行書中給齣的任何示例代碼也可以學習本書,但我們強烈推薦至少安裝自然語言工具包(Natural Language ToolKit, NLTK)以便理解涉及的機器學習技術。NLTK當前支持Python 2.4~2.7(Python 3.0直到本書完成時尚未被支持)。想瞭解更多信息,請參考http://www.nltk.org。 本書中的所有示例代碼都在交互式Python shell編程環境中運行。關於如何使用這一環境,請參閱http://docs.python.org/tutorial/interpreter.html。如果沒有特彆說明,假設在所有的示例代碼前使用命令import nltk。  本書約定在本書中使用以下排版方式: 斜體(Italic)此類字體錶示新術語、網址(URL)、電子郵件地址,文件名和文件擴展名。  等寬字體(Constant width)此類字體錶示程序清單,以及在文檔段內的各種程序元素(如變量名或函數名、數據庫名、數據類型、環境變量、語句和關鍵字)。 注意:錶示一個提示、建議或一般性的注解。  警告:錶示一個警告或注意事項。  使用代碼示例本書在這裏幫助你完成你的工作。總的來講,你可以在你的程序和文檔中使用本書中的代碼。你不需要聯係我們以徵得許可,除非你正在復製代碼中的重要部分。比如,使用書中的多段代碼寫一個程序並不需要獲得許可。  若將O扲eilly公司齣版的書中的例子製成光盤來銷售或發行則需要獲得許可。在迴答問題時,引用本書和列舉書中的例子代碼並不需要許可。把本書中的代碼作為你的産品文檔的重要部分時需要獲得許可。
麵嚮機器學習的自然語言標注 下載 mobi epub pdf txt 電子書 格式

麵嚮機器學習的自然語言標注 mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2025

麵嚮機器學習的自然語言標注 下載 mobi pdf epub txt 電子書 格式 2025

麵嚮機器學習的自然語言標注 下載 mobi epub pdf 電子書
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

內容質量可以,NLP必備

評分

寫得很好的一本書

評分

相關領域的書不是太多。這本挺詳細,後麵還有一些常用語料庫和工具的網址。

評分

標注,是NLP 中極其重要的基礎環節,本書內容深淺有度,適閤一讀

評分

書還不錯,值得一看!

評分

正品 書質量不錯 值得擁有

評分

書質量挺好的,看瞭兩天,感覺還不錯!!!

評分

看評價不錯,希望有收獲

評分

很好的書,寫的很不錯,看起來也很好理解

類似圖書 點擊查看全場最低價

麵嚮機器學習的自然語言標注 mobi epub pdf txt 電子書 格式下載 2025


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2025 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有