內容簡介
本書主要從自然語言處理的角度全麵地介紹情感分析這個主題先進的研究技術和實用算法,以幫助讀者瞭解通常用於錶達觀點和情感的問題和語言結構的基本結構。它涵蓋瞭情感分析的所有核心領域,包括許多新興的主題,如辯論分析、意圖挖掘、假民意檢測,並提齣瞭可用來分析和總結觀點的計算方法。
作者簡介
劉兵教授現為伊利諾伊大學芝加哥分校(UIC)教授,獲愛丁堡大學獲得人工智能博士學位,是Web挖掘研究領域的國際知名專傢,在Web內容挖掘、互聯網觀點挖掘、數據挖掘等領域有非常高的造詣,先後在國際學術期刊與重要國際學術會議(如KDD、WWW、AAAI、SIGIR、ICML、TKDE等)上發錶關於數據挖掘、Web挖掘和文本挖掘論文100多篇,其中3篇論文單引次數1000以上,著有Web Data Mining和Sentiment Analysis and Opinion Mining等多部計算機精選教材;劉兵教授還擔任過多個國際期刊的編輯和多個國際學術會議的程序委員會主席和委員。他目前擔任ACM SIGKDD的主席,還是IEEE Fellow。
目錄
目 錄
Sentiment Analysis:Mining Opinions,Sentiments,and Emotions
譯者序
前言
緻謝
第1章 引言1
1.1 情感分析應用3
1.2 情感分析研究6
1.2.1 針對不同文本顆粒度的情感分析研究7
1.2.2 情感詞典及其問題8
1.2.3 辯論與評論分析9
1.2.4 意圖挖掘9
1.2.5 垃圾觀點檢測與評論質量10
1.3 情感分析是個迷你自然語言處理任務11
1.4 本書撰寫方式11
第2章 什麼是情感分析13
2.1 觀點定義14
2.1.1 觀點的定義14
2.1.2 情感對象15
2.1.3 觀點中的情感16
2.1.4 簡化的觀點定義17
2.1.5 觀點的理由和限定條件19
2.1.6 情感分析的目標和任務20
2.2 觀點摘要定義23
2.3 感情、情緒與心情24
2.3.1 心理學中的感情、情緒與心情25
2.3.2 情感分析中的感情、情緒與心情28
2.4 觀點的不同類型30
2.4.1 常規型觀點和比較型觀點31
2.4.2 主觀的和隱含在事實中的觀點31
2.4.3 第一人稱和非第一人稱觀點34
2.4.4 元觀點35
2.5 作者和讀者視角35
2.6 小結36
第3章 文檔級情感分類37
3.1 基於監督的情感分類38
3.1.1 基於機器學習算法的情感分類38
3.1.2 使用自定義打分函數的情感分類44
3.2 基於無監督的情感分類45
3.2.1 使用句法模闆和網頁檢索的情感分類45
3.2.2 使用情感詞典的情感分類46
3.3 情感評分預測48
3.4 跨領域情感分類49
3.5 跨語言情感分類51
3.6 文檔的情緒分類52
3.7 小結53
第4章 句子級主客觀和情感分類54
4.1 主觀性55
4.2 句子級主客觀分類56
4.3 句子級情感分類59
4.3.1 句子級情感分類的前提假設59
4.3.2 分類方法60
4.4 處理條件句61
4.5 處理諷刺句62
4.6 跨語言主客觀分類和情感分類64
4.7 在情感分類中使用語篇信息65
4.8 句子級情緒分類66
4.9 討論67
第5章 屬性級情感分類68
5.1 屬性級情感分類方法69
5.1.1 基於監督學習的方法69
5.1.2 基於詞典的方法70
5.1.3 兩種方法的優缺點72
5.2 情感組閤規則73
5.2.1 情感組閤規則概述74
5.2.2 情感減弱和情感增強錶達81
5.2.3 SMALL_OR_LESS和LARGE_OR_MORE錶達83
5.2.4 情緒和情感強度86
5.2.5 情感詞的含義86
5.2.6 其他方法概述88
5.3 否定和情感89
5.3.1 否定詞89
5.3.2 never92
5.3.3 其他常用的情感轉換詞94
5.3.4 否定詞移動現象94
5.3.5 否定範圍95
5.4 情態和情感96
5.5 並列連詞but100
5.6 非觀點內容的情感詞102
5.7 規則錶示103
5.8 詞義消歧和指代消解105
5.9 小結106
第6章 屬性和實體抽取108
6.1 基於頻率的屬性抽取109
6.2 利用句法關係110
6.2.1 利用觀點和觀點評價對象間的評價關係111
6.2.2 利用部分整體和屬性關係116
6.3 基於監督學習的屬性抽取118
6.3.1 隱馬爾可夫模型118
6.3.2 條件隨機場119
6.4 隱含屬性的映射121
6.4.1 基於語料庫的方法121
6.4.2 基於詞典的方法122
6.5 屬性聚類124
6.6 基於主題模型的屬性抽取126
6.6.1 隱狄利剋雷分配127
6.6.2 基於無監督主題模型進行觀點屬性抽取129
6.6.3 在主題模型中加入領域先驗知識133
6.6.4 基於終身學習的主題模型:像人類一樣學習135
6.6.5 使用短語作為主題詞138
6.7 實體抽取與消解141
6.7.1 實體抽取與消解的問題定義142
6.7.2 實體抽取144
6.7.3 實體鏈接145
6.7.4 實體搜索和鏈接147
6.8 觀點持有者和觀點時間抽取147
6.9 小結148
第7章 情感詞典構建149
7.1 基於詞典的方法149
7.2 基於語料庫的方法152
7.2.1 從語料庫中識彆情感詞152
7.2.2 處理上下文相關的情感詞153
7.2.3 詞典自適應155
7.2.4 其他相關工作156
7.3 隱含瞭情感信息(期望或者不期望)的事實型描述156
7.4 小結158
第8章 比較型觀點分析159
8.1 問題定義159
8.2 比較句識彆162
8.3 比較句中的優選實體集識彆163
8.4 特殊類型的比較句164
8.4.1 非標準型比較164
8.4.2 交叉類型的比較166
8.4.3 單實體比較167
8.4.4 帶有compare和comparison的句子168
8.5 實體與屬性抽取169
8.6 小結170
第9章 觀點摘要和檢索172
9.1 基於屬性的觀點摘要172
9.2 基於屬性的觀點摘要進階175
9.3 可對照的觀點摘要176
9.4 傳統摘要177
9.5 比較型觀點摘要177
9.6 觀點檢索177
9.7 現有觀點檢索技術178
9.8 小結180
第10章 辯論與評論分析181
10.1 辯論中的立場識彆181
10.2 對辯論、討論進行建模184
10.2.1 JTE模型185
10.2.2 JTE-R模型:對迴復關係進行建模188
10.2.3 JTE-P模型:考慮作者之間的交互關
前言/序言
前 言Sentiment Analysis:Mining Opinions,Sentiments,and Emotions觀點、情感以及與之相關的許多概念,如評價、評估、態度、感情、情緒和心情,與我們主觀的感覺和感受密切相關。這些是人類心理活動的核心要素,也是影響人們日常行為的關鍵因素。我們對於現實世界的感知和感受,包括我們做齣的任何選擇,在很大程度上受到他人對於當前世界的洞察和觀點的影響。也就是說,我們的觀點易受他人觀點的影響,當我們需要做決定時,常常尋求彆人的意見作為參考。這一現象不僅存在於人與人之間,也發生在組織機構之間。因此,從實際應用齣發,很顯然需要對人們針對任何感興趣的事物所發錶的觀點與感受進行挖掘和分析,這便是情感分析的任務所在。更確切地說,情感分析也稱為觀點挖掘,是一個旨在利用可計算的方法從自然語言文本中提取觀點和情感信息的研究課題。
情感分析伴隨著網絡社會媒體(如評論、論壇、博客與微博)的興起而快速發展。這是由於現如今在這些網絡社會媒體中,我們能夠獲得有史以來規模巨大的觀點數據。這些也被稱為用戶生成內容的社會媒體數據,能夠幫助研究人員發現、挖掘有用的知識。人們在社會媒體平颱上發錶信息的主要目的是錶達他們的意見和觀點,因此,社會媒體中的用戶生成內容蘊含瞭大量的用戶觀點信息。要從中挖掘有用知識自然需要對情感分析與觀點挖掘問題進行研究,這已經成為社會媒體分析的核心問題。自2000年年初以來,情感分析已成為自然語言處理領域最活躍的研究問題之一。在數據挖掘、網絡挖掘和信息檢索領域中,針對情感分析的研究也得到瞭廣泛關注。事實上,由於這一研究對於整個商業和社會的重要性,它已從計算機科學延伸到管理學和社會學領域。近年來,在工業界,情感分析的相關産業也蓬勃發展瞭起來,許多初創企業不斷湧現。除此之外,許多大公司(例如,微軟、榖歌、惠普和Adobe)也已經研發瞭各自的情感分析係統。如今,情感分析係統幾乎在每一個企業、衛生機構、政府乃至整個社會都有廣泛應用。
雖然目前還沒有一個終極算法能夠完美地解決情感分析問題,但已經研發的多個情感分析係統在實際生活應用中能夠為人們提供有用的信息,發揮作用。因此,我認為現在有必要對我們已取得的研究成果以及在實踐中獲得的實際經驗進行梳理,並整理成書。這並不是說我對工業界在情感分析領域所使用的方法瞭如指掌,因為多數企業並不發錶或公開他們的核心算法。然而,我也曾開辦瞭一傢有關情感分析係統研發的創業公司,為客戶在多領域大規模社會媒體數據上的項目提供服務。同時,在過去的幾年中,許多工業界的研發者也嚮我大緻介紹瞭他們在其情感分析係統中所用的核心算法。因此,從這幾點上來說,我對應用係統開發以及各個算法的實際性能有一定的瞭解,同時也具有大量解決實際問題的第一手經驗。因此,在本書中,對於這些非機密信息、知識和經驗,我將盡我所能詳細介紹。
在寫作這本書時,除瞭介紹分析和總結觀點的可計算方法之外,我也試圖從語言學角度看待和探討情感分析問題,以幫助讀者瞭解這一問題的基本結構和常用於錶達觀點和情感的語言錶達方式。如同許多自然語言處理的任務一樣,在情感分析任務中,大多數已發錶的可計算方法都采用文本特徵結閤機器學習或數據挖掘算法的基本處理範式。然而,現有大多數機器學習算法都是黑箱的,模型對於結果缺乏可解釋性。當齣現錯誤時,我們很難知道原因,更不清楚如何進行修正。因此,如果我們隻關注於這一類可計算方法,將無法深刻理解情感分析問題,從而阻礙該問題的研究發展。
在介紹語言學方麵的知識時,我沒有遵循語言學的傳統來寫作。這是因為傳統語言學中的知識以及知識的錶現方式主要是為瞭讓人來理解,而不是為瞭讓機器去理解、操作並解決實際問題。雖然人類知識和計算機指令有部分交叉,但是它們還是有很大區彆的。例如,當我從條件句中挖掘觀點時,我閱讀瞭許多關於條件句的語言學書籍。然而,令人意外的是,我發現幾乎沒有語言學知識能被用來計算並解決這一問題。我認為部分原因是目前的計算技術不夠成熟,還不足以擁有和人一樣的理解能力;另一部分原因是大多數語言學知識不適用於計算機處理。因此,本書的另一個特點是,它不僅僅同傳統語言學書籍一樣研究語言本身,幫助人們理解語言;它也關注麵嚮具體應用的實際需求,探討從自然語言中挖掘情感和觀點的實際方法,包括識彆觀點語句、情感以及情感極性(傾嚮性),也包括觀點情感相關的重要信息抽取。例如與觀點情感相關的實體或主題抽取,這些實體或主題通常也稱為觀點評價(或情感)對象。在實際應用中,觀點評價對象抽取非常重要。例如,“我討厭對窮人增稅”,如果我們僅識彆齣作者在本句中錶達瞭一種負麵的情感或是厭惡的情緒,那對於實際應用意義並不大。但是如果我們能夠發現該負麵情感或情緒錶達的對象是“對窮人增稅”,那麼這樣的信息就變得十分有價值瞭。從這個角度來說,我希望本書能夠促使語言學傢研究並建立有關觀點、情感及相關概念的係統理論。
這本書可以作為情感分析領域的入門讀物和研究概覽。在書中的諸多章節,我對於入門知識或者已有研究方法進行單獨介紹。但是在有些章節,我采用混閤介紹的方式。采用這種不同尋常的寫作方式的主要原因是:雖然已有許多研究者試圖去解決情感分析任務的每一個子問題,但是目前仍然沒有成熟的技術與算法。從已發錶論文報告的結果中我們可以看到,在許多情況下,已有技術離實用化還尚遠。本書采用混閤寫作風格的另一個原因是:大多數已有的方法均利用機器學習與數據挖掘算法在抽取好的文本特徵上進行直接應用。由於已經有許多著作詳細介紹瞭這些機器學習和數據挖掘算法,所以這些算法的細節不是本書介紹的重點。此外,對於一些語言學的基礎知識和自然語言處理基本技術,如詞性標注、句法分析、淺層句法分析和語法,本書也不做詳細介紹。雖然這些技術對於情感分析十分重要,但同樣已有很多自然語言處理的書籍對其進行瞭詳細介紹。所以,本書默認讀者已經具有瞭機器學習和自然語言處理的基礎知識。
在本書中,我試圖介紹情感分析領域所有的主要研究進展。本書引用瞭來自主流會議與期刊的總共600餘篇論文和資料,從這一點上來說,本書涵蓋的範圍是十分全麵的。本書的組織結構具體如下。第1章對於整本書進行概覽,並介紹情感分析的研究動機。從該章我們可以看到,情感分析在許多實際係統中都有應用需求。因此,這是一個令人著迷且仍充滿挑戰的研究問題。第2章給齣瞭情感分析任務的定義,並介紹與之相關的諸多概念。從該章我們可以看到,情感分析雖然是一個自然語言處理問題,但其錶示是結構化的。我們的目標是將非結構化文本轉換為結構化的錶示。基於這一結構化錶示,我們可以進行後續的定性和定量分析,這對於實際應用尤為重要。另外,我們也可以看到,情感分析是一個由許多具有挑戰性的且相互關聯的子問題組閤而成的綜閤問題。
第3章針對文檔級文本的情感分類問題進行介紹,這一子任務的目標是識彆一篇文檔(例如,産品評論)中所蘊含觀點的傾嚮性:褒義或貶義。第4章介紹同樣的分類問題,隻不過處理對象是句子級文本。與其相關的情感評分預測、遷移學習和多語言情感分類問題,也在這兩章中進行討論。
第5章與第6章更進一步地從細粒度級彆來介紹基於屬性的情感分析問題,其中最重要的研究不僅包括如何對情感進行分類,還包括如何識彆情感或觀點評價的對象。絕大多數在工業界實際應用的情感分析或觀點挖掘係統都需要在這一粒度下分析文本。第5章著重介紹基於屬性的情感分類任務和方法,第6章著重介紹評價屬性或對象的提取。
第7章對情感詞典構建的相關研究進行瞭介紹。情感詞典是人們在錶達褒義或貶義觀點時常使用的詞與短語(例如,好的、驚人的、壞的、可怕的)的列錶。第8章介紹瞭比較句中觀點的錶達問題。第9章介紹瞭觀點摘要與觀點檢索問題。第10章探討瞭另一種情感錶達的類型,即在綫辯論與評論中的情感錶達問題(贊同和反對),其中包含大量參與者之間的互動交流。第11章討論基於文本的用戶意圖挖掘問題。
第12章介紹另一個不一樣的問題:如何檢測網絡上虛假的或者具有欺騙性的觀點信息。第13章介紹基於有用性如何對在綫評論進行排序的問題,基於這樣的分析,用戶可以首先看到那些最有用的評論。第14章對本書進行總結,並討論瞭若乾未來可能的研究熱點與方嚮。
本書適閤對社會媒體分析和自然語言處理,特彆是對情感分析和觀點挖掘感興趣的學生、研究人員和從業者。消費者的情感傾嚮和公眾的觀點錶達是許多管理學和社會科學領域(例如市場營銷、經濟學、傳播學和政治學等)關心的核心問題。因此,本書不僅適閤計算機科學領域的讀者,也適閤管理學和社會學的研究人員或從業者。此外,在校老師可以使用本書作為自然語言處理、社會媒體分析、社會計算、文本和數據挖掘等課程的教材。本書相關的課程幻燈片可在綫獲取。
� �https://www.cs.uic.edu/~liub/�≈隆⌒籗entiment Analysis:Mining Opinions,Sentiments,and Emotions在編寫本書時,許多專傢和學者給予瞭我技術上的幫助。沒有他們的幫助,本書可能永遠不會完成。首先,我要感謝我在讀和已經畢業的學生:Junsheng Chen,Zhiyuan Chen,Xiaowen Ding,Geli Fei,Murthy Ganapathibhotla,Minqing Hu,Nitin Jindal,Abhinav Kumar,Huayi Li,Arjun Mukherjee,Ramanathan Narayanan(美國西北大學),Federico Alberto Pozzi(米蘭比可卡大學訪問學生),Guang Qiu(浙江大學訪問學生),Sathish Ramadoss,Jianfeng Si(香港城市大學訪問學生),William Underwood,Andrea Vaccari,Vivek Venkataraman,Zhongwu Zhai(清華大學訪問學生)和Lei Zhang。多年來,他們為本書的完成貢獻瞭大量的研究思路。此外,與很多研究者的討論也非常有助於本書的完成,他們是:Shuanhu Bai,Jim Blomo,Erik Cambria,Malu G.Castellanos,Dennis Chong,Umesh Dayal,Eduard Dragut,Boi Faltings,Ronen Feldman,Christiane D.Fellbaum,Zhiqiang Gao,Alexander Gelbukh,Riddhiman Ghosh,Natalie Glance,Meichun Hsu,Joshua Huang,Minglie Huang,Jing Jiang,Birgit K�塶ig,Xiao-li Li,Qian Li
情感分析:挖掘觀點、情感和情緒 下載 mobi epub pdf txt 電子書 格式