發表於2024-12-23
過去十年中,社會媒體蓬勃發展,徹底改變瞭人們的社交行為和企業的商業模式。人們在社會媒體上交互、分享和閱讀內容,進而以空前的速度産生瞭大量數據。理解和處理這類新型數據,並從中發現有用的模式,對於交叉學科研究、新算法和工具的研發來講是挑戰與機遇並存。
《社會媒體挖掘》整閤瞭社會媒體、社會網絡分析以及數據挖掘的相關知識,為學生、從業者、研究人員和項目經理理解社會媒體挖掘的基礎知識和潛能,提供瞭一個方便的平颱。本書介紹瞭社會媒體數據獨有的問題,並闡述瞭網絡分析以及數據挖掘中的基本概念、新齣現的問題和有效的算法。
《社會媒體挖掘》可作為高年級本科生和低年級碩士生的教材,也可以作為短期專業課程用書。書中涵蓋瞭不同難度的練習題,可以幫助讀者在社會媒體數據挖掘的不同場景中理解和應用相關的概念、原理以及方法。
《社會媒體挖掘》集成瞭近年來社會媒體、社會網絡分析以及數據挖掘的前沿成果,為學生、從業者、研究人員和項目經理提供瞭一個方便的平颱,以便理解社會媒體挖掘的基礎知識和潛能。本書介紹瞭社會媒體數據的問題,並闡述瞭網絡分析和數據挖掘的基本概念、新問題以及有效的算法。
Reza Zafarani,雪城大學助理教授,曾為亞利桑那州立大學計算機科學與工程專業助理研究員。研究方嚮為社會媒體挖掘、機器學習、社會網絡分析和社會計算。研究重點是大規模用戶行為分析,以及跨社會媒體網站的信息整閤和建模。
Mohammad Ali Abbasi,亞利桑那州立大學計算機科學與工程專業助理研究員。研究方嚮為文本分析、信息檢索、數據挖掘、機器學習和社會計算。研究重點是用戶歸檔、用戶可信度評估、推薦係統、社會網絡分析,以及社會媒體在現實世界的應用。
Huan Liu(劉歡),亞利桑那州立大學計算機科學與工程專業教授,在教學和科研領域都取得瞭公認的優異成績。研究方嚮為數據挖掘、機器學習、社會計算、人工智能,以及真實數據密集型應用的問題。
★“這本講述社會媒體的書結構非常閤理,對學術界和産業界來說十分有用。該書以清晰易懂的方式全麵地講述瞭社會網絡分析。”
——Charu Aggarwal,IBM公司沃森研究中心
★“這本書以輕鬆的方式探索瞭一個多學科交叉的領域,語言簡明,直截瞭當。書中清晰緊湊地介紹瞭相關的概念,幫助你自信地深入探索數據挖掘這個奇妙的領域。”
——Philip Yu,伊利諾伊大學芝加哥分校
第1 章 引言 1
1.1 什麼是社會媒體挖掘 1
1.2 挖掘領域的新挑戰 2
1.3 本書概覽和讀者指南 3
1.4 小結 5
1.5 參考文獻及注釋 5
1.6 習題 6
第一部分 基礎知識
第2 章 圖的基本要素 10
2.1 圖的基礎知識 11
2.1.1 結點 11
2.1.2 邊 11
2.1.3 度和度的分布 12
2.2 圖的錶示 14
2.2.1 鄰接矩陣 14
2.2.2 鄰接錶 15
2.2.3 邊列錶 15
2.3 圖的類型 16
2.4 圖的連通性 17
2.5 特殊圖 21
2.5.1 樹和森林 21
2.5.2 特殊子圖 21
2.5.3 完全圖 23
2.5.4 平麵圖 23
2.5.5 二分圖 23
2.5.6 正則圖 24
2.5.7 橋 25
2.6 圖算法 25
2.6.1 圖/樹的遍曆 25
2.6.2 最短路徑算法 27
2.6.3 最小生成樹 29
2.6.4 網絡流算法 31
2.6.5 二分圖最大匹配 34
2.6.6 橋檢測 35
2.7 小結 36
2.8 參考文獻及注釋 37
2.9 習題 37
第3 章 網絡度量 40
3.1 中心性 40
3.1.1 度中心性 40
3.1.2 特徵嚮量中心性 42
3.1.3 Katz 中心性 44
3.1.4 PageRank 46
3.1.5 中間中心性 47
3.1.6 接近中心性 48
3.1.7 群體中心性 50
3.2 傳遞性與相互性 51
3.2.1 傳遞性 51
3.2.2 相互性 53
3.3 平衡和地位 55
3.4 相似度 57
3.4.1 結構等價性 57
3.4.2 規則等價性 59
3.5 小結 61
3.6 參考文獻及注釋 61
3.7 習題 62
第4 章 網絡模型 64
4.1 真實世界網絡的屬性 64
4.1.1 度分布 65
4.1.2 聚類係數 66
4.1.3 平均路徑長度 67
4.2 隨機圖模型 67
4.2.1 隨機圖的演變 69
4.2.2 隨機圖的屬性 71
4.2.3 基於隨機圖的真實世界網絡
建模 73
4.3 小世界模型 73
4.3.1 小世界模型的屬性 75
4.3.2 基於小世界模型對真實世界
網絡建模 77
4.4 優先鏈接模型 77
4.4.1 優先鏈接模型的屬性 78
4.4.2 基於優先鏈接模型對真實世界
網絡進行建模 80
4.5 小結 80
4.6 參考文獻及注釋 81
4.7 習題 81
第5 章 數據挖掘的基本要素 83
5.1 數據 84
5.2 數據預處理 87
5.3 數據挖掘算法 89
5.4 監督學習 89
5.4.1 決策樹 90
5.4.2 樸素貝葉斯分類器 92
5.4.3 最近鄰分類器 93
5.4.4 利用社交信息輔助分類 94
5.4.5 迴歸 96
5.4.6 監督學習評估 99
5.5 無監督學習 99
5.5.1 聚類算法 100
5.5.2 無監督學習的評估 102
5.6 小結 104
5.7 參考文獻及注釋 105
5.8 習題 106
第二部分 社區和交互
第6 章 社區分析 110
6.1 社區發現 112
6.1.1 社區發現算法 113
6.1.2 基於成員的社區發現 114
6.1.3 基於群組的社區發現 119
6.2 社區演變 126
6.2.1 網絡是如何演變的 126
6.2.2 演變網絡中的社區發現 129
6.3 社區評價 131
6.3.1 存在真實答案時的評價 131
6.3.2 無真實答案的評價 134
6.4 小結 135
6.5 參考文獻及注釋 136
6.6 習題 137
第7 章 社會媒體中的信息傳播 139
7.1 羊群效應 140
7.1.1 羊群效應的貝葉斯建模 142
7.1.2 乾預 144
7.2 信息級聯 145
7.2.1 獨立級聯模型 145
7.2.2 級聯範圍最大化 147
7.2.3 乾預 149
7.3 社交網絡中的創新擴散 149
7.3.1 創新的特徵 150
7.3.2 創新擴散模型 150
7.3.3 創新擴散過程建模 152
7.3.4 乾預 155
7.4 流行病模型 155
7.4.1 定義 156
7.4.2 SI 模型 156
7.4.3 SIR 模型 158
7.4.4 SIS 模型 159
7.4.5 SIRS 模型 160
7.4.6 乾預 161
7.5 小結 161
7.6 參考文獻及注釋 162
7.7 習題 163
第三部分 應用
第8 章 影響力和同質性 166
8.1 度量同配性 167
8.1.1 度量符號屬性的同配性 167
8.1.2 度量序數屬性的同配性 170
8.2 影響力 172
8.2.1 度量影響力 172
8.2.2 影響力建模 175
8.3 同質性 179
8.3.1 度量同質性 179
8.3.2 同質性建模 179
8.4 區分影響力和同質性 180
8.4.1 洗牌測試 180
8.4.2 邊緣反轉測試 181
8.4.3 隨機化測試 181
8.5 小結 184
8.6 參考文獻及注釋 184
8.7 習題 185
第9 章 社會媒體中的推薦 187
9.1 挑戰 188
9.2 經典的推薦算法 188
9.2.1 基於內容的算法 189
9.2.2 協同過濾 189
9.2.3 將個人推薦推廣到群體推薦 195
9.3 基於社會背景知識的推薦係統 197
9.3.1 單獨使用社會背景知識 198
9.3.2 基於社會背景知識的經典算法
擴展 198
9.3.3 社會背景知識受限的推薦 200
9.4 推薦係統評價 202
9.4.1 評估預測的準確率 202
9.4.2 評估推薦的相關性 203
9.4.3 評估推薦的排序 204
9.5 小結 205
9.6 參考文獻及注釋 206
9.7 習題 207
第10 章 行為分析 208
10.1 個體行為 208
10.1.1 個體行為分析 209
10.1.2 個體行為建模 213
10.1.3 個體行為預測 214
10.2 群體行為 217
10.2.1 群體行為分析 217
10.2.2 群體行為建模 221
10.2.3 群體行為預測221
10.3 小結 222
10.4 參考文獻及注釋 223
10.5 習題 224
參考文獻 225
社會媒體打破瞭現實世界與虛擬世界之間的界限。我們結閤社會學理論與計算方法來學習人類個體(也就是社會原子,social atom)如何互相影響,以及社區(也就是社會分子,social molecule)是如何形成的。社會媒體數據的獨特性需要我們開發齣全新的數據挖掘技術,來處理帶有豐富社會關係的用戶創建內容。這些新技術的研究和發展是在社會媒體挖掘這一新興的數據挖掘學科下進行的。社會媒體挖掘是從社會媒體數據中錶示、分析和抽取可操作模式的過程。
本書介紹一些基本概念以及適用於研究大規模社會媒體數據的主要算法,並從不同的學科(如計算機科學、數據挖掘、機器學習、社會網絡分析、網絡科學、社會學、人種學、統計學、最優化以及數學)視角討論相關理論和方法。此外,本書還會介紹一些有用的工具,這些工具能夠從大規模社會媒體數據中形式化地錶示、衡量、建模和挖掘有意義的模式。
社會媒體挖掘培養齣瞭一類新的數據科學傢(data scientist),這些科學傢精通社會學和計算科學理論,能夠分析棘手的社會媒體數據,並且熟練地運用已經掌握的技能和理論(社會學和計算科學理論)以及一些計算工具,幫助我們探索廣闊的社會媒體世界。
社會媒體挖掘是一個新興的研究領域,其中有很多亟待解決的難題。由於有瞭不同學科的概念和理論、基本原理,以及最先進算法的前期儲備,我們可以站在巨人的肩膀上來著手解決這些具有挑戰性的難題,並且開發齣創新性的數據挖掘技術和可擴展的算法。總體而言,可以將社會媒體看成由社會原子(也就是個體)、實體(例如內容、站點、網絡等),以及個體與實體之間的相互作用所構成的世界。社會學理論和社會標準在管理和控製著個體與實體之間的相互作用。為瞭更加有效地進行社會媒體挖掘,我們通過收集個體和實體的相關信息,衡量它們之間的相互作用,發現其中一些特定的模式來更好地理解人類的行為。
挖掘社會媒體數據是一項挖掘帶有社會關係的用戶生成內容的任務。這一數據為社會媒體挖掘提齣瞭新的挑戰。
大數據悖論(Big Data Paradox)。毋庸置疑,社會媒體數據的規模是非常巨大的。然而,當我們聚焦到一個個個體時,例如要對某個人進行相關推薦,我們經常會發現針對這一個體能夠獲取的數據非常少。為瞭能夠更有效地進行挖掘工作,我們必須充分利用社會媒體的特性並且使用它的多維度、多資源和多站點數據,將信息整閤並進行充分的統計分析。
獲取足夠的樣本(Obtaining Sufficient Samples)。獲取數據的一種常用技術手段是使用社會媒體站點提供的應用程序接口(Application Programming Interfaces,API)。我們每天獲取到的數據是非常有限的。如果不知道人群的分布特點,如何纔能知道我們的采樣是可靠的,並且可以代錶全體數據?又如何能夠保證我們從社會媒體挖掘中得到的結論能夠揭示真正的人類行為模式,進而促進我們的研究和商業開發?
噪聲消除謬誤(Noise Removal Fallacy)。在經典的數據挖掘文獻中,一個成功的數據挖掘操作必須要有大規模數據預處理過程和去噪過程,以避免齣現“垃圾數據輸入,垃圾數據輸齣”這樣的情況。由於社會媒體數據自身的一些特點,它包含瞭很大一部分噪聲數據。對於社會媒體數據,我們注意到如下兩個重要的觀察結果:(1) 盲目地去除噪聲數據會加劇大數據悖論問題,這是因為去噪的同時也會將有價值的信息過濾掉;(2) 對於噪聲數據的定義是復雜且相對的,因為這取決於我們要完成什麼樣的任務。
評價睏境(Evaluation Dilemma)。數據挖掘中常用的模式評價方法是收集準確、客觀的數據用於驗證。例如,一個數據集可以分成訓練集和測試集。隻有訓練集被用來學習,而測試集則當作標準答案進行測試。然而,在社會媒體挖掘中往往沒有一個標準的答案。如何評價從社會媒體中挖掘齣來的模式,給我們提齣瞭一個看似難以逾越的挑戰。另一方麵,如果沒有可靠的評價手段,如何纔能夠保證我們挖掘齣來的模式是正確的呢?
本書涵蓋瞭一些基礎概念和基本原理,它們將幫助讀者思考和設計齣可以解決社會媒體挖掘固有挑戰的方案。
社會媒體挖掘 下載 mobi pdf epub txt 電子書 格式 2024
社會媒體挖掘 下載 mobi epub pdf 電子書很不錯,讓我們這些做理論的看到瞭業界實際的成果
評分很不錯的社會媒體挖掘的書。
評分非常好
評分配送速度快,包裝完好,印刷質量好,正版值得購買。
評分書不錯
評分書的質量挺好 價格不錯 學習社會媒體挖掘用
評分還可以,挺好的,書不錯
評分好書好書好書好書
評分不錯
社會媒體挖掘 mobi epub pdf txt 電子書 格式下載 2024