发表于2024-11-05
过去十年中,社会媒体蓬勃发展,彻底改变了人们的社交行为和企业的商业模式。人们在社会媒体上交互、分享和阅读内容,进而以空前的速度产生了大量数据。理解和处理这类新型数据,并从中发现有用的模式,对于交叉学科研究、新算法和工具的研发来讲是挑战与机遇并存。
《社会媒体挖掘》整合了社会媒体、社会网络分析以及数据挖掘的相关知识,为学生、从业者、研究人员和项目经理理解社会媒体挖掘的基础知识和潜能,提供了一个方便的平台。本书介绍了社会媒体数据独有的问题,并阐述了网络分析以及数据挖掘中的基本概念、新出现的问题和有效的算法。
《社会媒体挖掘》可作为高年级本科生和低年级硕士生的教材,也可以作为短期专业课程用书。书中涵盖了不同难度的练习题,可以帮助读者在社会媒体数据挖掘的不同场景中理解和应用相关的概念、原理以及方法。
《社会媒体挖掘》集成了近年来社会媒体、社会网络分析以及数据挖掘的前沿成果,为学生、从业者、研究人员和项目经理提供了一个方便的平台,以便理解社会媒体挖掘的基础知识和潜能。本书介绍了社会媒体数据的问题,并阐述了网络分析和数据挖掘的基本概念、新问题以及有效的算法。
Reza Zafarani,雪城大学助理教授,曾为亚利桑那州立大学计算机科学与工程专业助理研究员。研究方向为社会媒体挖掘、机器学习、社会网络分析和社会计算。研究重点是大规模用户行为分析,以及跨社会媒体网站的信息整合和建模。
Mohammad Ali Abbasi,亚利桑那州立大学计算机科学与工程专业助理研究员。研究方向为文本分析、信息检索、数据挖掘、机器学习和社会计算。研究重点是用户归档、用户可信度评估、推荐系统、社会网络分析,以及社会媒体在现实世界的应用。
Huan Liu(刘欢),亚利桑那州立大学计算机科学与工程专业教授,在教学和科研领域都取得了公认的优异成绩。研究方向为数据挖掘、机器学习、社会计算、人工智能,以及真实数据密集型应用的问题。
★“这本讲述社会媒体的书结构非常合理,对学术界和产业界来说十分有用。该书以清晰易懂的方式全面地讲述了社会网络分析。”
——Charu Aggarwal,IBM公司沃森研究中心
★“这本书以轻松的方式探索了一个多学科交叉的领域,语言简明,直截了当。书中清晰紧凑地介绍了相关的概念,帮助你自信地深入探索数据挖掘这个奇妙的领域。”
——Philip Yu,伊利诺伊大学芝加哥分校
第1 章 引言 1
1.1 什么是社会媒体挖掘 1
1.2 挖掘领域的新挑战 2
1.3 本书概览和读者指南 3
1.4 小结 5
1.5 参考文献及注释 5
1.6 习题 6
第一部分 基础知识
第2 章 图的基本要素 10
2.1 图的基础知识 11
2.1.1 结点 11
2.1.2 边 11
2.1.3 度和度的分布 12
2.2 图的表示 14
2.2.1 邻接矩阵 14
2.2.2 邻接表 15
2.2.3 边列表 15
2.3 图的类型 16
2.4 图的连通性 17
2.5 特殊图 21
2.5.1 树和森林 21
2.5.2 特殊子图 21
2.5.3 完全图 23
2.5.4 平面图 23
2.5.5 二分图 23
2.5.6 正则图 24
2.5.7 桥 25
2.6 图算法 25
2.6.1 图/树的遍历 25
2.6.2 最短路径算法 27
2.6.3 最小生成树 29
2.6.4 网络流算法 31
2.6.5 二分图最大匹配 34
2.6.6 桥检测 35
2.7 小结 36
2.8 参考文献及注释 37
2.9 习题 37
第3 章 网络度量 40
3.1 中心性 40
3.1.1 度中心性 40
3.1.2 特征向量中心性 42
3.1.3 Katz 中心性 44
3.1.4 PageRank 46
3.1.5 中间中心性 47
3.1.6 接近中心性 48
3.1.7 群体中心性 50
3.2 传递性与相互性 51
3.2.1 传递性 51
3.2.2 相互性 53
3.3 平衡和地位 55
3.4 相似度 57
3.4.1 结构等价性 57
3.4.2 规则等价性 59
3.5 小结 61
3.6 参考文献及注释 61
3.7 习题 62
第4 章 网络模型 64
4.1 真实世界网络的属性 64
4.1.1 度分布 65
4.1.2 聚类系数 66
4.1.3 平均路径长度 67
4.2 随机图模型 67
4.2.1 随机图的演变 69
4.2.2 随机图的属性 71
4.2.3 基于随机图的真实世界网络
建模 73
4.3 小世界模型 73
4.3.1 小世界模型的属性 75
4.3.2 基于小世界模型对真实世界
网络建模 77
4.4 优先链接模型 77
4.4.1 优先链接模型的属性 78
4.4.2 基于优先链接模型对真实世界
网络进行建模 80
4.5 小结 80
4.6 参考文献及注释 81
4.7 习题 81
第5 章 数据挖掘的基本要素 83
5.1 数据 84
5.2 数据预处理 87
5.3 数据挖掘算法 89
5.4 监督学习 89
5.4.1 决策树 90
5.4.2 朴素贝叶斯分类器 92
5.4.3 最近邻分类器 93
5.4.4 利用社交信息辅助分类 94
5.4.5 回归 96
5.4.6 监督学习评估 99
5.5 无监督学习 99
5.5.1 聚类算法 100
5.5.2 无监督学习的评估 102
5.6 小结 104
5.7 参考文献及注释 105
5.8 习题 106
第二部分 社区和交互
第6 章 社区分析 110
6.1 社区发现 112
6.1.1 社区发现算法 113
6.1.2 基于成员的社区发现 114
6.1.3 基于群组的社区发现 119
6.2 社区演变 126
6.2.1 网络是如何演变的 126
6.2.2 演变网络中的社区发现 129
6.3 社区评价 131
6.3.1 存在真实答案时的评价 131
6.3.2 无真实答案的评价 134
6.4 小结 135
6.5 参考文献及注释 136
6.6 习题 137
第7 章 社会媒体中的信息传播 139
7.1 羊群效应 140
7.1.1 羊群效应的贝叶斯建模 142
7.1.2 干预 144
7.2 信息级联 145
7.2.1 独立级联模型 145
7.2.2 级联范围最大化 147
7.2.3 干预 149
7.3 社交网络中的创新扩散 149
7.3.1 创新的特征 150
7.3.2 创新扩散模型 150
7.3.3 创新扩散过程建模 152
7.3.4 干预 155
7.4 流行病模型 155
7.4.1 定义 156
7.4.2 SI 模型 156
7.4.3 SIR 模型 158
7.4.4 SIS 模型 159
7.4.5 SIRS 模型 160
7.4.6 干预 161
7.5 小结 161
7.6 参考文献及注释 162
7.7 习题 163
第三部分 应用
第8 章 影响力和同质性 166
8.1 度量同配性 167
8.1.1 度量符号属性的同配性 167
8.1.2 度量序数属性的同配性 170
8.2 影响力 172
8.2.1 度量影响力 172
8.2.2 影响力建模 175
8.3 同质性 179
8.3.1 度量同质性 179
8.3.2 同质性建模 179
8.4 区分影响力和同质性 180
8.4.1 洗牌测试 180
8.4.2 边缘反转测试 181
8.4.3 随机化测试 181
8.5 小结 184
8.6 参考文献及注释 184
8.7 习题 185
第9 章 社会媒体中的推荐 187
9.1 挑战 188
9.2 经典的推荐算法 188
9.2.1 基于内容的算法 189
9.2.2 协同过滤 189
9.2.3 将个人推荐推广到群体推荐 195
9.3 基于社会背景知识的推荐系统 197
9.3.1 单独使用社会背景知识 198
9.3.2 基于社会背景知识的经典算法
扩展 198
9.3.3 社会背景知识受限的推荐 200
9.4 推荐系统评价 202
9.4.1 评估预测的准确率 202
9.4.2 评估推荐的相关性 203
9.4.3 评估推荐的排序 204
9.5 小结 205
9.6 参考文献及注释 206
9.7 习题 207
第10 章 行为分析 208
10.1 个体行为 208
10.1.1 个体行为分析 209
10.1.2 个体行为建模 213
10.1.3 个体行为预测 214
10.2 群体行为 217
10.2.1 群体行为分析 217
10.2.2 群体行为建模 221
10.2.3 群体行为预测221
10.3 小结 222
10.4 参考文献及注释 223
10.5 习题 224
参考文献 225
社会媒体打破了现实世界与虚拟世界之间的界限。我们结合社会学理论与计算方法来学习人类个体(也就是社会原子,social atom)如何互相影响,以及社区(也就是社会分子,social molecule)是如何形成的。社会媒体数据的独特性需要我们开发出全新的数据挖掘技术,来处理带有丰富社会关系的用户创建内容。这些新技术的研究和发展是在社会媒体挖掘这一新兴的数据挖掘学科下进行的。社会媒体挖掘是从社会媒体数据中表示、分析和抽取可操作模式的过程。
本书介绍一些基本概念以及适用于研究大规模社会媒体数据的主要算法,并从不同的学科(如计算机科学、数据挖掘、机器学习、社会网络分析、网络科学、社会学、人种学、统计学、最优化以及数学)视角讨论相关理论和方法。此外,本书还会介绍一些有用的工具,这些工具能够从大规模社会媒体数据中形式化地表示、衡量、建模和挖掘有意义的模式。
社会媒体挖掘培养出了一类新的数据科学家(data scientist),这些科学家精通社会学和计算科学理论,能够分析棘手的社会媒体数据,并且熟练地运用已经掌握的技能和理论(社会学和计算科学理论)以及一些计算工具,帮助我们探索广阔的社会媒体世界。
社会媒体挖掘是一个新兴的研究领域,其中有很多亟待解决的难题。由于有了不同学科的概念和理论、基本原理,以及最先进算法的前期储备,我们可以站在巨人的肩膀上来着手解决这些具有挑战性的难题,并且开发出创新性的数据挖掘技术和可扩展的算法。总体而言,可以将社会媒体看成由社会原子(也就是个体)、实体(例如内容、站点、网络等),以及个体与实体之间的相互作用所构成的世界。社会学理论和社会标准在管理和控制着个体与实体之间的相互作用。为了更加有效地进行社会媒体挖掘,我们通过收集个体和实体的相关信息,衡量它们之间的相互作用,发现其中一些特定的模式来更好地理解人类的行为。
挖掘社会媒体数据是一项挖掘带有社会关系的用户生成内容的任务。这一数据为社会媒体挖掘提出了新的挑战。
大数据悖论(Big Data Paradox)。毋庸置疑,社会媒体数据的规模是非常巨大的。然而,当我们聚焦到一个个个体时,例如要对某个人进行相关推荐,我们经常会发现针对这一个体能够获取的数据非常少。为了能够更有效地进行挖掘工作,我们必须充分利用社会媒体的特性并且使用它的多维度、多资源和多站点数据,将信息整合并进行充分的统计分析。
获取足够的样本(Obtaining Sufficient Samples)。获取数据的一种常用技术手段是使用社会媒体站点提供的应用程序接口(Application Programming Interfaces,API)。我们每天获取到的数据是非常有限的。如果不知道人群的分布特点,如何才能知道我们的采样是可靠的,并且可以代表全体数据?又如何能够保证我们从社会媒体挖掘中得到的结论能够揭示真正的人类行为模式,进而促进我们的研究和商业开发?
噪声消除谬误(Noise Removal Fallacy)。在经典的数据挖掘文献中,一个成功的数据挖掘操作必须要有大规模数据预处理过程和去噪过程,以避免出现“垃圾数据输入,垃圾数据输出”这样的情况。由于社会媒体数据自身的一些特点,它包含了很大一部分噪声数据。对于社会媒体数据,我们注意到如下两个重要的观察结果:(1) 盲目地去除噪声数据会加剧大数据悖论问题,这是因为去噪的同时也会将有价值的信息过滤掉;(2) 对于噪声数据的定义是复杂且相对的,因为这取决于我们要完成什么样的任务。
评价困境(Evaluation Dilemma)。数据挖掘中常用的模式评价方法是收集准确、客观的数据用于验证。例如,一个数据集可以分成训练集和测试集。只有训练集被用来学习,而测试集则当作标准答案进行测试。然而,在社会媒体挖掘中往往没有一个标准的答案。如何评价从社会媒体中挖掘出来的模式,给我们提出了一个看似难以逾越的挑战。另一方面,如果没有可靠的评价手段,如何才能够保证我们挖掘出来的模式是正确的呢?
本书涵盖了一些基础概念和基本原理,它们将帮助读者思考和设计出可以解决社会媒体挖掘固有挑战的方案。
社会媒体挖掘 下载 mobi pdf epub txt 电子书 格式 2024
社会媒体挖掘 下载 mobi epub pdf 电子书好,经典图书,很有帮助,还没有看
评分不错,速度很快。质量也很好!好评!非常值得推荐!
评分很好的书,买回来督促自己学习
评分社会化媒体这个玩意。。。
评分在做社区发现 这本书不错
评分非常好的一本书哦哈哈哈
评分书已经收到了,不错
评分勉强好翻译
评分还可以,挺好的,书不错
社会媒体挖掘 mobi epub pdf txt 电子书 格式下载 2024