发表于2024-11-10
本书作者在多年研究传统数据集成的基础上,着重分析了大数据背景下的大数据集成。和传统的数据集成相比,大数据集成具有一些新的挑战,例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章,包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论,系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。
Xin Luna Dong(董欣), 2013年加入谷歌公司担任高级研究员,研究兴趣包括数据集成、数据清洗和知识管理。在加入谷歌之前,她是AT&T;实验室的研究员。董欣博士硕士毕业于北京大学,本科毕业于南开大学。
Divesh Srivastava AT&T;实验室数据库领域首席科学家.
丛书前言
译者序
前言
第1章 大数据集成的挑战和机遇1
1.1 传统数据集成2
1.1.1 航班示例:数据源2
1.1.2 航班示例:数据集成7
1.1.3 数据集成:体系结构和三个主要步骤10
1.2 大数据集成:挑战12
1.2.1 “V”维度13
1.2.2 案例研究:深网数据量15
1.2.3 案例研究:抽取的领域数据18
1.2.4 案例研究:深网数据的质量22
1.2.5 案例研究:浅网结构化数据25
1.2.6 案例研究:抽取的知识三元组28
1.3 大数据集成:机遇30
1.3.1 数据冗余性31
1.3.2 长数据32
1.3.3 大数据平台33
1.4 章节安排33
第2章 模式对齐34
2.1 传统模式对齐:快速导览35
2.1.1 中间模式35
2.1.2 属性匹配36
2.1.3 模式映射37
2.1.4 查询问答38
2.2 应对多样性和高速性的挑战39
2.2.1 概率模式对齐39
2.2.2 按需集成用户反馈52
2.3 应对多样性和海量性的挑战54
2.3.1 集成深网数据55
2.3.2 集成Web表格59
第3章 记录链接68
3.1 传统记录链接:快速导览69
3.1.1 两两匹配71
3.1.2 聚类72
3.1.3 分块74
3.2 应对海量性挑战76
3.2.1 使用MapReduce并行分块77
3.2.2 meta-blocking:修剪两两匹配83
3.3 应对高速性挑战88
3.4 应对多样性挑战95
3.5 应对真实性挑战100
3.5.1 时态记录链接100
3.5.2 具有唯一性约束的记录链接107
第4章 大数据集成:数据融合113
4.1 传统数据融合:快速导览114
4.2 应对真实性挑战116
4.2.1 数据源的准确度117
4.2.2 值为真的概率118
4.2.3 数据源之间的复制关系121
4.2.4 端到端的解决方案128
4.2.5 扩展性和适应性131
4.3 应对海量性挑战134
4.3.1 基于MapReduce框架做离线融合135
4.3.2 在线数据融合136
4.4 应对高速性挑战142
4.5 应对多样性挑战146
第5章 大数据集成:出现的新问题149
5.1 众包的角色149
5.1.1 利用传递关系150
5.1.2 众包端到端的工作流155
5.1.3 未来的工作158
5.2 数据源选择158
5.2.1 静态数据源160
5.2.2 动态数据源162
5.2.3 未来的工作166
5.3 数据源分析166
5.3.1 Bellman系统167
5.3.2 概述数据源170
5.3.3 未来的工作174
第6章 结论175
参考文献177
索引184
前言大数据集成是两大重要工作的结合:一个是相对较老的“数据集成”工作;另一个是相对较新的“大数据”工作。
只要存在人们要将多个数据集链接并融合起来以提升它们价值的情况,数据集成就必不可少。早在计算机科学家开始研究这一领域之前,统计学家们就已经取得了许多进展,因为他们迫切需要关联和分析随时间不断积累的普查数据集。数据集成具有很大的挑战性是由多种原因造成的,不仅仅因为我们表示现实世界中实体的方式多种多样。为了有效地应对这些挑战,在过去几十年里,数据集成研究者们已经在一些基础问题(如模式对齐、记录链接和数据融合),尤其是结构化数据的研究上,取得了巨大进步。
近年来,我们在将现实世界中的每个事件和交互都捕获成数字化数据方面的能力增长十分显著。伴随着这种能力的增长,我们渴望从这些数据中分析和抽取出价值,从而迎来了大数据时代。在大数据时代,数据的数量和异构性以及数据源的数目,都极大地增长了,而且许多数据源是非常动态的并且质量千差万别。不同数据进行链接和融合会使数据的价值爆炸性地增大,因而大数据要能使我们做出改变社会各方面的有价值的、数据驱动的决策,数据集成是关键。
大数据上的数据集成称为大数据集成。本书探讨数据集成研究界在应对大数据集成带来的新的挑战方面已经取得的进展。它的目的是可以作为研究者、从业者和学生想要了解更多关于大数据集成的一个起点。我们试图覆盖该领域内各种各样的研究问题和工作,但显然要全面覆盖这样一个动态发展的领域是不可能的。我们希望本书的读者能对这个重要领域有所贡献,帮助发展大数据的美好愿景。
致谢本书在成书过程中得到了许多人的帮助。衷心感谢Tamer?zsu邀请我们写这本书,感谢DianeCerra管理整个出版过程,并感谢PaulAnagnostopoulos制作本书。没有他们温和的提醒、定期的推动和提示编辑,本书的完成将花费长得多的时间。
本书的大部分内容从我们在以下学校开的讲习班和会议上做的大会报告演化而来,这些会议和学校包括:ICDE2013、VLDB2013、COMAD2013、苏黎世大学、ADC2014和BDA2014的博士学校。感谢许多同行在报告进行中或之后所给的建设性的反馈。
我们也想感谢许多合作者,他们多年来影响了我们对该研究领域的思考和理解。
最后,感谢我们的家人,他们持续的鼓励和爱的支持使所有的付出更加值得。
XinLunaDong和DiveshSrivastava2014年12月
大数据集成 下载 mobi pdf epub txt 电子书 格式 2024
大数据集成 下载 mobi epub pdf 电子书印刷质量非常不错,物美价廉
评分学习一下大数据的知识,条理很清晰。
评分拿到书真的震惊了,这也太薄了。除了参考文献只有125页,还有几页的概述。这就值60块?微博上介绍的很热闹,本来很期待,太让人失望了。
评分还行吧。书的质量一般般,内容感觉也是东拼西凑的。
评分买来学习下,双十一活动价格还不错~~~~~~~
评分以后肯定是数据的天下,必须了解
评分到货速度挺快的,还没有来得及看
评分拿到书真的震惊了,这也太薄了。除了参考文献只有125页,还有几页的概述。这就值60块?微博上介绍的很热闹,本来很期待,太让人失望了。
评分大数据管理丛书之一 主打信息挖掘 值得学习
大数据集成 mobi epub pdf txt 电子书 格式下载 2024