商品参数
| 大数据原理:复杂信息的准备、共享和分析 | ||
| 定价 | 79.00 | |
| 出版社 | 机械工业出版社 | |
| 版次 | 1 | |
| 出版时间 | 2017年07月 | |
| 开本 | 16 | |
| 作者 | 朱尔斯 J. 伯曼 | |
| 装帧 | ||
| 页数 | ||
| 字数 | ||
| ISBN编码 | 9787111572169 | |
| 重量 | ||
当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。
第0章 引言1
0.1 大数据的定义2
0.2 大数据VS小数据2
0.3 大数据在哪里4
0.4 大数据zui常见的目的是产生小数据5
0.5 机会6
0.6 大数据成为信息宇宙的中心6
第1章 为非结构化数据提供结构8
1.1 背景8
1.2 机器翻译9
1.3 自动编码11
1.4 索引14
1.5 术语提取16
第2章 标识、去标识和重标识19
2.1 背景19
2.2 标识符系统的特征20
2.3 注册唯1对象标识符21
2.4 糟糕的标识方法24
2.5 在标识符中嵌入信息:不推荐25
2.6 单向哈希函数26
2.7 案例:医院登记27
2.8 去标识化28
2.9 数据清洗29
2.10 重标识30
2.11 经验教训31
第3章 本体论和语义学32
3.1 背景32
3.2 分类:zui简单的本体32
3.3 本体:有多个父类的类34
3.4 分类模型选择35
3.5 资源描述框架模式简介38
3.6 本体开发的常见陷阱40
第4章 内省42
4.1 背景42
4.2 自我认知42
4.3 可扩展标记语言44
4.4 meaning简介45
4.5 命名空间与有意义的声明集合体46
4.6 资源描述框架三元组47
4.7 映射49
4.8 案例:可信时间戳50
4.9 总结50
第5章 数据集成和软件互操作性52
5.1 背景52
5.2 调查标准委员会53
5.3 标准轨迹53
5.4 规范与标准56
5.5 版本控制58
5.6 合规问题60
5.7 大数据资源接口60
第6章 不变性和永jiu性62
6.1 背景62
6.2 不变性和标识符63
6.3 数据对象64
6.4 遗留数据65
6.5 数据产生数据67
6.6 跨机构协调标识符67
6.7 零知识协调68
6.8 管理者的负担69
第7章 测量70
7.1 背景70
7.2 计数70
7.3 基因计数72
7.4 处理否定73
7.5 理解控制74
7.6 测量的实践意义75
7.7 强迫症:伟大数据管理员的标志76
第8章 简单有效的大数据技术77
8.1 背景77
8.2 观察数据78
8.3 数据范围85
8.4 分母87
8.5 频率分布89
8.6 均值和标准差92
8.7 估计分析94
8.8 案例:用谷歌Ngram发现数据趋势95
8.9 案例:预测观众的电影偏好97
第9章 分析99
9.1 背景99
9.2 分析任务99
9.3 聚类、分类、推荐和建模100
9.3.1 聚类算法100
9.3.2 分类算法101
9.3.3 推荐算法101
9.3.4 建模算法101
9.4 数据约简103
9.5 数据标准化和调整105
9.6 大数据软件:速度和可扩展性107
9.7 寻找关系而非相似之处108
第10章 大数据分析中的特殊注意事项111
10.1 背景111
10.2 数据搜索理论111
10.3 理论搜索中的数据112
10.4 过度拟合113
10.5 巨大的偏差113
10.6 数据太多116
10.7 数据修复116
10.8 大数据的数据子集:不可加和不传递117
10.9 其他大数据缺陷117
第11章 逐步走进大数据分析120
11.1 背景120
11.2 步骤1:制定一个问题120
11.3 步骤2:资源评价121
11.4 步骤3:重新制定一个问题121
11.5 步骤4:查询输出充分性122
11.6 步骤5:数据描述122
11.7 步骤6:数据约简123
11.8 步骤7:必要时选择算法123
11.9 步骤8:结果评估和结论断言124
11.10 步骤9:结论审查和验证125
第12章 失败127
12.1 背景127
12.2 失败很常见128
12.3 失败的标准128
12.4 复杂性131
12.5 复杂性何时起作用132
12.6 冗余失败的情况132
12.7 保护钱,不保护无害信息133
12.8 失败之后134
12.9 案例:癌症生物医学信息学网格—遥远的桥135
第13章 合法性140
13.1 背景140
13.2 对数据的准确性和合法性负责140
13.3 创建、使用和共享资源的权利141
13.4 因使用标准而招致的版权和专利侵权行为143
13.5 对个人的保护144
13.6 许可问题145
13.7 未经许可的数据148
13.8 好政策是有力保障150
13.9 案例:哈瓦苏派的故事151
第14章 社会问题153
14.1 背景153
14.2 大数据感知153
14.3 数据共享155
14.4 用大数据降低成本和提高生产效率158
14.5 公众的疑虑160
14.6 从自己做起161
14.7 傲慢和夸张162
第15章 未来164
15.1 背景164
15.1.1 大数据计算复杂,需要新一代超级计算机?165
15.1.2 大数据的复杂程度将超出我们完全理解或信任的能力范围?166
15.1.3 我们需要用超级计算中的zui新技术训练出一支计算机科学家组成的团队吗?166
15.1.4 大数据会创建出那些目前没有训练程序的新型数据专业人员吗?166
15.1.5 是否有将数据表示方法通过统一的标准规范化,从而支持跨网络大数据资源的数据集成和软件互操作性的可能?169
15.1.6 大数据将向公众开放?169
15.1.7 大数据弊大于利?170
15.1.8 我们可以预测大数据灾难会破坏至关重要的服务、削弱国家经济、破坏世界政治的稳定吗?171
15.1.9 大数据可以回答那些其他办法不能解决的问题吗?171
15.2 后记171
术语表172
参考文献188
索引196
评价二: 拿到这本《正版 大数据原理 复杂信息的准备 共享和分析 单向哈希函数 建模算法 自我认知 可扩展标》,我脑子里立刻浮现出很多问题。首先,“复杂信息的准备”这块,究竟怎么个“复杂”法?是不是涉及到非结构化数据,比如文本、图像、音频,如何从中提取有用的信息?我一直觉得文本分析是大数据中最具挑战性的部分之一,如何做到情感分析、主题提取,并且保证其准确性?“共享”环节,我更关心的是数据治理和安全方面。在大数据环境下,如何建立一套权限管理体系,确保敏感数据不泄露,同时又能方便合法用户访问?书中会不会介绍分布式文件系统,比如HDFS,以及它们在数据共享中的作用?“分析”部分,我希望看到的是一些实用的案例,而不是空泛的理论。比如,零售行业如何利用大数据分析用户行为,进行精准营销;金融行业如何用大数据风控,防范欺诈;医疗行业如何通过大数据辅助诊断。关于“单向哈希函数”,我猜测它在这里的应用可能与数据去重、索引构建、或者数据完整性校验有关,比如,在海量数据存储时,如何快速找出重复数据,或者如何验证某个数据块是否被修改过。至于“建模算法”,这绝对是大数据分析的核心,我希望书中能详细讲解几种主流的建模方法,并对比它们的优缺点,例如,逻辑回归、决策树、随机森林、梯度提升树等等,希望能看到它们在不同场景下的适用性分析。而“自我认知”这个概念,在技术书中出现,让我感到非常新奇,它会不会是指在大数据分析过程中,系统能够自我学习、自我优化,甚至自我修复的能力?这听起来有点像人工智能的范畴了。最后一个词“可扩展标”,我推测是与大数据平台的性能监控和评估指标有关,在大规模分布式环境下,如何设计一套能够有效衡量平台性能、容量、稳定性的指标体系,并且这些指标本身也要具备可扩展性,能够适应不断增长的数据量和用户请求。总的来说,这本书的标题很吸引人,涵盖的知识点也很全面,希望它能提供一些我之前没有接触过的、或者能让我豁然开朗的知识点。
评分评价三: 我一直对那些能够解决实际问题的技术书籍情有独钟,《正版 大数据原理 复杂信息的准备 共享和分析 单向哈希函数 建模算法 自我认知 可扩展标》这个名字,就带有一种务实的气息。我想象中的“复杂信息的准备”,应该不仅仅是数据的清洗和格式转换,更可能包含了如何从各种异构、非标准化的数据源中提取有意义的信息,比如,如何处理日志文件、网络抓包数据、社交媒体信息等,这些信息往往是零散且难以直接利用的。“共享”部分,我想知道它会如何深入讲解分布式存储技术,比如HDFS,以及如何在保证数据安全和隐私的前提下,实现高效的数据流通,是不是会涉及到权限控制、数据加密等技术细节。数据分析是大数据价值的核心,我非常期待它能在“建模算法”这块给出详尽的介绍,特别是那些能够处理高维稀疏数据、或者具有时间序列特性的算法。书中会不会涉及到一些图算法,用于分析社交网络、推荐系统等场景?“单向哈希函数”这个点,我猜想它在书中可能与数据索引、数据完整性校验、或者安全验证等方面的应用有关,比如,如何利用哈希函数快速查找数据,或者如何确保数据在传输过程中不被篡改。而“自我认知”这个词,放在大数据技术体系中,让我觉得非常超前。它会不会是指大数据平台具备某种程度的“智能”,能够自动监测自身运行状态,发现潜在问题,并进行自我调整和优化?例如,在负载过高时自动扩展资源,或者在检测到异常时发出预警。最后一个“可扩展标”,我理解它可能是指在大数据环境中,如何设计和实现一套能够灵活适应数据量和业务增长的度量体系,不仅仅是存储和计算能力的扩展,也包括分析模型和指标本身的扩展性。这本书的标题很长,但每一个词都像是精准的点出了大数据领域中的某个重要环节,我非常想通过它来系统地理解大数据处理的每一个细节,特别是那些能够提升效率、保证安全、挖掘深层价值的关键技术。
评分评价一: 这本书的封面和标题总让我想起大学时期的那些经典教材,那种厚重、严谨的感觉扑面而来。“大数据原理”,光听名字就觉得内容肯定很扎实,讲的是最基础、最核心的东西。我特别好奇它在“复杂信息的准备、共享和分析”这部分是如何阐述的。信息爆炸的时代,如何把海量、无序的数据变得有条理,并且能有效地在不同系统、不同团队之间传递,这其中的技术难点和解决方案,绝对是值得深入探讨的。我猜想,它可能会从数据的采集、清洗、预处理开始,详细介绍各种格式的数据如何被统一,如何构建高效的数据管道,以及在共享过程中可能遇到的安全和隐私问题。分析部分,更是大数据价值的体现,不知道书中会涉及哪些经典的分析模型和算法,是会侧重于统计学的方法,还是会引入机器学习的视角?单向哈希函数这个词也很有意思,它通常与数据安全和完整性校验有关,放在大数据背景下,是如何应用的?是用于数据的快速索引,还是防止数据被篡改?建模算法听起来就很吸引人,大数据分析的最终目的就是要构建能够揭示规律、预测未来的模型,书中会介绍哪些模型?决策树?支持向量机?还是更前沿的深度学习模型?“自我认知”这个词在技术书籍中出现,着实让我眼前一亮。这会不会是指在处理大数据过程中,系统本身对自身状态、性能的“认知”和调整能力?或者是指如何通过大数据来帮助我们更深入地理解事物,甚至理解我们自身?“可扩展标”这个词我就有点陌生了,但结合“大数据”,我猜想它可能指的是在大规模数据处理系统中,如何设计和实现能够随着数据量增长而线性或准线性扩展的指标体系。这对于评估和监控大数据平台的性能至关重要。总而言之,这本书的标题给我一种“大而全”的印象,它似乎涵盖了大数据从底层技术到上层应用,再到系统运维的方方面面,我非常期待它能提供一套系统性的、深入的解答。
评分评价五: 当我看到《正版 大数据原理 复杂信息的准备 共享和分析 单向哈希函数 建模算法 自我认知 可扩展标》这本书的名字时,我的脑海里立刻涌现出一系列关于大数据核心要素的疑问。首先,“复杂信息的准备”这个部分,我预设它会深入讲解如何处理海量的、异构的、甚至是低质量的数据,比如如何进行数据清洗、去重、标准化,以及如何从非结构化数据(如文本、图片、视频)中提取有用的信息,这涉及到很多NLP、CV等技术。接着,“共享”这个环节,我特别关注的是数据治理和安全问题。在大数据时代,数据共享是必然趋势,但如何保证数据的安全、合规、可控地共享,比如在隐私保护方面,书中是否会介绍差分隐私、联邦学习等技术?“分析”部分,这是大数据最能体现价值的地方,我希望它能详细介绍各种分析方法和模型,比如如何进行用户画像、市场细分、风险评估等。尤其我对“建模算法”的部分非常感兴趣,我想知道它会讲解哪些经典的算法,以及在大数据量下如何高效地应用这些算法,是否会涉及分布式机器学习框架?“单向哈希函数”这个词,在我看来,它可能在大数据领域有多种应用,比如用于数据的快速查找、去重、索引,甚至在分布式系统中用于数据分区和负载均衡。而“自我认知”这个概念,放在一个技术书籍中,真的让我眼前一亮。它会不会是指大数据系统能够具备某种程度的“智能”,能够主动监测自身的运行状态,识别潜在的瓶颈和风险,并进行自我优化和调整,例如,资源动态调度、性能自动调优等。“可扩展标”这个词,我猜测它可能与大数据平台的性能评估和监控体系有关,如何设计一套能够随着数据规模和业务复杂度的增长而不断演进和扩展的指标体系,以确保平台的稳定性和效率。这本书的标题很长,但每一个词都精准地指向了大数据技术体系中的一个关键点,我非常期待它能为我提供一个完整、深入的认知框架,帮助我理解大数据从准备到分析的全过程,以及其中涉及到的前沿技术和理念。
评分评价四: 这本书的题目《正版 大数据原理 复杂信息的准备 共享和分析 单向哈希函数 建模算法 自我认知 可扩展标》吸引我的地方在于,它不像很多市面上的大数据书籍那样只关注某个单一的技术点,而是试图从一个更宏观、更系统的角度来阐述大数据。“复杂信息的准备”,我猜想它会详细介绍如何处理各种非结构化和半结构化数据,比如自然语言处理、图像识别、语音识别等技术是如何在大数据背景下应用的,以及如何将这些技术产生的结构化结果进行整合。“共享”部分,我想了解它会如何探讨数据安全和隐私保护,在大数据时代,个人信息和企业数据都变得异常宝贵,如何建立有效的安全机制,防止数据泄露和滥用,这是非常关键的。“分析”部分,我希望看到的是如何将大数据转化为可操作的洞察,书中会不会介绍各种分析技术,比如关联分析、聚类分析、异常检测,以及它们在不同行业中的应用案例。而“单向哈希函数”这个技术点,我好奇它在书中是被用来做什么的。它在密码学中常用于生成指纹,在大数据场景下,它是否可能被用于数据的快速去重、索引构建,或者在分布式系统中用于一致性哈希的实现?“建模算法”则是我特别关注的部分,大数据分析的最终目的往往是通过构建模型来进行预测和决策,我希望书中能详细介绍一些经典的机器学习和深度学习算法,并提供它们在处理大数据时的注意事项和优化方法。“自我认知”这个概念,放在一个技术书中,非常引人遐想。它会不会是指大数据系统能够对自身的性能、资源使用情况进行实时监控和反馈,并且能够根据这些信息进行自我优化和调整?这听起来像是智能运维的范畴。“可扩展标”,这个词让我觉得非常有想象空间,它会不会是指在大数据平台中,如何设计一套能够随着数据量和业务需求的增长而不断扩展的度量和评估体系,以确保系统的长期稳定运行和性能优化。总而言之,这本书的标题非常全面,它所包含的每一个关键词都指向了大数据领域的核心问题,我期待它能提供一套全面而深入的解答,帮助我更好地理解大数据技术体系的构成和运作。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.teaonline.club All Rights Reserved. 图书大百科 版权所有