内容简介
《大数据时代的科研活动》由国际科技数据委员会(CODATA)中国全国委员会编著,旨在揭示科研活动在大数据时代所表现出的新特点、在研究方法和模式上的变化,以及这些变化对数据技术、基础设施、政策、人才等各方面提出的挑战和需求。全书主要介绍所需要的关键数据技术以及数据科学、数据政策的发展现状和态势,为我国有关政府部门在制定相关科技发展战略和行动计划时提供参考性建议。
内页插图
目录
序
前言
概述
引言
第一部分 以数据为核心的科研活动
导言
一、高能物理中的数据和挑战
二、数据密集型时代的天文学
三、大数据时代的空间科学数据应用环境
四、大数据时代的对地观测科学研究
五、大数据时代的生物多样性研究和应用
六、大数据时代微生物学研究新趋势——数据的整合和应用
七、大数据时代的生物医学及其面临的隐私保护问题
八、大数据与社会计算
九、大数据背景下的经济管理与金融研究
第二部分 大数据时代支撑科研的共性技术
导言
一、科学数据获取的新方式
二、发展科研网络,提升科研大数据传输能力
三、大数据存储与处理技术
四、科学数据管理技术的新进展
五、科学数据与文献的互操作
六、大数据挖掘
七、大数据时代面向科学研究的可视化
第三部分 大数据时代的数据科学
导言
一、数据科学发展与展望
二、数据政策的发展
展望和建议
附录1 编写人员
附录2 编写历程
精彩书摘
(三)挑战
已有大量关于大数据和数据密集型科学研究变革潜力的论文发表,但机遇并不容易成为现实,还有众多的挑战和难题需要解决。这些挑战和难题是多方面的,既有技术、基础设施、政策和法律方面的,也有机构、人才和文化等方面的。
1.技术挑战
大数据的3V特征使得从数据中创造价值存在阻碍,关键的技术挑战包括更好、更高效地传输、存储、管理、分析和可视化这些数据。
1)数据传榆
随着数据集变大,用传统的数据传输协议很难低成本、高效地传输数据。当要传输的数据达到上百TB时,目前最快速且便宜的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。此外,联网观测、大科学装置实时控制、协同分析等大量的科研应用在传输速度、可靠性和服务质量保证方面也都有高于一般商业应用的特别需求。数据的指数级增长和科研应用的特殊需求已经很大程度地改变了现有网络体系结构和应用方式,但如何保证海量数据以较低的成本、高速(有的应用要求是实时或准实吋)、高可靠地传输仍然是棘手的问题,需要从物理层到应用层、从网络控制管理到专用传输协议进行技术创新和研发。
2)数据存储
数据的爆炸式增长和越来越多的数据密集型计算使得存储系统在容量、扩展能力、传输瓶颈等方面都面临着挑战。此外,数据库存储结构、数据长期保存’等方面也需要进行技术攻关。
存储能力增长的速度赶不上数据的增长,设计合理的、具有较好扩展能力的存储系统架构是海量数据存储系统的关键问题之一.低成本、分布式、可橫向扩展的存储架构成为研究的热点,出现了集群存储、云存储等技术和相关解决方案。不过它们也都面临着一些挑战,比如如何降低存储开销并保证数据的可靠性‘”‘5T。
计算机系统的计算能力与其存储子系统访问性能之间的差距长期存在,随着多核处理器、多线程技术的广泛使用,这一差距进一步加大,计算速度和存储速度不匹配所形成的“存储墙”成为计算机系统近些年面临的一个严重问题‘“’。在产生大量数据的仿真和模拟中,大多数的计算结果从未保存,只有周期性存储的快照可用于分杆”数据密集型计算同样也提出了挑战,目前海量数据的分析严重受限于存储系统相对较低的。性能,一旦数据集超出计算平台随机存取存储器(RAM)的能力,多层高速缓存的本地化也难再发挥作用”。
……
前言/序言
经过两年多的调研和研讨,编写委员会举办了4次大型专题研讨会议,针对本研究报告中的每一篇文章进行了多次推敲和修改后,《大数据时代的科研活动》终于完成。可以说,研究报告只是我们编写成员当前的认识水平。我们相信,随着大数据应用服务的深入以及数据密集型科研活动实践的不断开展,人们对这一现象和问题会有新的思考和看法。
本报告作为中国科学院国际组织人才团队及中国委员会支持计划资助的项目一一“CODASTA中国全国委员会国际合作与可持续发展”的成果之一,在编写的过程中得到了中国科学院国际合作局国际组织处和中国科学院信息化工作领导小组办公室信息化工作处等单位的全力支持,并得到了国际科技数据委员会Data for Scienceand.Technology,CODAA)中国全国委员会各位委员的指导。参与本报告编写的成员来自中国科学院各研究所以及国内著名高校,他们在繁忙的工作之余参与报告的研究和编写工作,付出了辛勤的劳动。在此,我们一并表示感谢.
CODAZA是国际科学联合会(International C0mcil for Science,ICSU)于1966年成立的一个跨学科的科学委员会,是科技数据领域的国际权威学术机构。在其近50年的历史中,CODATA一直致力于推动科技数据在全球范围的广泛共享与应用,并不遗余力地在全球范围内倡导数据科学,以促进科技发展和造福人类。我国于20世纪80年代加入CODArrA,并以中国科学院牵头,成立了CODAIA中国全国委员会,委员来自于国内各研究院所、高校和相关政府部门。近年来,得益于我国科技数据共享和科研信息化等工作的深入推进,我国科学家在ArA中的影响和作用曰益加大。我们相信,未来无论对CODAZA的发展还是对数据科学的发展,中国科学家都将能起到更大的作用。
期望本研究报告对科研人员认识大数据以及即将或已经到来的新型科研模式有所帮助,对科研工作的管理者和政府相关部门进行决策具有一定的参考价值。
CODATA中国全国委员会副主席
黄向阳
2013年7月
好的,这是一份针对图书《大数据时代的科研活动》的、内容详实且避免提及该书本身的图书简介。 --- 《数据洪流与认知前沿:当代科学发现的新范式》 简介 在二十一世纪的第二个十年,我们正目睹一场深刻的、颠覆性的科学范式转移。这场转变的核心驱动力,并非单一的理论突破,而是一种全新的物质基础——海量、多样化、高速生成的数据流。本书并非聚焦于某一特定学科的理论进展,而是深入剖析了这种“数据洪流”如何重塑了整个科学发现的流程、方法论以及知识的组织与传播方式。它是一部关于当代科学实践形态变迁的深度观察报告,旨在为研究人员、政策制定者以及所有关注科学未来的人士提供一个清晰的认知框架。 本书的叙事线索围绕“数据化生存”在学术领域中的具体体现展开。它首先描绘了信息爆炸时代的图景,指出传统依赖于小样本实验和线性逻辑推理的研究模式,已逐渐被基于大规模观测和模式识别的新范式所挑战。我们不再仅仅是收集数据来验证既有假设,而是越来越多地面临“如何从数据中发现未知问题”的挑战。这种转变,要求研究者具备前所未有的计算素养和跨学科整合能力。 第一部分:基础设施与方法论的重构 本部分详尽考察了支撑当代科学研究的“硬核”基础设施。它摒弃了对具体工具集的罗列,转而探讨支撑“大计算”范式的核心要素的演进。 1. 计算资源的民主化与集中化悖论: 深入分析了云计算平台、高性能计算集群(HPC)以及分布式存储系统如何共同构建了一个既允许个人研究者进行复杂模拟,又使得极少数机构垄断尖端算力资源的复杂生态。本书着重探讨了这种资源分配结构对研究方向选择、合作模式乃至科研成果公平性的深远影响。 2. 实验与模拟的界限消融: 传统上,科学研究被清晰地划分为理论、实验和模拟三个环节。然而,本书论证了如今的界限已变得模糊。例如,在气候科学、高能物理和基因组学领域,模拟不再仅仅是理论的附庸,而是生成了大量可供“回溯分析”的虚拟观测数据。我们探讨了如何利用这些高保真模拟数据来指导实际的实验设计,形成一种动态反馈回路。 3. 新型数据驱动方法的兴起: 本书审视了那些依赖于海量样本进行归纳推理的方法论进步。重点讨论了诸如拓扑数据分析(TDA)、因果推断框架在观测数据分析中的应用,以及如何处理时间序列数据的内在复杂性和非平稳性。这部分强调了从“基于模型”到“基于数据”的思维转换,以及由此带来的统计学和哲学层面的反思。 第二部分:知识生产与协作模式的进化 科学的本质在于知识的生产与传播。本部分将目光聚焦于这些核心活动如何因数据和连接性的增强而发生结构性变化。 1. 开放科学的实践与张力: 开放获取(Open Access)和预印本(Preprint)服务器的普及,极大地加速了知识的流通速度,但也对传统的同行评审机制构成了严峻挑战。本书细致分析了这种加速带来的机遇——快速迭代、早期反馈——以及随之而来的风险,如信息的碎片化和“噪音”的增加。我们考察了不同学科群体对知识共享态度的差异,以及围绕数据和代码可复现性的伦理讨论。 2. 跨领域协作的新形态: 当代许多重大科学问题(如可持续发展、复杂疾病机理)已无法仅凭单一学科知识解决。本书探讨了如何通过数据接口和共享平台,促成物理学家、计算机科学家、生物学家乃至社会学家之间的深度集成。我们分析了“数据科学家”这一新角色的出现,以及他们如何充当不同知识体系之间的“翻译官”和“连接器”。 3. 研究评估体系的适应性: 随着研究成果的形式日益多样化——从传统论文到可执行代码库、大型数据集、交互式可视化工具——传统的“引用次数”评估标准开始显得捉襟见肘。本书探讨了学术界正在探索的替代性评估指标,例如对数据策展(Data Curation)的认可,以及对软件贡献的量化方法,反思了如何激励高质量、可持续的科研基础设施建设。 第三部分:伦理、治理与人才培养的未来图景 数据驱动的科研范式带来了巨大的潜力,同时也引发了一系列深刻的社会和治理问题。 1. 数据主权与隐私保护的边界: 随着传感器、物联网设备和社交媒体产生的数据越来越多地被用于公共研究目的,数据所有权、知情同意权以及去标识化(Anonymization)的有效性受到了前所未有的审视。本书深入探讨了生物医学数据、环境监测数据在跨国研究中的治理难题,以及如何平衡数据利用的最大化与个人隐私保护的刚性要求。 2. 算法偏见与科学的客观性: 当分析工具本身是由历史数据训练而成时,它们不可避免地会继承和固化历史上的偏见或系统性缺失。本书批判性地审视了“黑箱模型”在科学解释中的角色,并讨论了如何通过提高模型的可解释性(Explainability)和建立多视角数据验证机制,来维护科学研究的客观性和公正性。 3. 新一代研究者的能力画像: 面对这一新环境,未来的科学家需要哪些核心素养?本书勾勒出下一代研究者的画像:他们不仅需要深厚的专业知识,更需具备强大的计算思维、数据伦理敏感度,以及高效的跨文化沟通能力。我们检视了当前教育体系在培养这些技能方面存在的差距,并提出了一些前瞻性的改革建议。 结语:走向审慎的乐观主义 《数据洪流与认知前沿:当代科学发现的新范式》最终得出的结论是审慎的乐观。数据洪流为人类理解自然与社会复杂性提供了前所未有的工具,使得过去遥不可及的科学目标开始显现。然而,这种力量需要被智慧和责任感所驾驭。本书旨在提供一个全面的、批判性的视角,引导读者超越对技术的盲目崇拜,真正理解这场科学范式转移背后的深层含义及其对人类认知边界的拓展作用。它不是一部操作手册,而是一份时代性的思想地图,指引我们在数据编织的新世界中,更有效地探索真理。