内容简介
《普通高等教育“十二五”规划教材·名校名师系列:化学信息学(第3版)》介绍了Intcrnet上化学资源的使用方法,并对化学信息学方法及其在化学、生物化学、药物化学等领域中的应用进行了详细论述。本书共10章,包括联机文献检索、网络图书与网络期刊、数据库资源、化学信息资源查询、化学信息的计算机表示与建模、计算机辅助结构解析与合成设计、分子模拟、进化计算与优化算法、小波分析、多元校正与因子分析。
本书可供高等学校化学、化工、生物化学、药物化学以及相关专业的师生和广大科技工作者参考阅读。
内页插图
目录
第三版前言
第二版前言
第一版前言
第1章 联机文献检索
1.1 美国化学文摘
1.1.1 美国化学文摘和SciFinder简介
1.1.2 SciFinder的著录内容与格式
1.1.3 SciFinder的功能与使用方法
1.2 web of Science
1.2.1 Web of Science简介
1.2.2 Web of Science的著录内容与格式
1.2.3 Web of Science的功能与使用方法
1.2.4 ISI WebofKnowledge的其他功能
1.3 Ei Village
1.3.1 Ei Village简介
1.3.2 Ei Village的著录内容与格式
1.3.3 Ei Village的功能与使用方法
1.4 期刊全文数据库
1.4.1 Science Direct
1.4.2 ACS Publications
1.4.3 RSC Publishing
1.4.4 Springer link
1.4.5 Wi1ey Online library
1.5 国内学术期刊数据库
1.5.1 CNKI
1.5.2 中文科技期刊数据库
1.5.3 万方数据知识服务平台
1.6 其他文献检索系统简介
1.7 专利文献查询
1.7.1 专利文献数据库
1.7.2 专利文献检索
上机训练与习题
第2章 网络图书与网络期刊
2.1 网上图书馆
2.1.1 图书馆主页
2.1.2 www虚拟图书馆
2.2 网上书店
2.3 网络期刊
2.4 数字化图书
2.5 出版商主页
上机训练与习题
第3章 数据库资源
3.1 晶体结构数据库
3.1.1 剑桥结构数据库
3.1.2 蛋白质数据库
3.1.3 核酸数据库
3.2 波谱数据库
3.2.1 NIST Chemislry Web Book
3.2.2 化合物谱图数据库
3.3 网上化学手册
3.3.1 化学元素周期表
3.3.2 化合物基本性质数据库
3.3.3 物理化学常数
上机训练与习题
第4章 化学信息资源查询
4.1 查询
4.2 导航
4.3 ChIN简介
4.4 商业信息
4.5 化学机构信息
上机训练与习题
第5章 化学信息的计算机表示与建模
5.1 化合物结构编码
……
第6章 计算机辅助结构解析与合成设计
第7章 分子模拟
第8章 进化计算域优化算法
第9章 晓波分析
第10章 多元化正与因子分析
主要参考文献
精彩书摘
第1章 联机文献检索
通过Internet进行文献联机检索是指通过联机方式,根据用户提供的信息(关键词、作者等)给出相关的文献信息,如论文题目、期刊名称、卷、页、摘要甚至全文。 目前已有许多文献检索系统,如web of Science、美国化学文摘(CA)以及一些专业性更强的专业文献系统。
访问这些文献系统一般有两种方式,即远程登录和www浏览,目前主要以www方式为主。对于免费系统,可从Internet或通过其他途径得到有关信息,自由地使用;但对于收费系统,只有在交费后得到有关的账号和密码才能获得使用权限。目前一般是由所在单位统一订阅供本单位的用户使用。
1.1 美国化学文摘
1.1.1 美国化学文摘和SciFinder简介
美国化学文摘(Chemical Abstract,简称CA)是由美国化学会(American Chemical Society)化学文摘服务社(Chemical Abstract Service,简称CAS)于1907年创办的文摘系统。开始以印刷版出版发行,1967年以前,每半月一期,每年一卷,后来改为每周一期,每年两卷。随着计算机和Internet的发展,逐步形成了光盘版(CA on CD)和网络版。
CA的主要特点是它的文摘详细、客观地报道化学化工文献,文摘质量高,不加任何评论,报道的内容包括文献的研究目的和范围,新化学反应、化合物、材料、工艺、程序、工具和资源,新知识的应用,以及观察的结果和作者的解释与结论;收录的范围广泛,系统、全面地收录世界上化学化工方面98%的文献,其中7。%的文献来自美国以外的国家和地区,共收录15。多个国家或国际组织的56种文字出版的14000余种出版物,包括期刊文献、会议文献、专利文献、学位论文、图书文献和科技报告等;另外,CA的使用非常方便,在印刷版中有各种卷索引、五年累积索引、十年累计索引、八十年累积索引等。CA的全部文献分为5部分8。类,其中生物化学部分为1-20类,有机化学部分为21-34类,大分子部分为35-46类,应用化学与化学工程部分为47-64类,物理化学、无机化学和分析化学部分为65-80类。所收录的文摘按类别编排,每一个文摘拥有一个文摘号。
CA的电子出版物始于1969年,当时的计算机发展水平还比较落后,采用磁带作为记录载体,但实现了化学文献的自动、高效检索,推动了文献检索的发展。随着计算机水平的提高,采用了光盘作为记录材料,形成了CA的光盘版,即CA On CD。CA的网络版则是随着Internet的发展而建立起来的新的文献检索方式,先后开发了基于客户端软件的SCiFinder Scholar和基于网络访问的SciFinder web版。2012年底,SciFinder Scholar的客户端服务已经停止,目前主要是通过SciFinder Web版进行服务。光盘版和网络版的使用给化学文献的检索提供了更为方便的方式,不仅检索方式灵活多样。
……
前言/序言
化学生物信息学导论:整合基因组学与蛋白质组学前沿研究 本书概述: 本教材聚焦于当前生命科学研究中最具活力和前沿性的交叉学科领域——化学生物信息学(Chemical Biology Informatics)。它系统性地梳理了从基础的化学结构信息处理到复杂的生物大分子(蛋白质、核酸)数据挖掘、再到高通量筛选和药物设计等核心应用的全貌。本书旨在为学习者提供一套坚实的理论框架和实用的计算工具箱,使其能够有效地整合化学信息学与系统生物学、基因组学及蛋白质组学的最新进展。全书内容深度与广度兼顾,侧重于如何利用先进的计算方法解决生命科学研究中的实际瓶颈问题。 第一部分:化学信息学基础与数据表示 第一章:化学信息学的基石与发展脉络 本章首先阐述化学生物信息学的定义、学科范畴及其在现代生物医学研究中的战略地位。我们将回顾该领域从早期的分子结构数据库构建到如今基于人工智能的复杂系统建模的发展历程。重点讨论化学信息学与计算化学、生物信息学的交叉融合点,特别是其在药物发现流程中的核心价值体现。 第二章:分子表示与描述符的构建 精确的分子表示是后续计算分析的前提。本章深入探讨分子结构的三维(3D)与拓扑(2D)表示方法。内容涵盖: 1. 结构化数据格式: 详细介绍 SMILES(Simplified Molecular Input Line Entry System)、InChI(International Chemical Identifier)以及 MOLfile 等标准格式的编码原理、优缺点及相互转换机制。 2. 分子指纹(Molecular Fingerprints): 详述基于结构片段的指纹(如 Path/Circular Fingerprints)和基于物理化学性质的描述符(如 Mismatch/Topological Indices)。阐释如何设计和选择最适合特定预测任务的描述符集合。 3. 三维结构描述: 讨论如何通过几何描述符(如距离矩阵、扭转角)和能量学描述符来捕捉分子构象信息,并介绍描述符的降维处理技术(如 PCA)。 第三章:化学数据库的组织与检索 本章侧重于大规模化学数据的管理与高效访问技术。我们将分析商业数据库(如 Reaxys, SciFinder)和公共资源(如 PubChem, ChEMBL)的结构特点,并探讨构建定制化化学信息学知识库的策略。重点内容包括: 1. 数据库索引技术: 介绍子结构搜索(Substructure Searching)、相似性搜索(Similarity Searching)和全结构匹配的算法实现(如基于树的索引和签名方法)。 2. 数据质量控制(DQC): 讨论如何识别和清洗化学结构数据中的错误、冗余和不一致性条目,确保输入数据的可靠性。 第二部分:生物大分子数据处理与分析 第四章:序列信息学基础:从DNA到蛋白质 本部分将视角转向生命科学核心——生物大分子。本章系统介绍生物序列数据的获取、存储和基本操作。 1. 序列比对算法: 深入解析全局比对(Needleman-Wunsch)和局部比对(Smith-Waterman)算法的动态规划原理,以及BLAST等启发式搜索工具的应用。 2. 统计模型: 介绍隐马尔可夫模型(HMM)在蛋白质家族识别和序列预测中的应用,重点讲解如何构建和训练HMM。 3. 序列特征提取: 讨论如何从氨基酸序列中提取氨基酸组成、疏水性分布等特征,作为后续机器学习模型的输入。 第五章:蛋白质结构信息学与建模 蛋白质的三维结构决定其功能,本章集中讨论结构信息的计算处理。 1. 结构预测方法概述: 比较同源建模(Homology Modeling)、折叠识别(Fold Recognition)和从头计算(Ab Initio)的理论基础和适用范围。 2. 结构比对与相似性: 讲解蛋白质结构比对的指标(如RMSD)和算法(如TM-score),以及如何通过结构域(Domain)分析揭示进化关系。 3. 结构验证与可视化: 介绍评估蛋白质模型质量的标准(如 Ramachandran 图分析)和常用分子可视化软件的操作要点。 第六章:基因组与转录组数据整合分析 本章探讨化学生物信息学如何与高通量组学数据(特别是基因组学和转录组学)相结合,以理解化学实体(药物、小分子)与生物靶点间的相互作用。 1. 基因功能注释与通路分析: 介绍 GO (Gene Ontology) 和 KEGG Pathway 等知识库的应用,以及如何利用富集分析(Enrichment Analysis)来解释高通量实验结果。 2. 差异表达分析(RNA-seq): 讨论从原始测序数据到差异基因集的生物信息学流程,重点关注如何将差异表达的基因集映射到已知的化学作用网络中。 第三部分:化学生物学前沿计算应用 第七章:定量构效关系(QSAR)与机器学习 QSAR 是连接分子结构与生物活性的桥梁。本章是本书的实践核心。 1. 经典QSAR模型构建: 详细介绍Hansch分析、Free-Wilson分析的原理和步骤,以及多重线性回归在构建预测模型中的应用。 2. 现代机器学习方法: 重点讲解支持向量机(SVM)、随机森林(Random Forest)和人工神经网络(ANN)在化合物活性、毒性预测中的应用。探讨特征工程在提升模型性能中的关键作用。 3. 深度学习在化学信息学中的兴起: 介绍卷积神经网络(CNN)和循环神经网络(RNN)在处理分子图结构和序列数据方面的最新进展。 第八章:分子对接与虚拟筛选技术 本章聚焦于药物发现流程中至关重要的虚拟筛选(Virtual Screening, VS)技术。 1. 分子对接原理: 深入分析分子对接算法的核心——构象搜索(Sampling)和评分函数(Scoring Functions)。区分基于配体的对接(Ligand-based)和基于结构的对接(Structure-based)。 2. 评分函数的分类与局限性: 详细讨论基于物理、基于知识和基于学习的评分函数的优缺点,以及如何校准评分函数以提高预测精度。 3. 高通量虚拟筛选(HTVS)的流程设计: 阐述如何使用自动化脚本和并行计算资源高效地筛选数百万化合物。 第九章:药物代谢与毒性预测(ADMET/Tox Informatics) 预测化合物的药代动力学特性和潜在毒性是降低药物研发风险的关键环节。 1. ADMET 描述符与模型: 介绍血浆蛋白结合、渗透性(如Caco-2, BBB穿透)等关键药代动力学参数的预测模型。 2. 毒性预测(Tox Informatics): 讨论预测遗传毒性、肝毒性等终端毒性的计算方法,特别是利用结构警示基团(Structural Alerts)和多重模型集成(Ensemble Methods)来提高安全性评估的可靠性。 结论:化学生物信息学的未来展望 本书最后一部分总结了当前计算方法的瓶颈(如数据稀疏性、模型可解释性差),并展望了未来研究方向,包括量子化学计算的整合、动态模拟(如分子动力学)与机器学习的结合,以及利用自动化和机器人技术实现“自驱动”的化学实验设计。本书强调,只有深入理解化学、生物学和计算科学的内在联系,才能在未来的生命科学前沿研究中取得突破。