内容简介
《生物信息学》同绕目前生物信息学研究与应用的主要内容,以丰富的实例,重点介绍了相关数据库和软件的功能、应用策略和使用方法。具体内容包括:核酸与蛋白质序列数据资源、序列比较与相似序列搜索、分子系统发育分析、基因组结构注释、蛋白质结构分析、蛋白质序列分析、Microam,基因表达数据分析、蛋白质组数据分析、生物信息学在疾病相关基因与药物发现中的应用,以及生物信息导航资源。《生物信息学》试图综合介绍生物信息学研究解决的问题、基本方法、现有成果与存在的问题,特别是能使读者把握生物信息学自身的特点和分析解决问题的基本途径,使不同专业背景读者都能有一定的收获。
《生物信息学》适合作为生命科学、计算机科学等相关专业的教材使用,也可供相关科研人员参考使用。
目录
1 绪言
1.1 生物信息学的发展历史
1.2 本书内容简介
1.3 贯穿本书的例子
2 序列数据资源
2.1 分子生物学数据库
2.2 序列数据存储格式
2.3 核酸序列数据库
2.3.1 GenBank数据库
2.3.2 RefSeq数据库
2.3.3 EPD数据库
2.4 蛋白质序列数据库
2.4.1 UniProt简介
2.4.2 UniProtlKB数据库
2.5 基因组数据资源
2.5.1 基础知识
2.5.2 不同物种的基因组数据库
2.5.3 人类基因组数据库
2.6 数据的检索与获取
2.6.1 检索工具
2.6.2 获取序列数据的例子
思考题
3 序列比对与比对搜索
3.1 基本概念
3.1.1 比对序列的选择:核苷酸序列还是蛋白质序列
3.1.2 同源性、相似性和一致性
3.1.3 空位
3.1.4 多序列比对
3.2 Dayhoff模型:可接受点突变
3.2.1 PAMl矩阵
3.2.2 PAM250和其他PAM矩阵
3.2.3 从突变概率矩阵到对数比值打分矩阵
3.2.4 双序列比对中PAM矩阵的实际有用性
3.2.5 PAM矩阵的重要替代者:BLOSUM打分矩阵
3.2.6 双序列比对和检测限度
3.3 比对算法:全局和局部
3.3.1 全局序列比对:Needleman—wunsch算法
3.3.2 局部比对:Smith—waterman算法
3.3.3 Smith—Waterman算法的快速和启发式版本
3.4 双序列比对的显著性
3.4.1 双序列比对统计显著性检验
3.4.2 全局比对的统计显著性
3.4.3 局部比对的统计显著性
3.5 局部比对搜索基本工具BLAST
3.5.1 BLAST搜索的关键步骤
3.5.2 BLAST算法:列表、扫描、延伸
3.5.3 BLAST算法的统计学和E值
3.5.4 BLAsT的各类分值
3.5.5 BLAST搜索示例:应用搜索原则
3.5.6 BLAsT搜索示例:多结构域蛋白的搜索
3.5.7 BLAST搜索示例:改变打分矩阵
3.6 寻找远缘相关的蛋白质:PSI—BLAST
3.6.1 基本步骤
3.6.2 PSI—BLAST的结果评估
3.6.3 PSI—BLAST的错误:破坏的问题
3.7 模式识别BLAST(PHI—BLAST)
3.8 用BLAST来发现新基因
思考题
4 基因组结构注释
4.1 引言
4.1.1 基因及其结构
4.1.2 基因结构预测概述
4.2 基于EST序列数据识别基因结构
4.2.1 判别基因序列的真实EST匹配的措施
4.2.2 真实EsT匹配的识别流程
4.2.3 确定EST对应的基因结构
4.3 基因结构预测的统计学建模方法
4.3.1 基于多级优化预测基因结构的基本思想
4.3.2 基因结构的分级建模
4.3.3 基因结构预测的动态规划算法
4.3.4 基于统计学方法预测基因结构的效果
4.4 基因组结构的自动注释
4.4.1 Ensembl的基因组注释流程
4.4.2 Ensembl自动注释结果与人工注释结果比较
思考题
5 分子系统发生分析
5.1 分子水平的进化介绍
5.1.1 问题的历史起源
5.1.2 分子钟
5.2 基本概念
5.2.1 系统发生树的基本概念
5.2.2 直系同源和旁系同源
5.3 分子系统发生树的构建
5.3.1 选择可供分析的序列
5.3.2 多序列比对
5.3.3 构建系统发生树
5.3.4 方法的选取
5.3.5 常用分析软件
思考题
6 蛋白质结构
6.1 蛋白质结构
6.2 蛋白质结构数据库和结构可视化
6.2.1 PDB数据库
6.2.2 蛋白质结构家族分类数据库
6.2.3 蛋白质结构的可视化
6.3 蛋白质结构分析
6.3.1 蛋白质结构比对
6.3.2 结构模型品质的分析
6.3.3 蛋白质内部相互作用分析
6.3.4 溶剂可接近表面的计算及分析
6.3.5 功能位点的分析
6.4 蛋白质结构预测
6.4.1 蛋白质结构比较建模
6.4.2 蛋白质结构从头预测方法
6.4.3 二级结构预测
6.4.4 结构预测的策略
思考题
7 蛋白质序列分析与功能预测
7.1 引言
7.2 功能描述
7.2.1 基因本体
7.2.2 利用GO术语的功能注释
7.3 基于序列相似性的功能预测
7.3.1 基本预测方法
7.3.2 分析与讨论
7.3.3 蛋白质家族与序列的相似性聚类
7.4 基于蛋白质信号的功能预测
7.4.1 蛋白质信号
7.4.2 信号的描述
7.4.3 蛋白质模体、结构域和家族数据库
7.4.4 分析与讨论
7.5 基于蛋白质序列特征的功能预测
7.5.1 序列的理化性质
7.5.2 跨膜与卷曲螺旋分析
7.5.3 蛋白质翻译后修饰分析
7.5.4 亚细胞定位预测
7.5.5 基于序列特征的蛋白质分子功能预测
7.6 功能预测的其他思路
思考题
8 微阵列数据分析
8.1 微阵列
8.1.1 微阵列实验过程
8.1.2 微阵列制备
8.1.3 杂交方式
8.1.4 图像分析
8.1.5 数据标准化
8.1.6 基因表达矩阵
8.1.7 基因表达数据分析
8.2 数据预处理
8.2.1 全局归一化
8.2.2 散点分析
8.2.3 数据全局归一化中的局部归一化
8.3 差异表达基因的检测
8.3.1 基本检验方法
8.3.2 分析实例
8.3.3 疾病基因表达谱差异分析
8.4 微阵列数据的分类分析方法
8.4.1 聚类分析
8.4.2 分类分析
8.5 构建基因调控网络
8.5.1 基因调控网络的简单例子
8.5.2 微分方程模型
8.5.3 布尔网络模型
8.5.4 贝叶斯网络模型
8.6 微阵列数据与分析软件
8.6.1 数据交换标准
8.6.2 微阵列数据库
8.6.3 微阵列数据分析流程
8.6.4 微阵列数据分析工具
思考题
9 蛋白质组数据分析
9.1 二维凝胶电泳数据分析
9.1.1 二维凝胶电泳原理
9.1.2 二维凝胶电泳数据及其应用
9.2 蛋白质质谱数据分析
9.2.1 质谱技术
9.2.2 蛋白质的质谱分析
9.3 蛋白质互作生物信息学
9.3.1 亲和层析和质谱
9.3.2 酵母双杂交系统
9.3.3 蛋白质一蛋白质互作预测
9.3.4 蛋白质相互作用数据库
9.4 分析细胞通路的生物信息学方法
思考题
10 疾病相关研究
10.1 疾病基因相关研究的概述
10.2 疾病相关的数据资源
10.2.1 人类在线孟德尔遗传数据库
10.2.2 遗传关联数据库
10.2.3 人类基因突变数据库
10.2.4 癌症数据库
10.2.5 单核苷酸多态性数据库
10.3 疾病基因发现
思考题
11 SNP芯片及深度测序数据分析
11.1 SNP简介
11.2 结构变异
11.3 SNP实验简介
11.3.1 Illumina芯片
11.3.2.Affymetrix芯片
11.4 深度测序技术
11.5 序列数据基本格式
11.5.1 FASTQ
11.5.2 SAM和BAM
11.5.3 BED
11.5.4 VCF
11.6 实例数据分析
11.6.1 利用深度测序发现SNV
11.6.2 利用SNP芯片检测拷贝数变异
思考题
参考书目
精彩书摘
《生物信息学》:
由Pearson和Lipman于1988年提出的FASTA搜索算法分如下4步。
(1)生成一个查询表,包括数据库中短的氨基酸和核苷酸片段。短片段的长度由参数k—tup决定。如果蛋白质搜索k—tup=3,查询序列就以3个氨基酸为块到查询表中查找可能的3个氨基酸匹配。FASTA程序对一个给定的k—tup值,产生10个最高分值片段。
(2)对这10个匹配区域重新打分,并允许有保守性替换,打分过程中使用打分矩阵(如PAM250)。
(3)属于同一蛋白质的高分值区域连接在一起。
(4)FASTA然后在高分值序列上执行全局(Needleman—Wunsch)或者局部(Smith—Water—man)比对,这样可以优化查询序列和数据库匹配序列的比对。动态规划算法应用于数据库时只得到有限的使用,允许FAsTA能非常快速地返回结果,因为它只评估了一部分潜在的比对。
BLAST是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对。不过1990年给出的BLAST不引入空位。现在改进的BLAST版本已允许比对中引入空位。本章将在3.5节中详细介绍BLAST及其启发式算法。
3.4 双序列比对的显著性
如前所述,通过比对,我们可以得到两条比对序列间的一致性。然而,怎样才能判断两条序列从进化上来说是显著相关的?比如两条序列比对得到的一致性为26%,这个值随机情况下也能发生吗?
……
生物信息学 [Bioinformatics] 下载 mobi epub pdf txt 电子书 格式