发表于2024-12-23
生物信息学是使用信息技术来处理生物学数据的学科,随着MATLAB生物学工具箱的内容和函数的日渐丰富,利用MATLAB处理生物学数据越来越便捷,通过本书的学习,读者可以更加深入的理解生物信息处理的基本原理和过程。
本书是生物信息学分析和研究的实践指导,精选生物信息学分析中的重要案例,结合作者多年教学实践,借助MATLAB生物信息学工具箱,进行序列数据分析、芯片数据分析、高通量测序和质谱数据分析等,包括常规的序列比对和统计分析,直接访问网络数据库和本地数据库,以及进行RNA结构预测和多种图形的可视化等。本书从底层开始进行生物学数据常规分析,直观地演示各种函数的使用方法和分析结果。
刘伟,博士,国防科技大学讲师,主要研究方向为生物网络的构建与分析。担任“生物信息学”和“生物信息概论”等多门课程的主讲教师,发表教学论文6篇。主持国家自然科学基金项目1项,发表论文20余篇,出版教材3部,获得国家发明专利7项。
目 录
第1章 序列分析
1.1 计算和可视化序列统计特性
1.1.1 人类线粒体基因组
1.1.2 计算序列统计特性
1.1.3 考察开放阅读框(ORF)
1.1.4 考察注释特征
1.1.5 提取和分析ND2和COX1蛋白
1.1.6 计算人类线粒体基因组中所有基因的密码子使用频率
1.2 两两序列比对
1.2.1 序列比对介绍
1.2.2 查找序列信息
1.2.3 确定蛋白质编码序列
1.2.4 比较氨基酸序列
1.2.5 序列比对结果分析
1.3 评估比对的统计学显著性
1.3.1 从MATLAB空间中获取NCBI数据
1.3.2 初步比对和全局比对
1.3.3 评估打分的显著性
1.3.4 打分不具有统计学显著性的例子
1.3.5 局部比对和随机序列
1.4 全基因组比对
1.4.1 提取基因组信息
1.4.2 基因比对
1.4.3 考察分数的含义
1.4.4 利用稀疏矩阵减少存储量
1.4.5 查看同源基因
1.5 分析同义和非同义替换
1.5.1 介绍
1.5.2 提取HIV-1基因组的两个序列信息
1.5.3 计算HIV-1基因的Ka/Ks比值
1.5.4 利用滑动窗口计算Ka/Ks比值
1.5.5 GAG、POL和ENV基因的滑动窗口分析
1.5.6 分析GP120的Ka/Ks比值和表位
1.6 追踪禽流感病毒
1.6.1 禽流感病毒介绍
1.6.2 计算每个H5N1基因的Ka/Ks比值
1.6.3 针对HA蛋白质进行系统发育分析
1.6.4 利用多维变尺度可视化序列距离
1.6.5 在非洲和亚洲地图上展示H5N1病毒的地理区域
1.6.6 利用谷歌地图观察地理区域
1.6.7 在谷歌地图中查看文件
参考文献
第2章 高通量测序
2.1 分析Illumina/Solexa下一代测序数据
2.1.1 简介
2.1.2 读取_sequence.txt(FASTQ)文件
2.1.3 考察序列读数的长度分布
2.1.4 考察序列片段的碱基组成
2.1.5 考察质量打分分布
2.1.6 在标准之间转换质量打分
2.1.7 根据质量打分进行过滤和去除
2.1.8 统计读数出现概况
2.1.9 识别人造的均聚物
2.2 识别RNA-seq数据中差异表达的基因
2.2.1 RNA-seq技术介绍
2.2.2 前列腺癌症数据集
2.2.3 为目标基因建立一个注释对象
2.2.4 输入匹配的短读数匹配数据
2.2.5 确定数字化基因表达
2.2.6 推断RNA表达的差异信号
2.2.7 估计文库规模因子
2.2.8 估计基因丰度
2.2.9 估计负二项式分布参数
2.2.10 经验累计分布函数
2.2.11 测试差异表达
2.3 分析人类末端肠道微生物
2.3.1 人类末端肠道菌群简介
2.3.2 成人远端肠道微生物分类剖析
2.3.3 结合分类分布和基本分类
2.3.4 基于KEGG类进行功能对比分析
2.3.5 基于COG分类进行功能对比分析
2.3.6 基于功能表示集中微生物
2.4 分析马尾藻样本的宏基因组
2.4.1 简介
2.4.2 读取BLAST命中报告
2.4.3 过滤BLAST命中次数
2.4.4 内存匹配的分类学数据文件
2.4.5 用分类学信息注释BLAST报告
2.4.6 根据学名为BLAST命中分类
2.4.7 保存注释的BLAST报告
2.4.8 确定BLAST命中次数的分类学分布
2.4.9 滤除孤立分配
2.4.10 绘制BLAST命中的分类学分布
2.4.11 将分析局限至每个查询的最佳命中
2.4.12 分类节点信息的内存映射
2.4.13 根据更高的分类学目划分BLAST命中
2.4.14 以图的形式表示分类学分布
2.5 研究基因组规模的DNA甲基化谱差异
2.5.1 简介
2.5.2 数据集
2.5.3 为BAM格式文件创建MATLAB接口
2.5.4 关联CpG岛和DNA甲基化
2.5.5 序列数据的统计建模
2.5.6 识别显著的甲基化区域
2.5.7 寻找具有显著甲基化启动子区域的基因
2.5.8 寻找显著甲基化的基因内部区域
2.5.9 甲基化模式的差异分析
参考文献
第3章 芯片数据分析
3.1 芯片数据可视化
3.1.1 考察微阵列数据
3.1.2 微阵列数据的空间图
3.1.3 微阵列的统计参数
3.1.4 微阵列数据的散点图
3.2 分析Affymetrix芯片数据
3.2.1 关于Affymetrix数据文件
3.2.2 显示图像文件
3.2.3 基因名称和探针集ID
3.3 分析芯片数据并识别差异表达的基因
3.3.1 芯片数据集简介
3.3.2 下载表达数据
3.3.3 过滤表达数据
3.3.4 识别差异的基因表达
3.3.5 采用基因本体注释上调基因
3.3.6 寻找通路中的差异表达基因
3.4 通过分析Affymetrix SNP芯片研究DNA副本数变化
3.4.1 简介
3.4.2 数据集
3.4.3 获取SNP芯片的探针水平数据
3.4.4 输入和转换数据集
3.4.5 探针强度标准化
3.4.6 探针水平的概要
3.4.7 获取SNP探针信息
3.4.8 原始拷贝数估计
3.4.9 过滤和排序
3.4.10 PCR片段长度标准化
3.4.11 CN基因谱
3.4.12 SCLS样本的8q扩增
3.4.13 CN获得/缺失汇总图
3.5 芯片数据的基因本体富集分析
3.5.1 简介
3.5.2 基因本体功能举例
3.5.3 通过聚类分析筛选一组感兴趣的基因子集
3.5.4 获取酵母基因组数据库中的注释基因
3.5.5 基因芯片中被注释的基因数目
3.5.6 观察GO注释的出现概率
3.5.7 最显著条目的进一步分析
参考文献
第4章 质谱数据分析
4.1 原始质谱数据的预处理
4.1.1 下载数据
4.1.2 谱的重采样
4.1.3 基线校正
4.1.4 谱排列
4.1.5 谱图标准化
4.1.6 去除峰噪声
4.1.7 采用波形降噪方法寻找峰值
4.1.8 分段:用层次聚类合并谱峰
4.1.9 动态规划分割
4.2 采用顺序和并行计算实现谱的批量处理
4.2.1 简介
4.2.2 设置数据仓库
4.2.3 顺序分批处理
4.2.4 基于多核计算机的并行批处理
4.2.5 基于分布计算的并行批处理
4.2.6 异步并行处理
4.2.7 后期处理
4.3 显著性特征识别以及蛋白质谱分类
4.3.1 简介
4.3.2 样本可视化
4.3.3 关键特征排序
4.3.4 基于线性判别分析的盲分类
4.3.5 利用PCA/LDA进行数据降维
4.3.6 特征选择子集的随机搜索
4.3.7 利用评估集来评估选择特征的质量
4.3.8 可替换的统计学习方法
4.4 采用遗传算法寻找质谱数据特征
4.4.1 简介
4.4.2 导入本地质谱数据到MATLAB
4.4.3 建立遗传算法的适应度函数
4.4.4 建立初始种群
4.4.5 设定遗传算法选项
4.4.6 运行GA寻找20个具有可判别性的特征
4.4.7 显示具有判别性的特征
参考文献
第5章 可视化工具
5.1 聚类结果可视化
5.1.1 数据导入
5.1.2 聚类
5.1.3 查看和更改聚类选项
5.1.4 数据集的行列聚类
5.1.5 对热图的操作
5.1.6 操作系统树
5.1.7 改变配色方案和显示范围
5.1.8 5000个显著基因的聚类
5.2 分子三维结构的可视化
5.2.1 泛素结构介绍
5.2.2 泛素分子显示
5.2.3 对分子进行旋转和放大
5.2.4 评估结构中的氨基酸电荷分布
5.2.5 研究结构的疏水性谱
5.2.6 测量原子距离
5.2.7 展示和标注泛素结构中的赖氨酸残基
5.2.8 检查泛素中的异肽键
5.2.9 泛素比对和SUMO序列
5.2.10 将泛素和SUMO的结构叠加
5.3 相互作用数据可视化
5.3.1 将进化树表示为图
5.3.2 改变BIOGRAGH对象的属性
5.3.3 绘制自定义节点
5.4 图论函数
5.4.1 从SimBiology模型创建一个图
5.4.2 可视化图
5.4.3 使用图论函数
5.4.4 寻找节点pA与pC之间的最短路径
5.4.5 遍历图
5.4.6 寻找图中的连通部分
5.4.7 模拟移除一个反应
参考文献
第6章 外部数据库和程序调用
6.1 连接本地数据库
6.1.1 检查数据库工具箱
6.1.2 为原始数据库建立一个备份
6.1.3 为MATLAB配置数据库
6.1.4 连接到数据库
6.1.5 获取数据库信息
6.1.6 从GenBank收集序列数据并插入数据库
6.1.7 核对导入数据的序列
6.1.8 更新数据库中的数据
6.1.9 为数据库添加比对信息
6.1.10 检索比对
6.1.11 为数据增加BLAST报表信息
6.1.12 对序列进行BLAST搜索
6.1.13 使用可视化的查询构建器将信息导入MATLAB
6.2 连接KEGG的API网络服务器
6.2.1 利用信息操作来展示通路数据库中的统计参数
6.2.2 利用conv操作符实现KEGG标识符与外部标识符的相互转换
6.2.3 提取KEGG分类学数据库的物种列表
6.2.4 获取KEGG通路数据库中人类的通路列表
6.2.5 为通路染色
6.2.6 展示静态图
6.3 调用Bioperl函数
6.3.1 简介
6.3.2 访问序列信息
6.3.3 从MATLAB调用Perl程序
6.3.4 在Perl程序中调用MATLAB函数
6.3.5 生物信息学工具箱中的蛋白质分析工具
参考文献
前 言
生物信息学是指用信息技术来处理生物学数据的学科。多种类型、高通量的生物学数据,如DNA序列、RNA-seq、基因芯片和质谱数据的积累,对生物信息学算法提出了越来越高的要求。生物信息学已经成为生物学研究不可或缺的一部分,不管是生物学的前期实验设计、后续数据处理还是结果的分析解释都需要借助于生物信息学方法。由于历史的原因,针对不同的生物学数据分析需求,研究人员发展出了各种工具和方法。这些方法通常是基于不同的编程语言和平台开发的,难以对接和互相借鉴。实际上,生物信息学中使用最频繁的数据处理方法是矩阵计算、统计学分析和可视化方法,而要实现这些方法,通用的数据处理平台MATLAB具有一定优势。特别是随着MATLAB生物学工具箱的内容逐渐丰富,利用MATLAB处理生物学数据越来越便捷。对于那些刚刚接触生物信息学的学生或技术人员而言,基于MATLAB来学习生物信息学方法,也有助于了解生物信息处理的基本原理和过程。
目前国内介绍MATLAB常规使用方法的指导书较多,但缺少专门介绍MATLAB生物信息学工具箱的书籍。本书通过介绍MATLAB生物信息学工具箱的使用方法来讲解生物信息学的分析与实践过程。这是因为MATLAB为生物学数据处理提供了多种函数和可视化方法,包括序列数据分析、芯片数据分析、高通量测序和质谱数据分析等,涵盖了生物信息学研究的诸多方面。随着版本的提高,目前生物信息学工具箱所能提供的函数功能非常丰富,不仅包括常规的序列比对和统计分析,还可以直接访问网络数据库和本地数据库,进行RNA结构预测和多种图形的可视化等。可以说,MATLAB生物信息学工具箱提供了从底层开始进行生物学数据常规分析所需的大部分功能。为让读者了解生物信息学工具箱的使用方法,MATLAB的demo中提供了大量的实际分析案例,可以直观地演示各种函数的使用方法和分析结果的获得过程。本书精选了生物信息学分析中应用较多的案例,对MATLAB帮助文档进行了翻译和整理,同时考虑到MATLAB帮助文档的说明较少,还结合文献和自身工作体验,增加了一些说明性文字。对相关函数的介绍也穿插在例子的介绍中。该书可以帮助读者系统地了解MATLAB生物信息学工具箱的功能和使用方法。
本书内容包括6章。第1章介绍序列分析,首先讨论如何计算DNA序列的基本统计特性,然后重点介绍两两序列比对和全基因组的序列比对的方法,之后强调了比对过程中的统计学显著性的检验方法,最后作为案例说明如何基于蛋白质序列实现进化分析和病毒变异过程的追踪。第2章是高通量测序,首先介绍如何分析和处理测序仪产出的高通量序列数据,然后对高通量测序数据进行深入分析,包括RNA-seq数据中差异表达基因的识别、肠道基因组、宏基因组和DNA甲基化的研究。第3章是芯片数据分析,包括DNA芯片、Affymetrix芯片和Affymetrix SNP芯片的数据分析,通过对这些不同类型芯片的数据分析,识别差异表达基因与DNA拷贝数变化,考察差异表达基因的主要功能。第4章是质谱数据分析,首先介绍原始质谱数据的预处理方法,然后讨论显著性特征识别以及蛋白质谱分类方法,为适应大规模数据处理的需求,还给出了谱的批处理方法。第5章是可视化工具,介绍聚类结果、分子三维结构相互作用和图的可视化方法。第6章是外部数据库和程序调用,包括连接本地数据库、连接KEGG的API网络服务器和调用Bioperl函数。
感谢在本书撰写过程中,一起学习“生物信息学”这门课程的老师和学生所给予的帮助,感谢国防科技大学生物信息学课题组成员提出的宝贵意见。本书的面向对象为从事生物信息学学习和研究的广大师生,旨在为采用MATLAB分析生物学数据提供指导,希望其中的案例有助于广大读者了解生物信息学的基本原理和分析过程。如有表述不当或者错误之处,请广大读者不吝批评指正。
生物信息学分析与实践――MATLAB生物信息学工具箱应用 下载 mobi pdf epub txt 电子书 格式 2024
生物信息学分析与实践――MATLAB生物信息学工具箱应用 下载 mobi epub pdf 电子书生物信息学分析与实践――MATLAB生物信息学工具箱应用 mobi epub pdf txt 电子书 格式下载 2024