发表于2025-01-23
生物信息学是运用生物学、数学、计算机科学等多学科技术与手段进行生物信息的获取、贮存、分析、利用的一门交叉学科,是目前生物学研究热门领域之一。本书内容包括两个篇章:一是Windows系统下进行文献检索、数据库使用、引物设计、核酸蛋白质序列分析、进化分析、蛋白质结构分析、miRNA分析等理论与方法及相关软件使用介绍;二是linux系统下面对于基因组测序、RNAseq、miRNAseq等二代测序数据组装、基因预测、注释、表达分析等操作流程及相关软件介绍。
冯世鹏,中科院广州生物医药与健康研究院生物化学与分子生物学专业博士毕业,海南大学农学院讲师,担任海南大学本科及研究生的《生物信息学》、《分子生物学》等课程教学任务,承担过多项重点科研或教研项目。
第0章 绪论 1
0.1 生物信息学的发展历史 1
0.1.1 Bioinfomatics的来源 1
0.1.2 生物信息学的定义 1
0.1.3 人类基因组计划 1
0.1.4 生物信息学发展重要人物及
大事 2
0.2 生物信息学的研究内容 4
0.2.1 生物分子数据的收集与管理 4
0.2.2 数据库搜索及序列比较 5
0.2.3 基因组序列分析 5
0.2.4 基因表达数据的分析与处理 5
0.2.5 蛋白质结构预测 6
0.2.6 非编码RNA研究 6
0.2.7 表观遗传学研究 7
0.3 生物信息学的生物学基础知识 7
0.3.1 遗传定律 7
0.3.2 DNA分子结构 8
0.3.3 基因结构 8
0.3.4 中心法则 9
0.3.5 密码子表 9
0.3.6 蛋白质结构与功能 9
0.3.7 PCR技术 9
参考文献 10
Windows篇
第1章 文献信息检索 12
1.1 文献资源的分类 12
1.1.1 根据出版形式进行分类 12
1.1.2 综合分类法 13
1.1.3 标识码及编号 14
1.2 文献的格式 15
1.3 文献检索 17
1.3.1 文献检索词的来源 17
1.3.2 搜索数据库选择 18
1.3.3 检索式构建 19
1.3.4 检索结果的处理 21
1.3.5 CNKI数据库查询举例 21
1.3.6 Elsevier数据库检索举例 25
1.4 文献信息的价值判断及阅读 27
1.4.1 文献的价值判断 27
1.4.2 文献有效阅读 29
1.5 科技查新 29
习题 31
参考文献 31
第2章 生物信息数据资源 32
2.1 核酸序列数据库 32
2.1.1 GenBank数据库及其分类 33
2.1.2 Entrz Nucleotide数据库及
其分类 34
2.1.3 NCBI其他数据库 34
2.1.4 GenBank数据格式 35
2.1.5 GenBank数据访问方式 35
2.1.6 基因数据库记录格式及搜索 38
2.2 蛋白质序列数据库 39
2.2.1 UniProt数据库介绍 39
2.2.2 Uniprot数据获得方式 41
2.2.3 UniProt数据库记录格式 42
2.3 蛋白质结构数据库 43
2.3.1 PDB数据库发展历史 43
2.3.2 RCSB PDB数据库介绍 44
2.3.3 RCSB PDB数据库搜索 45
2.3.4 RCSB PDB数据记录 46
2.4 物种基因组数据库 47
2.4.1 小鼠基因组数据库 47
2.4.2 拟南芥基因组数据库 49
2.5 代谢通路数据库 52
2.5.1 在KEGG数据库搜索 53
2.5.2 主页快速链接 54
2.5.3 KEGG通路图及其元素意义 55
2.6 基因组浏览器 57
2.6.1 基因组数据展示内容 58
2.6.2 BLAT搜索 61
2.7 非编码RNA数据库 62
2.7.1 miRNA数据库 62
2.7.2 NONCODE数据库 63
习题 66
参考文献 66
第3章 序列比对 68
3.1 比对程序介绍 68
3.2 比对序列相似性的统计特性 69
3.3 在线BLAST序列比对 72
3.4 本地运行BLAST 75
3.4.1 BLAST程序的下载和安装 75
3.4.2 搜索数据库的索引格式化 75
3.4.3 运行BLAST程序,搜索本地
序列数据库 76
3.5 多序列比对 77
3.5.1 ClustalX的使用 77
习题 80
参考文献 80
第4章 核酸序列分析 81
4.1 基因阅读框的识别 81
4.2 基因其他结构区预测 82
4.2.1 CpG岛的预测 82
4.2.2 转录终止信号预测 84
4.2.3 启动子区域的预测 84
4.2.4 密码子偏好性计算 86
4.3 引物设计 88
4.3.1 引物设计的基本原则 88
4.3.2 Primer 5引物设计 88
4.3.3 利用Primer 5进行酶切位点
分析 91
4.4 核酸序列的其他转换 92
习题 93
参考文献 93
第5章 蛋白质序列分析 94
5.1 蛋白质理化性质和一级结构
分析 94
5.1.1 蛋白质理化性质分析 94
5.1.2 蛋白质理化性质分布图 95
5.1.3 蛋白质信号肽预测 97
5.2 蛋白质二级结构分析 99
5.2.1 蛋白质跨膜结构区分析 99
5.2.2 蛋白质卷曲螺旋分析 101
5.2.3 蛋白质二级结构预测分析 103
5.3 蛋白质三维结构预测分析 104
习题 105
参考文献 105
第6章 基因表达分析 106
6.1 qPCR数据分析 106
6.1.1 绝对定量分析方法 107
6.1.2 相对定量方法分析 108
6.2 基因芯片数据分析 111
6.2.1 从GEO上下载基因芯片表达
谱数据 111
6.2.2 将表达谱数据导入MATLAB
软件 112
6.2.3 对soft格式文件的标准化 113
6.2.4 差异表达基因筛选 114
习题 114
参考文献 115
第7章 进化分析 116
7.1 进化理论介绍 116
7.1.1 种群是生物进化的基本单位 116
7.1.2 可遗传的变异是生物进化的
原始材料 116
7.1.3 分子进化中性学说 117
7.2 进化分析(以MEGA为例) 117
7.2.1 序列准备 118
7.2.2 序列比对 119
7.2.3 建树计算 119
7.2.4 进化树的调整 121
习题 121
参考文献 122
第8章 非编码miRNA分析 123
8.1 miRNA简介 123
8.1.1 miRNA的生物合成 123
8.1.2 miRNA调控基因表达的机理 124
8.1.3 miRNA的生理调节作用 125
8.2 miRNA靶基因预测 125
8.2.1 miRNA靶基因的预测原理 125
8.2.2 miRNA靶基因的预测软件 126
8.2.3 miRNA靶基因的预测步骤 127
8.3 调控靶基因的miRNA预测 130
8.4 miRBase数据库的使用 131
8.4.1 miRBase数据库的搜索 131
8.4.2 miRBase数据库批量下载 132
8.4.3 miRNA记录信息 133
习题 134
参考文献 134
Linux篇
第9章 Linux系统 138
9.1 Linux简介 138
9.1.1 什么是Linux系统 138
9.1.2 为什么要学习Linux系统 139
9.1.3 如何学习Linux系统 140
9.2 Linux系统安装 140
9.2.1 Linux系统下载 140
9.2.2 系统安装盘制作 142
9.2.3 CentOS 6.5操作系统安装 144
9.2.4 更新yum源 154
9.3 Linux命令行模式――终端 155
9.4 Linux系统开关机 156
9.5 Linux系统文件 157
9.5.1 Linux文件夹及其主要作用
(以CentOS 6.5为例) 157
9.5.2 Linux的文件信息的意义 158
9.5.3 Linux命令帮助文件 159
9.6 几个重要的快捷键 161
9.7 Linux系统的命令 161
9.7.1 Linux系统命令的输入格式 161
9.7.2 常用命令及其常用选项介绍 161
9.7.3 数据流重定向 167
9.7.4 管道命令 168
9.7.5 vim编辑器工具 168
9.7.6 其他命令 170
习题 177
参考文献 177
第10章 Perl语言 178
10.1 Perl版本 178
10.2 Perl标量数据 179
10.2.1 Perl运算符 180
10.2.2 标量变量 180
10.2.3 数字及字符串的比较
运算符 181
10.3 列表与数组 182
10.3.1 数组及其赋值操作 182
10.3.2 数组元素的引用 182
10.3.3 数组相关的几个命令 183
10.4 哈希 183
10.4.1 哈希赋值 184
10.4.2 哈希的相关函数 184
10.5 判断式及循环控制结构 185
10.5.1 if条件判断式 185
10.5.2 while循环结构 185
10.5.3 until循环结构 186
10.5.4 foreach循环结构 186
10.5.5 each控制结构 186
10.6 正则表达式 187
10.6.1 正则表达式相关符号 187
10.6.2 捕获变量 188
10.6.3 正则表达式中特殊字符
的意义 188
10.7 Perl的排序 189
10.7.1 sort命令 189
10.7.2 sort与比较运算符及默认
函数的连用 189
10.8 Perl默认的函数的总结 189
10.9 程序精解 190
10.9.1 实例一:从fasta文件中
寻找特定的序列 190
10.9.2 实例二:文本内容分类
统计功能 193
10.9.3 实例三:统计文件内容
是否有重复 195
10.9.4 实例四:Scaffolds序列
的排序 196
习题 196
参考文献 197
第11章 测序方法及数据处理 198
11.1 测序技术的发展 198
11.1.1 第一代测序方法 198
11.1.2 二代测序方法 201
11.1.3 测序文库插入片段大小
选择 205
11.1.4 测序类型 205
11.1.5 测序方法的搭配 206
11.1.6 测序质量值 206
11.2 测序数据处理 207
11.3 测序数据质量分析 208
11.3.1 用FastQC软件对测序数据
进行评估 208
11.3.2 NGSQCToolKit对测序
Reads的处理 213
11.3.3 FASTX_Toolkit对测序
Reads的处理 216
11.4 深度测序数据上传SRA
数据库 218
11.4.1 材料准备 220
11.4.2 注册项目信息 221
11.4.3 提供技术信息 224
11.4.4 上传数据 227
11.4.5 数据传输完毕状态 230
习题 231
参考文献 231
第12章 基因组组装 232
12.1 Velvet拼装软件 233
12.1.1 Velvet软件安装 234
12.1.2 Velvet参数介绍 234
12.1.3 Velvet命令运行 237
12.1.4 Velvet运行结果解读 237
12.2 SOAPdenovo软件拼装 238
12.2.1 软件的安装 239
12.2.2 参数介绍 239
12.2.3 SOAPdenovo命令运行 241
12.2.4 SOAPdenovo运行结果
解读 242
12.3 ABySS软件拼装 242
12.3.1 ABySS的安装 242
12.3.2 ABySS主要参数介绍 243
12.3.3 ABySS命令运行 245
12.3.4 ABySS运行命令结果解读 245
12.4 ALLPATH-LG软件拼装 245
12.4.1 ALLPATH-LG的安装 246
12.4.2 ALLPATH-LG的主要参数 246
12.4.3 ALLPATH-LG测试数据
运行过程解读 249
12.4.4 运行结果解读 252
12.5 Gaps修补 252
12.5.1 GapFiller软件安装 252
12.5.2 相关参数介绍 253
12.5.3 程序运行命令 254
12.5.4 运行结果解读 254
12.6 基因组组装效果评估 254
习题 254
参考文献 255
第13章 小RNA测序数据分析 256
13.1 小RNA测序简介 256
13.2 小RNA测序数据质控 257
13.3 miRNA的识别 259
习题 263
参考文献 263
第14章 RNA-seq数据分析 264
14.1 转录组序列比对 265
14.1.1 数据准备 265
14.1.2 比对数据库 265
14.1.3 TopHat软件下载及安装 266
14.1.4 Bowtie软件和SAMtools
软件下载及安装 266
14.1.5 常用TopHat参数介绍 266
14.1.6 基因组数据库序列索引 267
14.1.7 TopHat使用实例 267
14.1.8 输出文件说明 267
14.2 转录本组的组装 268
14.2.1 cufflinks的安装 268
14.2.2 cufflinks的参数 269
14.2.3 cufflinks的输出结果 269
14.3 合并转录组 269
14.3.1 用cuffmerge合并转录本
的命令 270
14.4 基因表达差异分析 270
14.4.1 用cuffquant计算表达谱 270
14.4.2 用cuffdiff计算不同样本
表达谱的差异 271
14.5 差异表达结果的热图表示 272
习题 273
参考文献 273
第15章 基因预测 275
15.1 GeneMark软件序列 275
15.1.1 GeneMarkS的安装 275
15.1.2 相关参数介绍 276
15.1.3 GeneMarkS命令运行 279
15.1.4 GeneMarkS运行结果解释 280
15.2 Glimmer软件 280
15.2.1 Glimmer软件安装 280
15.2.2 相关命令参数介绍 281
15.2.3 程序运行 284
15.2.4 结果解读 286
15.3 AUGUSTUS 286
15.3.1 AUGUSTUS软件安装 286
15.3.2 相关参数介绍 286
15.3.3 训练AUGUSTUS 287
15.4 PASA 291
15.4.1 PASA软件安装 291
15.4.2 相关命令参数介绍 293
15.4.3 命令运行 294
15.4.4 运行结果解读 296
15.5 EVM(EVidenceModeler) 296
15.5.1 EVM软件下载安装 296
15.5.2 相关参数介绍 297
15.5.3 EVM软件的运行 298
习题 300
参考文献 300
第16章 基因注释及功能分析 302
16.1 BLAST软件介绍 302
16.1.1 BLAST软件安装 302
16.1.2 相关命令参数介绍 303
16.2 NR注释 308
16.2.1 NR数据库制备过程 308
16.2.2 NR注释过程 309
16.3 COG注释 310
16.3.1 COG数据库准备过程 310
16.3.2 COG命令注释过程 311
16.4 Swiss-Prot注释 311
16.4.1 数据库准备 312
16.4.2 Swiss-Prot注释过程 312
16.4.3 InterPro注释 312
16.5 KEGG注释 314
16.6 GO注释 317
习题 320
参考文献 321
附录A 生物信息学文件格式 322
前 言
关于本书的成因:希望通过本书让读者了解生物信息学,并能利用生物信息学工具进行常规的分析;对于学有余力或者对生物信息学有浓厚兴趣的读者,则读完本书后可进行二代测序数据的初步深度分析。本书主要针对生物科学相关专业本科生、研究生或者其他有志于学习生物信息学的初学者,希望这本书能起到抛砖引玉的作用,带领他们进入生物信息学领域。
关于本书的内容:全书分为两篇,Windows篇属于生物信息学基础,相关生物信息学软件在装有Windows系统的计算机上即可运行,这部分内容要求每个生物科学专业的本科生或读者必须了解掌握,主要包括生物信息相关数据库、序列比对、引物设计、序列分析、进化分析等;Linux篇属于生物信息学的深度应用,主要软件及其应用需要在安装Linux系统的计算机上才能最有效地运行,这部分的内容供学有余力或者有志于进行生物信息学研究应用的学生或工作人员学习,主要包括基因组、转录组的测序、组装、注释等分析内容。
关于学习生物信息学的态度:不贪多、不畏多、自学为主、教学为辅。所谓“不贪多”,就是生物信息学涉及多个学科门类,一个人几乎不可能精通所有相关门类,因此最好根据个人兴趣选择其中一个方向刻苦钻研,勤以练习,融会贯通,同时兼顾其他方面。所谓“不畏多”,就是不要被生物信息学所需要学习的知识吓到,有的知识够用即可,遇到需要进一步学习的时候再去学习新的知识,循序渐进,学得也快。所谓“自学为主、教学为辅”,就是强调学习的主动性,带着强烈的兴趣学习,学习效果要远好于被迫学习。自学过程中不可避免地会遇到一些问题,此时力求通过查阅资料自行解决问题,因此会自然而然地产生自豪感;如果自己查阅资料无法解决的时候最好能有人给以辅助,否则会卡在那里、无法进行后续的学习,这就是要有教学为辅的作用。生物信息学注重实际分析,由于软硬件的差异,对于同样的数据,不同的人处理得到的结果可能不一致,这就要勤加练习,积累经验,分析导致不同结果产生的原因,并能对结果进行取舍,或者改 实用生物信息学 下载 mobi epub pdf txt 电子书 格式
实用生物信息学 下载 mobi pdf epub txt 电子书 格式 2025
实用生物信息学 下载 mobi epub pdf 电子书实用生物信息学 mobi epub pdf txt 电子书 格式下载 2025