发表于2024-12-26
介绍生物多序列比对的基础知识,包括多序列比对的基本概念、原理、方法、常用数据库、常用工具和应用等内容,并介绍进化算法和最优化理论的基础知识,以及遗传算法、粒子群优化算法和量子粒子群优化算法的优化过程及收敛性分析,为进行多序列比对的模拟提供理论基础;然后详细介绍各进化算法模拟多序列比对的过程与结果;*后对于多序列比对*重要的目标函数参数进行建模与分析。本书具有系统性强、可读性强、可操作性强等特点。
本书全面系统地介绍了进化算法在生物多序列比对中的应用,根据内容的分类,分为“多序列比对基础篇”“多序列比对模拟篇”和“多序列比对参数篇”三个模块。首先介绍生物多序列比对的基础知识,包括多序列比对的基本概念、原理、方法、常用数据库、常用工具和应用等内容,并介绍进化算法和最优化理论的基础知识,以及遗传算法、粒子群优化算法和量子粒子群优化算法的优化过程及收敛性分析,为进行多序列比对的模拟提供理论基础;然后详细介绍各进化算法模拟多序列比对的过程与结果;后对于多序列比对重要的目标函数参数进行建模与分析。本书具有系统性强、可读性强、可操作性强等特点。
作者简介作者简介
龙海侠,1980年生,2007年获江南大学计算机软件与理论硕士学位,2010年获江南大学轻工信息技术与工程博士学位,现就职于海南师范大学信息科学技术学院,副教授。研究方向:群体智能算法、进化算法、生物信息。硕士期间从事群体智能算法和进化算法的研究及其在聚类、图像分割上的应用研究;博士期间从事生物信息的研究,重点研究多序列比对和培养基的优化;近5年从事深度学习算法和生物信息的研究。已出版教材1部、专著1部,发表论文30余篇,主持省级课题2项,作为*完成人获得省级奖励2项。
李满枝,1979年生,2004年6月获西北工业大学计算数学专业理学硕士学位,现就职于海南师范大学数学与统计学院,副教授。主要研究方向:生物信息学、计算机数值模拟、算法构造等。硕士期间从事基于蒙特卡罗方法的计算机模拟,近5年从事生物信息中的蛋白质功能预测研究。已在国内外核心期刊及学术会议上发表多篇论文,出版专著1部,并作为主要成员参与省级和*自然科学项目多项,现主持海南省自然科学基金“生物多序列比对的遗传算法模拟及改进”。
王洪涛,1978年生,2008年6月获海南师范大学应用数学专业理学硕士学位,现就职于海南师范大学数学与统计学院,副教授。主要研究方向:计算机数值模拟、算法构造、数学建模等。在国内外核心期刊及学术会议上发表多篇论文,出版专著1部,并作为主要成员参与海南省自然科学基金项目多项,目前是海南省自然科学基金“生物多序列比对的遗传算法模拟及改进”的*二参与人。
付海艳,1978年生,2002年获山东大学人工智能与模式识别硕士学位,2009年获山东大学系统理论博士学位,现就职于海南师范大学信息科学技术学院,教授。研究方向:评价理论与方法、决策理论与方法、不确定信息处理。硕士期间从事基于模糊集理论的评价方法和决策方法的研究,博士期间从事基于粗糙集理论和模糊集理论的不确定信息处理,近5年从事数据挖掘算法的研究。已出版教材2部、专著1部,发表论文30余篇,主持*课题1项、省级课题6项,作为*完成人获得省级奖励2项。
上篇 多序列比对基础篇
第1章 生物多序列比对 3
1.1 生物信息学 3
1.1.1 生物信息学的起源 3
1.1.2 生物信息学的概念 4
1.1.3 生物信息学的主要研究内容 4
1.2 序列比对的概念及其发展历史 8
1.2.1 序列比对的提出与基本概念 8
1.2.2 序列比对的目的和意义 8
1.2.3 国内外研究现状 10
1.2.4 多序列比对面临的挑战 10
1.3 多序列比对的基本原理 11
1.3.1 多序列比对的相关概念 11
1.3.2 序列比对的分类 12
1.3.3 多序列比对的数学定义 13
1.3.4 多序列比对的打分方法 14
1.4 多序列比对方法 22
1.4.1 比对方法 22
1.4.2 多序列比对算法 23
1.5 多序列比对常用数据库 33
1.5.1 综合性数据库 34
1.5.2 基准数据库 36
1.6 多序列比对常用工具 40
1.6.1 搜索工具 40
1.6.2 常用的在线多序列比对工具 42
1.7 多序列比对的应用 45
1.8 其他说明 46
1.8.1 多序列比对算法存在的问题 46
1.8.2 多序列比对算法的运算指标 47
1.8.3 多序列比对算法的展望 48
1.9 本章小结 48
参考文献 49
第2章 进化算法和最优化理论 53
2.1 进化算法 53
2.1.1 遗传算法 53
2.1.2 遗传规划 54
2.1.3 进化策略 56
2.1.4 进化规划 57
2.1.5 粒子群优化算法 58
2.1.6 量子粒子群优化算法 61
2.2 最优化理论 63
2.2.1 最优化问题 64
2.2.2 局部优化算法 66
2.2.3 全局优化算法 67
2.2.4 最优化问题的求解 67
2.3 本章小结 69
参考文献 69
第3章 遗传算法、粒子群优化算法和量子粒子群优化算法 73
3.1 遗传算法 73
3.1.1 遗传算法的基本思想 73
3.1.2 遗传算法中的基本术语 74
3.1.3 遗传算法的步骤及流程图 75
3.1.4 遗传算法的构成要素 76
3.1.5 遗传算法的优缺点 82
3.1.6 遗传算法的应用现状 84
3.1.7 遗传算法的改进 86
3.2 粒子群优化算法 87
3.2.1 基本粒子群优化算法 87
3.2.2 带惯性权重w的粒子群优化算法 89
3.2.3 带收缩因子 的粒子群优化算法 91
3.3 量子粒子群优化算法 92
3.3.1 势阱模型的建立 92
3.3.2 粒子的基本进化方程 95
3.3.3 QPSO算法的流程 96
3.3.4 QPSO算法的收敛性分析 97
3.4 QPSO算法的改进——基于选择操作的QPSO算法 103
3.4.1 引言 103
3.4.2 采用锦标赛选择操作的QPSO算法(QPSO-TS) 105
3.4.3 采用轮盘赌选择操作的QPSO算法(QPSO-RS) 106
3.4.4 算法的收敛性分析 107
3.5 本章小结 110
参考文献 110
中篇 多序列比对模拟篇
第4章 遗传算法在多序列比对中的应用 115
4.1 基本遗传算法模拟多序列比对 115
4.1.1 引言 115
4.1.2 多序列比对问题及数学描述 117
4.1.3 算法设计 117
4.1.4 实验算例与分析 120
4.1.5 结论 123
4.2 改进遗传算法之初始种群优化 124
4.2.1 引言 124
4.2.2 优化原理 125
4.2.3 几种初始化方法的构造 127
4.2.4 加入MAFFT种子的初始化 130
4.2.5 实验算例与结果 130
4.2.6 结论 135
4.3 改进遗传算法之交叉算子优化 136
4.3.1 引言 136
4.3.2 交叉算子设计 137
4.3.3 实验算例与结果 140
4.3.4 结论 143
4.4 本章小结 144
参考文献 144
第5章 QPSO算法在多序列比对中的应用 149
5.1 多序列比对的含义 149
5.2 基于二进制QPSO算法的序列比对 151
5.2.1 二进制的PSO算法(BPSO) 151
5.2.2 二进制的QPSO算法(BQPSO) 152
5.2.3 基于BPSO或BQPSO的多序列比对 156
5.3 本章小结 163
参考文献 165
第6章 基于隐马尔可夫模型和QPSO算法的多序列比对 167
6.1 引言 167
6.2 隐马尔可夫模型 168
6.2.1 隐马尔可夫模型的基本原理 168
6.2.2 隐马尔可夫模型的基本问题与算法 169
6.3 基于剖面HMM和QPSO的多序列比对 172
6.3.1 融合多样性的QPSO算法 174
6.3.2 评估训练算法的质量 179
6.3.3 模型的联配问题 179
6.3.4 评估比对序列的质量 181
6.4 本章小结 191
参考文献 191
第7章 多序列比对的并行计算 193
7.1 长序列首尾分段并行比对算法 193
7.1.1 引言 193
7.1.2 构造原理 195
7.1.3 数值模拟结果 196
7.1.4 结论 198
7.2 本章小结 198
参考文献 199
下篇 多序列比对参数篇
第8章 多序列比对的参数研究 203
8.1 基于SP目标函数的多序列比对参数研究 203
8.1.1 引言 203
8.1.2 基本定义 204
8.1.3 公式推导 206
8.1.4 实验结果与分析 210
8.1.5 结论 217
8.2 在线工具MAFFT参数研究 218
8.2.1 引言 218
8.2.2 基本定义 220
8.2.3 实验结果与分析 222
8.2.4 结论 229
8.3 本章小结 230
参考文献 231
附录 相关的源代码 235
附录A 基本遗传算法总程序 235
附录B 生成初始种群bio_var 239
附录C 生成初始种群rand_var 243
附录D 选择算子selection 245
附录E 横向多行交叉算子hhor_crossover4to2 248
附录F 纵向交叉算子ver_crossover4to2 253
附录G 变异算子mutation 259
附录H 适应度函数:SP函数 262
附录I 多序列比对参数研究的相关程序 264
附录J HMM和QPSO算法用于多序列比对的程序 266
随着人类基因组计划的实施和科技的发展,生物学数据呈爆炸式增长,这些海量的生物学数据必须通过生物信息学手段进行收集、分析和整理后,才能成为有用的信息。而如何有效分析和处理这些大型序列数据(即序列分析)成为生物信息学的首要任务。序列比对是生物序列分析的主要方法,也是生物信息学中挑战性的问题之一。序列比对在序列装配、序列注释、基因和蛋白质的结构和功能预测以及系统发育和进化分析等方面均有广泛应用,因此对它的研究一直以来都是热点。
进化算法是一类借鉴生物界自然选择和自然遗传机制的随机搜索算法,主要包括遗传算法(geneticalgorithm,GA)、遗传规划(geneticprogramming,GP)、进化策略(evolutionarystrategies,ES)、进化规划(evolutionaryprogramming,EP)、粒子群优化(particleswarmoptimization,PSO)算法以及近年出现的量子粒子群优化(quantum-behavedparticleswarmoptimization,QPSO)算法,它们通过一系列的进化算子和进化方程,寻找问题的最优解。本书把上述的进化算法及其改进的进化算法,结合数学模型,用于解决生物多序列比对问题。
全书正文各章节结构如下图所示,共分为“多序列比对基础篇”“多序列比对模拟篇”和“多序列比对参数篇”三个模块。
“多序列比对基础篇”(第1章~第3章)介绍生物多序列比对的基础知识,包括多序列比对的基本概念、原理、方法、常用数据库、常用工具和应用等内容,并介绍进化算法和最优化理论的基础知识,以及遗传算法、粒子群优化算法和量子粒子群优化算法的优化过程及收敛性分析,为进行多序列比对的模拟提供理论基础。
“多序列比对模拟篇”(第4章~第7章)是本书的核心部分,主要内容概括如下:
(1)应用基本遗传算法及其改进的遗传算法进行多序列比对。基本遗传算法(GA)是通过对进化过程中的种群反复进行选择、交叉、变异操作来模拟自然界中种群的演变过程,直到满足一定性能要求才结束计算,它本身的结构决定了它可以用在多序列比对上。遗传算法可以有效地解决生物多序列比对问题,但是遗传算法高度依赖于初始种群,好的初始种群方可以得到好的结果。为提高计算效率,提高比对质量,可从遗传算法最关键的组成部分入手,通过优化初始种群的质量,达到改进算法的目的。另外,又针对遗传算法最基本的交叉算子,设计了保优和选择混合的交叉操作后处理方法cross4to2。该方法不但服从保优原则,而且又再一次经过选择操作的精英保留过程,使得最优秀的个体进入下一代。这种处理将算法的整体搜索能力和局部搜索能力大大提高。通过与经典CLUSTAL算法的比较,验证了该算法的有效性。
(2)使用二进制的PSO算法和二进制的QPSO算法进行多序列的比对。为了避免算法的早熟,在算法中还加入了变异算子。首先对群体中的个体进行编码,然后根据目标函数值(通常为序列的得分函数)找出空位的最优位置,使序列比对的结果最优,确定序列的相似性以至于同源性。
(3)使用QPSO算法和改进的QPSO算法,结合隐马尔可夫模型(HMM)进行多序列的比对。这主要涉及两个过程:优化过程和比对过程。优化过程主要研究剖面HMM模型参数的训练过程,获得较优模型。前面已经提及现有的训练算法通常会陷入局部最优,因此研究全局优化算法对模型进行训练极其重要。用并行的群体智能优化算法优化剖面HMM时,优化的主要对象是转移概率和符号发出概率,优化对象的编码方式以及参数的个数将会影响比对的速度,优化过程中算法的全局收敛性将会影响到比对的准确度。比对过程主要研究比对算法的实现过程,获得比对结果。当使用HMM进行多序列比对时,每条序列从开始到结束通过这些状态穿越模型,在这些待比对序列中进行空位字符“-”的插入和删除操作,得到一个多序列比对结果的矩阵。但应确保在比对结果中有尽可能多的列由相同的非空字符组成,同时在由不同字符组成的列中某一个或某几个非空字符的数目尽可能多,以便发现不同序列之间的相似部分,进而推断它们在功能和结构上的相似性。
(4)多序列比对的并行计算。随着计算机科学技术在第三代测序技术以及基因组拼接技术方面的不断发展,生物信息领域获得了越来越多的长基因组序列数据,长序列比对成为急需解决的问题。传统的算法对内存空间的庞大需求以及漫长的运行时间已经无法满足对这种大规模数据的处理,因此长序列比对的并行计算成为研究的一个热点问题。通常的并行模式有:基于“分而治之”策略,结合并行计算的长序列首尾分段并行比对算法;基于“粗细粒度”的并行数据并行算法。
多序列比对是生物信息学的一个重要研究内容,比对结果高度依赖于目标函数和比对工具的参数设置,包括空位罚分(GOP和GEP)以及替换矩阵。“多序列比对参数篇”(第8章)主要做了两方面的工作:
(1)研究SP(sum-of-pair)目标函数,提出确定各参数最优值的理论依据,给出替换矩阵判断公式和最佳空位罚分取值公式,结合待测序列信息得出与之相符的一组最优参数,从而得到更好的比对结果。通过与精度较高的多序列比对工具MAFFT、CLUSTALW的比较,结合BAliBASE2.0数据库进行实例验证,结果表明,根据公式得出的参数可以得到比默认参数更优的比对结果,而且本书公式优化了多序列比对结果,具有可行性和高效性。
(2)基于BAliBASE3.0数据库,应用MAFFT工具(MAFFT-7.220-WIN64version)进行多序列比对,得出替换矩阵和空位罚分的最优参数组合,从而得到更好的比对结果。实验结果表明,通过与MAFFT(MAFFT-7.220-WIN64version)、CLUSTALW(CLUSTALW-2.1-WIN)的默认参数比较,根据本研究得出的最优参数组合可以得到比默认参数更优的比对结果,而且研究结果给出的最优参数组合优化了多序列比对结果。
本书是由多人编撰完成的,编写分工如下:第5章、第6章和附录I~J由龙海侠编撰完成,共计9万字;第4章、第8章和附录A~H由李满枝编撰完成,共计9万字;第1章、第7章由王洪涛编撰完成,共计8.5万字;第2章和第3章由付海艳编撰完成,共计8.5万字。全书由龙海侠和李满枝统稿和修改。本书的出版获海南师范大学学术著作出版资助项目、海南省自然科学基金项目(20151003,614235)、国家自然科学基金(71461008)、海南师范大学数学与统计学院“计算数学”重点学科和信息科学技术学院“计算机科学与技术”一级学科的资助,特此表示感谢。
本书可作为生物信息学、计算生物学、计算机和计算数学等专业本科生或研究生的教材或学习参考书,也可作为相关研究人员的研究参考书。由于我们的专业知识与工作背景的限制,书中还有很多错误或不足之处,敬请希望读者批评指正。
龙海侠李满枝
2017年1月于海南师范大学
进化算法在生物多序列比对中的应用 下载 mobi pdf epub txt 电子书 格式 2024
进化算法在生物多序列比对中的应用 下载 mobi epub pdf 电子书进化算法在生物多序列比对中的应用 mobi epub pdf txt 电子书 格式下载 2024