介绍生物多序列比对的基础知识,包括多序列比对的基本概念、原理、方法、常用数据库、常用工具和应用等内容,并介绍进化算法和最优化理论的基础知识,以及遗传算法、粒子群优化算法和量子粒子群优化算法的优化过程及收敛性分析,为进行多序列比对的模拟提供理论基础;然后详细介绍各进化算法模拟多序列比对的过程与结果;*后对于多序列比对*重要的目标函数参数进行建模与分析。本书具有系统性强、可读性强、可操作性强等特点。
本书全面系统地介绍了进化算法在生物多序列比对中的应用,根据内容的分类,分为“多序列比对基础篇”“多序列比对模拟篇”和“多序列比对参数篇”三个模块。首先介绍生物多序列比对的基础知识,包括多序列比对的基本概念、原理、方法、常用数据库、常用工具和应用等内容,并介绍进化算法和最优化理论的基础知识,以及遗传算法、粒子群优化算法和量子粒子群优化算法的优化过程及收敛性分析,为进行多序列比对的模拟提供理论基础;然后详细介绍各进化算法模拟多序列比对的过程与结果;后对于多序列比对重要的目标函数参数进行建模与分析。本书具有系统性强、可读性强、可操作性强等特点。
作者简介作者简介
龙海侠,1980年生,2007年获江南大学计算机软件与理论硕士学位,2010年获江南大学轻工信息技术与工程博士学位,现就职于海南师范大学信息科学技术学院,副教授。研究方向:群体智能算法、进化算法、生物信息。硕士期间从事群体智能算法和进化算法的研究及其在聚类、图像分割上的应用研究;博士期间从事生物信息的研究,重点研究多序列比对和培养基的优化;近5年从事深度学习算法和生物信息的研究。已出版教材1部、专著1部,发表论文30余篇,主持省级课题2项,作为*完成人获得省级奖励2项。
李满枝,1979年生,2004年6月获西北工业大学计算数学专业理学硕士学位,现就职于海南师范大学数学与统计学院,副教授。主要研究方向:生物信息学、计算机数值模拟、算法构造等。硕士期间从事基于蒙特卡罗方法的计算机模拟,近5年从事生物信息中的蛋白质功能预测研究。已在国内外核心期刊及学术会议上发表多篇论文,出版专著1部,并作为主要成员参与省级和*自然科学项目多项,现主持海南省自然科学基金“生物多序列比对的遗传算法模拟及改进”。
王洪涛,1978年生,2008年6月获海南师范大学应用数学专业理学硕士学位,现就职于海南师范大学数学与统计学院,副教授。主要研究方向:计算机数值模拟、算法构造、数学建模等。在国内外核心期刊及学术会议上发表多篇论文,出版专著1部,并作为主要成员参与海南省自然科学基金项目多项,目前是海南省自然科学基金“生物多序列比对的遗传算法模拟及改进”的*二参与人。
付海艳,1978年生,2002年获山东大学人工智能与模式识别硕士学位,2009年获山东大学系统理论博士学位,现就职于海南师范大学信息科学技术学院,教授。研究方向:评价理论与方法、决策理论与方法、不确定信息处理。硕士期间从事基于模糊集理论的评价方法和决策方法的研究,博士期间从事基于粗糙集理论和模糊集理论的不确定信息处理,近5年从事数据挖掘算法的研究。已出版教材2部、专著1部,发表论文30余篇,主持*课题1项、省级课题6项,作为*完成人获得省级奖励2项。
上篇 多序列比对基础篇
第1章 生物多序列比对 3
1.1 生物信息学 3
1.1.1 生物信息学的起源 3
1.1.2 生物信息学的概念 4
1.1.3 生物信息学的主要研究内容 4
1.2 序列比对的概念及其发展历史 8
1.2.1 序列比对的提出与基本概念 8
1.2.2 序列比对的目的和意义 8
1.2.3 国内外研究现状 10
1.2.4 多序列比对面临的挑战 10
1.3 多序列比对的基本原理 11
1.3.1 多序列比对的相关概念 11
1.3.2 序列比对的分类 12
1.3.3 多序列比对的数学定义 13
1.3.4 多序列比对的打分方法 14
1.4 多序列比对方法 22
1.4.1 比对方法 22
1.4.2 多序列比对算法 23
1.5 多序列比对常用数据库 33
1.5.1 综合性数据库 34
1.5.2 基准数据库 36
1.6 多序列比对常用工具 40
1.6.1 搜索工具 40
1.6.2 常用的在线多序列比对工具 42
1.7 多序列比对的应用 45
1.8 其他说明 46
1.8.1 多序列比对算法存在的问题 46
1.8.2 多序列比对算法的运算指标 47
1.8.3 多序列比对算法的展望 48
1.9 本章小结 48
参考文献 49
第2章 进化算法和最优化理论 53
2.1 进化算法 53
2.1.1 遗传算法 53
2.1.2 遗传规划 54
2.1.3 进化策略 56
2.1.4 进化规划 57
2.1.5 粒子群优化算法 58
2.1.6 量子粒子群优化算法 61
2.2 最优化理论 63
2.2.1 最优化问题 64
2.2.2 局部优化算法 66
2.2.3 全局优化算法 67
2.2.4 最优化问题的求解 67
2.3 本章小结 69
参考文献 69
第3章 遗传算法、粒子群优化算法和量子粒子群优化算法 73
3.1 遗传算法 73
3.1.1 遗传算法的基本思想 73
3.1.2 遗传算法中的基本术语 74
3.1.3 遗传算法的步骤及流程图 75
3.1.4 遗传算法的构成要素 76
3.1.5 遗传算法的优缺点 82
3.1.6 遗传算法的应用现状 84
3.1.7 遗传算法的改进 86
3.2 粒子群优化算法 87
3.2.1 基本粒子群优化算法 87
3.2.2 带惯性权重w的粒子群优化算法 89
3.2.3 带收缩因子 的粒子群优化算法 91
3.3 量子粒子群优化算法 92
3.3.1 势阱模型的建立 92
3.3.2 粒子的基本进化方程 95
3.3.3 QPSO算法的流程 96
3.3.4 QPSO算法的收敛性分析 97
3.4 QPSO算法的改进——基于选择操作的QPSO算法 103
3.4.1 引言 103
3.4.2 采用锦标赛选择操作的QPSO算法(QPSO-TS) 105
3.4.3 采用轮盘赌选择操作的QPSO算法(QPSO-RS) 106
3.4.4 算法的收敛性分析 107
3.5 本章小结 110
参考文献 110
中篇 多序列比对模拟篇
第4章 遗传算法在多序列比对中的应用 115
4.1 基本遗传算法模拟多序列比对 115
4.1.1 引言 115
4.1.2 多序列比对问题及数学描述 117
4.1.3 算法设计 117
4.1.4 实验算例与分析 120
4.1.5 结论 123
4.2 改进遗传算法之初始种群优化 124
4.2.1 引言 124
4.2.2 优化原理 125
4.2.3 几种初始化方法的构造 127
4.2.4 加入MAFFT种子的初始化 130
4.2.5 实验算例与结果 130
4.2.6 结论 135
4.3 改进遗传算法之交叉算子优化 136
4.3.1 引言 136
4.3.2 交叉算子设计 137
4.3.3 实验算例与结果 140
4.3.4 结论 143
4.4 本章小结 144
参考文献 144
第5章 QPSO算法在多序列比对中的应用 149
5.1 多序列比对的含义 149
5.2 基于二进制QPSO算法的序列比对 151
5.2.1 二进制的PSO算法(BPSO) 151
5.2.2 二进制的QPSO算法(BQPSO) 152
5.2.3 基于BPSO或BQPSO的多序列比对 156
5.3 本章小结 163
参考文献 165
第6章 基于隐马尔可夫模型和QPSO算法的多序列比对 167
6.1 引言 167
6.2 隐马尔可夫模型 168
6.2.1 隐马尔可夫模型的基本原理 168
6.2.2 隐马尔可夫模型的基本问题与算法 169
6.3 基于剖面HMM和QPSO的多序列比对 172
6.3.1 融合多样性的QPSO算法 174
6.3.2 评估训练算法的质量 179
6.3.3 模型的联配问题 179
6.3.4 评估比对序列的质量 181
6.4 本章小结 191
参考文献 191
第7章 多序列比对的并行计算 193
7.1 长序列首尾分段并行比对算法 193
7.1.1 引言 193
7.1.2 构造原理 195
7.1.3 数值模拟结果 196
7.1.4 结论 198
7.2 本章小结 198
参考文献 199
下篇 多序列比对参数篇
第8章 多序列比对的参数研究 203
8.1 基于SP目标函数的多序列比对参数研究 203
8.1.1 引言 203
8.1.2 基本定义 204
8.1.3 公式推导 206
8.1.4 实验结果与分析 210
8.1.5 结论 217
8.2 在线工具MAFFT参数研究 218
8.2.1 引言 218
8.2.2 基本定义 220
8.2.3 实验结果与分析 222
8.2.4 结论 229
8.3 本章小结 230
参考文献 231
附录 相关的源代码 235
附录A 基本遗传算法总程序 235
附录B 生成初始种群bio_var 239
附录C 生成初始种群rand_var 243
附录D 选择算子selection 245
附录E 横向多行交叉算子hhor_crossover4to2 248
附录F 纵向交叉算子ver_crossover4to2 253
附录G 变异算子mutation 259
附录H 适应度函数:SP函数 262
附录I 多序列比对参数研究的相关程序 264
附录J HMM和QPSO算法用于多序列比对的程序 266
随着人类基因组计划的实施和科技的发展,生物学数据呈爆炸式增长,这些海量的生物学数据必须通过生物信息学手段进行收集、分析和整理后,才能成为有用的信息。而如何有效分析和处理这些大型序列数据(即序列分析)成为生物信息学的首要任务。序列比对是生物序列分析的主要方法,也是生物信息学中挑战性的问题之一。序列比对在序列装配、序列注释、基因和蛋白质的结构和功能预测以及系统发育和进化分析等方面均有广泛应用,因此对它的研究一直以来都是热点。
进化算法是一类借鉴生物界自然选择和自然遗传机制的随机搜索算法,主要包括遗传算法(geneticalgorithm,GA)、遗传规划(geneticprogramming,GP)、进化策略(evolutionarystrategies,ES)、进化规划(evolutionaryprogramming,EP)、粒子群优化(particleswarmoptimization,PSO)算法以及近年出现的量子粒子群优化(quantum-behavedparticleswarmoptimization,QPSO)算法,它们通过一系列的进化算子和进化方程,寻找问题的最优解。本书把上述的进化算法及其改进的进化算法,结合数学模型,用于解决生物多序列比对问题。
全书正文各章节结构如下图所示,共分为“多序列比对基础篇”“多序列比对模拟篇”和“多序列比对参数篇”三个模块。
“多序列比对基础篇”(第1章~第3章)介绍生物多序列比对的基础知识,包括多序列比对的基本概念、原理、方法、常用数据库、常用工具和应用等内容,并介绍进化算法和最优化理论的基础知识,以及遗传算法、粒子群优化算法和量子粒子群优化算法的优化过程及收敛性分析,为进行多序列比对的模拟提供理论基础。
“多序列比对模拟篇”(第4章~第7章)是本书的核心部分,主要内容概括如下:
(1)应用基本遗传算法及其改进的遗传算法进行多序列比对。基本遗传算法(GA)是通过对进化过程中的种群反复进行选择、交叉、变异操作来模拟自然界中种群的演变过程,直到满足一定性能要求才结束计算,它本身的结构决定了它可以用在多序列比对上。遗传算法可以有效地解决生物多序列比对问题,但是遗传算法高度依赖于初始种群,好的初始种群方可以得到好的结果。为提高计算效率,提高比对质量,可从遗传算法最关键的组成部分入手,通过优化初始种群的质量,达到改进算法的目的。另外,又针对遗传算法最基本的交叉算子,设计了保优和选择混合的交叉操作后处理方法cross4to2。该方法不但服从保优原则,而且又再一次经过选择操作的精英保留过程,使得最优秀的个体进入下一代。这种处理将算法的整体搜索能力和局部搜索能力大大提高。通过与经典CLUSTAL算法的比较,验证了该算法的有效性。
(2)使用二进制的PSO算法和二进制的QPSO算法进行多序列的比对。为了避免算法的早熟,在算法中还加入了变异算子。首先对群体中的个体进行编码,然后根据目标函数值(通常为序列的得分函数)找出空位的最优位置,使序列比对的结果最优,确定序列的相似性以至于同源性。
(3)使用QPSO算法和改进的QPSO算法,结合隐马尔可夫模型(HMM)进行多序列的比对。这主要涉及两个过程:优化过程和比对过程。优化过程主要研究剖面HMM模型参数的训练过程,获得较优模型。前面已经提及现有的训练算法通常会陷入局部最优,因此研究全局优化算法对模型进行训练极其重要。用并行的群体智能优化算法优化剖面HMM时,优化的主要对象是转移概率和符号发出概率,优化对象的编码方式以及参数的个数将会影响比对的速度,优化过程中算法的全局收敛性将会影响到比对的准确度。比对过程主要研究比对算法的实现过程,获得比对结果。当使用HMM进行多序列比对时,每条序列从开始到结束通过这些状态穿越模型,在这些待比对序列中进行空位字符“-”的插入和删除操作,得到一个多序列比对结果的矩阵。但应确保在比对结果中有尽可能多的列由相同的非空字符组成,同时在由不同字符组成的列中某一个或某几个非空字符的数目尽可能多,以便发现不同序列之间的相似部分,进而推断它们在功能和结构上的相似性。
(4)多序列比对的并行计算。随着计算机科学技术在第三代测序技术以及基因组拼接技术方面的不断发展,生物信息领域获得了越来越多的长基因组序列数据,长序列比对成为急需解决的问题。传统的算法对内存空间的庞大需求以及漫长的运行时间已经无法满足对这种大规模数据的处理,因此长序列比对的并行计算成为研究的一个热点问题。通常的并行模式有:基于“分而治之”策略,结合并行计算的长序列首尾分段并行比对算法;基于“粗细粒度”的并行数据并行算法。
多序列比对是生物信息学的一个重要研究内容,比对结果高度依赖于目标函数和比对工具的参数设置,包括空位罚分(GOP和GEP)以及替换矩阵。“多序列比对参数篇”(第8章)主要做了两方面的工作:
(1)研究SP(sum-of-pair)目标函数,提出确定各参数最优值的理论依据,给出替换矩阵判断公式和最佳空位罚分取值公式,结合待测序列信息得出与之相符的一组最优参数,从而得到更好的比对结果。通过与精度较高的多序列比对工具MAFFT、CLUSTALW的比较,结合BAliBASE2.0数据库进行实例验证,结果表明,根据公式得出的参数可以得到比默认参数更优的比对结果,而且本书公式优化了多序列比对结果,具有可行性和高效性。
(2)基于BAliBASE3.0数据库,应用MAFFT工具(MAFFT-7.220-WIN64version)进行多序列比对,得出替换矩阵和空位罚分的最优参数组合,从而得到更好的比对结果。实验结果表明,通过与MAFFT(MAFFT-7.220-WIN64version)、CLUSTALW(CLUSTALW-2.1-WIN)的默认参数比较,根据本研究得出的最优参数组合可以得到比默认参数更优的比对结果,而且研究结果给出的最优参数组合优化了多序列比对结果。
本书是由多人编撰完成的,编写分工如下:第5章、第6章和附录I~J由龙海侠编撰完成,共计9万字;第4章、第8章和附录A~H由李满枝编撰完成,共计9万字;第1章、第7章由王洪涛编撰完成,共计8.5万字;第2章和第3章由付海艳编撰完成,共计8.5万字。全书由龙海侠和李满枝统稿和修改。本书的出版获海南师范大学学术著作出版资助项目、海南省自然科学基金项目(20151003,614235)、国家自然科学基金(71461008)、海南师范大学数学与统计学院“计算数学”重点学科和信息科学技术学院“计算机科学与技术”一级学科的资助,特此表示感谢。
本书可作为生物信息学、计算生物学、计算机和计算数学等专业本科生或研究生的教材或学习参考书,也可作为相关研究人员的研究参考书。由于我们的专业知识与工作背景的限制,书中还有很多错误或不足之处,敬请希望读者批评指正。
龙海侠李满枝
2017年1月于海南师范大学
这本书的书名《进化算法在生物多序列比对中的应用》,让我联想到的是一种跨学科的智慧碰撞。我一直认为,将不同领域的先进思想进行融合,往往能够催生出更强大的解决问题的方法。在生物信息学领域,多序列比对是一项基础但又极其困难的任务,它需要我们处理大量的、复杂的生物序列数据,并从中提取有价值的信息。而“进化算法”,作为一种受自然启发的计算智能,以其强大的搜索和优化能力,在许多其他领域都展现了非凡的潜力。我非常好奇,这本书将如何系统地介绍进化算法在生物多序列比对中的具体应用。它是否会从生物序列的特性出发,分析多序列比对过程中面临的挑战,例如计算复杂度、参数选择等?然后,再详细阐述各种进化算法,如遗传算法、粒子群优化、蚁群算法等,是如何被设计和调整以适应这些挑战的?我特别期待书中能够包含一些关于算法参数调优的讨论,以及如何评估不同进化算法在多序列比对任务上的性能。此外,如果书中能提供一些实际应用案例,比如在疾病基因定位、药物研发、物种进化关系推断等方面的应用,那将极大地增强我学习的兴趣和动力。
评分拿到这本书的书名,《进化算法在生物多序列比对中的应用》,我的脑海中立刻浮现出两种截然不同的学习体验。一种是枯燥的理论堆砌,另一种则是生动形象的实践指导。我希望这本书属于后者。生物多序列比对,作为理解基因功能、进化关系和蛋白质结构的重要手段,其重要性不言而喻。而“进化算法”则代表着一种强大的计算智能,其模拟自然选择的过程,仿佛也与生物本身的进化有着天然的联系。我希望这本书能够以一种非常直观的方式,将这两个看似独立的领域融合起来。它是否会从生物学的基本问题出发,引出多序列比对的需求?然后,再自然地引入进化算法,说明为何进化算法是解决这些问题的理想工具?我期待书中能够有大量的图示和案例,例如,通过一个具体的生物学问题,一步步展示进化算法如何被设计、运行和优化,最终得到有意义的比对结果。它是否会介绍不同类型的进化算法在多序列比对中的适用性和性能比较?比如,哪种算法更适合处理大规模基因组数据?哪种算法在寻找高度保守区域时效果更佳?我希望这本书能够让我清晰地理解算法背后的逻辑,并能够独立思考如何将这些算法应用于我自己的研究课题中。
评分这本书的书名叫做《进化算法在生物多序列比对中的应用》,听起来就充满了科学和技术的深度。作为一个生物信息学领域的初学者,当我看到这个书名时,首先脑海里闪过的画面是计算机代码在屏幕上跳跃,紧接着联想到的是无数的DNA、RNA或蛋白质序列在进行精密的排列组合,寻找它们之间隐藏的共同祖先信息和功能相似性。生物多序列比对本身就是一项极具挑战性的任务,它涉及到高维度的搜索空间和复杂的相似度度量。而“进化算法”这个词,又像一把钥匙,似乎能够打开通往解决这些复杂问题的路径。我好奇的是,这本书究竟是如何巧妙地将进化算法,例如遗传算法、差分进化、粒子群优化等,这些模拟自然选择和生物进化的思想,应用到生物多序列比对的实际场景中的。书中是否会详细介绍这些算法的原理,以及如何针对多序列比对的特点进行算法的改进和优化?它是否会提供具体的案例分析,让我们能够看到这些算法在解决实际生物学问题时是如何发挥作用的?比如,在基因组学研究中,如何通过多序列比对来识别保守区域,从而推断基因的功能?在蛋白质工程领域,如何利用多序列比对来设计具有特定功能的新型蛋白质?这些都是我非常感兴趣的方向,希望这本书能够提供清晰易懂的解释和引人入胜的实例。
评分我对这本书的期待,更多地在于它能否为我提供一个全新的视角来理解生物序列数据的分析。我一直觉得,生物序列就像是生命的“密码本”,里面蕴含着遗传信息和生命进化的奥秘。而多序列比对,则是解读这些密码的关键技术之一。然而,传统的多序列比对方法在处理大规模、高复杂度的数据集时,往往会遇到计算量巨大、效率低下等问题。这时,“进化算法”的介入,听起来就颇具吸引力。我设想这本书会深入探讨进化算法如何克服这些传统方法的局限性。例如,它是否会介绍如何设计合适的适应度函数来评估序列比对的质量?进化算法又是如何通过迭代搜索,逐步逼近最优比对结果的?我尤其期待书中能够阐述进化算法在处理序列缺失、插入、突变等复杂情况时的优势。是否会有章节专门讲解如何利用进化算法来构建系统发育树,或者进行功能预测?如果书中能包含一些算法的伪代码,或者对算法的实现细节进行详细说明,那将对我进一步学习和实践大有裨益。我希望这本书能够带领我领略进化算法的智慧,并将其应用于生物信息学的前沿研究。
评分我对于《进化算法在生物多序列比对中的应用》这本书的期待,主要集中在其是否能够提供一种更加高效和智能化的解决方案。生物多序列比对是理解基因功能、蛋白质结构和进化关系的核心技术之一,但传统的方法在面对海量数据和复杂序列时,往往面临计算效率瓶颈。进化算法,以其仿生学的思想,能够模拟自然界的优胜劣汰机制,在复杂的搜索空间中寻找最优解,这恰好契合了解决多序列比对问题的需求。我希望这本书能够深入浅出地介绍进化算法的原理,特别是如何将这些算法巧妙地应用于多序列比对的框架中。书中是否会详细讲解如何构建适应度函数,以准确衡量比对的优劣?又会如何设计交叉、变异等算子,以保证算法的探索和开发能力?我更希望书中能提供具体的实现策略和优化技巧,例如如何处理序列的变异、插入和缺失,以及如何提高算法的收敛速度和鲁棒性。如果书中能够包含一些实际的应用案例,例如在基因组进化、蛋白质家族识别、保守区域分析等方面的成功应用,那将极大地提升其学术价值和实践指导意义,让我能够清晰地看到进化算法在生物多序列比对领域的实际威力。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.teaonline.club All Rights Reserved. 图书大百科 版权所有