内容简介
《研究生创新教育系列丛书:数量遗传学》系统介绍群体遗传与数量遗传的基本理论及其在动植物育种中的应用。《研究生创新教育系列丛书:数量遗传学》分群体遗传、数量遗传、育种应用和基因定位四部分。第1~5章为第一部分,是群体遗传学基本理论,主要介绍群体遗传结构与交配系统之间的关系、群体遗传结构的定向改变、有限大小的随机交配群体、有效群体大小、系谱分析及遗传多样性的分子理论等。第6~10章为第二部分,是数量遗传学基本理论,主要介绍数量性状的遗传学和统计学基础、双亲杂交后代的遗传分析、随机交配群体的遗传分析、基因型和环境互作、遗传交配设计及其分析方法等。第11~12章为第三部分,分别介绍数量遗传学理论在随机交配群体选择和纯系品种选育中的应用。最后一章为全书的第四部分,简要介绍数量性状基因定位的群体类型、简单区间和完备区间两种定位方法,以及一个集成遗传分析软件。为便于教学和自学,每章之后附有一定数量的练习题,书后附有参考文献及中英文名词对照和索引。
《研究生创新教育系列丛书:数量遗传学》可作为农学和生物学专业本科高年级或研究生数量遗传课程的教材,也可供广大遗传学和育种学研究者参考。
内页插图
精彩书评
★该书包含了群体遗传和数量遗传的基本知识及其在育种中应用的主要方面,在此基础上介绍了近期发展的基因/QTL定位方法及其应用,内容由浅入深,由推理到与实际研究相结合,与对这门学科的认知发展过程相适应。这是一部优秀的数量遗传学教材。
——盖钧镒 中国工程院院士
★在两年的写作过程中,笔者不惜以“洪荒之力”,力求做到科学上准确、逻辑上严谨、语言上简明,遗传理论与育种应用紧密结合,以求呈上一部适合不同专业背景、读后有所收益又值得回味的教科书/参考书。
不管真实的未来是个什么样,有一点恐怕已经不可改变,那就是我这一辈子都要投入到数量遗传学这一学科的研究、发展、教学和传播中去了,并从不断的投入中获取不断的、也许只属于我自己的人生乐趣。
——王建康
目录
序
前言
第1章 群体结构与交配系统
第2章 群体遗传结构的定向改变
第3章 有限大小的随机交配群体
第4章 有效群体大小和系谱分析
第5章 遗传多样性的分子理论
第6章 数量性状的遗传统计学基础
第7章 双亲杂交后代的遗传分析
第8章 随机交配群体的遗传分析
第9章 基因型与环境间的互作
第10章 遗传交配设计及其分析方法
第11章 随机交配群体中的选择与遗传进度
第12章 纯系品种选育与杂种优势利用
第13章 数量性状基因定位
主要参考文献
中英文名词对照和索引
后记
前言/序言
数量遗传学是遗传学的重要分支,是进化研究和动植物育种的重要理论基础,也是大多数高校和科研院所遗传育种专业研究生教育的学位课程。数量遗传学的研究当然离不开遗传学的基本理论,但同时还要用到较多微积分、线性代数和概率统计等高等数学的知识,有时甚至要用到矩阵论、随机过程和数值计算等现代数学的知识。在应用方面,数量遗传学离不开计算机这个重要工具。鉴于此,数量遗传学本身很重要,而且不是一门简单易学的课程。在过去十多年教学工作中,作者对此深有体会。一本优秀的教材对一门学科所起的作用不言而喻。作者正是以这样的初衷撰写本书,期望用比较通俗易懂的文字,全面系统地介绍群体与数量遗传学的基本理论及其在动植物育种中的应用。在写作过程中,尽量结合实例和育种实践来讲述重要的理论、方法和公式。同时,作者还始终抱着既让初学者读得懂、学得会,又让有一定基础的科研人员读后也能感觉到有新收获的希望撰写本书。通过本书的学习,读者可以顺利阅读群体遗传学和数量遗传学的各种经典和现代中英文文献,这是作者撰写本书的另一个目的。但限于作者的知识面和能力,本书也许未能完全实现这些目标。若果真如此,还望读者谅解和指正。
为适应不同专业、不同层次研究生和科研人员的知识背景,本书第1章的第1节首先介绍了遗传学的一些基本概念和经典孟德尔遗传学定律,希望遗传学基础比较薄弱的人,也能通过本书学习并掌握数量遗传学。与概率统计有关的基础知识,则分散在不同的章节里。这样安排的初衷是想在讲解理论和方法最需要的地方,再来介绍概率统计的相关背景知识。基于这种考虑,离散型随机变量的基础知识,在第3章介绍小群体的随机漂变时给出;连续型随机变量、抽样分布、参数估计和回归分析等方面的知识,在第6章介绍数量性状的遗传统计学基础时给出;单环境表型数据方差分析的知识,在第7章介绍双亲杂交后代的遗传分析时给出;多环境表型数据方差分析的知识,则在第9章介绍基因型和环境互作时给出。为便于教学和学习,每章都编写了一定数量的练习题,以考察学生对基本知识点的掌握情况。除第10章和第13章的少数练习需要使用一些专业软件外,其他所有计算方面的练习题都可利用微软Excel电子表格来完成。作者还将在适当的时候,在http://www.isbreeding.net网站上公布所有练习题的答案。
2004年年底,作者从墨西哥国际玉米小麦改良中心(CIMMYT)回国,在中国农业科学院作物科学研究所的支持下,成立了数量遗传课题组。课题组的定位是围绕作物遗传和育种研究中存在的重大方法学问题,利用经典和现代遗传学、分子和系统生物学、现代数学和统计学,以及计算机等学科的理论和方法,开展数量遗传学、群体遗传学、生物信息学及其育种应用等相关领域的基础和应用基础研究。具体从事遗传分析方法、遗传育种软件工具研发、应用数量遗传和育种新方法等方面的研究。同时,课题组还承担了中国农业科学院研究生院研究生学位课程《植物数量遗传》和留学生学位课程《试验设计与统计分析(英文)》的教学工作。课题组至今已走过十多个年头,如果把2014年出版的《基因定位与育种设计》看作课题组科研工作的产出,那么本书则可看作十多年教学工作结出的一个果实。
好的,这是一本图书的详细简介,该书并非“研究生创新教育系列丛书:数量遗传学”,而是专注于应用统计学与数据分析在生命科学领域的深度探索与实践。 --- 图书名称:生命科学研究中的高维数据建模与因果推断 图书简介 本书旨在为生命科学领域的研究人员、高级研究生及数据科学专业人士提供一套全面、深入且高度实用的理论框架与技术指南,用以应对当前生物医学研究中日益增长的高维、复杂和异构数据的挑战。 在现代生命科学,特别是基因组学、蛋白质组学、代谢组学以及临床流行病学研究中,我们正以前所未有的速度积累海量数据。这些数据维度往往远超样本量($p gg n$),其内在的复杂结构、非线性关系以及潜在的混杂因素,使得传统的统计学方法难以准确揭示生物学机制和可靠的预测模型。本书正是针对这些前沿挑战而设计,它不仅复习了必要的统计学基础,更侧重于讲解如何将尖端的数据科学技术与严谨的生物学思维相结合,实现从数据到知识的有效转化。 第一部分:高维数据基础与降维策略 本书开篇将系统回顾统计推断的核心原理,并迅速过渡到高维数据的特殊性。 第一章:生物学数据的高维挑战 我们将探讨基因表达谱、单细胞测序数据(scRNA-seq)和全基因组关联研究(GWAS)中$p$值爆炸带来的统计功效损失和多重检验问题。重点阐述有效信息量的概念,以及如何区分真正的生物学信号与技术噪声。 第二章:特征选择与正则化模型 本章深入剖析稀疏建模技术。我们将详细比较经典的LASSO (Least Absolute Shrinkage and Selection Operator)、Ridge Regression以及更具鲁棒性的Elastic Net。此外,还会引入SCAD (Smoothly Clipped Absolute Deviation)和Group LASSO,探讨它们在处理具有内在分组结构(如基因家族或通路)的数据时的优势。我们将提供详尽的R/Python代码示例,演示如何在真实的生物数据集上应用这些方法,并基于交叉验证评估模型选择的稳定性。 第三章:现代降维技术:超越PCA 主成分分析(PCA)在处理线性相关数据时表现优异,但对于复杂的非线性生物学流形(Manifold),其能力受限。本章聚焦于非线性降维方法,包括t-SNE (t-distributed Stochastic Neighbor Embedding)和UMAP (Uniform Manifold Approximation and Projection)。我们将深入探讨这些方法的数学基础、参数选择的敏感性分析,以及如何利用降维后的嵌入空间进行下游的生物学聚类和可视化,特别是在单细胞数据轨迹推断中的应用。 第二部分:复杂模型的构建与机器学习集成 本部分着眼于构建具有高预测能力和生物学解释力的模型,重点关注模型结构的灵活性和泛化能力。 第四章:广义可加模型(GAMs)与非线性建模 生命现象往往涉及复杂剂量-反应或时间依赖性关系,这些关系难以用简单的线性模型捕捉。我们将介绍GAMs及其在处理非线性协变量效应中的应用,例如,如何使用样条函数平滑地估计特定基因表达与疾病进展之间的关系,同时保持模型的可解释性。 第五章:集成学习方法在预测中的应用 集成方法,如随机森林(Random Forests)和梯度提升机(Gradient Boosting Machines, GBMs/XGBoost/LightGBM),在处理异构特征和捕捉高阶交互作用方面表现出色。本章将详细论述如何利用这些模型进行疾病风险评分预测。特别地,我们将讨论如何通过特征重要性排序(Permutation Importance)从“黑箱”模型中提取具有生物学意义的潜在标志物集。 第六章:深度学习在生物信息学中的前沿应用 随着大数据集的出现,深度学习方法愈发重要。本章将覆盖卷积神经网络(CNNs)在处理序列数据(如DNA/RNA序列motif识别)和循环神经网络(RNNs/LSTMs)在处理时间序列数据(如时间分辨的细胞周期数据)的应用。讨论将侧重于如何设计适当的损失函数和正则化策略,以解决生物学数据中常见的标注不平衡问题。 第三部分:从关联到因果:推断的严谨性 本书的核心竞争力在于将焦点从单纯的预测转移到因果推断上,这是理解生物学机制的关键一步。 第七章:混杂因素控制与倾向性评分 在观察性研究中,混杂因素是得出错误结论的主要障碍。本章系统介绍倾向性评分(Propensity Score)的设计、计算与匹配方法,以及如何利用IPW(Inverse Probability Weighting)技术来平衡处理组与对照组的协变量分布。我们将结合临床试验与队列研究案例,展示如何提高因果效应估计的可靠性。 第八章:工具变量法与结构方程模型 对于无法直接观测或干预的生物学变量,工具变量(Instrumental Variables, IV)提供了一种强大的替代方案。我们将详细解释IV法的理论基础,包括遗传变异作为工具变量在GWAS中的应用(孟德尔随机化,MR)。此外,本书还将引入结构方程模型(Structural Equation Modeling, SEM),用于检验复杂的生物学假设路径,如基因通过蛋白质表达间接影响表型。 第十章:可识别性、敏感性分析与模型验证 所有因果推断方法都依赖于特定的不可检验的假设(如排他性制约、无未测量混杂)。本章强调敏感性分析的重要性,教导读者如何系统地测试不同假设条件对最终因果效应估计的影响。最后,我们将探讨如何结合生物学验证(如细胞实验或动物模型)来最终确认统计推断的有效性。 目标读者与特色 本书内容具有极强的方法论指导性和应用导向性。它避免了纯粹的数学推导冗余,而是将重点放在选择正确模型、正确解释模型输出以及评估结果的稳健性上。 面向对象: 基因组学、生物统计学、生物医学工程、计算生物学领域的研究人员和高年级学生。 特色: 全书贯穿最新的开源软件(R/Bioconductor, Python/Scikit-learn/PyTorch)实现代码,并使用来自TCGA、UK Biobank等真实世界的大型数据集作为案例分析,确保读者能够将所学知识直接应用于解决当前的科研难题。 通过阅读本书,读者将不仅掌握强大的数据分析工具箱,更重要的是,建立起在复杂生物数据环境中进行审慎、严谨的科学推理的能力。