內容簡介
《研究生創新教育係列叢書:數量遺傳學》係統介紹群體遺傳與數量遺傳的基本理論及其在動植物育種中的應用。《研究生創新教育係列叢書:數量遺傳學》分群體遺傳、數量遺傳、育種應用和基因定位四部分。第1~5章為第一部分,是群體遺傳學基本理論,主要介紹群體遺傳結構與交配係統之間的關係、群體遺傳結構的定嚮改變、有限大小的隨機交配群體、有效群體大小、係譜分析及遺傳多樣性的分子理論等。第6~10章為第二部分,是數量遺傳學基本理論,主要介紹數量性狀的遺傳學和統計學基礎、雙親雜交後代的遺傳分析、隨機交配群體的遺傳分析、基因型和環境互作、遺傳交配設計及其分析方法等。第11~12章為第三部分,分彆介紹數量遺傳學理論在隨機交配群體選擇和純係品種選育中的應用。最後一章為全書的第四部分,簡要介紹數量性狀基因定位的群體類型、簡單區間和完備區間兩種定位方法,以及一個集成遺傳分析軟件。為便於教學和自學,每章之後附有一定數量的練習題,書後附有參考文獻及中英文名詞對照和索引。
《研究生創新教育係列叢書:數量遺傳學》可作為農學和生物學專業本科高年級或研究生數量遺傳課程的教材,也可供廣大遺傳學和育種學研究者參考。
內頁插圖
精彩書評
★該書包含瞭群體遺傳和數量遺傳的基本知識及其在育種中應用的主要方麵,在此基礎上介紹瞭近期發展的基因/QTL定位方法及其應用,內容由淺入深,由推理到與實際研究相結閤,與對這門學科的認知發展過程相適應。這是一部優秀的數量遺傳學教材。
——蓋鈞鎰 中國工程院院士
★在兩年的寫作過程中,筆者不惜以“洪荒之力”,力求做到科學上準確、邏輯上嚴謹、語言上簡明,遺傳理論與育種應用緊密結閤,以求呈上一部適閤不同專業背景、讀後有所收益又值得迴味的教科書/參考書。
不管真實的未來是個什麼樣,有一點恐怕已經不可改變,那就是我這一輩子都要投入到數量遺傳學這一學科的研究、發展、教學和傳播中去瞭,並從不斷的投入中獲取不斷的、也許隻屬於我自己的人生樂趣。
——王建康
目錄
序
前言
第1章 群體結構與交配係統
第2章 群體遺傳結構的定嚮改變
第3章 有限大小的隨機交配群體
第4章 有效群體大小和係譜分析
第5章 遺傳多樣性的分子理論
第6章 數量性狀的遺傳統計學基礎
第7章 雙親雜交後代的遺傳分析
第8章 隨機交配群體的遺傳分析
第9章 基因型與環境間的互作
第10章 遺傳交配設計及其分析方法
第11章 隨機交配群體中的選擇與遺傳進度
第12章 純係品種選育與雜種優勢利用
第13章 數量性狀基因定位
主要參考文獻
中英文名詞對照和索引
後記
前言/序言
數量遺傳學是遺傳學的重要分支,是進化研究和動植物育種的重要理論基礎,也是大多數高校和科研院所遺傳育種專業研究生教育的學位課程。數量遺傳學的研究當然離不開遺傳學的基本理論,但同時還要用到較多微積分、綫性代數和概率統計等高等數學的知識,有時甚至要用到矩陣論、隨機過程和數值計算等現代數學的知識。在應用方麵,數量遺傳學離不開計算機這個重要工具。鑒於此,數量遺傳學本身很重要,而且不是一門簡單易學的課程。在過去十多年教學工作中,作者對此深有體會。一本優秀的教材對一門學科所起的作用不言而喻。作者正是以這樣的初衷撰寫本書,期望用比較通俗易懂的文字,全麵係統地介紹群體與數量遺傳學的基本理論及其在動植物育種中的應用。在寫作過程中,盡量結閤實例和育種實踐來講述重要的理論、方法和公式。同時,作者還始終抱著既讓初學者讀得懂、學得會,又讓有一定基礎的科研人員讀後也能感覺到有新收獲的希望撰寫本書。通過本書的學習,讀者可以順利閱讀群體遺傳學和數量遺傳學的各種經典和現代中英文文獻,這是作者撰寫本書的另一個目的。但限於作者的知識麵和能力,本書也許未能完全實現這些目標。若果真如此,還望讀者諒解和指正。
為適應不同專業、不同層次研究生和科研人員的知識背景,本書第1章的第1節首先介紹瞭遺傳學的一些基本概念和經典孟德爾遺傳學定律,希望遺傳學基礎比較薄弱的人,也能通過本書學習並掌握數量遺傳學。與概率統計有關的基礎知識,則分散在不同的章節裏。這樣安排的初衷是想在講解理論和方法最需要的地方,再來介紹概率統計的相關背景知識。基於這種考慮,離散型隨機變量的基礎知識,在第3章介紹小群體的隨機漂變時給齣;連續型隨機變量、抽樣分布、參數估計和迴歸分析等方麵的知識,在第6章介紹數量性狀的遺傳統計學基礎時給齣;單環境錶型數據方差分析的知識,在第7章介紹雙親雜交後代的遺傳分析時給齣;多環境錶型數據方差分析的知識,則在第9章介紹基因型和環境互作時給齣。為便於教學和學習,每章都編寫瞭一定數量的練習題,以考察學生對基本知識點的掌握情況。除第10章和第13章的少數練習需要使用一些專業軟件外,其他所有計算方麵的練習題都可利用微軟Excel電子錶格來完成。作者還將在適當的時候,在http://www.isbreeding.net網站上公布所有練習題的答案。
2004年年底,作者從墨西哥國際玉米小麥改良中心(CIMMYT)迴國,在中國農業科學院作物科學研究所的支持下,成立瞭數量遺傳課題組。課題組的定位是圍繞作物遺傳和育種研究中存在的重大方法學問題,利用經典和現代遺傳學、分子和係統生物學、現代數學和統計學,以及計算機等學科的理論和方法,開展數量遺傳學、群體遺傳學、生物信息學及其育種應用等相關領域的基礎和應用基礎研究。具體從事遺傳分析方法、遺傳育種軟件工具研發、應用數量遺傳和育種新方法等方麵的研究。同時,課題組還承擔瞭中國農業科學院研究生院研究生學位課程《植物數量遺傳》和留學生學位課程《試驗設計與統計分析(英文)》的教學工作。課題組至今已走過十多個年頭,如果把2014年齣版的《基因定位與育種設計》看作課題組科研工作的産齣,那麼本書則可看作十多年教學工作結齣的一個果實。
好的,這是一本圖書的詳細簡介,該書並非“研究生創新教育係列叢書:數量遺傳學”,而是專注於應用統計學與數據分析在生命科學領域的深度探索與實踐。 --- 圖書名稱:生命科學研究中的高維數據建模與因果推斷 圖書簡介 本書旨在為生命科學領域的研究人員、高級研究生及數據科學專業人士提供一套全麵、深入且高度實用的理論框架與技術指南,用以應對當前生物醫學研究中日益增長的高維、復雜和異構數據的挑戰。 在現代生命科學,特彆是基因組學、蛋白質組學、代謝組學以及臨床流行病學研究中,我們正以前所未有的速度積纍海量數據。這些數據維度往往遠超樣本量($p gg n$),其內在的復雜結構、非綫性關係以及潛在的混雜因素,使得傳統的統計學方法難以準確揭示生物學機製和可靠的預測模型。本書正是針對這些前沿挑戰而設計,它不僅復習瞭必要的統計學基礎,更側重於講解如何將尖端的數據科學技術與嚴謹的生物學思維相結閤,實現從數據到知識的有效轉化。 第一部分:高維數據基礎與降維策略 本書開篇將係統迴顧統計推斷的核心原理,並迅速過渡到高維數據的特殊性。 第一章:生物學數據的高維挑戰 我們將探討基因錶達譜、單細胞測序數據(scRNA-seq)和全基因組關聯研究(GWAS)中$p$值爆炸帶來的統計功效損失和多重檢驗問題。重點闡述有效信息量的概念,以及如何區分真正的生物學信號與技術噪聲。 第二章:特徵選擇與正則化模型 本章深入剖析稀疏建模技術。我們將詳細比較經典的LASSO (Least Absolute Shrinkage and Selection Operator)、Ridge Regression以及更具魯棒性的Elastic Net。此外,還會引入SCAD (Smoothly Clipped Absolute Deviation)和Group LASSO,探討它們在處理具有內在分組結構(如基因傢族或通路)的數據時的優勢。我們將提供詳盡的R/Python代碼示例,演示如何在真實的生物數據集上應用這些方法,並基於交叉驗證評估模型選擇的穩定性。 第三章:現代降維技術:超越PCA 主成分分析(PCA)在處理綫性相關數據時錶現優異,但對於復雜的非綫性生物學流形(Manifold),其能力受限。本章聚焦於非綫性降維方法,包括t-SNE (t-distributed Stochastic Neighbor Embedding)和UMAP (Uniform Manifold Approximation and Projection)。我們將深入探討這些方法的數學基礎、參數選擇的敏感性分析,以及如何利用降維後的嵌入空間進行下遊的生物學聚類和可視化,特彆是在單細胞數據軌跡推斷中的應用。 第二部分:復雜模型的構建與機器學習集成 本部分著眼於構建具有高預測能力和生物學解釋力的模型,重點關注模型結構的靈活性和泛化能力。 第四章:廣義可加模型(GAMs)與非綫性建模 生命現象往往涉及復雜劑量-反應或時間依賴性關係,這些關係難以用簡單的綫性模型捕捉。我們將介紹GAMs及其在處理非綫性協變量效應中的應用,例如,如何使用樣條函數平滑地估計特定基因錶達與疾病進展之間的關係,同時保持模型的可解釋性。 第五章:集成學習方法在預測中的應用 集成方法,如隨機森林(Random Forests)和梯度提升機(Gradient Boosting Machines, GBMs/XGBoost/LightGBM),在處理異構特徵和捕捉高階交互作用方麵錶現齣色。本章將詳細論述如何利用這些模型進行疾病風險評分預測。特彆地,我們將討論如何通過特徵重要性排序(Permutation Importance)從“黑箱”模型中提取具有生物學意義的潛在標誌物集。 第六章:深度學習在生物信息學中的前沿應用 隨著大數據集的齣現,深度學習方法愈發重要。本章將覆蓋捲積神經網絡(CNNs)在處理序列數據(如DNA/RNA序列motif識彆)和循環神經網絡(RNNs/LSTMs)在處理時間序列數據(如時間分辨的細胞周期數據)的應用。討論將側重於如何設計適當的損失函數和正則化策略,以解決生物學數據中常見的標注不平衡問題。 第三部分:從關聯到因果:推斷的嚴謹性 本書的核心競爭力在於將焦點從單純的預測轉移到因果推斷上,這是理解生物學機製的關鍵一步。 第七章:混雜因素控製與傾嚮性評分 在觀察性研究中,混雜因素是得齣錯誤結論的主要障礙。本章係統介紹傾嚮性評分(Propensity Score)的設計、計算與匹配方法,以及如何利用IPW(Inverse Probability Weighting)技術來平衡處理組與對照組的協變量分布。我們將結閤臨床試驗與隊列研究案例,展示如何提高因果效應估計的可靠性。 第八章:工具變量法與結構方程模型 對於無法直接觀測或乾預的生物學變量,工具變量(Instrumental Variables, IV)提供瞭一種強大的替代方案。我們將詳細解釋IV法的理論基礎,包括遺傳變異作為工具變量在GWAS中的應用(孟德爾隨機化,MR)。此外,本書還將引入結構方程模型(Structural Equation Modeling, SEM),用於檢驗復雜的生物學假設路徑,如基因通過蛋白質錶達間接影響錶型。 第十章:可識彆性、敏感性分析與模型驗證 所有因果推斷方法都依賴於特定的不可檢驗的假設(如排他性製約、無未測量混雜)。本章強調敏感性分析的重要性,教導讀者如何係統地測試不同假設條件對最終因果效應估計的影響。最後,我們將探討如何結閤生物學驗證(如細胞實驗或動物模型)來最終確認統計推斷的有效性。 目標讀者與特色 本書內容具有極強的方法論指導性和應用導嚮性。它避免瞭純粹的數學推導冗餘,而是將重點放在選擇正確模型、正確解釋模型輸齣以及評估結果的穩健性上。 麵嚮對象: 基因組學、生物統計學、生物醫學工程、計算生物學領域的研究人員和高年級學生。 特色: 全書貫穿最新的開源軟件(R/Bioconductor, Python/Scikit-learn/PyTorch)實現代碼,並使用來自TCGA、UK Biobank等真實世界的大型數據集作為案例分析,確保讀者能夠將所學知識直接應用於解決當前的科研難題。 通過閱讀本書,讀者將不僅掌握強大的數據分析工具箱,更重要的是,建立起在復雜生物數據環境中進行審慎、嚴謹的科學推理的能力。