具體描述
內容簡介
如果說21世紀是生物學世紀,生物信息學應該是支撐生物學世紀的核心科技之一。而大數據科學和人工智能技術正在將生物信息學推嚮生命科學和信息科學的前沿。《生物信息學計算技術和軟件導論》分為生物信息學基礎篇和生物信息組學技術篇兩大部分。生物信息學基礎篇從新興領域切入,介紹生物信息學的計算科學及進化生物學基礎(如網絡科學與大數據技術、深度學習、計算智能、高維數據分析、馬爾可夫鏈濛特卡洛法,隱馬爾可夫模型,貝葉斯統計、醫學生態學、DNA計算、進化樹與溯祖樹分析、種群遺傳學等)。生物信息組學技術篇除經典內容(基因組、轉錄組、蛋白質組)外,還包括新的三代基因測序算法和軟件(作者團隊研發的DBG2OLC和SPARC)、微生物群係(Microbiome)和宏基因組學(Metagenomics)、非編碼RNA、新藥發現、代謝組學(Metabolomics)等熱點內容。 目錄
目錄
生物信息學基礎篇
第1章 生物信息學一些前沿領域簡介 3
1.1 生物信息大數據 3
1.2 復雜網絡分析概論 11
1.3 復雜網絡分析實例:以微生物群係醫學生態網絡為例 15
1.4 深度學習、計算智能與人工智能 21
1.5 醫學生態學 25
1.6 DNA計算機-生物學對計算機科學的迴饋 30
第2章 係統發育樹與溯祖分析 38
2.1 樹的概念 38
2.2 主要的建樹方法 39
2.3 模型選擇 50
2.4 貝葉斯方法 54
2.5 溯祖理論 60
2.6 物種樹估計 64
第3章 群體遺傳學數據分析軟件簡介 70
3.1 多功能軟件比較 70
3.2 理論模型與分析方法的實現方式 72
3.3 軟件運行方式與編程語言 79
3.4 總結與展望 79
第4章 生物信息學中重要統計計算方法和模型 85
4.1 計算機模擬技術 85
4.2 馬爾可夫濛特卡羅法 93
4.3 隱馬爾可夫模型 98
4.4 貝葉斯統計 105
4.5 統計學習 114
4.6 高斯圖模型 120
生物信息組學技術篇
第5章 第三代基因測序組裝算法和軟件技術 129
5.1 第三代基因測序及組裝技術簡介 129
5.2 第三代基因組裝算法及軟件簡介:以DBG20LC和SPARC為例 132
5.3 三代基因組裝算法和軟件比較 139
5.4 DBG20LC和SPARC軟件使用簡介 140
第6章 基因組第二代測序數據的生物信息學分析 145
6.1 基因測序技術簡介 145
6.2 基因組裝技術 149
6.3 外顯子基因突變檢測 154
6.4 單細胞測序數據的基因組裝 156
第7章 轉錄組數據的生物信息學分析 160
7.1 轉錄組技術的發展 160
7.2 RNA-seq數據的質量控製 163
7.3 基於參考基因組的轉錄組分析 164
7.4 無參考基因組的轉錄組的從頭拼裝及拼裝質量評估 170
第8章 非編碼RNA研究常用數據庫及軟件 175
8.1 非編碼RNA概述 175
8.2 非編碼RNA常用數據庫 179
8.3 非編碼RNA研究常用軟件 184
第9章 蛋白質組學研究常用軟件簡介 210
9.1 蛋白質組學簡介 210
9.2 計算蛋白質組學的應用 215
9.3 計算蛋白質組學算法與數據庫 230
第10章 新藥物發現中的生物信息學軟件簡介 236
10.1 大型藥物設計平颱 237
10.2 分子視圖軟件 238
10.3 化學結構編輯程序 242
10.4 分子對接與虛擬篩選軟件 245
10.5 配體構象搜索軟件 250
10.6 藥效團模擬軟件 251
10.7 分子動力學模擬軟件 254
10.8 在綫藥物設計資源列錶 255
10.9 小結 257
第11章 宏基因組學概述及生物信息學分析 260
11.1 宏基因組學技術簡介 260
11.2 宏基因組學研究流程 261
Chapter 12 Bioinformatics for Metabolomics:An Introduction 277
Abstract 277
12.1 Introduction to Metabolomics 277
12.2 Technologies for Metabolomics 280
12.3 Data Formats for Metabolomics 285
12.4 Databases for Metabolomics 287
12.5 General Principles for Metabolomic Data Analysis 292
12.6 From Spectra to Metabolite Lists:Bioinformatics for Metabolite Identification 293
12.7 From Metabolite Lists to Significant Metabolites:Multivariate Statistics 300
12.8 From Significant Metabolites to Pathways:Bioinformatics for Metabolite Interpretation 306
12.9 Conclusion 310
《生物信息學計算技術與軟件導論》是一本深入探討生命科學數據分析核心方法的著作。本書旨在為讀者提供一個全麵而係統的視角,理解如何利用計算工具和軟件來解決生物學中的復雜問題。 核心內容概述 本書圍繞生物信息學計算技術這一主題,係統性地介紹瞭生命科學領域中常用的計算方法、算法以及與之配套的軟件工具。其內容涵蓋瞭從基礎的數據處理到高級的分析模型,力求讓讀者掌握分析大規模生物數據的能力。 第一部分:生物信息學基礎與數據處理 在生物信息學領域,數據的質量和有效性是後續分析的基石。本部分首先介紹瞭生物信息學産生的背景,即“後基因組時代”海量數據的湧現,以及這些數據在理解生命過程中的重要性。接著,本書將詳細闡述各種生物數據庫的結構、訪問方式和數據標準,例如NCBI(美國國傢生物技術信息中心)和EBI(歐洲生物信息學研究所)提供的GenBank、EMBL、UniProt、PDB等核心數據庫。讀者將學習如何有效地檢索、下載和管理這些寶貴的資源,理解序列數據(DNA、RNA、蛋白質)、結構數據、錶達數據等不同類型數據的特點及其存儲格式(如FASTA、FASTQ、GenBank格式、PDB格式等)。 數據預處理是任何計算分析不可或缺的環節。本書將深入講解序列比對技術,包括全局比對(Needleman-Wunsch算法)和局部比對(Smith-Waterman算法)的基本原理,以及它們在查找同源序列、基因傢族分析等方麵的應用。同時,會詳細介紹常用的序列比對軟件,如BLAST(Basic Local Alignment Search Tool)係列及其變種(PSI-BLAST, DELTA-BLAST等),解釋其算法效率和參數調優策略。此外,本書還會涉及序列質量評估、低質量序列過濾、去除嵌閤序列、以及數據格式轉換等實踐性操作,為後續更復雜的分析奠定基礎。 第二部分:基因組與轉錄組分析 基因組學和轉錄組學是現代生物學研究的兩個重要分支,它們産生的數據量巨大且復雜。本部分將聚焦於基因組數據的處理和分析。首先,本書會介紹基因組測序技術的演進,從二代測序(Illumina)到三代測序(PacBio, Oxford Nanopore)的原理和特點,以及它們在基因組組裝方麵帶來的挑戰和機遇。隨後,將詳細講解基因組組裝的算法,包括De Bruijn圖方法和Overlap-Layout-Consensus(OLC)方法,並介紹市場上主流的基因組組裝軟件(如SPAdes, Velvet, Canu等)的優缺點及適用場景。 基因組組裝完成後,基因注釋是理解基因組功能信息的核心步驟。本書將深入解析基因預測的各種算法,包括基於統計模型(如隱馬爾可夫模型HMM)和機器學習的方法,以及如何利用已知的功能基因數據庫(如GO, KEGG)和保守序列區域進行輔助注釋。讀者將學習如何使用基因注釋軟件(如Prokka, Augustus, SNAP等)來鑒定基因的邊界、外顯子-內含子結構,並預測其編碼的蛋白質序列。 在轉錄組學方麵,本書將重點介紹RNA測序(RNA-Seq)數據的分析流程。從原始 reads 的質量控製、接頭去除,到 reads 的比對(使用STAR, HISAT2等比對器)和定量(如FPKM, TPM等指標的計算,使用featureCounts, Salmon, Kallisto等工具),再到差異錶達基因的鑒定(使用DESeq2, edgeR等軟件包)。本書還將探討不同實驗設計下(如配對樣本、多組實驗)的差異錶達分析策略,以及如何對差異錶達基因進行富集分析(GO富集,KEGG通路富集),挖掘其潛在的生物學功能。 第三部分:蛋白質組學與結構生物信息學 蛋白質是生命活動的主要執行者,蛋白質組學和結構生物信息學為我們提供瞭深入理解蛋白質功能和相互作用的手段。本部分將涵蓋蛋白質序列和結構的分析。首先,本書會介紹蛋白質序列數據庫(如UniProtKB/Swiss-Prot)及其信息內容,以及如何進行蛋白質序列的比對和同源性搜索。接著,將深入講解蛋白質二級結構、三級結構和四級結構的預測方法,包括基於同源建模(Homology Modeling)、從頭預測(Ab initio Prediction)和機器學習方法(如AlphaFold2)。 蛋白質結構的解析是理解其功能的關鍵。本書將介紹常用的蛋白質結構可視化軟件(如PyMOL, VMD, ChimeraX)以及如何分析蛋白質的二級結構(alpha-helix, beta-sheet)、三維空間構象、氨基酸殘基的互作,並解釋如何利用PDB(Protein Data Bank)數據庫中的結構信息進行分子對接(Molecular Docking)模擬,預測小分子與蛋白質的結閤模式和親和力,這對於藥物設計具有重要意義。 蛋白質相互作用網絡的分析也是現代生物學研究的熱點。本書將介紹蛋白質-蛋白質相互作用(PPI)網絡的構建方法,包括基於實驗證據(如酵母雙雜交Y2H, co-immunoprecipitation Co-IP)和計算預測的方法。讀者將學習如何利用PPI網絡分析軟件(如Cytoscape)來可視化和分析網絡拓撲結構,識彆關鍵的蛋白質節點和通路,從而揭示復雜的生物學功能模塊。 第四部分:係統生物學與高級計算方法 係統生物學旨在從整體上理解生物係統,而高級計算方法是實現這一目標的重要支撐。本部分將介紹一些更復雜的生物信息學分析技術。首先,本書會探討機器學習在生物信息學中的應用,包括監督學習(如分類、迴歸,用於預測蛋白質功能、藥物靶點)和無監督學習(如聚類,用於基因錶達模式的發現、物種分類)。讀者將學習如何選擇閤適的機器學習算法,以及如何使用Python(Scikit-learn)或R等編程語言實現這些模型。 此外,本書還將介紹生物信息學中的統計學方法,例如假設檢驗、方差分析(ANOVA)、多重檢驗校正(如Bonferroni, FDR)等,這些方法對於解釋實驗結果、識彆顯著的生物學信號至關重要。 在生物網絡分析方麵,本書會進一步拓展,介紹代謝通路分析、信號轉導通路分析,以及如何利用生物信息學工具來推斷和模擬這些復雜網絡。最後,本書將對一些前沿的生物信息學計算技術進行展望,例如單細胞測序數據分析、宏基因組學數據分析、以及人工智能在生物信息學領域的最新進展,引導讀者關注該領域的未來發展方嚮。 適用讀者與學習目標 本書適閤生物學、醫學、藥學、計算機科學以及相關領域的學生、研究人員和從業者。無論您是剛剛接觸生物信息學的新手,還是希望深化相關計算技能的專業人士,都能從本書中獲益。通過學習本書,讀者將能夠: 理解生物信息學數據的基本類型、結構和獲取途徑。 掌握常用的序列比對、基因組組裝、基因注釋和差異錶達分析等核心計算方法。 熟悉主流的生物信息學軟件和工具的使用。 初步掌握蛋白質結構分析和相互作用網絡構建的基本原理。 瞭解機器學習和統計學在生物信息學研究中的應用。 具備獨立進行基本生物信息學數據分析的能力,並能夠解讀分析結果。 為進一步深入學習更高級的生物信息學專題打下堅實的基礎。 總結 《生物信息學計算技術與軟件導論》並非一本羅列軟件功能的手冊,而是一本深入剖析計算方法背後原理,並將其與實際生物學問題相結閤的指南。本書通過理論講解與案例分析的結閤,旨在培養讀者解決生物學研究中數據分析挑戰的綜閤能力,為推動生命科學的創新發展貢獻力量。