內容簡介
《深度測序數據的生物信息學分析及實例》幾乎涵蓋瞭深度測序數據分析及應用的各個方麵,適用於從事深度測序數據分析研究的技術人員和學者。在《深度測序數據的生物信息學分析及實例》中,不僅可以瞭解到深度測序技術應用的領域,還可以通過具體實例,瞭解到不同軟件的相關算法、原理及使用方法,以幫助選擇適閤自身研究和應用所需要的深度測序數據分析的解決方案。
《深度測序數據的生物信息學分析及實例》適閤從事生物信息學、係統生物學、醫學信息學、轉化醫學、精準醫學、健康管理等研究領域的讀者閱讀。
內頁插圖
目錄
目錄
前言
1 深度測序技術與生物信息學 1
1.1 深度測序的常用平颱 1
1.1.1 Illumina測序係統 1
1.1.2 Roche 454測序儀 5
1.1.3 Applied Biosystems SOLiD測序儀 7
1.1.4 PacBio RSII單分子測序 8
1.1.5 Ion PGM和Proton半導體測序儀 8
1.2 深度測序技術對生物醫學研究和社會的影響 9
1.2.1 生物醫學大數據與生物醫學研究範式的改變 9
1.2.2 深度測序技術對經濟市場的影響 10
1.2.3 深度測序技術對社會的影響 11
1.3 深度測序數據處理的挑戰 12
1.3.1 數據存取方麵的挑戰 12
1.3.2 計算技術方麵的挑戰 13
1.3.3 數據應用方麵的挑戰 14
1.3.4 人纔缺失與跨學科人纔教育的挑戰 15
1.4 常見的軟件和分析平颱介紹 15
1.4.1 生物信息學雜誌特刊中的軟件及其分類 15
1.4.2 R與Bioconductor軟件平颱 16
參考文獻 17
2 深度測序相關數據庫和數據格式 19
2.1 深度測序相關的數據庫 19
2.2 深度測序相關的數據格式 22
2.2.1 序列與質量分數相關格式 22
2.2.2 序列比對的相關格式 24
2.2.3 序列組裝的相關格式 24
2.2.4 突變的相關格式 25
2.2.5 序列注釋及可視化的相關格式 25
2.3 格式轉換 27
2.3.1 數據格式轉換軟件NGSFormatConverter 27
2.3.2 NGSFormatConverter的安裝與應用 29
參考文獻 30
3 堿基識彆 32
3.1 深度測序堿基識彆簡介 32
3.2 Illumina平颱堿基識彆軟件 33
參考文獻 36
4 基因組序列比對 37
4.1 短序列片段比對軟件的發展 37
4.1.1 深度測序技術帶來的機遇 37
4.1.2 深度測序數據帶來的比對定位瓶頸 37
4.2 深度測序片段比對軟件的比較 39
4.2.1 深度測序片段比對軟件 39
4.2.2 深度測序片段比對定位軟件算法比較 40
4.2.3 比對定位軟件性能比較 45
4.2.4 比對定位軟件評價 47
4.3 深度測序片段比對軟件實例演示 50
4.4 展望 51
參考文獻 53
5 小片段序列組裝 55
5.1 問題闡述:小片段序列組裝 55
5.1.1 小片段組裝類型 55
5.1.2 當前組裝過程的挑戰 56
5.1.3 小片段組裝過程的意義 56
5.2 組裝策略:如何將小片段組裝成重疊群 58
5.2.1 基因組序列的組裝 58
5.2.2 轉錄組序列的組裝 63
5.3 算法評價:如何選取一個閤適的組裝軟件 63
5.3.1 基因組組裝軟件的選擇 64
5.3.2 轉錄組組裝軟件的選擇 66
5.4 程序示例:如何執行一個片段組裝過程 67
5.4.1 基因組測序數據的組裝 67
5.4.2 轉錄組測序數據的組裝 69
5.5 總結和展望:組裝算法何去何從 70
參考文獻 71
6 染色質免疫共沉澱測序數據分析 73
6.1 ChIP-Seq簡介 73
6.1.1 ChIP-Seq的齣現 73
6.1.2 ChIP-Seq的基本實驗流程 75
6.1.3 影響ChIP-Seq實驗成功的因素 76
6.2 ChIP-Seq數據計算分析 77
6.2.1 堿基識彆 77
6.2.2 定位到基因組 78
6.2.3 富集區域的鑒定 78
6.2.4 其他下遊分析 80
6.3 Peak Calling算法比較 81
6.4 ChIP-Seq數據分析應用實例 84
6.4.1 峰的尋找 84
6.4.2 基因關聯 86
6.4.3 Motif發現 87
6.4.4 注釋分析 87
6.4.5 可視化 88
6.5 ChIP-Seq軟件的改進和發展方嚮 89
參考文獻 91
7 轉錄組測序數據分析 93
7.1 RNA-Seq簡介 93
7.2 RNA-Seq技術的應用 96
7.3 RNA-Seq數據處理與軟件 97
7.3.1 概述 97
7.3.2 剪接位點預測軟件 98
7.3.3 基因錶達水平分析軟件 101
7.3.4 綜閤性分析軟件 102
7.4 軟件安裝與使用 105
7.4.1 選擇性剪接軟件 105
7.4.2 基因錶達水平分析軟件 110
7.4.3 綜閤性分析軟件 111
7.5 展望 118
參考文獻 119
8 microRNA-Seq數據分析 121
8.1 microRNA簡介 121
8.2 深度測序與microRNA-Seq技術 122
8.2.1 概述 122
8.2.2 microRNA-Seq實驗流程 123
8.2.3 microRNA-Seq數據處理 123
8.3 microRNA-Seq數據分析軟件 125
8.3.1 概述 125
8.3.2 本地分析軟件 126
8.3.3 在綫分析軟件 138
8.4 軟件性能比較 146
8.4.1 測試數據與環境配置 146
8.4.2 運行時間比較 147
8.4.3 敏感度與準確度比較 147
8.4.4 新的miRNA預測 148
參考文獻 149
9 變異檢測 151
9.1 引言 151
9.2 基因組多態性 153
9.3 變異的類型及其檢測 157
9.3.1 SNP 157
9.3.2 結構變異 159
9.4 變異檢測軟件實例 166
9.4.1 Genome Analysis Toolkit簡介 166
9.4.2 Genome Analysis Toolkit安裝 166
9.4.3 Genome Analysis Toolkit使用 168
9.5 展望 171
參考文獻 172
10 單細胞測序數據分析 176
10.1 單細胞測序技術的簡要發展曆程 176
10.2 單細胞測序的技術實現及主要分類 177
10.2.1 常用單細胞分離的技術 178
10.2.2 單細胞基因組測序技術 179
10.2.3 單細胞轉錄組測序技術 180
10.2.4 單細胞錶觀遺傳組測序技術 181
10.3 單細胞測序的技術應用 181
10.3.1 單細胞測序技術在癌癥生物中的應用 182
10.3.2 單細胞測序技術在發育生物中的應用 182
10.3.3 單細胞測序技術在微生物學研究中的應用 183
10.3.4 單細胞測序技術的臨床應用前景 183
10.4 單細胞測序技術的數據分析實例 183
10.4.1 輸入數據以及數據分析工具介紹 184
10.4.2 數據的讀入與歸一化 184
10.4.3 根據歸一化後的數據鑒定樣本中高度差異錶達的基因 184
10.5 單細胞測序技術的未來發展趨勢 185
參考文獻 186
11 深度測序的數據可視化軟件 188
11.1 數據可視化技術的生物問題和應用背景 188
11.1.1 生物問題 188
11.1.2 應用背景 188
11.2 數據可視化相關軟件介紹和比較 189
11.2.1 基於網絡的可視化瀏覽器 190
11.2.2 基於本地平颱的可視化軟件 191
11.3 軟件示例 197
11.3.1 Savant安裝 197
11.3.2 Savant運行實例 198
參考文獻 205
前言/序言
近年來,以快速、低成本、高通量為特點的深度測序(又稱下一代測序,nextgeneration sequencing,NGS)技術極大地推動瞭相關科學和産業的進步,是未來精準醫療和健康産業的基石。深度測序産生瞭海量的數據,需要新的、專業的技術、方法和軟件來分析與處理。目前,國內外已有大量優秀的研究人員發錶瞭針對深度測序數據分析的新方法和新軟件的論文。但是,國內外全麵介紹深度測序數據分析及實例的書籍尚不多見。本書的編寫目的就是為不同專業背景的讀者提供一本實用的關於深度測序數據分析的書籍。
本書幾乎涵蓋瞭深度測序數據分析及應用的各個方麵,適用於從事深度測序數據分析研究的技術人員和學者。在本書中,不僅可以瞭解到深度測序技術應用的領域,還可以通過具體實例,瞭解到不同軟件的相關算法、原理及使用方法,以幫助選擇適閤自身研究和應用、學習所需要的深度測序數據分析的解決方案。同時,我們構建瞭本書配套的網站以方便讀者進行實例學習,網址為http://sysbio.suda.edu.cn/NGS_book/index.php.
本書共包括11章。第1章主要介紹瞭深度測序技術的常用平颱和原理、對現代生物醫學研究範式的影響、對生物信息學帶來的挑戰和機遇,以及深度測序數據分析的常見軟件和平颱;第2章介紹瞭深度測序相關的數據庫和數據格式;第3章介紹瞭堿基識彆的方法;第4章介紹瞭基因組序列比對;第5章介紹瞭序列片段的組裝:第6章介紹瞭染色質免疫共沉澱測序數據分析;第7章介紹瞭轉錄組測序數據的分析;第8章介紹瞭microRNA-Seq的數據分析;第9章介紹瞭變異檢測;第10章介紹瞭單細胞測序數據分析;第11章介紹瞭深度測序數據的可視化軟件。本書的編寫工作是蘇州大學係統生物學研究中心師生多年來共同努力的結果,由於NGS領域發展迅速,且我們的時間和學識有限,難免有錯誤與不當之處,還希望讀者反饋指正,我們將在以後再版時進行修改和更正。
本書各章的編寫分工如下:前言及第1章,瀋百榮、錢福良、李慶輝、湯溢飛:第2章,吳文濤:第3章,王晶;第4章,尚婧;第5章,張文宇;第6章,李慶輝、荊鑫華;第7章,嚴文穎、林宇鑫、湯溢飛;第8章,林宇鑫、李粵;第9章,崔衛榮、嚴文穎、蔣峻峰;第10章,張文宇;第11章,李吟、湯思捷。網站由林宇鑫、劉行雲、嚴文穎開發。
現代統計學在數據驅動決策中的應用:理論、方法與前沿實踐 本書旨在為讀者提供一個全麵、深入且前沿的現代統計學視角,重點關注其在處理復雜、高維數據以及驅動數據驅動決策中的關鍵理論、方法論和實際應用。 本書內容不涉及生物信息學、測序技術或特定生物學數據的分析,而是立足於統計學這一學科的廣闊基礎,探討如何利用嚴謹的數學框架和計算工具從海量數據中提取有效信息、建立可靠模型並做齣審慎推斷。 第一部分:現代統計學的理論基石與重塑 本部分將係統迴顧並深化讀者對現代統計學核心概念的理解,特彆關注其在麵對“大數據”時代挑戰時所發生的理論演進。 第1章:概率論與數理統計的現代視角 本章將超越傳統的參數估計與假設檢驗框架,探討隨機過程、高維概率分布的特性,以及在信息論指導下對數據不確定性的量化。我們將深入討論貝葉斯理論的現代復興及其在復雜模型構建中的作用,包括馬爾可夫鏈濛特卡洛(MCMC)方法論的嚴謹性、收斂診斷和模型選擇的先進策略。 第2章:統計推斷的局限與超越 我們聚焦於傳統漸近理論(如中心極限定理)在高維或小樣本情境下的局限性。內容涵蓋: 非參數與半參數方法: 重點介紹核密度估計(KDE)、廣義可加模型(GAMs)的統計效率和解釋性,以及如何在不預設嚴格分布假設下進行可靠推斷。 重采樣技術(Bootstrap/Jackknife): 詳細闡述這些方法的統計有效性、偏差修正技術,以及它們在構建穩健置信區間中的應用場景。 經驗似然(Empirical Likelihood): 探討如何利用非參數方法構建似然函數,從而在不依賴特定函數形式下獲得高效的推斷。 第3章:信息論與統計決策理論 本章將統計學與信息論相結閤,探討如何通過信息量(如Kullback-Leibler散度)來度量模型之間的差異。重點內容包括: 模型選擇準則的優化: 深入解析AIC、BIC的局限,並介紹現代信息準則,如WAIC(Widely Applicable Information Criterion)和LOO-CV(Leave-One-Out Cross-Validation)在貝葉斯框架下的應用及其統計學意義。 統計決策理論基礎: 從損失函數的設計到最小化風險,探討如何在不確定性下製定最優決策規則。 第二部分:高維數據建模與機器學習的統計基礎 隨著數據維度(特徵數量)的增長,傳統的綫性模型麵臨多重共綫性、模型過擬閤等挑戰。本部分著眼於利用統計學原理來馴服高維數據。 第4章:正則化與降維的統計學視角 本章將正則化技術視為約束優化問題,而非單純的預測技巧。 Lasso、Ridge和彈性網絡(Elastic Net): 深入剖析 $L_1$ 和 $L_2$ 範數的統計學動機,討論它們在變量選擇和係數收縮上的差異,以及如何通過交叉驗證優化正則化強度。 主成分分析(PCA)的統計解釋: 將PCA視為基於方差最大化的綫性降維,討論如何評估主成分的顯著性,以及它與因子分析(Factor Analysis)在統計結構上的區彆。 稀疏錶示學習: 介紹如何設計稀疏模型以增強模型的可解釋性和計算效率。 第5章:廣義綫性模型(GLMs)的擴展與混閤效應模型 本章超越標準綫性迴歸,探討更靈活的建模框架。 GLMs 進階: 深入研究泊鬆迴歸、負二項迴歸、Logistic迴歸背後的指數族分布理論,以及如何診斷和修正擬閤中的過度離散問題。 混閤效應模型(Mixed-Effects Models): 詳細介紹隨機效應和固定效應的統計學意義,重點在於如何處理具有層次結構或重復測量的復雜數據集,包括隨機截距模型和隨機斜率模型的設計與推斷。 第6章:統計學習中的偏差-方差權衡(Bias-Variance Trade-off) 這是連接傳統統計學與現代機器學習的關鍵章節。 泛化誤差的分解: 從統計學的角度嚴格推導預測誤差可以分解為可歸約誤差、偏差平方和方差。 模型復雜度與泛化能力: 討論VC維、Rademacher復雜度等統計工具如何量化模型的復雜度,以及它們如何指導我們選擇既不過擬閤也不欠擬閤的模型。 第三部分:前沿應用:因果推斷與時間序列的現代方法 本部分探討在復雜觀測數據中識彆“關係”而非僅僅是“相關性”的關鍵統計工具,以及處理序列依賴性的現代技術。 第7章:基於潛在結果框架的因果推斷 本章完全聚焦於統計學中的因果推斷,脫離特定領域的數據類型。 核心假設的嚴格定義: 深入探討可比性(Ignorability/Unconfoundedness)、一緻性(Consistency)和穩定單元處理值假設(SUTVA)的統計含義和檢驗難度。 傾嚮得分(Propensity Score)方法: 詳細講解匹配、分層和逆概率權重(IPW)的設計、實施和統計局限性。 雙重穩健(Doubly Robust)估計器: 介紹如何結閤結果模型和傾嚮得分模型以提高估計的穩健性。 第8章:現代時間序列分析與非綫性建模 本章側重於處理時間依賴性的數據,強調從經典ARIMA模型到狀態空間模型的演進。 狀態空間模型與卡爾曼濾波: 闡述如何利用狀態空間錶示法對隱藏的動態過程進行估計、平滑和預測,特彆是在處理噪聲觀測時。 非綫性時間序列模型: 介紹如非綫性自迴歸模型(NAR)以及如何利用GARCH族模型來刻畫波動率的動態聚集現象。 第9章:貝葉斯層次模型與大數據的適應性 本部分將貝葉斯方法應用於處理具有多層結構和大規模參數空間的復雜模型。 層次建模的統計優勢: 講解如何通過共享信息(信息匯集)來提高小群體或稀疏數據點的估計精度。 計算效率的提升: 介紹變分推斷(Variational Inference, VI)作為MCMC的替代方案,如何在犧牲少量精度的情況下,大幅提升在大數據集上的可擴展性。 本書的最終目標是培養讀者嚴謹的統計思維,使其能夠根據數據的特性、研究問題的性質,選擇、應用並批判性地評估最恰當的統計方法,最終實現穩健、可解釋的數據驅動決策。 讀者在完成本書學習後,將具備應對各種復雜、高維數據集的統計學理論深度和實踐能力。