內容簡介
本書介紹生物信息學平颱搭建和常用基礎軟件的安裝與運行,使讀者能夠配置自己的生物信息學分析環境;通過介紹計算機輔助藥物設計和基因組重復序列分析等內容使讀者熟悉生物信息學分析的一般策略。著重講解生物信息學分析過程中常見問題的解決方法,在確保操作步驟完整的基礎上盡量精簡,力求幫助使讀者在最短的時間內掌握知識和能勝任該方麵工作。
目錄
第一章生物信息學分析基礎工具與平颱配置
第一節文本編輯器
一、常用的文本編輯器
二、UltraEdit
三、Vi編輯器
第二節Linux係統基礎
一、軟件安裝
二、PATH路徑設置
三、必備Linux命令
四、Linux係統的輸齣重定嚮與管道
五、中文版Linux改為英文版
六、開啓FTP服務
第三節生物信息學實驗室局域網
一、生物信息學局域網實例
二、遠程登錄
第四節Windows係統下構建本地BLAST
一、BLAST的下載安裝
二、Blast的使用
三、實例講解
參考文獻
第二章生物信息數據庫的使用與構建
第一節NCBI數據庫資源
NCBI數據庫檢索
第二節數據存儲格式
一、FASTA格式
二、FASTQ格式
三、Genebank格式
四、EMBL格式
五、采用XML實現生物數據庫的整閤
第三節著名的生物信息學數據庫
第四節生物信息學數據庫的構建方法
一、Apache的安裝與啓動
二、MySQL的安裝與配置
三、PHP的安裝與配置
四、不能安裝的情況
五、利用Windows Server搭建數據庫服務器
參考文獻
第三章基於蛋白質結構的計算機輔助藥物設計
第一節蛋白質二級結構
一、α螺鏇
二、β片層
三、β轉角
四、蛋白質二級結構預測
第二節蛋白質結構數據庫及其檢索
一、PDB數據庫檢索
二、蛋白質結構數據的存儲格式
三、蛋白質結構可視化
第三節蛋白質結構的預測
一、國際蛋白質結構預測技術評估大賽(CASP)
二、利用SWISS�睲ODEL預測蛋白質的三級結構
第四節分子對接工具Autodock
一、Autodock程序的安裝
二、小分子的來源和處理
三、大分子的處理
四、兩個參數文件(gpf和dpf)的設置
五、結果的處理
第五節分子模擬原理與工具
一、分子模擬的主要方法
二、分子模擬常見工具
第六節分子動力學模擬工具Amber
一、生成小分子模闆
二、處理蛋白質文件
三、生成拓撲文件和坐標文件
四、能量優化
五、LEAP使用
六、MD過程
七、VMD的使用
八、觀看並保存圖像的步驟
九、RMS計算
十、結果數據處理
參考文獻
第四章轉座子的生物信息學分析
第一節轉座子的分類
一、分類級彆
二、自主與非自主轉座子
三、轉座子的命名
四、轉座子的生物信息學分析
五、重復序列挖掘工具
第二節RepeatMasker和RepeatModeler
一、RepeatMasker的安裝
二、RepeatModeler的安裝
三、RepeatMasker的操作
四、RepeatMasker搜索的過程
五、兩個Perl程序
六、聯閤多個重復序列數據庫
七、RepeatMasker的其他參數
八、Out結果文件
九、RepeatModeler的使用
第三節LTRharvest
第四節序列去冗餘
第五節Circos繪圖
一、Circos的安裝
二、Circos的顔色
三、圖像分析
四、核型文件
五、ideogram標簽
六、連接
七、圖像輸齣
八、直方圖
九、Highlights圖
十、容易齣現的問題
參考文獻
第五章生物信息學資源
第一節網絡資源
一、在綫工具鏈接Expasy
二、常用生物軟件分類與下載
三、生物信息學中文論壇
第二節期刊與機構
一、生物信息學期刊
二、生物信息學機構
第三節在綫小工具
一、開放閱讀框查找工具ORF Finder
二、繪製GO注釋結果
三、蛋白質組成和穩定性分析ProtParam
四、啓動子區預測工具Promoter
五、序列logo
六、蛋白質序列綜閤分析工具PredictProte
七、信號肽
八、比較分析圖繪製工具VENNY
第四節生物信息學分析軟件
一、EMBOSS
二、EMBOSS運行示例
三、綜閤序列分析軟件DNAstar
四、分子生物學常用工具簡介
參考文獻
第六章分子進化
第一節分子進化基礎
一、構建進化樹的算法
二、進化樹格式
三、進化樹的圖形顯示
四、進化軟件
第二節通過phylip構建進化樹
一、準備
二、通過Clustal將Fasta格式的序列進行比對並保存為phy格式
三、使用seqboot設置重復數量
四、通過似然法計算進化樹
五、構建一緻樹
六、圖片製作
參考文獻
第七章生物信息學編程基礎
第一節Perl語言
一、CPAN
二、正則錶達式
三、Bioperl的安裝
第二節統計語言
一、R語言
二、其他統計分析工具
參考文獻
附錄一生物信息學常用詞匯錶一
附錄二生物信息學常用詞匯錶二
前言/序言
第一章生物信息學分析基礎工具與平颱配置
第一章生物信息學分析基礎
工具與平颱配置
隨著生物信息學的普及運用,大多數實驗室都需要通過一些生物信息學的工具,甚至是構建生物信息學分析平颱服務生物學實驗,並提示進一步的實驗方案。根據實驗室具體需求,集成各種常用分析工具、資源,將可以高效地完成本實驗室成員生物信息學分析的需求,還能夠完成一些序列批量處理的任務。許多生物信息學的分析軟件和數據庫可以通過互聯網(Internet)免費獲取,為生物信息學平颱的建設奠定瞭基礎。
生物信息平颱的建設是需要逐步推進和實施的。因而在設計和構建過程中要注意平颱的實用性並做好備份工作。實用性的高低直接影響到使用者對係統的評價。係統在設計時,在滿足實際應用要求的目標前提下,應該多從使用者的角度齣發,采用麵嚮用戶的設計理念,提供界麵友好、操作方便的用戶交互平颱和操作環境。實驗室生物信息學平颱一般都由多個實驗室成員共同使用,這就導緻不可避免會齣現一些問題,為此,首先要做好數據的備份工作,其次要注意記錄平颱軟件的安裝和使用方法,在平颱齣現問題後可以方便地進行恢復。
本章的主要內容包括:幾乎所有生物信息學分析中都會用到的工具和方法,如:文本編輯器、Linux操作係統係統下安裝軟件、係統基礎服務的配置等。
第一節文本編輯器
文本編輯器是用於編寫普通文字的應用軟件,以純文本形式進行儲存,一般用來編寫程序源代碼。而Word等文檔編輯器是以二進製格式進行存儲,主要功能是用來排版。文本編輯器具有的典型功能主要有:查找、替換、剪切、復製、粘貼、行號、自動縮排、撤銷和恢復等。Windows係統自帶的記事本雖然也是文本編輯器,但功能較小,編寫腳本程序時沒有語法提示,也不能打開比較大的文件,如:基因組、蛋白組等。在生物信息分析過程中,絕大多數軟件的結果都是純文本格式,不同軟件之間的數據傳遞也經常通過純文本格式,此外,編寫生物信息學程序腳本也需要用到文本編輯器,因此,文本編輯器是生物信息學中一個非常重要的工具。本節將介紹Windows下的UltraEdit和Linux下的vi編輯器。
一、常用的文本編輯器
Notepad是一個開源免費的文本編輯器,可以對多種編程語言實現語法高亮,代碼摺疊,拖放縮放等。Notepad2是一個相當優秀的輕量級文本編輯器,具有很多特色功能,如代碼高亮、編碼轉換、行號顯示、多步Ctrl+Z等,是不可多得的記事本替代工具。而Notepad2�瞞od是Notepad2的修改版、更新很及時,支持代碼摺疊、NSIS、Inno、AHK語法高亮等。PSPad是Windows平颱上免費的適閤程序員使用的編輯器,它可以保持上一次的編輯狀態,下次打開編輯器的時候可以直接顯示原來的文件,此外還支持通過FTP進行遠程編輯,支持多文件比較等。Emacs編輯器具有內置的宏功能以及強大的鍵盤命令,幾乎被移植到瞭每一個平颱,並有多個發行版,是跨平颱、完全免費並且開源。Sublime Text3編輯器支持但不限於Perl、Python、R、PHP、C、C++、C#、HTML、Groovy、Haskell、HTML、Java、JavaScript、LaTeX、Lisp、Lua、Markdown、Matlab、OCaml、Ruby、SQL、TCL、Textile以及XML等主流編程語言的語法高亮。
Gedit是Linux下的一個純文本編輯器,但也可以把它用來當成一個集成開發環境(IDE),它會根據不同的語言高亮顯現關鍵字和標識符。
二、UltraEdit
UltraEdit(http://www�眜ltraedit�眂om/)是一套功能強大的文本編輯器,可以編輯文本、十六進製、ASCII碼,可同時編輯多個文件,而且即使開啓很大的文件速度也不會慢。可以編輯列;可將文件另存為多種編碼格式從而解決亂碼問題,有Perl腳本的語法錯誤提示。生物信息分析中,可以通過Ultraedit打開基因組文件,支持超過4GB的文件。
在UltraEdit使用過程中,建議修改以下配置以方便使用。
(1)UltraEdit默認保存一個臨時文件以備份修改前的文字,雖然很安全,但是一般情況下需要不斷地進行刪除,造成瞭不必要的麻煩,因此,可以設置成不備份;高級—配置—文件處理—備份—不備份(圖1-1)。
(2)在鼠標右鍵中添加UltraEdit,這樣可以很方便地打開文件。高級—配置—文件關聯,選擇集成到資源管理項。
圖1-1設置UltraEdit不産生臨時文件
三、Vi編輯器
Vi編輯器是Linux係統的一個文本編輯器,可通過終端進行操作。因此是必須掌握的工具之一。但習慣Windows係統txt編輯器的用戶需要一個適應過程。以下是操作過程中比較重要的幾點:
(1)vi filename打開一個文本文件,剛打開時,是齣於vi編輯器的命令行狀態,不能對文本進行修改,這時候,按下“i”“a”或“o”可以進入編輯狀態,對文本進行修改。其中:
按i從光標當前位置開始輸入文件;
按a從目前光標所在位置的下一個位置開始輸入文字;
按o是插入新的一行,從行首開始輸入文字。
(2)對文本修改完畢後,需要保存退齣,這時候按ESC鍵,可以對文本進行不同的處理,在底部可以輸入:
:w filename 以指定的文件名filename保存編輯內容
:wq 存盤並退齣vi編輯器
:q! 不存盤強製退齣vi編輯器
注意這裏有“:”半角冒號鍵
保存之後,可以通過linux的more命令查看是否修改成功。
第二節Linux係統基礎
生物信息學分析平颱需要使用Linux操作係統,雖然Linux操作係統的界麵沒有Windows那麼友好,軟件使用也不很方便,但是很多生物信息學工具都是在Linux係統的基礎上運行的,雖然也有一些虛擬機等工具可以模擬Linux係統,但如果想要深入學習生物信息,則Linux是不可避免的。Linux操作係統沒有那麼神秘,隻要學會在Linux係統下安裝軟件的方法、常用命令和係統設置就可以完成大多數的生物信息學分析工作。
一、軟件安裝
與Windows相比較,在Linux係統下安裝軟件就顯得比較麻煩,因此,在下載到Linux應用軟件之後,首先要看軟件自帶的安裝說明然後再安裝。這裏總結瞭Linux係統下三種常用的軟件安裝方法供大傢參考。
(1)下載的軟件格式類似software_name-1��2��3-1�眛ar�眊z,software_name錶示軟件名稱,1��2��3錶示版本號,1錶示修正版本。�眛ar�眊z、tar�盳、tar�眀z2或�眛gz是使用linux係統打包工具tar打包,再做一次壓縮。因此在安裝之前,首先要解壓縮,不同擴展名解壓縮命令也不相同,一般情況下,運行下麵的命令就可以一步完成解壓與解包工作:
tar�瞲vzf software_name-1��2��3-1�眛ar�眊z
閱讀軟件附帶的INSTALL或README等文件,瞭解軟件安裝和使用的基本情況,這類程序的安裝一般需要以下幾個步驟:
執行“��/configure”命令為編譯做好準備;
執行“make”命令進行編譯;
Make可指定特定file文件為對象文件。如果沒有“-f”參數,則係統將默認當前目錄下名為makefile或者名為Makefile的文件為對象文件。
執行“make install”完成安裝。
到此如果係統沒有提示安裝錯誤信息的話,就錶示安裝成功瞭。但是安裝的程序卻不一定能正常運行,因為,安裝程序的可執行文件必須在係統的PATH路徑下,係統纔可以找到相應的程序。如:“/usr/local/bin”是一個係統默認的執行目錄,然而,我們的程序不一定安裝在該目錄下,這就需要在設置PATH變量。
(2)rpm使Linux的軟件安裝工作變得更加簡單容易。rpm是ReHat Package Manager(Red Hat包管理器)的縮寫。rpm的安裝基本命令為:
rpm�瞚vhsoftware_name�眗pm
更多參數:
-i 安裝軟件
-t 測試安裝,不是真的安裝
-p 顯示安裝進度
-f 忽略任何錯誤
-U 升級安裝
-v 檢測套件是否正確安裝
這些參數可以同時采用。更多的內容可以參考RPM的命令幫助。
rpm軟件的卸載命令為:
rpm�瞖 software_name
要注意的是,後麵使用的是軟件名,而不是軟件包名。例如,要安裝software-1��2��3-1�眎386�眗pm這個包時,應執行:
rpm�瞚vh software-1��2��3-1�眎386�眗pm
而當卸載時,則應執行:
rpm�瞖 software
(3)軟件本身是可執行文件,將文件的目錄添加到PATH變量後,就可以直接運行。
二、PATH路徑設置
Linux係統環境下,通過命令行運行程序時,係統會在設定的路徑範圍內查找對應的程序,如果安裝的程序沒有在指定的路徑中,程序就不能運行。
通過vi編輯器打開賬戶目錄下的�眀ash_profile配置文件(圖1-2),修改其中的PATH變量,多個路徑之間通過冒號分開,保存後運行一下命令刷新�眀ash_profile,新安裝的程序就可以運行瞭。
>source�眀ash_profile
需要注意的是刷新�眀ash_profile隻能在命令行打開的狀態下使用,一旦關閉就失效瞭,如果想永久更新,重啓係統即可。
圖1-2通過vi編輯器編輯home目錄下的配置文件�眀ash_profile,可以看到該文件
中的PATH變量,示例中使用的終端是Fterm,從左下角可以看齣,vi編輯器處於插入狀態
三、必備Linux命令
Linux中的命令的確是非常多,但我們隻需要掌握我們最常用的命令就可以瞭。
(1)cd命令,用於切換當前目錄,它的參數是要切換到的目錄的路徑,可以是絕對路徑,也可以是相對路徑。如:
cd /usr/local/ 切換到/usr/local/目錄
cd�豹鼻謝壞繳弦徊隳柯�
cd ~轉到home目錄
(2)ls命令,查看文件與目錄
-l:列齣長數據串,包含文件的屬性與權限數據等
-a:列齣全部的文件,連同隱藏文件(開頭為�鋇奈募�)一起列齣來(常用)
-h:將文件容量以較易讀的方式(GB,kB等)列齣來
-R:連同子目錄的內容一起列齣(遞歸列齣),等於該目錄下的所有文件都會顯示齣來
注:這些參數也可以組閤使用
如:ls�瞝h
(3)find命令
功能是查找文件,命令格式為:
find[PATH][option]
即:在某一路徑下查找某一文件,可以添加與時間有關的參數,與用戶或用戶組名有關的參數,與文件權限及名稱有關的參數等。
(4)cp命令
該命令用於復製文件,c它的常用參數如下:
-a:將文件的特性一起復製
-p:連同文件的屬性一起復製,而非使用默認方式,與-a相似,常用於備份
-i:若目標文件已經存在時,在覆蓋時會先詢問操作的進行
-r:遞歸持續復製,用於目錄的復製行為
-u:目標文件與源文件有差異時纔會復製
例如:
cp file1dir/file2#把文件file1復製到dir目錄下的,文件名改為file2
(5)mv命令,用於移動文件、目錄或更名
mv file1 file2#把文件file1重命名為file2
(6)rm命令,用於刪除文件或目錄
-f:就是force的意思,忽略不存在的文件,不會齣現警告消息
-r:遞歸刪除,最常用於目錄刪除,它是一個非常危險的參數
例如:
rm�瞗r dir#強製刪除目錄dir中的所有文件
(7)tar命令,用於打包、壓縮和解壓,它的常用參數包括:
-c:新建打包文件
-t:查看打包文件的內容含有哪些文件名
-x:解打包或解壓縮的功能,可以搭配-C(大寫)指定解壓的目錄,注意-c、-t、-x不能同時齣現在同一條命令中
-z:通過gzip的支持進行壓縮/解壓縮
-v:在壓縮/解壓縮過程中,將正在處理的文件名顯示齣來
-f filename:filename為要處理的文件
(8)cat命令,查看文本文件的內容,後接要查看的文件名。可利用該命名閤並文件
cat fiile1 file2 > file
將file1和file2中的內容閤並到file中
(9)chmod命令
該命令用於改變文件的權限,一般的用法如下:
-R:進行遞歸的持續更改,即連同子目錄下的所有文件都會更改
同時,chmod還可以使用u(user)、g(group)、o(other)、a(all)和+(加入)、-(刪除)、=(設置)跟rwx搭配來對文件的權限進行更改。
例如:
chmod 0755 file#把file的文件權限改變為-rxwr�瞲r�瞲
chmod g+w file#嚮file的文件權限中加入用戶組可寫權限
四、Linux係統的輸齣重定嚮與管道
在Linux命令行模式中,如果命令所需的輸入不是來自鍵盤,而是來自指定的文件,這就是輸入重定嚮。同理,命令的輸齣也可以不顯示在屏幕上,而是寫入到指定文件中,這就是輸齣重定嚮。在生物信息學分析中,經常需要將程序的過程信息或程序使用說明等信息保存到文件上,這時候就需要進行輸齣重定嚮。Linux係統下,可以通過“>”實現輸齣重定嚮。如:
ls >file�眛xt覆蓋內容到 file�眛xt
ls>>file�眛xt追加內容到 file�眛xt
注意:一些程序的提示信息,直接通過“>”不能實現將信息重重定嚮到文件,這時候可以通過>&實現。
Linux係統使用管道將多個命令組閤起
生物信息學實踐 下載 mobi epub pdf txt 電子書 格式
評分
☆☆☆☆☆
太棒瞭,這是一本好書!實惠
評分
☆☆☆☆☆
已收到,書本完好
評分
☆☆☆☆☆
已收到,書本完好
評分
☆☆☆☆☆
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
評分
☆☆☆☆☆
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
評分
☆☆☆☆☆
已收到,書本完好
評分
☆☆☆☆☆
東西很好,以後慢慢看。
評分
☆☆☆☆☆
東西很好,以後慢慢看。
評分
☆☆☆☆☆
已收到,書本完好