内容简介
本书介绍生物信息学平台搭建和常用基础软件的安装与运行,使读者能够配置自己的生物信息学分析环境;通过介绍计算机辅助药物设计和基因组重复序列分析等内容使读者熟悉生物信息学分析的一般策略。着重讲解生物信息学分析过程中常见问题的解决方法,在确保操作步骤完整的基础上尽量精简,力求帮助使读者在最短的时间内掌握知识和能胜任该方面工作。
目录
第一章生物信息学分析基础工具与平台配置
第一节文本编辑器
一、常用的文本编辑器
二、UltraEdit
三、Vi编辑器
第二节Linux系统基础
一、软件安装
二、PATH路径设置
三、必备Linux命令
四、Linux系统的输出重定向与管道
五、中文版Linux改为英文版
六、开启FTP服务
第三节生物信息学实验室局域网
一、生物信息学局域网实例
二、远程登录
第四节Windows系统下构建本地BLAST
一、BLAST的下载安装
二、Blast的使用
三、实例讲解
参考文献
第二章生物信息数据库的使用与构建
第一节NCBI数据库资源
NCBI数据库检索
第二节数据存储格式
一、FASTA格式
二、FASTQ格式
三、Genebank格式
四、EMBL格式
五、采用XML实现生物数据库的整合
第三节著名的生物信息学数据库
第四节生物信息学数据库的构建方法
一、Apache的安装与启动
二、MySQL的安装与配置
三、PHP的安装与配置
四、不能安装的情况
五、利用Windows Server搭建数据库服务器
参考文献
第三章基于蛋白质结构的计算机辅助药物设计
第一节蛋白质二级结构
一、α螺旋
二、β片层
三、β转角
四、蛋白质二级结构预测
第二节蛋白质结构数据库及其检索
一、PDB数据库检索
二、蛋白质结构数据的存储格式
三、蛋白质结构可视化
第三节蛋白质结构的预测
一、国际蛋白质结构预测技术评估大赛(CASP)
二、利用SWISS�睲ODEL预测蛋白质的三级结构
第四节分子对接工具Autodock
一、Autodock程序的安装
二、小分子的来源和处理
三、大分子的处理
四、两个参数文件(gpf和dpf)的设置
五、结果的处理
第五节分子模拟原理与工具
一、分子模拟的主要方法
二、分子模拟常见工具
第六节分子动力学模拟工具Amber
一、生成小分子模板
二、处理蛋白质文件
三、生成拓扑文件和坐标文件
四、能量优化
五、LEAP使用
六、MD过程
七、VMD的使用
八、观看并保存图像的步骤
九、RMS计算
十、结果数据处理
参考文献
第四章转座子的生物信息学分析
第一节转座子的分类
一、分类级别
二、自主与非自主转座子
三、转座子的命名
四、转座子的生物信息学分析
五、重复序列挖掘工具
第二节RepeatMasker和RepeatModeler
一、RepeatMasker的安装
二、RepeatModeler的安装
三、RepeatMasker的操作
四、RepeatMasker搜索的过程
五、两个Perl程序
六、联合多个重复序列数据库
七、RepeatMasker的其他参数
八、Out结果文件
九、RepeatModeler的使用
第三节LTRharvest
第四节序列去冗余
第五节Circos绘图
一、Circos的安装
二、Circos的颜色
三、图像分析
四、核型文件
五、ideogram标签
六、连接
七、图像输出
八、直方图
九、Highlights图
十、容易出现的问题
参考文献
第五章生物信息学资源
第一节网络资源
一、在线工具链接Expasy
二、常用生物软件分类与下载
三、生物信息学中文论坛
第二节期刊与机构
一、生物信息学期刊
二、生物信息学机构
第三节在线小工具
一、开放阅读框查找工具ORF Finder
二、绘制GO注释结果
三、蛋白质组成和稳定性分析ProtParam
四、启动子区预测工具Promoter
五、序列logo
六、蛋白质序列综合分析工具PredictProte
七、信号肽
八、比较分析图绘制工具VENNY
第四节生物信息学分析软件
一、EMBOSS
二、EMBOSS运行示例
三、综合序列分析软件DNAstar
四、分子生物学常用工具简介
参考文献
第六章分子进化
第一节分子进化基础
一、构建进化树的算法
二、进化树格式
三、进化树的图形显示
四、进化软件
第二节通过phylip构建进化树
一、准备
二、通过Clustal将Fasta格式的序列进行比对并保存为phy格式
三、使用seqboot设置重复数量
四、通过似然法计算进化树
五、构建一致树
六、图片制作
参考文献
第七章生物信息学编程基础
第一节Perl语言
一、CPAN
二、正则表达式
三、Bioperl的安装
第二节统计语言
一、R语言
二、其他统计分析工具
参考文献
附录一生物信息学常用词汇表一
附录二生物信息学常用词汇表二
前言/序言
第一章生物信息学分析基础工具与平台配置
第一章生物信息学分析基础
工具与平台配置
随着生物信息学的普及运用,大多数实验室都需要通过一些生物信息学的工具,甚至是构建生物信息学分析平台服务生物学实验,并提示进一步的实验方案。根据实验室具体需求,集成各种常用分析工具、资源,将可以高效地完成本实验室成员生物信息学分析的需求,还能够完成一些序列批量处理的任务。许多生物信息学的分析软件和数据库可以通过互联网(Internet)免费获取,为生物信息学平台的建设奠定了基础。
生物信息平台的建设是需要逐步推进和实施的。因而在设计和构建过程中要注意平台的实用性并做好备份工作。实用性的高低直接影响到使用者对系统的评价。系统在设计时,在满足实际应用要求的目标前提下,应该多从使用者的角度出发,采用面向用户的设计理念,提供界面友好、操作方便的用户交互平台和操作环境。实验室生物信息学平台一般都由多个实验室成员共同使用,这就导致不可避免会出现一些问题,为此,首先要做好数据的备份工作,其次要注意记录平台软件的安装和使用方法,在平台出现问题后可以方便地进行恢复。
本章的主要内容包括:几乎所有生物信息学分析中都会用到的工具和方法,如:文本编辑器、Linux操作系统系统下安装软件、系统基础服务的配置等。
第一节文本编辑器
文本编辑器是用于编写普通文字的应用软件,以纯文本形式进行储存,一般用来编写程序源代码。而Word等文档编辑器是以二进制格式进行存储,主要功能是用来排版。文本编辑器具有的典型功能主要有:查找、替换、剪切、复制、粘贴、行号、自动缩排、撤销和恢复等。Windows系统自带的记事本虽然也是文本编辑器,但功能较小,编写脚本程序时没有语法提示,也不能打开比较大的文件,如:基因组、蛋白组等。在生物信息分析过程中,绝大多数软件的结果都是纯文本格式,不同软件之间的数据传递也经常通过纯文本格式,此外,编写生物信息学程序脚本也需要用到文本编辑器,因此,文本编辑器是生物信息学中一个非常重要的工具。本节将介绍Windows下的UltraEdit和Linux下的vi编辑器。
一、常用的文本编辑器
Notepad是一个开源免费的文本编辑器,可以对多种编程语言实现语法高亮,代码折叠,拖放缩放等。Notepad2是一个相当优秀的轻量级文本编辑器,具有很多特色功能,如代码高亮、编码转换、行号显示、多步Ctrl+Z等,是不可多得的记事本替代工具。而Notepad2�瞞od是Notepad2的修改版、更新很及时,支持代码折叠、NSIS、Inno、AHK语法高亮等。PSPad是Windows平台上免费的适合程序员使用的编辑器,它可以保持上一次的编辑状态,下次打开编辑器的时候可以直接显示原来的文件,此外还支持通过FTP进行远程编辑,支持多文件比较等。Emacs编辑器具有内置的宏功能以及强大的键盘命令,几乎被移植到了每一个平台,并有多个发行版,是跨平台、完全免费并且开源。Sublime Text3编辑器支持但不限于Perl、Python、R、PHP、C、C++、C#、HTML、Groovy、Haskell、HTML、Java、JavaScript、LaTeX、Lisp、Lua、Markdown、Matlab、OCaml、Ruby、SQL、TCL、Textile以及XML等主流编程语言的语法高亮。
Gedit是Linux下的一个纯文本编辑器,但也可以把它用来当成一个集成开发环境(IDE),它会根据不同的语言高亮显现关键字和标识符。
二、UltraEdit
UltraEdit(http://www�眜ltraedit�眂om/)是一套功能强大的文本编辑器,可以编辑文本、十六进制、ASCII码,可同时编辑多个文件,而且即使开启很大的文件速度也不会慢。可以编辑列;可将文件另存为多种编码格式从而解决乱码问题,有Perl脚本的语法错误提示。生物信息分析中,可以通过Ultraedit打开基因组文件,支持超过4GB的文件。
在UltraEdit使用过程中,建议修改以下配置以方便使用。
(1)UltraEdit默认保存一个临时文件以备份修改前的文字,虽然很安全,但是一般情况下需要不断地进行删除,造成了不必要的麻烦,因此,可以设置成不备份;高级—配置—文件处理—备份—不备份(图1-1)。
(2)在鼠标右键中添加UltraEdit,这样可以很方便地打开文件。高级—配置—文件关联,选择集成到资源管理项。
图1-1设置UltraEdit不产生临时文件
三、Vi编辑器
Vi编辑器是Linux系统的一个文本编辑器,可通过终端进行操作。因此是必须掌握的工具之一。但习惯Windows系统txt编辑器的用户需要一个适应过程。以下是操作过程中比较重要的几点:
(1)vi filename打开一个文本文件,刚打开时,是出于vi编辑器的命令行状态,不能对文本进行修改,这时候,按下“i”“a”或“o”可以进入编辑状态,对文本进行修改。其中:
按i从光标当前位置开始输入文件;
按a从目前光标所在位置的下一个位置开始输入文字;
按o是插入新的一行,从行首开始输入文字。
(2)对文本修改完毕后,需要保存退出,这时候按ESC键,可以对文本进行不同的处理,在底部可以输入:
:w filename 以指定的文件名filename保存编辑内容
:wq 存盘并退出vi编辑器
:q! 不存盘强制退出vi编辑器
注意这里有“:”半角冒号键
保存之后,可以通过linux的more命令查看是否修改成功。
第二节Linux系统基础
生物信息学分析平台需要使用Linux操作系统,虽然Linux操作系统的界面没有Windows那么友好,软件使用也不很方便,但是很多生物信息学工具都是在Linux系统的基础上运行的,虽然也有一些虚拟机等工具可以模拟Linux系统,但如果想要深入学习生物信息,则Linux是不可避免的。Linux操作系统没有那么神秘,只要学会在Linux系统下安装软件的方法、常用命令和系统设置就可以完成大多数的生物信息学分析工作。
一、软件安装
与Windows相比较,在Linux系统下安装软件就显得比较麻烦,因此,在下载到Linux应用软件之后,首先要看软件自带的安装说明然后再安装。这里总结了Linux系统下三种常用的软件安装方法供大家参考。
(1)下载的软件格式类似software_name-1��2��3-1�眛ar�眊z,software_name表示软件名称,1��2��3表示版本号,1表示修正版本。�眛ar�眊z、tar�盳、tar�眀z2或�眛gz是使用linux系统打包工具tar打包,再做一次压缩。因此在安装之前,首先要解压缩,不同扩展名解压缩命令也不相同,一般情况下,运行下面的命令就可以一步完成解压与解包工作:
tar�瞲vzf software_name-1��2��3-1�眛ar�眊z
阅读软件附带的INSTALL或README等文件,了解软件安装和使用的基本情况,这类程序的安装一般需要以下几个步骤:
执行“��/configure”命令为编译做好准备;
执行“make”命令进行编译;
Make可指定特定file文件为对象文件。如果没有“-f”参数,则系统将默认当前目录下名为makefile或者名为Makefile的文件为对象文件。
执行“make install”完成安装。
到此如果系统没有提示安装错误信息的话,就表示安装成功了。但是安装的程序却不一定能正常运行,因为,安装程序的可执行文件必须在系统的PATH路径下,系统才可以找到相应的程序。如:“/usr/local/bin”是一个系统默认的执行目录,然而,我们的程序不一定安装在该目录下,这就需要在设置PATH变量。
(2)rpm使Linux的软件安装工作变得更加简单容易。rpm是ReHat Package Manager(Red Hat包管理器)的缩写。rpm的安装基本命令为:
rpm�瞚vhsoftware_name�眗pm
更多参数:
-i 安装软件
-t 测试安装,不是真的安装
-p 显示安装进度
-f 忽略任何错误
-U 升级安装
-v 检测套件是否正确安装
这些参数可以同时采用。更多的内容可以参考RPM的命令帮助。
rpm软件的卸载命令为:
rpm�瞖 software_name
要注意的是,后面使用的是软件名,而不是软件包名。例如,要安装software-1��2��3-1�眎386�眗pm这个包时,应执行:
rpm�瞚vh software-1��2��3-1�眎386�眗pm
而当卸载时,则应执行:
rpm�瞖 software
(3)软件本身是可执行文件,将文件的目录添加到PATH变量后,就可以直接运行。
二、PATH路径设置
Linux系统环境下,通过命令行运行程序时,系统会在设定的路径范围内查找对应的程序,如果安装的程序没有在指定的路径中,程序就不能运行。
通过vi编辑器打开账户目录下的�眀ash_profile配置文件(图1-2),修改其中的PATH变量,多个路径之间通过冒号分开,保存后运行一下命令刷新�眀ash_profile,新安装的程序就可以运行了。
>source�眀ash_profile
需要注意的是刷新�眀ash_profile只能在命令行打开的状态下使用,一旦关闭就失效了,如果想永久更新,重启系统即可。
图1-2通过vi编辑器编辑home目录下的配置文件�眀ash_profile,可以看到该文件
中的PATH变量,示例中使用的终端是Fterm,从左下角可以看出,vi编辑器处于插入状态
三、必备Linux命令
Linux中的命令的确是非常多,但我们只需要掌握我们最常用的命令就可以了。
(1)cd命令,用于切换当前目录,它的参数是要切换到的目录的路径,可以是绝对路径,也可以是相对路径。如:
cd /usr/local/ 切换到/usr/local/目录
cd�豹鼻谢坏缴弦徊隳柯�
cd ~转到home目录
(2)ls命令,查看文件与目录
-l:列出长数据串,包含文件的属性与权限数据等
-a:列出全部的文件,连同隐藏文件(开头为�钡奈募�)一起列出来(常用)
-h:将文件容量以较易读的方式(GB,kB等)列出来
-R:连同子目录的内容一起列出(递归列出),等于该目录下的所有文件都会显示出来
注:这些参数也可以组合使用
如:ls�瞝h
(3)find命令
功能是查找文件,命令格式为:
find[PATH][option]
即:在某一路径下查找某一文件,可以添加与时间有关的参数,与用户或用户组名有关的参数,与文件权限及名称有关的参数等。
(4)cp命令
该命令用于复制文件,c它的常用参数如下:
-a:将文件的特性一起复制
-p:连同文件的属性一起复制,而非使用默认方式,与-a相似,常用于备份
-i:若目标文件已经存在时,在覆盖时会先询问操作的进行
-r:递归持续复制,用于目录的复制行为
-u:目标文件与源文件有差异时才会复制
例如:
cp file1dir/file2#把文件file1复制到dir目录下的,文件名改为file2
(5)mv命令,用于移动文件、目录或更名
mv file1 file2#把文件file1重命名为file2
(6)rm命令,用于删除文件或目录
-f:就是force的意思,忽略不存在的文件,不会出现警告消息
-r:递归删除,最常用于目录删除,它是一个非常危险的参数
例如:
rm�瞗r dir#强制删除目录dir中的所有文件
(7)tar命令,用于打包、压缩和解压,它的常用参数包括:
-c:新建打包文件
-t:查看打包文件的内容含有哪些文件名
-x:解打包或解压缩的功能,可以搭配-C(大写)指定解压的目录,注意-c、-t、-x不能同时出现在同一条命令中
-z:通过gzip的支持进行压缩/解压缩
-v:在压缩/解压缩过程中,将正在处理的文件名显示出来
-f filename:filename为要处理的文件
(8)cat命令,查看文本文件的内容,后接要查看的文件名。可利用该命名合并文件
cat fiile1 file2 > file
将file1和file2中的内容合并到file中
(9)chmod命令
该命令用于改变文件的权限,一般的用法如下:
-R:进行递归的持续更改,即连同子目录下的所有文件都会更改
同时,chmod还可以使用u(user)、g(group)、o(other)、a(all)和+(加入)、-(删除)、=(设置)跟rwx搭配来对文件的权限进行更改。
例如:
chmod 0755 file#把file的文件权限改变为-rxwr�瞲r�瞲
chmod g+w file#向file的文件权限中加入用户组可写权限
四、Linux系统的输出重定向与管道
在Linux命令行模式中,如果命令所需的输入不是来自键盘,而是来自指定的文件,这就是输入重定向。同理,命令的输出也可以不显示在屏幕上,而是写入到指定文件中,这就是输出重定向。在生物信息学分析中,经常需要将程序的过程信息或程序使用说明等信息保存到文件上,这时候就需要进行输出重定向。Linux系统下,可以通过“>”实现输出重定向。如:
ls >file�眛xt覆盖内容到 file�眛xt
ls>>file�眛xt追加内容到 file�眛xt
注意:一些程序的提示信息,直接通过“>”不能实现将信息重重定向到文件,这时候可以通过>&实现。
Linux系统使用管道将多个命令组合起
生物信息学实践 下载 mobi epub pdf txt 电子书 格式
评分
☆☆☆☆☆
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
评分
☆☆☆☆☆
东西很好,以后慢慢看。
评分
☆☆☆☆☆
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
评分
☆☆☆☆☆
太棒了,这是一本好书!实惠
评分
☆☆☆☆☆
东西很好,以后慢慢看。
评分
☆☆☆☆☆
东西很好,以后慢慢看。
评分
☆☆☆☆☆
太棒了,这是一本好书!实惠
评分
☆☆☆☆☆
太棒了,这是一本好书!实惠
评分
☆☆☆☆☆
已收到,书本完好