王朝网络
分享
 
 
 

基于WGS和CBC测序策略的DNA序列拼接算法研究(四)

王朝other·作者佚名  2006-01-31
宽屏版  字体: |||超大  

第一章 Atlas的安装与调试

3.1 程序的获得

Atlas是一个用于大型基因序列拼接的程序,可以用于全基因shotgun序列拼接(WGS),也可以用于BAC和WGS混合read的拼接。使用这个系统已经成功完成老鼠,蜜蜂,海胆,牛等的基因的拼接。

要获得Atlas,首先要登陆网站http://www.hgsc.bcm.tmc.edu/downloads/software/atlas/

点击下载页面,你将需要填写一个注册信息表来获得License,如图3.1:

填写完毕以后,需要在一份提交一份保证的协议,如图3.2

主要的意思是要你保证不能把这个软件用于盈利为目的的项目。点击接受后,它会把一个链接发到你注册时填写的e-mail里面。点击链接就直接到了下载页面进行下载。下载的版本用很多,本论文中使用的是atlas2005-linux.

3.2 解压缩

下载得到的是一个atlas2005-linux.tgz压缩包。对它进行解压缩,可以得到如下文件和文件夹:

documents/

documents/readme.html

documents/graphics/atlaslogo.gif

bin/

bin/atlas-overlapper

bin/atlas-splitbadcontigs

bin/atlas-screen-window

bin/atlas-binner

bin/atlas-trimPhraptails

bin/atlas-linearsequence

bin/atlas-count-kmers

bin/atlas-extractbins

local/

perl/

perl/bin/

perl/bin/atlas-asm-wgs

perl/bin/atlas-build-scaffold-file

perl/bin/atlas-createindex

perl/bin/atlas-divide-fafile

perl/bin/atlas-prep-reads

perl/bin/atlas-screen-trim-file

perl/bin/atlas-separate-bin-assemble

perl/lib/

perl/lib/Atlas/

perl/lib/Atlas/AsmWgs.pm

perl/lib/Atlas/PrepReads.pm

perl/lib/Atlas/Scaffold.pm

perl/lib/Atlas/ScaffoldHeapEle.pm

perl/lib/Atlas/Utility/

perl/lib/Atlas/Utility/ObjectAttribute.pm

perl/lib/Atlas/Project/

perl/lib/Atlas/Project/Trace.pm

perl/lib/Atlas/Project/Contig.pm

data/

data/univec/

data/univec/README.uv

data/univec/univec.fa

data/demo/

data/demo/demo.001.fa

data/demo/demo.001.fa.qual

3.3 环境变量的设置

这个程序是由perl语言写的,所以首先要检查系统中perl的情况。检查你perl解释程序是不是在默认的/usr/bin/perl目录下面。如果不是,就必须修改所有perl程序的第一行(#!/usr/bin/perl),改为perl解释程序的目录。

在程序中,用到了环境变量ATLAS_ROOT,在安装的时候要设置为你的安装目录。

在bash sell中,使用命令:export ATLAS_ROOT=xxxx;或者用vi打开.bashrc文件,把

export ATLAS_ROOT=xxxx加到文件中。(xxxx是程序的安装目录。)

在C sell中,使用命令setenv ATLAS_ROOT xxxx. (xxxx是程序的安装目录。)

3.4 PM模块的安装

在程序的运行的scafflod的过程中,需要用到一个非标准的perl库的模块。Heap.pm和

Heap::Fibonacci.pm.这两个模块要从CPAN(Comprehensive Perl Archive Network)网站上下载,http://www.cpan.org/。下载得到一个Heap压缩包,Heap-0.71.tar.gz。

下载以后就开始安装了。首先解压,使用命令gzip –d Heap-0.71.tar.gz,解压后得到Heap-0.71.tar。然后打开压缩包,使用命令tar –xof Heap-0.71.tar,得到一个文件夹。把当前目录改为解压目录,在终端中运行先后运行命令:

perl Makefile.PL

make

make test

最后安装,使用命令:

make install

3.5 Phrap和cross_match的安装

Phrap和cross_match是Phil Green编写的拼接程序包的一部分,是用于shotgun测序方法的序列拼接和序列比对的程序。在大型的生物测序中是一种常用的主流DNA序列拼接和比对程序。

这两个程序的获得是免费的。不过要按照一定的程序来申请。首先,你需要登陆到Phrap的主页,http://www.Phrap.org ,看清楚它的一个要求和你需要的版本;其次,你需要写邮件给程序的作者Phil Green phg@u.washington.edu,在邮件中,你需要在邮件中写下以下内容:

a) Your name.

b) An acknowledgement that you and the members of your group agree to these conditions.

c) Which programs you want (Phrap,cross_match, and swat are distributed together). You must cc the message to each appropriate individual (Brent Ewing, David Gordon, and/or Phil Green) at the email addresses below so that they will know to send you the appropriate program.

d) Your institution/department.

e) Your email address for all future correspondence. Ideally this should be a Unix computer running a generic mail program, since several of the programs are sent as uuencoded files which may be corrupted by some mail programs. If this address is not at the institution & department listed in d),please explain the discrepancy.

f) (Consed requestors only) Which platform(s) you want Consed for: solaris 2.5.1, solaris 2.6, solaris 2.7 (solaris 7), solaris 8,solaris 9, digital unix 4.0 (or better), hp-ux 11.x, sgi irix 6.2, 6.3, 6.4, or 6.5, linux(Redhat 7.1-1 or better), ibm aix 5.1 (or better), macosx 10.2 (Darwin

kernel 6.0) (or better), or

solaris-intel (2.8 or better). Note: Consed is not available for PC's running Windows, XP, NT

, or 2000.

g) (Consed requestors only) The ip address of the computer on which you will be running a web browser to download consed. This does not have to be the same computer as the one on which you will run consed.

If you are not sure of this ip address, please view page。

特别要提醒的是,在给作者发e-mail的时候最好使用.edu或者.org域名的邮箱。不然他会要你解释为什么不是非盈利组织的邮件,十分麻烦。我都是费了很大的劲才解释我的邮箱为什么是.com,才获得了程序。

把程序复制到任意目录下,然后解压缩,得到一个很多文件。把当前目录改到解压目录,然后在终端中运行makefile;编译程序。

$make

编译得到可执行文件Phrap和cross_match.把它们复制到atlas程序目录local下。(注意是把执行文件复制到local目录,而不是Atlas readme所说的创建一个符号链接)。

3.6 运行与调试

3.6.1 运行

程序的运行分为两个阶段,数据准备阶段和数据拼接阶段。

数据运行时候,先要创建数据目录<read_dirs>,在<read_dirs>下创建目录original,把拼接的基因片段数据文件和品质文件复制到original目录下。然后把当前目录改到/ATLAS_ROOT/perl/bin下,运行数据准备的程序atlas-prep-reads

$./atlas-prep-reads –r <reads_dir>

运行后得到原始数据文件的两个索引文件(由atlas-createindex创建),32 mer程序创建了/<reads_dir>/screened/kmer目录,并保存了分析的结果。kill-file也保存在/<reads_dir>/screened目录下。

数据准备好了后,就可以开始拼接了。还是在目录/ATLAS_ROOT/perl/bin下,运行atlas-asm-wgs程序:

$./atlas-asm-wgs –r <reads_dir> -a <asm_dir>

在<asm_dir>目录下得到运行的结果。

atlas.graph—— atlas-overlapper的结果。

atlas.fon——atlas-binner的结果。

atlas.ace ,atlas.contigs, atlas.contigs.qual——contig的拼接结果。

atlas.scaffold——scaffolding的结果。

atlas.linear.fa, atlas.linear.fa.qual, atlas.linear.fa.scaffold——使scaffold线性化的文件。

3.6.2 调试

程序安装完成以后,运行起来会遇到一定的问题。首先是对安装的机器非常挑剔,虽然只是要求linux操作系统,但是很多机器是无法运行的,需要耐心的尝试。

其次,程序的运行的命令有一定的问题。例如,在完成拼接的时候,程序的帮助文档中的命令是

atlas-asm-wgs –r <reads_dir> -d <asm_dir>

可是运行时会报错,提示d不是一个正确的操作符。我反复看了原程序后,终于发现应该是

atlas-asm-wgs –r <reads_dir> -a <asm_dir>

并且我还写了邮件给整个程序作者之一的Paul Havlak <havlak@bcm.tmc.edu>,经过他证实我的想法是正确的,并且接下来的程序说明文档中已经改了过来。

然后,对于Phrap和cross_match的安装也要注意,如果按照帮助文档中所说,使用命令:

cd local

ln -s <full_path_of_Phrap> Phrap

ln -s <full_path_of_cross_match> cross_match

这样的结果是在进行片段调整的时候,报错说cross_match不是一个可执行文件。只有把编译好了的Phrap和cross_match复制到local目录下,程序才能正常的运行。

最后。对于perl模块的下载和安装也要值得注意。下载的时候一定要下载一个完整的Heap.pm的数据包,里面包括原程序,makefile,和一些测试文件,不要只是把源代码复制下来。在安装的时候,按照3.4中的步骤进行。完成后还需要把解压后的Heap和Heap::Fibonacci复制到程序的相关目录:

perl/lib/Heap.pm,

perl/lib/Heap/Fibonacci.pm.

填写完毕以后,需要在一份提交一份保证的协议,如图3.2

主要的意思是要你保证不能把这个软件用于盈利为目的的项目。点击接受后,它会把一个链接发到你注册时填写的e-mail里面。点击链接就直接到了下载页面进行下载。下载的版本用很多,本论文中使用的是atlas2005-linux.

3.2 解压缩

下载得到的是一个atlas2005-linux.tgz压缩包。对它进行解压缩,可以得到如下文件和文件夹:

documents/

documents/readme.html

documents/graphics/atlaslogo.gif

bin/

bin/atlas-overlapper

bin/atlas-splitbadcontigs

bin/atlas-screen-window

bin/atlas-binner

bin/atlas-trimPhraptails

bin/atlas-linearsequence

bin/atlas-count-kmers

bin/atlas-extractbins

local/

perl/

perl/bin/

perl/bin/atlas-asm-wgs

perl/bin/atlas-build-scaffold-file

perl/bin/atlas-createindex

perl/bin/atlas-divide-fafile

perl/bin/atlas-prep-reads

perl/bin/atlas-screen-trim-file

perl/bin/atlas-separate-bin-assemble

perl/lib/

perl/lib/Atlas/

perl/lib/Atlas/AsmWgs.pm

perl/lib/Atlas/PrepReads.pm

perl/lib/Atlas/Scaffold.pm

perl/lib/Atlas/ScaffoldHeapEle.pm

perl/lib/Atlas/Utility/

perl/lib/Atlas/Utility/ObjectAttribute.pm

perl/lib/Atlas/Project/

perl/lib/Atlas/Project/Trace.pm

perl/lib/Atlas/Project/Contig.pm

data/

data/univec/

data/univec/README.uv

data/univec/univec.fa

data/demo/

data/demo/demo.001.fa

data/demo/demo.001.fa.qual

3.3 环境变量的设置

这个程序是由perl语言写的,所以首先要检查系统中perl的情况。检查你perl解释程序是不是在默认的/usr/bin/perl目录下面。如果不是,就必须修改所有perl程序的第一行(#!/usr/bin/perl),改为perl解释程序的目录。

在程序中,用到了环境变量ATLAS_ROOT,在安装的时候要设置为你的安装目录。

在bash sell中,使用命令:export ATLAS_ROOT=xxxx;或者用vi打开.bashrc文件,把

export ATLAS_ROOT=xxxx加到文件中。(xxxx是程序的安装目录。)

在C sell中,使用命令setenv ATLAS_ROOT xxxx. (xxxx是程序的安装目录。)

3.4 PM模块的安装

在程序的运行的scafflod的过程中,需要用到一个非标准的perl库的模块。Heap.pm和

Heap::Fibonacci.pm.这两个模块要从CPAN(Comprehensive Perl Archive Network)网站上下载,http://www.cpan.org/。下载得到一个Heap压缩包,Heap-0.71.tar.gz。

下载以后就开始安装了。首先解压,使用命令gzip –d Heap-0.71.tar.gz,解压后得到Heap-0.71.tar。然后打开压缩包,使用命令tar –xof Heap-0.71.tar,得到一个文件夹。把当前目录改为解压目录,在终端中运行先后运行命令:

perl Makefile.PL

make

make test

最后安装,使用命令:

make install

3.5 Phrap和cross_match的安装

Phrap和cross_match是Phil Green编写的拼接程序包的一部分,是用于shotgun测序方法的序列拼接和序列比对的程序。在大型的生物测序中是一种常用的主流DNA序列拼接和比对程序。

这两个程序的获得是免费的。不过要按照一定的程序来申请。首先,你需要登陆到Phrap的主页,http://www.Phrap.org ,看清楚它的一个要求和你需要的版本;其次,你需要写邮件给程序的作者Phil Green phg@u.washington.edu,在邮件中,你需要在邮件中写下以下内容:

a) Your name.

b) An acknowledgement that you and the members of your group agree to these conditions.

c) Which programs you want (Phrap,cross_match, and swat are distributed together). You must cc the message to each appropriate individual (Brent Ewing, David Gordon, and/or Phil Green) at the email addresses below so that they will know to send you the appropriate program.

d) Your institution/department.

e) Your email address for all future correspondence. Ideally this should be a Unix computer running a generic mail program, since several of the programs are sent as uuencoded files which may be corrupted by some mail programs. If this address is not at the institution & department listed in d),please explain the discrepancy.

f) (Consed requestors only) Which platform(s) you want Consed for: solaris 2.5.1, solaris 2.6, solaris 2.7 (solaris 7), solaris 8,solaris 9, digital unix 4.0 (or better), hp-ux 11.x, sgi irix 6.2, 6.3, 6.4, or 6.5, linux(Redhat 7.1-1 or better), ibm aix 5.1 (or better), macosx 10.2 (Darwin

kernel 6.0) (or better), or

solaris-intel (2.8 or better). Note: Consed is not available for PC's running Windows, XP, NT

, or 2000.

g) (Consed requestors only) The ip address of the computer on which you will be running a web browser to download consed. This does not have to be the same computer as the one on which you will run consed.

If you are not sure of this ip address, please view page。

特别要提醒的是,在给作者发e-mail的时候最好使用.edu或者.org域名的邮箱。不然他会要你解释为什么不是非盈利组织的邮件,十分麻烦。我都是费了很大的劲才解释我的邮箱为什么是.com,才获得了程序。

把程序复制到任意目录下,然后解压缩,得到一个很多文件。把当前目录改到解压目录,然后在终端中运行makefile;编译程序。

$make

编译得到可执行文件Phrap和cross_match.把它们复制到atlas程序目录local下。(注意是把执行文件复制到local目录,而不是Atlas readme所说的创建一个符号链接)。

3.6 运行与调试

3.6.1 运行

程序的运行分为两个阶段,数据准备阶段和数据拼接阶段。

数据运行时候,先要创建数据目录<read_dirs>,在<read_dirs>下创建目录original,把拼接的基因片段数据文件和品质文件复制到original目录下。然后把当前目录改到/ATLAS_ROOT/perl/bin下,运行数据准备的程序atlas-prep-reads

$./atlas-prep-reads –r <reads_dir>

运行后得到原始数据文件的两个索引文件(由atlas-createindex创建),32 mer程序创建了/<reads_dir>/screened/kmer目录,并保存了分析的结果。kill-file也保存在/<reads_dir>/screened目录下。

数据准备好了后,就可以开始拼接了。还是在目录/ATLAS_ROOT/perl/bin下,运行atlas-asm-wgs程序:

$./atlas-asm-wgs –r <reads_dir> -a <asm_dir>

在<asm_dir>目录下得到运行的结果。

atlas.graph—— atlas-overlapper的结果。

atlas.fon——atlas-binner的结果。

atlas.ace ,atlas.contigs, atlas.contigs.qual——contig的拼接结果。

atlas.scaffold——scaffolding的结果。

atlas.linear.fa, atlas.linear.fa.qual, atlas.linear.fa.scaffold——使scaffold线性化的文件。

3.6.2 调试

程序安装完成以后,运行起来会遇到一定的问题。首先是对安装的机器非常挑剔,虽然只是要求linux操作系统,但是很多机器是无法运行的,需要耐心的尝试。

其次,程序的运行的命令有一定的问题。例如,在完成拼接的时候,程序的帮助文档中的命令是

atlas-asm-wgs –r <reads_dir> -d <asm_dir>

可是运行时会报错,提示d不是一个正确的操作符。我反复看了原程序后,终于发现应该是

atlas-asm-wgs –r <reads_dir> -a <asm_dir>

并且我还写了邮件给整个程序作者之一的Paul Havlak <havlak@bcm.tmc.edu>,经过他证实我的想法是正确的,并且接下来的程序说明文档中已经改了过来。

然后,对于Phrap和cross_match的安装也要注意,如果按照帮助文档中所说,使用命令:

cd local

ln -s <full_path_of_Phrap> Phrap

ln -s <full_path_of_cross_match> cross_match

这样的结果是在进行片段调整的时候,报错说cross_match不是一个可执行文件。只有把编译好了的Phrap和cross_match复制到local目录下,程序才能正常的运行。

最后。对于perl模块的下载和安装也要值得注意。下载的时候一定要下载一个完整的Heap.pm的数据包,里面包括原程序,makefile,和一些测试文件,不要只是把源代码复制下来。在安装的时候,按照3.4中的步骤进行。完成后还需要把解压后的Heap和Heap::Fibonacci复制到程序的相关目录:

perl/lib/Heap.pm,

perl/lib/Heap/Fibonacci.pm.

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
>>返回首页<<
推荐阅读
 
 
频道精选
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有