作业帮 > 综合 > 作业

如何在ncbi的genebank下载人来基因组序列?

来源:学生作业帮 编辑:大师作文网作业帮 分类:综合作业 时间:2024/11/12 21:10:27
如何在ncbi的genebank下载人来基因组序列?
ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_01/
上面有三种fasta版本
hs_alt_Hs_Celera_chr1.fa.gz
hs_alt_HuRef_chr1.fa.gz
hs_ref_GRCh37.p2_chr1.fa.gz
应该下哪一个是人类一号染色体的基因序列?
说明文档里面的这么一段话:
Each file is named according to the abbreviation for the species,
whether the assembly is the reference assembly (_ref_) or an alternate
assembly (_alt_), the assembly name, and either the chromosome label
or the scaffold group (unlocalized, unplaced, or alts).
又是什么意思呢?
如何在ncbi的genebank下载人来基因组序列?
这三种版本的序列释放的时间不一样,另外,是由不同的组织公布的.
GRCh37.p2这个版本的是由Genome Reference Consortium与2010年7月公布的,
HuRef这个版本是由 J Craig Venter Institute 于2007年5月公布的,
Celera这个版本的是由Celera公司与2001年11月公布的,
这三个版本序列有差异,但是都是人类一号染色体的基因序列,都是可以参考的,GRCh37.p2这个版本的最新,也许最详细.
Each file is named according to the abbreviation for the species,
whether the assembly is the reference assembly (_ref_) or an alternate
assembly (_alt_), the assembly name, and either the chromosome label
or the scaffold group (unlocalized, unplaced, or alts). 每个文件的命名参考以下:物种的简写;_ref_代表参考组装序列或_alt_代表备选组装序列;组装序列名称;以及染色体序号或框架群(unlocalized, unplaced, or alts).