当前位置:文档之家› 关于RefSeq:NCBI参考序列

关于RefSeq:NCBI参考序列

关于RefSeq:NCBI参考序列N CBI的参考序列计划(RefSeq)将为中心法则中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。

RefSeq标准为人类基因组的功能注解提供一个基础。

它们为突变分析,基因表达研究,和多态发现提供一个稳定的参考点。

范围:目前,RefSeq记录为下列分子类型和基因组提供:脊椎动物mRNA/蛋白构建步骤:RefSeq记录通过以下步骤创建:确定代表不同基因的序列建立正确的基因名字到登录号的联系确定完整范围的可以获得的序列数据创建一个新的有以下状态的参考序列(RefSeq)记录预测的临时的临时的RefSeq记录被一个生物学家再检查,他确定一开始的名字到序列的关联,加上一些包括基因功能概要的信息,更重要的是用其他可获得的GenBank记录来更正,重新注解,或扩充序列数据。

预测的,临时的和检查过的RefSeq记录通过NCBI Entrez检索系统,BLAST数据库,FTP,和LocusLink网站让公众获得。

最近发表的文章1. Introducing RefSeq and LocusLink: curated human genome resources at the NCBI. Pruitt KD, Katz KS, Sicotte H, Maglott DR Trends Genet. 2000 Jan;16(1):44-47.2. NCBI's LocusLink and RefSeq Maglott DR, Katz KS, Sicotte H, Pruitt KD Nucleic Acids Res 2000 Jan 1;28(1):126-128FAQ什么是参考序列?NCBI 参考序列计划提供了校正的序列数据和相关的信息,给同行提供使用的标准。

GenBank是一个序列的存储池,RefSeq数据库将是一个参考序列的非冗余集合,包括构建的基因组contig,mRNA,蛋白,和,在未来,整个染色体。

RefSeq记录是有三种可以获得的状态:预测的,临时的和检查过的。

检查过的记录代表了我们目前关于一个基因和它的转录子的知识的汇编。

在检查的过程中,我们整合了更多的信息,只要是可以获得,如序列数据,发表物,命名,和特征注解,都来自于很多GenBank记录,人类基因组命名委员会,和OMIM。

The initial release of RefSeq records includes human mRNA and protein reference sequences. The current scope is limited to human sequences but other organisms will be added in the future.最开始的RefSeq记录版本包括人类mRNA和蛋白参考序列。

目前的范围只局限于人类序列,但是其他物种的将在未来加入。

我如何引用RefSeq记录?引用RefSeq登录号和LocusID以及RefSeq网页(/LocusLink/refseq.html)是恰当地。

特定的使用RefSeq网页的引用格式依据你文章将发表的刊物的编辑方法而定。

可以参考这个网站,列出了许多电子文件引用指南:/I/training/citation/citing.htm。

我如何访问RefSeq记录?RefSeq记录可以通过各种NCBI资源来访问,包括:BLAST NM_######记录是在核苷酸非冗余数据库中NP_######记录是在蛋白非冗余数据库中Entrez NM_######和NT_######记录是在Entrez核酸中NP_######记录是在Entrez蛋白中。

Entrez基因组部分NC_######记录代表完整的基因组,和染色体,完成的和正在进行的,出现在基因组页面上。

FTP NM_*和NP_*记录是在/refseq目录下;对人类的NT_*记录可以按染色体数字从/genbank/genomes/H_sapiens/*目录下下载,当第一次的完整版本建立后还将加到refseq目录下。

将来NC_*记录将被加入。

参考FTP README文件获得更多的信息。

人类基因组测序为人类contigs的NT_######记录只有在人类基因组测序页面上通过BLAST查询可以被图形的看到,下载,或访问LocusLink LocusLink记录提供链接到NM_######和NP_######记录。

LocusLink可以通过文本条件的RefSeq登录号被查询,参见LocusLink FAQ取得查询技巧。

通过Entrez查询检索NM_和NP_ RefSeq记录:RefSeq记录可以被通过不同的Entrez查询来检索:查询结果样本NM_003988 一个关于PAX2,isoform c 的RefSeq记录被返回。

PAX2[Gene Name] 这返回17记录包括5个PAX2 RefSeq记录。

PAX2[Gene Name] AND srcdb_refseq[properties] 这个查询仅检索含有5个不同剪切本的PAX2 RefSeq记录的集合。

srcdb_refseq[prop] AND provisional[all] 这个查询返回所有临时的RefSeq记录集合。

srcdb_refseq[prop] AND biomol_mRNA[prop] NOT provisional[all] 这个查询返回所有检查过的RefSeq记录集合。

确定在BLAST结果中的NM_和NP_ RefSeq记录:这个不同的RefSeq登录号的格式(它们包括一个下划线)提供一个快捷的指示:这个BLAST结果包括了一个RefSeq记录。

Score ESequences producing significant alignments: (bits) Valueref|NM_000014.1|A2M| Homo sapiens alpha-2-ma... 9073 0.0^ ^| || RefSeq登录号有一个不同的格式“ref”表明了RefSeq数据库什么是一个RefSeq记录与其他区别的特点?RefSeq记录区别与其他GenBank记录在:使用一个特殊的登录号显示来源信息,由RefSeq打头,在Comment字段的第一行一致的使用可获得的官方命名包括OMIM和LocusLink dbxrefs在基因特性中蛋白记录指明RefSeq作为DBSOURCE登录号格式序列类型NT_123456 构建的基因组contigsNM_123456 mRNAsNP_123456 proteinsNC_123456 chromosomes我如何在BLAST和Entrez搜索结果中快速的确定RefSeq?Entrez和BLAST结果同时提供下面格式文本作为返回结果的一部分:gi|4557284|ref|NM_000646.1||[4557284]数据元素注解Gi “GenBank Identifier”,或序列ID号。

“gi|”表示这个序列ID是一个唯一的号码。

任何对这个序列的改变将导致一个新的gi号码。

4557284是gi号码。

Ref指明RefSeq是来源数据库。

NM_000646是RefSeq登录号。

预测的,临时的,和检查过的RefSeq记录有什么区别?RefSeq记录只有在我们有来源序列记录注解忧完整的编码区时才做的。

如果来自于同一转录本的多种序列在本地对齐市被发现,那么最长的被自动选来作为开始的记录。

预测的记录:预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区。

预测的RefSeq记录是由自动的程序产生,并不被检查。

一个预测的记录描述,对于大多数部分,用来产生它们的GenBank记录中的注解。

GenBank来源的记录与预测的RefSeq记录最大的不同在于RefSeq条目包括了:一个稳定的LocuID号码和一个在Comment字段中这个条目是预测的申明。

这个申明出现在预测的RefSeq记录:预测的RefSeq:这个参考序列记录是来源于一个未知功能的cDNA。

CDNA的存在提供了这个基因的实验证据,但是,开放阅读框的定位和相应的蛋白序列都是预测的并且随着可获得的新增序列和实验数据会改变。

临时的记录:临时的RefSeq记录还没有被检查过。

它们是有自动的程序产生的,有一些初步的质量检测来复查我们提供的“name-to-sequence data”关联的正确性。

一个临时的记录提供了,对大部分来说,用来产生它们的GenBank记录中的注解。

GenBank来源的记录与临时的RefSeq记录最大的不同在于RefSeq条目包括了:命名(基因名字和别名),一个稳定的LocuID号码,这个基因地OMIM 号码和一个在Comment字段中这个条目是临时的申明。

这个申明出现在预测的RefSeq记录:临时的RefSeq:这是一个临时的参考序列记录,还没有被工作人员检查过。

最后校正的参考序列记录将会与这个记录有所不同。

检查过的记录:检查过的记录被NCBI的工作人员或合作小组手工检查过,来创建一个类似于“review article”的序列记录。

一些在检查过的记录中的改变/增强可能包括:增加DNA序列数据(扩充的UTRs)去除DNA序列数据(如载体或接头序列)增加与这个基因一般相关的文章增加核酸和蛋白特性增加概要文本描述基因功能当一个记录被检查,来自于一个以上的记录的序列数据可能被合并,用来构建一个更完整的mRNA记录,这辈认为是合理的。

所有在基因组合mRNA的可获得的序列数据记录都用了,我们没有使用EST序列数据。

检查的过程常常包括阅读原始文献来交叉证明正确和决定是否有更多的可以扩充UTR的可获得的数据。

转录本变化记录只有在检查过文献后和在专家的帮助下才建立。

所有用来产生序列组合的序列都被在RefSeq记录和LocusLink中报道。

我们同时试图去校正一系列其他代表这个基因GenBank记录。

然而,这个列表不是为了完全广泛的,别的相关序列信息将总是在Entrez相关序列(或临近)记录中,BLAST搜索结果中可获得。

查看下面记录来获得检查过的RefSeq记录的样本:GeneSymbolLocusID CommentsAGL 178 关于剪切变体处理的样本。

只有那些有实验和文献充分证明的有全长的转录本的剪切变体我们才做RefSeq。

在提供对那些由于有改变得编码区而造成的转录本变体的RefSeq记录时有着重的强调。

PAX2 5076剪切变体处理的样本。

MICA4276 注意一些参考文献包括了,这个记录类似于一个“review aritcle”。

相关主题