如何查找基因序列?(转载)
(2010-08-01 11:47:41)
如何查找基因序列?
——在Genbank中寻找目的基因的实例
——献给受类似问题困扰的广大酷友,以及给我动力和信心发表原创帖的基因酷的朋友们。
酷友感言:网络的世界很精彩,网络的查询很无奈。
为了我们的科学研究事业,为了我们能够顺利毕业,我们的广大酷友们在网络的海洋里遨游…遨游…咋就找不到彼岸呢?今天要设计这个基因的PCR引物,明天又要查那个基因的信息,那么大一张网,唉想起来就郁闷……鉴此,我们推出了利用Genbank查找基因序列的帖子,希望对大家有所帮助,并请大家多多指教!当然,如果您已经是此中高手,那就权当我是班门弄斧了,呵呵。
1. 根据文献
搞reasearch肯定要读文献的,如果你曾经在文献中看到过你感兴趣的基因,而且文中还提到了该基因在Genbank中的ID号,那就好办了,直接打开,在Search后的下拉框中选择Nucleotide,把Genbank ID号输入GO前面的文本框中,点“GO”,就可以找到他了。
举例说明,例如:在2003年JBC的文章(Conditional Knock-out of
Integrin-linked Kinase Demonstrates an Essential Role in Protein Kinase B/Akt Activation)中出现了“calreticulin (GenBank accession number gi 16151096)”,那么把“16151096”输入GO前面的文本框中,点“GO”,就可以找到该基因了(当然包括基因序列等相关信息)。
在出现了检索结果界面(下图)后,直接点击红箭头所指的 AY047586就可以看到基因的相关信息了...(呵呵,是不是有点太......easy 了)
这里需要指出一下,在显示基因的页面右侧有一个Link,点击后出现一个小菜单,里面是与该基因相关的链接,很有用的,值得一个一个地去看看,这里我就不多说了。
点击 AY047586后出现的界面如下:如果你只想获得序列(例如去设计PCR引物的时候),那就可以选择FASTA,这样就得到了FASTA格式的序列文件,没有其他数字和格式的干扰。
(缩略图,点击图片链接看原图)这就是FASTA格式的序列:
(缩略图,点击图片链接看原图)2. 根据已经获得的基因的相关信息进行查找(待续......)
鼓励一下吧,累坏了正如路漫漫所说,如果只是知道基因的名字,怎么查序列呢?还是举例说明,比如我想做的基因名称是人的VEGF基因,那么怎么在Genbank中找到它呢?还是一步一步来...打开/
在search后面的下拉框中选择Gene,然后在中间的文本框中输入基
因名称“VEGF”,点击GO...
搜索结果出来了,let me see... 啊,怎么这么多?689条,哪一条是我想要的基因呢?
(作者注:这也许是大多数人对Genbank的第一印象,即东西太多了,不知道是哪个。
)
别急,咱们慢慢来,我就要亮出去伪存真的秘密武器了,呵呵点击箭头所指的Limits
Limits的意思其实就是高级检索,你可以在这里对检索词进行很多限制,这样能大大精简查询结果。
我们接着来,在Limits这个界面,先选择查询的限定范围。
我们要找什么基因来着?想起来了,是人的VEGF基因,那就开始选择:先选Gene name(基因名称);然后再选择Limit by Taxonomy(生物分类限定)中的Homo sapiens(人类),然后再点击“GO”哇,只有一个结果,是不是搞定了?(呵呵,好有面子哦[])
直接点击基因名称“VEGFA”就可以看到有关基因的信息了。
需要指出的是,在Genbank中,基因有很多别名(Aliases),和Genbank 中记录的名称有可能不一致,大家要睁大眼睛哦。
比如在这里,VEGFA 是Genbank中记录的基因名称,而它还有很多别名,比如MGC70609, VEGF(这就是我们要找的基因名称), VEGF-A, VPF;还有,在这里可以看到该基因在染色体上的位置...点击VEGFA后出现界面
再往下看,可以看到Genomic regions, transcripts, and products,这里显示了该基因在基因组中的位置,以及转录本的生成情况:
就看见了目的基因的mRNA的链接(如NM_001025366.1)和蛋白质的链接(如NP_001020537.2 )
这里得说两句,有的基因也许只有一个编码序列,但有的基因有很多的mRNA剪接体,但都是归在一个基因名称下面。
比如,在VEGF基因下面有7个序列,分别是vascular endothelial growth factor A isoform a, isoform c, isoform d, isoform e, isoform f , isoform g, isoform b precursor ,但是哪个是自己想找的基因呢?这就需要根据你自己查阅的文献以及在这些基因序列后面的解释来确定了。
如果我想找的基因是第一个序列即isoform a, 就可以点击
NM_001025366.1,得到如下界面:
怎么,是不是很熟悉,下面的东西就不用我罗嗦了吧(砖头来了,我闪~~)总结一下
说来其实很简单,就是利用Genbank的检索功能。
也许大家的检索文献能力很强,但是面对Genbank这个庞然大物有却些打怵,加之初涉基因,相关知识不足,所以很多时候都是费力无穷却无功而返。
还是那句话,战略上藐视,实践中重视。
多花些时间了解Genbank,不要上来就狂查一通。
先把检索功能学习学习会更容易达到目的,磨刀不误砍柴工嘛,呵呵。
啥,就剩一句了?那好,谁把上网费给俺报了....
最后,如果你觉得这个帖子有点用处,帮忙顶一下,谢谢支持!非常优秀的一篇帖子,通过百度和站内搜索得出的结果却很有些令人困惑的地方,呵呵。