基因组序列的差异分析----mVISTA的在线使用说明当然,除了在线版的,我们还可以在网站上填写信息申请离线的软件。
但我试用了一下,需要先自己比对,然后要按照一定的格式来制作文件,当然你还必须得安装java才能运行软件;总之,我感觉没有在线版的方便。
1 将数据放入服务器中在首页,你将被要求确定你想要分析的基因组序列的数量。
输入这个数字之后,点击“提交”,将带你到主提交页面。
mVISTA服务器最多可以同时处理100条序列。
1.1主提交页面必填的内容E-mail 地址通过E-mail,我们可以提示你的在线处理已经得到结果。
序列你可以用2种方式来上传你的序列:1.使用“Browse”按钮从你的电脑上,上传纯文本的Fasta格式文件。
如果是一个作为参考的生物体的DNA序列必须作为一个contig提交(可以进行一定的定向排列将多个片段合并为一个contig),而其他非参考序列可以在一个或多个contig中提交(draft)。
Fasta格式的示例序列(您可以在NCBI站点上找到关于该格式的更多细节):>mouseATCACGCTCTTTGTACACTCCGCCATCTCTCTCT…!!!注意:序列里面我们只接受字母CAGTN和X。
请确保提交序列是作为一种纯文本格式,而不是Word或HTML文件格式。
如果您以FASTA格式提交序列,我们建议您为它取一个有意义的名称(比如直接是你的物种名之类的),因为这些名称将出现在我们生成的图形中。
如果您使用的是一个draft草图序列,那么结果中每个contigs的命名都将按照您在“>”符号后指示的命名进行。
2.您可以给出它的GenBank登录号,系统将自动从GenBank数据库里进行检索序列。
在这两种情况下,序列的总大小都不应超过10M,而且任何一条序列都不应超过2M。
1.2主提交页面选填的内容这些选项允许您自定义您的VISTA分析。
您可以使用独立获得的基因注释,选择合适的Repeat Masker选项,给分析的序列指定名称,并改变序列保存分析的参数。
如果您没有填写这些选填选项,我们将使用它们的默认值。
比对程序根据您分析的具体内容(参见“about”-链接中的详细信息),您可以选择以下比对程序之一:1、AVID----全局两两比对。
如果您选择使用这个程序,其中一个序列应该被完成比对,其他所有序列可以完成或以草图draft格式完成。
对于集合中所有已完成的序列,AVID生成所有相对所有成对的比对结果,可以使用任何序列作为基础(参考)来显示。
如果某些序列是草图格式,AVID将生成它们与最终序列的比对,这将被用作基础(参考)。
这是该服务器上唯一可以处理草图序列的比对程序。
(小知识:草图序列与完整序列DNA sequence, draft: Sequence of a DNA with less accuracy than a finished sequence. In a draft sequence, some segments are missing or are in the wrong order or are oriented incorrectly. A draft sequence is as opposed to a finished DNA sequence.)2、LAGAN----完成完整序列的全局两两比对和多重比对。
如果某些序列是草图格式,您的查询将被重定向到AVID以获得两两比对。
多重比对将由VISTA可视化,它将计算并显示序列的保守区,以您指示的任何序列作为参考。
这是该服务器上唯一能够产生真正的多重比对的程序。
3、Sheffle-LAGAN----完整序列的全局比对。
它检测序列中的重排和逆序,同时产生一个全局的端到端映射图。
如果你输入几个序列,所有成对的组合将被处理,结果将在VISTA中可视化。
这是该服务器上唯一可用于检测重排和逆序的比对程序。
(叶绿体基因组差异分析论文中好像一般都选这个)对每条序列你可以选择:名字你选择的物种名字将会显示在图例中。
我们建议您使用一些有意义的内容,例如这个生物体的名称、您的实验编号或数据库标识。
当您使用GenBank标识符来输入序列时,默认情况下我们将使用它作为序列的名称。
(页面默认的是sequence1,sequence2,sequence3···)注释如果有序列的基因注释信息,您可以将其以简单的纯文本格式提交,以便在绘图中显示。
每个基因由其在序列上的起始和结束坐标以及列在一行上的名称来定义。
一行前应放置大于(>)或小于(<)的符号,以表示正链或负链,但编号应根据正链来排列。
在每个外显子的开始和结束坐标之后,外显子以单词“exon”单独列出。
UTRs的注释方式与外显子相同,用“utr”代替“外显子”。
例如:< 106481 116661 gene1106481 106497 utr107983 108069 exon有一种简单的方法可以从Ensembl基因组浏览器中导出上述格式的注释。
以下显示是如何做:1、在Ensembl浏览器中选择您感兴趣的序列区域;2、点击页面左侧的“Export information about region”;3、“Output Format输出格式”请选择“VISTA格式”;4、点击“Continue”按钮;5、点击“Annotation data”链接;6、将结果保存为纯文本文件。
我们的web服务器也接受GFF3格式的注释。
NCBI网站上可以下载GFF3格式的文件,如下所示:注意:但是我下载后导入mVISTA,结果显示只注释了前面一半的基因,后一半序列没有注释,我也暂时没搞懂,所以,后来就在网上下了一个perl脚本,来自于简书的《mVISTA格式文件:由Perl脚本处理GenBank注释文件而来》,然后把NCBI上下载的参考序列的gb文件转换成了mVISTA格式文件。
重复序列(RepeatMasker的选择)我们建议掩蔽一个碱基序列以获得更好的比对结果。
您可以提交掩码或非掩码序列。
如果提交了一个掩码序列,其重复的碱基序列被替换为字母“N”,请在下拉菜单中选择“one-celled/do not mask”选项。
我们还接受轻度掩蔽序列,其中重复的元素以小写字母显示,而序列的其余部分以大写字母显示。
在这种情况下,你需要在菜单中选择“softmasked”选项。
如果你的序列是非掩码的,我们的服务器将用RepeatMasker来掩盖重复序列。
请在菜单中为您的具体序列选择一个特定的掩码。
如果你不希望你的序列被掩码,选择“one-celled/do not mask”。
反向互补选择您想要对第二个序列进行反向互补的比对(如果没有同源性,请尝试这样做)。
监管VISTA (rVISTA)访问Regulatory VISTA (rVISTA) access我们的服务器可以预测转录因子结合位点,通过对结果序列运行Regulatory VISTA (rVISTA)。
rVISTA的最大尺寸限制是20K。
有关此工具的信息,请参阅rVISTA说明。
2、结果在提交你的序列几分钟后,你将收到来自vista@的电子邮件,提供给你一个个人网络链接,从那里你可以访问你的分析结果。
下面是结果页。
它列出了您提交的每个生物体,并为您提供了三个查看选项。
这三个选项是:文本浏览器(TextBrowser):提供所有详细信息——序列、比对、保守序列统计等;VISTA 浏览器(Vista Browser):是一个交互式可视化工具,可以动态浏览结果的比对,调整VISTA 曲线和保存序列参数;和一个PDF文件(PDF):这是一个静态的VISTA比对结果图。
在表的底部有一个链接,允许您调整保存和可视化参数。
通过点击它,用户可以改变某些参数,这些参数用于计算保守区域和显示每对提交序列的VISTA图。
请注意,这些参数也可以在使用VISTA浏览器(VISTA Browser)时动态调整。
Text Browser这个链接将以文本格式显示分析的结果。
在页面的顶部是一个横幅,显示比对好的生物体。
在较暗的标题区域中列出的序列充当基础或叫参考(要选择一个不同的参考,返回到结果页面并单击所需的参考序列名称旁边的文本浏览器链接)。
这个横幅还列出了用于比对序列的程序。
下面是导航区域,它显示了当前显示区域的坐标,提供了一个到Vista浏览器的链接(见下面),以及一个到所有保守区域列表的链接。
此外,如果使用Shuffle-Lagan作为比对程序,将会有一个链接来下载生成的比对结果的点状图。
接下来是主表,其中列出了相对参考生物体生成的每次比对。
每一行都是一个单独的比对结果。
除最后一列外,每一列都是指提交分析的序列。
最后一列包含与整个比对有关的信息。
每一行的第一个单元格还包含这个特定比对的VISTA图的预览,这允许你快速评估这个比对的质量,并看到重合部分。
通过观察表格中的一行,你可以看到每个生物体的哪个部分与哪个部分比对上了。
“Sequence”链接将返回一个参与比对的fasta格式的生物体序列片段。
单击“VISTA Browser”链接将启动设置为以所选有机体为参考的VISTA浏览器,并将坐标设置为所选比对的坐标。
最后一列提供了一些关于人类可读的、MFA (multi-fasta对齐)格式的链接,一个单独使用这种比对的保守区域列表,以及单独使用这种比对的pdf图的链接。
如果被检查的区域是20K或更少,可以执行rVISTA分析,并且rVISTA的链接也会显示在这里。
最新!!!最后一栏还提供了对比对rankVISTA分析结果的链接。
点击这里阅读更多关于RankVISTA的信息。
VISTA Browser单击VISTA浏览器链接将启动程序,并选择相应的生物体作为基础/参考序列。
VISTA浏览器是一个交互式的Java 程序,设计来可视化多个比对结果。
浏览器清晰的显示界面可以很容易地跨多个物种识别高度保守的区域。
详细的帮助和说明可以在这里获得:/vgb2help.shtml。
PDFPDF文件是比对结果和找到的保守区域的可视化显示方式。
mVISTA图片最明显的特征是“峰谷”图。
这张图显示了在任何给定的坐标下,两种生物之间的保守区域百分比(或者是差异百分比,如果你使用cVISTA选项)。
顶部和底部百分比界限显示在每一行的右边。
不同保存区域的颜色对应于该区域的注释。
默认情况下,粉色区域是“保守的非编码序列”(“CNS”),深蓝色区域是外显子exons,浅蓝色区域是非翻译区UTRs。
碱基序列中的空格由图下面的红色线条部分表示。
颜色图例汇总在显示器的左上角。
表示基因的箭头画在图的上方,指向基因的方向。