当前位置:文档之家› 核酸序列分析软件介绍

核酸序列分析软件介绍

核酸序列分析1、核酸序列检索可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。

在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。

如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。

其中“[ac]”是序列接受号的描述字段。

2、核酸序列的基本分析(1)分子质量、碱基组成、碱基分布分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。

如:BioEdit(/BioEdit/bioedit.html),DNAMAN()。

(2)序列变换进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。

这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。

(3)限制性酶切分析该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。

REBASE数据库(,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。

其它资源还有:WebGene:/~tjyin/WebGene/RE.html,/personal/tyin.htmlWebCutter2:http://www//firstmarkert/firstmarket/cutter/cut2.html同时,很多软件也能够识别REBASE限制酶数据库。

强烈推荐使用集成化的软件如BioEdit和DNAMAN等。

所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。

在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。

此时DNAMAN软件是一个良好的选择。

在对所有序列进行多重对齐后,其输出项“Output”中即有“Restriction Analysis”选项,执行后即可完成对所有参与对齐序列的酶切分析,能够得到所有序列的差异酶切图谱和一致酶切图谱。

(4)克隆测序分析得到测序结果后,需要对所测序列进行后续分析,其中主要包括对测序峰图的查看和载体序列的去除等过程。

a. 测序峰图的查看最简单的程序是澳大利亚的Conor McCarthy(.au./~conor/)开发的Chromas.exe程序,但该程N 序不支持Windows 95以上的长文件名。

其实,集成化的软件如BioEdit和DNAMA 也具有此功能。

b. 载体序列的去除许多数据库中收集了常用的测序载体序列,如:vector-ig: ftp:///repository/vector-igftp:///repository/vectorUniVec数据库: /VecScreen/VecScreen.html /blast/db/vector.ZVectorDB: /vectordb/如果用户面对的是大批量序列的分析任务,则需要将这些载体数据库下载后进行分析。

使用Blast程序(/VecScreen/VecScreen.html )对此类数据库进行相似性分析即可得知目的序列中是否含有载体序列。

如果是,那么在对测序列数据进行进一步分析之前必须将载体序列去除。

此过程虽然简单,在核酸序列数据库中仍有一些序列含有载体序列的污染。

美国基因编码公司(Gene Codes Corp/)所开发的SequencherTM软件在识别载体序列方面具有很强的功能。

SequencherTM软件被多个公司用于测序数据的分析和管理。

该分司同时提供该软件的演示版,可通过其网址(/home.html )获得。

运行SequencherTM软件后,选择File→Import→Sequences,选择待进行载体序列分析的测序文件。

该测序文件可为文本格式的序列文件,也可为测序峰图文件,甚至可将一个目录下的所有的文件一次性输入。

编辑载体序列文件,在Name中填写载体名称,在PolyL 处填写克隆插入位点的两侧序列,中间插入位点用星号(*)标识。

选中待进行载体序列切除的序列图标,选择Sequence→Trim Vector,将得到切除结果。

点最上方的Show Bases按钮,将显示具体序列。

SequencherTM软件可识别的载体序列文件也可来自VecBase数据库。

(5)核酸序列的电子延伸核酸序列的电子延伸的基本过程是:①将待分析的核酸序列(称为种子序列)采用Blast软件搜索GenBank的EST(expressed sequence tag,表达序列标签)数据库,选择与种子序列具有较高同源性的EST序列(一般要求在重叠40个碱基范围内有95%以上的同源性),称为匹配序列。

②将匹配序列和种子序列装配产生新生序列,此过程称为片段重叠群分析(contig analysis)。

③然后再以此新生序列作为种子序列,重复上述过程,直到没有新的匹配序列入选,从而生成最后的新生序列,作子种子序列的延伸产物。

在GCG软件包中,以下分析工具用于完成序列的电子延伸:gelstart程序为测序工程创建一个新的数据库;gelenter程序将克隆序列输入数据库;gelmerge程序自动分析克隆和片段末端重复情况;gelassemble调整片段重叠群的对齐结果;gelview显示单个片段重叠群中的重叠情况;geldisassemble将片段重叠群中的克隆分解为单个克隆序列。

GenBank和UniGene数据库、Tigem的EST Machine、EMBL的EST Cluster Project、美国Pangea的EST Assembly Project以及我国南方基因组中心的EST Assembly Project基本上采用此方式进行。

由于该过程的计算需要大量计算机资源,所以目前沿无通过Web直接进行片段重叠群分析的资源。

在实际分析时,用户一般将自己的序列向上述数据库提交,可直接从其中获得已经完成拼接得较长的cDNA 序列。

序列拼接的有关生物学资源如下:UniGene:inker /UniGene/,GenBank中EST序列按照基因簇分类结果。

STACK:http://www.sanbi.ac.za/Dbases.html ,南非国家生物信息中心SANBI 维护的一个序列标记联配和代表序列知识库。

及与之密切有关的一个数据库SANIGENE。

Staden可供下载进行片段重叠群分析的软件包网址:/pubseq/;/Registered/Option/staden.html 。

以UniGene数据库进行电子延伸为例,首先用进行序列同源性检索。

通常可从EST 数据库中检索到一批与待分析序列高度同源的EST序列。

选择同源性比分最高的一条EST序列,从UniGene数据库中进行检索,得到相应的UniGene编号。

获得待分析序列的UniGene编号后,就可将参与形成UniGene Cluster的所有序列下载到本地,利用SequencherTM软件或其他序列装配软件进行组装,形成较长的新生序列。

真正的cDNA序列还需要通过实验验证。

通过对延伸后的序列设计全长引物,经过反转录PCR即可验证是否是对原序列的有效延伸。

(6)基因的电子表达谱分析核酸序列对应基因的组织表达谱分析原理是,将待分析序列与EST数据库进行序列对库检索,随后用与待分析核酸序列具有高同源性的EST序列所对应的组织来源进行推断,从而得到该基因的组织表达谱。

可用UniGene Cluster序列的组织/细胞来源来间接地反映待分析序列在何种组织中表达,体现在字段“cDNA sources”中。

也可用Tigem服务器的电子原位杂交软件及其数据库(http://gcg.tigem.it/INSITU/insitublast.html )也同机关报可获得组织/细胞表达谱。

(7)核酸序列的电子基因定位分析对核酸序列进行电子基因定位(即基因的染色体定位)有三种策略,其一利用STS (sequence tagged site)数据库,联网到NCBI电子PCR资源(/genome/sts/eper.cgi ),输入待分析序列进行;其二是利用UniGene数据库进行,但首先要获得待分析序列所对应的UniGene 编号,大部分UniGene序列已经具有较为明确的利用放射性杂交(radiation hybrid,RH)技术给出的定位信息,根据UniGene/RH技术进行定位。

其三是直接利用基因组序列进行电子基因定位。

先将待分析序列进行对基因组数据库的同源性检索,得到确定的基因组序列后点击“Genome view”按钮观察其基因组结构,点击用红色标记所指示的染色体列表中选择所对应的染色体区域,浏览器中将显示详细的基因定位结果,相关的基因谱数据库如RHdb、mouse RH、GeneMA HuGeMap。

(8)cDNA对应的基因组序列分析可通过NCBI查询全部基因组数据库进行基因组序列分析,也可通过Sanger中心查询基因组数据库进行分析(P’99、/HGP/blast_server.shtml )。

(9)基于核酸序列对齐分析的功能预测主要内容如对库比较、多序列以及序列之间的两两比较、同源性比较及结果的显著性评价、分子进化树的绘制等。

可用BioEdit、Omiga、DNAMAN等集成了的Clusta W/X软件分析,其分析结果可用来给制分子进化树。

(10)可读框架分析AUG可能是真核生物惟一的翻译起始点。

Kozak调查了200多种真核生物mRNA中l5′末端第一个AUG前后序列发现,除此17个例外,其余都是A/GNNAUGG。

具有生物学功能的起始密码子AUG总是出现在一定的核苷酸阅读框架内。

首先,AUG上游(即5′方向)的第三个核苷酸常常是嘌呤,且多数是A(即-3A);其次,紧跟在AUG后面的核苷酸,常常也是嘌呤,且多数情况下是G(即+4G)。

实验表明,AUG附近的核苷酸序中以ANNAUGN和GNNAUGPu的利用率最高,而没有起始功能的AUG附近核苷酸则无此保守性,即所谓的“Kozak序列”。

对于真核生物而言,一条全长cDNA序列将只含有单一的开放阅读框(openreading frame,ORF)。

非全长cDNA的序列如ESTs,通过将核苷酸序列中的所有相位进行搜索可很快获得结果。

相关资源如下。

①ORF查找器:将以FASTA格式提交的序列翻译,按照所有可能的六个相位翻译为蛋白质序列。

如果所查询的序列拟使用非标准遗传密码,则可从相应的对话框中选择正确的密码子进行ORF分析。

相关主题