当前位置:文档之家› 4章 核酸序列分析

4章 核酸序列分析


用DNASTAR (editseq)寻找ORF
背景:艰难梭菌(Clostridium difficile,CD) 是肠道感染中仅次于 弯曲杆菌的常见致病菌,我们根据Genth 的文章(New Method to generate enzymatically deficient clostridium difficile toxin B as an antigen for immunization).将CD标准株 VIP10463毒素B分成 3个氨基酸片段: CDB1(氨基酸 1-546,包 含接触反应区),CDB2(氨基酸 90-1750,含有假定的跨膜区), CDB3(氨基酸 1751- 2366,被认为是受体结合区),发现抗毒素 B抗体与毒素B羧基末端 (氨基酸 175-2366)可以发生强烈反应, 说明该段很有可能成为制备疫苗和诊断抗原的重要候选蛋白.故 我们选取了毒素B羧基末端CDB3(氨基酸1751- 2366)进行克隆与 表达,为以后的疫苗和抗原鉴定的研究建立基础. 任务 寻找VPI 10463 标准株毒素B的编码序列(X53138)。 利用DNASTAR 寻找毒素B基因的开放阅读框 寻找CDB3区(氨基酸 1751- 2366)的编码序列 采用实验室仅有的Pgex-4t-1质粒载体进行表达,请选择合适的限 制性内切酶设计引物
核酸序列的组分分析一般包括分子质量,碱基组成, 碱基分布等 实例分析:使用BioEdit分析水稻瘤矮病毒基因组S8片 段编码序列的基本性质.
1 载入序列 运行BioEdit,依次打开File-open,载入待分析的目的序列.
2 输出结果 依次点击sequence ---nucleic acid ---nucleotide composition
实例分析 使用DNASTAR 的EditSeq程序进行序列转换.
1 载入序列 运行DNASTAR,依次打开File—new—new DNA 载入待分析的目的序列.
2 寻找原序列的反向序列 和 反向互补序列 依次点击Edit—select all sequence
菜单Goodies----Reverse Reverse complement
BLAST 程序
程序名 Blastn Blastp 查询序列 核酸 蛋白质 数据库 核酸 蛋白质 搜索方法 核酸序列搜索逐一核酸数据库中的序 列 蛋白质序列搜索逐一蛋白质数据库中 的序列
Blastx
Tblastn
核酸
蛋白质
蛋白质
核酸
核酸序列6框翻译成蛋白质序列后和蛋 白质数据库中的序列逐一搜索。
蛋白质序列和核酸数据库中的核酸序 列6框翻译后的蛋白质序列逐一比 对。 核酸序列6框翻译成蛋白质序列,再和 核酸数据库中的核酸序列6框翻译 成的蛋白质序列逐一进行比对。
序列比对
• DNA : A T G C • Protein: ARNDCQEGHILK…… 例: • TTCGCAGCGC • TTAGGACCTC (偶然相似性)
量化相似性 比对
• 考虑这样的两条核苷酸序列: AATCTATA和AAGATA 仅有三种比对方式
不考虑空位的简单比对,它的打分函数是由对比奖励和罚分 的和来决定
空位
• 两条或多条序列比对时,如果考虑到插入与删除 时间发生的可能性,那么候选的比对数量就会大 大增加,也就导致了比对的复杂性。
等等……
序列C D
• 序列C: CTGC • 序列D: ACCTAGATCG
-- C--T---G----CACCTAGATCG • 序列的联配中引入的空位不能太多
序列比对数学模型
(三)原核与真核生物ORF区别
• 原核生物编码区只含有一个单独的ORF
• 真核生物编码区被内含子分隔成若干个不 连续的外显子,因此分析真核基因的编码 区时,需要正确识别内含子和外显子的边 界。
(四)Kozak规则(基于已知数据的统计结果)
• 即第一个ATG侧翼序列的碱基分布所满足的 统计规律,若将第一个ATG中的碱基A\T\G分 别标为1、2、3位,则Kozak规则描述如下: • (1)第4位的偏好碱基为G • (2)ATG的5’端约15bp范围内的侧翼序列 内不含碱基T。 • (3)第3、6、9位,G为偏好碱基 • (4)除第3、6、9位,C为偏好碱基
• 网络版本 • 包括NCBI在内的很多网站都提供了在线 的blast服务,这也是我们最经常用到的 blast服务。网络版本的blast服务就有方便, 容易操作,数据库同步更新等优点。但是 缺点是不利于操作大批量的数据。
BLAST
• BLAST 是一个序列相似性搜索的程序包, 其中包含了很多个独立的程序,这些程序 是根据查询的对象和数据库的不同来定义 的。 • 比如说查询的序列为核酸,查询数据库亦 为核酸序列数据库,那么就应该选择 BLASTn程序。
Bl2seq参数设置
比对结果
多序列比对
打开ClustalX
载入序列界面
比对参数设置
双序列比对参数设置
Aln文件可用Bioedit软件打开
dnd文件可用tree view软件打开
4.3 基因结构识别
• 4.3.1 ORF识别及其可靠性验证
(一)ORF( open reading frame ) ORF( open reading frame )是一个 潜在的蛋白质编码区,确定DNA序列的编码 区,就需要检测该序列中有多少个ORF, 并 验证所预测ORF的可靠性
检测序列、目标序列
• 检测序列(查询序列):新测定的,希望 通过数据库搜索确定其性质或功能的序列 • 目标序列: 通过数据库搜索得到的和检测 序列具有一定相似性的序列
序列比对基本类型
• 两两比对:蛋白质序列之间 核酸序列之间 • 多序列比对:多个蛋白质或核酸同时比较
常用的序列比对工具BLAST、Clustal X
TBlastx
核酸
核酸
6 框翻译
BLAST 数据库
BLAST算法
• BLAST采用局部比对算法,它的基本要点是序 列片段对(segment pair)的概念。所谓序列片 段对是指两个给定序列中的一对子序列,它们的 长度相等,且可以形成无空位的完全匹配。 BLAST算法首先找出代查序列和目标序列间所 有匹配程度超过一定阈值的序列片段对,然后对 具有一定长度的片段对根据给定的相似性阈值延 伸,得到一定长度的相似性片段,称高分值片段 对(high-scoring pairs, HSPs)。

BLAST搜索算法概述
比对质量: 用打分来评价,算法是打分矩阵,如果两条序 列在同一位置上的残基相同,则给+1.0分,不同 则给0分,或者按转换或颠换给分。 空位罚分一 般作负值处理。 比特分值表明序列的得分,数值越高两序列越相 似。
E值:在选定数据库中搜索目标序列的概率。 当E趋向于0时,说明比对结果越显著; 当E 趋向于1则表明结果很可能来自于其 他生物序列,而且是随机产生。
• 全局比对:在搜索结果中两个被比较序列 所有片断均参与比对,并贯穿整个序列的 长度。 • 局部比对:找出两个被比较序列的最类似 片断,即优先寻找这些局部区域而不是将 对位排列延伸到全序列。
• BLAST 和FASTA都采用局部相似性比对 的方法
4.2.1 BLAST比对 • BLAST 是 Basic Local Alignment Search Tool (基本局部比对搜索工具) 的英文缩写,是一种序列类似性检索工具。 • NCBI提供了网络版BLAST的搜索在线服务 和单机版
4.2 序列比对
为什么要序列比对
• 序列比对又叫序列联配 , 对排 核酸、氨基酸序列的相似性
• 推测结构功能及进化上的联系,是基因识 别,分子进化,生命起源研究的基础。 • 序列 结构 功能
• 序列比对理论基础:进化学说 如果两个序列之间具有足够的相似性, 就推测二者可能有共同的进化祖先,经过序列 内残基的替换、残基或序列片段的缺失、以及 序列重组等遗传变异过程分别演化而来。 序列比较的基本操作是比对, 两条序列中 各个字符的一种对应关系,或字符对比排列。
实例分析
运用在线BLAST进行目标序列的同源性搜索 1.打开BLAST主页
4.2.1 双序列比对 • BLAST2sequences (NCBI) • 实例分析 比较RGDV S8广西分离物与泰国 分离物序列之间是否相关?二者之间是否 存在(互补/重复/转座 现象)?
提交序列
(五)ORF分析工具(如ORF finder)
实例分析(page 94)
• 应用ORF Finder预测水稻瘤矮病毒(RGDV) S8片段的ORF. • 研究背景:为构建融合蛋白的表达载体, 需要对RGDV S8片段的基因序列进行ORF分 析并确定其位置,为设计表达引物提供信 息。
1、提交序列 2、参数设置
(二)验证依据 • 1、在ORF上发现不寻常的序列变异类型, 即每个第3碱基趋向于相同的概率远大于仅 仅由随机产生的概率。 • GCG软件包的TESTCODE程序可以提供序列中 每个第3碱基的非随机性标示。
• 2、通过分析确定ORF的密码子是否与那些 用于同一生物其他基因中的密码子一致
• 可以用GCG软件包的CODONFREQUENCY程序进 行分析 • 3、比对法,将所预测的ORF翻译成氨基酸 序列,然后将结果序列与现有数据库进行 BLASTP比对,如果发现1个或多个相似的序 列,则所预测ORF的可信度就比较高。
用DNAMAN对RGDV S8片段编码 区进行限制性酶切分析
搜索查询序列
选择CDS
从文件载入序列
复制粘贴载入序列
限制性酶切进行参数设置
酶选择
结果分析
在线限制性酶切分析工具(例如NEBcutter)
NEBcutter序列提交界面
分析结果
附加内容
• 用DNASTAR (editseq)将 DNA序列翻 译为蛋白质
相关主题