当前位置:文档之家› 基因序列分析word版

基因序列分析word版

南开大学数学院“学而思”杯数学建模比赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):A 题:基因序列分析摘要本文通过对比HIV病毒基因序列,找出不同阶段的DNA基因序列的异同,进而分析基因位点的相关性,从而对比找出HIV病毒基因序列中较为重要的位点,为HIV病毒研究提供更多的研究方法与思路。

针对问题一:我们利用点矩阵分析及统计各碱基含量的百分比的方法,对比两文件中具有相同序列名的基因序列及具有不同序列名的基因序列,找出两者的异同,得出结论。

两者的相似性表现在:同名序列具有子序列关系,不同名序列具有相当的相似性,各种碱基的含量具有稳定性。

两者的不同点表现在:基因规模有很大差异,不同名序列出现了具有突变特点的基因序列差异。

针对问题二:我们首先利用DNAwalk法对HIV病毒基因序列位点进行分析,在分析的过程中发现由于基因和基因组序列中存在着高度的不均一性,即不同位置的碱基密度存在着很大的差异,因而DNAwalk法不太适合基因序列的分析,转而使用DFA模型对HIV 基因的相关性进行分析和度量,得出了与DNAwalk模型相同的结论。

针对问题三:在前两问的分析基础上,结合前两问的分析结果及HIV病毒高度变异性的特点,我们得出重要的基因位点应满足下列条件:1、该基因位点位于Ⅱ基因序列,2、该基因位点所在序列的序列名应不同于Ⅰ中的序列名,3、该基因位点在问题二的分析中具有较高的相关性。

关键字:矩阵分析 DNAwalk DFA模型问题重述人类免疫缺陷病毒(Human Immunodeficiency Virus,HIV),简称艾滋病病毒,会造成人类免疫系统的缺陷, 导致艾滋病(AIDS). HIV基因组翻译成蛋白的过程相对复杂, 它会重复交叉使用某些基因片段。

病毒序列在进化和传播的过程中主要是envelope 基因变化很快。

详细描述可见HIV的生活史。

由于现有的抗艾滋病病毒药对HIV无法根治,因此就将“责任”归咎高变异性. 目前, 很多的HIV序列已经被测定出来, 附件给出了一些HIV的序列. 我们试图通过对HIV序列的分析来断定这些序列上哪些位置比较重要, 从而给艾滋病的研究一些帮助. 例如, 某些位置上的突变可能会影响到HIV的传播机制, 如果我们瞄准这些位置设计药物, 可能会对艾滋病的传播起到抑制作用.HIV基因组序列大约长10k,HIV1_GENOME_DNA.fasta包含了1400余条基因组的序列,因为在序列突变的过程中,有一些核酸会消失,这些消失的核酸在文件中使用”-“来表示。

表示此处发生了一次删除突变。

也就是说, 文件中所有序列都是”对齐”的. 这样, 我们可以知道这些序列中某一个特定位点上核酸的分布情况. 另外,HIV基因组中包含了若干个编码蛋白质的基因,编码后的蛋白质可以行使病毒传播,致病等功能。

HIV1_ENV_DNA.fasta是其中一个编码蛋白质基因的序列,HIV1_ENV_PRO.fasta是编码后的蛋白序列。

它们同样是已经比对好的。

基于以上说明,我们来分析如下问题:(1)对于HIV1_ENV和HIV_GENOME的DNA序列,构造数学方法对序列的位点进行分析,指出这两者之间的异同。

(2)HIV序列位点之间或者某些位点之间是否存在相关性?如果存在,那么如何去度量这种相关性?(3)对这些序列进行进一步的分析,找到你认为的HIV中较为重要的位点,并说明这些位点为什么重要。

知识背景本文通过对HIV病毒的基因信息进行分析,从而得出HIV病毒基因中比较重要的位点,由于本问题专业性较强,所以我们将先对其中相关知识做出阐述:1、名词解释:基因组:Genome,生物所携带的遗传信息的总和,即单倍体细胞中包括编码序列和非编码序列在内的全部DNA分子。

基因位点:基因在染色体上占有的特定位置。

染色体:由脱氧核糖核苷酸、蛋白质和少量核糖核酸组成的线状或棒状物,是生物主要遗传物质的载体。

因是细胞中可被碱性染料着色的物质而得名。

核糖体:结合着辅助蛋白质因子的多个核糖体RNA(rRNA)亚基组成的细胞器。

碱基:指嘌呤和嘧啶的衍生物,是核酸、核苷、核苷酸的成分。

2、一般细胞遗传信息传递相关原理DNA转录成RNA,RNA再被翻译成蛋白质执行相应的功能。

DNA碱基的序列决定了蛋白质的结构,但DNA并非直接翻译成蛋白质,基因组DNA先通过转录生成信使RNA(mRNA),单链的mRNA随后将离开细胞核,指导蛋白质的合成。

这一过程称为翻译,由核糖体负责完成。

构成蛋白质的20种氨基酸通过转运RNA(tRNA)的作用到达核糖体,在核糖体的作用下,mRNA分子的核苷酸序列被翻译成相应的氨基酸,形成肽键。

一条DNA链经过一个被称为转录的复制过程,合成前体RNA转录本,除了将胸腺嘧啶(T)替换为尿嘧啶(U)。

这条RNA是与DNA编码链完全等同的。

然后,RNA上的非编码部分(内含子)被称为剪接的过程切除。

进而通过5’端加帽和3’端加尾作用被修饰,生成信使RNA(mRNA), mRNA被转移到细胞质中,在这里它将被核糖体翻译成蛋白质。

3、关于逆转录病毒逆转录病毒的遗传信息不是存录在脱氧核糖核酸(DNA)上,而是存录在核糖核酸(RNA)上。

在感染受害细胞时,逆转录病毒首先将RNA逆转录为DNA,然后将这段逆转录基因插入到细胞基因中。

由细胞的转录机构转换为病毒的蛋白质和RNA。

逆转录病毒通常携带着病毒特异性的逆转录酶,这种酶可以将RNA逆转录合成为DNA。

4、HIV遗传信息传递原理HIV病毒是一种逆转录病毒,因此HIV病毒的RNA要先经过逆转录的过程合成对应的DNA,这个过程是有序的高度复杂的过程。

但是HIV病毒的逆转录过程并不像DNA转录成RNA那样忠于原有信息,而是带有较高的突变机率,也就是说逆转录出的DNA所携带的遗传信息较原来的病毒发生了一定的变化。

HIV外层是类脂为主的包膜,包膜上镶嵌着许多糖蛋白。

当它进入人体后,其外膜上的糖蛋白可专门识别T淋巴细胞表面的受体并与之结合。

HIV基因组进入T淋巴细胞,蛋白质衣壳遭受酶解。

在逆转录酶的作用下,以HIV的RNA为膜板,一条与RNA互补的DNA单链被合成。

新DNA又成为另一条互补DNA链的合成膜板,如此便产生互补的双链DNA。

该双链DNA片断进入细胞核,与宿主细胞的染色体基因组整合在一起,成为前病毒RNA,感染进入潜伏期。

当被感染的细胞激活时,前病毒DNA便开始转录生成新的RNA 片断,同时合成外壳蛋白等。

在宿主细胞中,新合成的RNA、逆转录酶即蛋白质等有装配成更多的病毒颗粒,它们以出芽的方式从宿主细胞中释放出来,又去攻击其他的T淋巴细胞。

符号说明1、Ⅰ(B.FR.83.HXB2_LAI_IIIB_BRU.K03455):HIV1_GENOME_DNA文件中名为B.FR.83.HXB2_LAI_IIIB_BRU.K03455的序列2、Ⅱ(B.FR.83.HXB2_LAI_IIIB_BRU.K03455):HIV1_ENV_DNA文件中名为B.FR.83.HXB2_LAI_IIIB_BRU.K03455的序列3、Ⅲ(B.FR.83.HXB2_LAI_IIIB_BRU.K03455):HIV1_ENV_PRO.文件中名为B.FR.83.HXB2_LAI_IIIB_BRU.K03455的序列4、Ⅰ:HIV1_GENOME_DNA5、Ⅱ:HIV1_ENV_DNA6、Ⅲ:HIV1_ENV_PRO.其余序列可类似表示。

模型分析问题一:由知识背景可以知道HIV病毒的高度变异性来自RNA的逆转录过程的较高的突变机率,而Ⅰ是1400余条基因组的序列,Ⅱ是一个编码蛋白质基因的序列,Ⅲ是Ⅱ编码后的蛋白序列。

同时,病毒的传播主要是由蛋白质完成的,因此只有编码蛋白质的序列才是有效的。

另一方面,可以观察到无论是Ⅰ或是Ⅱ中的序列名(例如:B.FR.83.HXB2_LAI_IIIB_BRU.K03455)均是专业的序号,因此可认为是该序列的名称。

通过对比可以发现Ⅰ和Ⅱ中的序列名不尽相同,因此在此问题中,我们将通过对比具有相同序列名的基因序列及具有不同序列名的基因序列找出两者的异同。

问题二:目前DNA序列相关性结构的全部特征的研究可以说是数学的,其研究也主要是指统计相关性,当且仅当两个事件的联合概率不等于各个事件的概率之积时,两事件才有统计相关性。

数学方向上的研究者将DNA序列看做一串符号,它的相关性结构可通过所有可能的碱基对相关函数或相应的功率谱刻划。

同时,我们可将DNA序列的变化视为符号序列的修改。

在基因和基因组序列中,存在着高度的不均一性,即各个位置的碱基分布存在着很大的差异。

通过基于熵的分割算法,可以将序列分割为较均一的子序列,即可对DNA序列中的这种不均一性进行定量的分析和研究。

我们将通过分析DNAwalk及DFA 模型对HIV序列位点之间的相关性进行度量与分析。

问题三:通过问题一和问题二的分析和研究,我们可以知道序列的相关性及Ⅰ和Ⅱ的对比结果,鉴于HIV病毒的高变异性,我们可以知道HIV病毒的致病基因应该是处于变异后的基因序列之中,因此我们的讨论重点在于Ⅱ不同于Ⅰ的序列,寻找其中相关性较高的位点,这些位点就可视为是比较重要的位点。

模型求解问题一:一、通过点矩阵分析两序列的异同。

本方法原理:利用矩阵图法做图。

矩阵图法:矩阵图法就是从多维问题的事件中,找出成对的因素,排列成矩阵图,然后根据矩阵图来分析问题,利用数学上矩阵的形式表示因素间的相互关系,从中探索问题所在并得出解决问题的设想。

方法:将两条待比较的序列分别放在矩阵的两个轴上,一条在X轴上,从左到右,另一条在Y轴上,从下往上,如图1所示。

图1当对应的行与列的序列字符匹配时,则在矩阵对应的位置做出“点”标记。

逐个比较所有的字符对,最终形成点矩阵。

可能存在的几种情况:1、如果两条序列存在相同的子串,则对于每一个相同的子串对,有一条与对角线平行的由标记点所组成的斜线,如图2中的斜线代表具有相同的子串“ATCC”:图22、两条互为反向的序列,则在反对角线方向上有标记点组成的斜线,如图3所示:图33、对于矩阵标记图中非重叠的与对角线平行斜线,可以组合起来,形成两条序列的一种比对。

在两条子序列的中间可以插入符号“-”,表示插入空位字符。

在这种对比之下分析两条序列的相似性,如图4所示。

找两条序列的最佳比对(对应位置等同字符最多),实际上就是在矩阵标记图中找非重叠平行斜线最长的组合。

图4下面我们用这种方法对问题一进行分析:由于序列中的碱基数目过多,我们将序列用BioEdit软件翻译成氨基酸序列再进行对比。

为了证明利用矩阵图法对氨基酸序列依然有效,我们将同一序列与自身进行对比,得到如下图形(图5):图5由此可看出矩阵图法对氨基酸序列依然有效,且两序列进行比较后出现如图5的斜线,则表示两序列有相同的部分。

相关主题