摘要..................................................................................................................... - 1 -一、问题的重述....................................................................................................... - 2 -二、问题分析与建模思路....................................................................................... - 2 -三、基本假设与符号说明....................................................................................... - 3 -3.1 基本假设 ........................................................................................................ - 3 -3.2 符号说明 ........................................................................................................ - 4 -四、模型的建立与求解........................................................................................... - 4 -4.1功率谱和信噪比的计算方法 ............................................................................. - 4 -4.1.1 基于Voss映射求解功率谱和信噪比方法................................................ - 4 -4.1.2 基于Z-curve映射求解功率谱与信噪比方法 ........................................... - 7 -4.1.3 基于实数映射求解功率谱与信噪比方法 ............................................... - 10 -4.2 对不同物种类型基因的阈值确定 ................................................................... - 11 -4.2.1 人类基因序列阈值的确定 .................................................................... - 11 -4.2.2鼠类基因序列阈值的确定................................................................... - 13 -4.3 基因识别算法的实现..................................................................................... - 16 -4.4 延展性研究................................................................................................... - 20 -五、模型评价与改进............................................................................................. - 21 -六、参考文献......................................................................................................... - 22 -七、附录................................................................................................................. - 23 -参赛密码(由组委会填写)第九届“华为杯”全国研究生数学建模竞赛题目基因识别问题及其算法的研究摘要在生物学、医学、药学等诸多方面,DNA的研究都具有重要的理论意义和实际价值。
在面对大量、复杂的基因序列数据时,如何更好更快捷地获取准确的基因信息,如何能够在众多的基因序列中确定功率谱和信噪比,如何能够对每类基因快速地得到其阈值确定方法,如何快速实现基因识别算法,是摆在我们面前的一个具有研究意义的实际课题。
我们运用计算机MATLAB软件,分析结果如下:对于问题一,我们根据文献中给出的Voss映射,用快速傅里叶变换方法来实现功率谱和信噪比的求解。
本文利用附件中的genes6中的数据,运行第1条DNA片段的基因数据,通过编程分析,得到功率谱和信噪比r =3.4474。
在Z-curve 映射下我们得到功率谱和信噪比r = 4.5965,并发现二者呈现一定的常数比例关系。
在实数映射下,我们得到功率谱和信噪比为r =3.1186。
对于问题二,假定运行的数据拥有足够的长度。
首先根据快速傅里叶变换方法,运行相关程序得到在不同基因片段时能够得到的信噪比,然后将得到的信噪比进行数据分析与整合;其次,把外显子和内含子的功率谱都运行出来;最后将外显子和内含子内部结构已知的8个人类和92个鼠类的信噪比进行分类,找出2者的信噪比并确定以何种信噪比作为标准。
我们预测到人类的基因序列组合信噪比为R=1.5861,鼠类的基因序列组合信噪比为R=1.7503。
对于问题三,我们假定3-周期性具有一定的普遍性。
采用相邻峰值频谱差异法确定外显子的起点和终点。
首先,画出genes6中的DNA序列功率谱图像;其次,截取总片断中呈3的倍数的小片段,逐步测验,得到不同的频谱图;第三,在基因片段N/3和2N/3处取峰值;最后,根据3-周期性,得到基因片段的两处端点。
对于问题四,我们运用的是频谱和信噪比方法探讨基因突变。
首先利用genes200数据,得到信噪比;其次做描述性统计分析,得到基因序列信噪比折线图和描述统计表;最后预测到当R值突然高于周围值时,基因失去DNA片段的对称性,这样的片段就会存在基因突变。
创新点:1. 利用快速傅里叶变换代替傅里叶变换,并用程序运行,大大提高了基因功率谱和信噪比的运算速度,对于今后研究具有现实性意义和参考价值。
2. 运用信噪比的取值探讨基因识别方法。
关键词:Voss映射Z-curve 映射MATLAB软件SPSS软件快速傅里叶变换一、问题的重述DNA是生物遗传信息的载体,DNA分子是一种长链聚合物,DNA序列由腺嘌呤(Adenine, A),鸟嘌呤(Guanine, G),胞嘧啶(Cytosine, C),胸腺嘧啶(Thymine,T)这四种核苷酸(nucl eotide)符号按一定的顺序连接而成。
其中带有遗传讯息的DNA片段称为基因(Genes)。
其他的DNA序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。
如何利用DNA这些重要的信息帮助人们在农业、工业等行业领域内实现新的突破是我们面临的一个新的实际课题。
我们就当前国内外的研究现状与成果的相关情况,建立数学模型分析研究下面的问题:问题一:(1)基于Voss映射,探求功率谱和信噪比的计算方法。
(2)基于Z-curve映射,求解频谱与信噪比并对Z-curve映射和Voss映射下的频谱和信噪比进行比较。
(3)基于实数映射,求解功率谱与信噪比的计算方法。
问题二:对8个人类和92个鼠类的基因序列进行分析,找到每类基因研究其阈值的确定方法和阈值结果,并对所得到的结果进行评价。
问题三:对设计好的基因识别算法的准确率做出适当评估,并对genes6的编码区域的预测。
问题四:利用频谱或信噪比方法去发现基因编码序列可能存在的突变。
二、问题分析与建模思路问题一:(1)根据Voss映射,采用傅里叶方法探求功率谱和信噪比的快速计算办法。
本文利用附件中的genes6中的数据,运行给定的任意一段基因数据,在给定的一段DNA序列片段为S = ATCGTACTG,则所生成的四个0-1序列分别为:{[]}A u n :{1,0,0,0,0,1,0,0,0}; {[]}G u n :{0,0,0,1,0,0,0,0,1};{[]}C u n :{0,0,1,0,0,0,1,0,0}; {[]}T u n :{0,1,0,0,1,0,0,1,0}。
这样产生的四个数字序列又称为DNA 序列的指示序列,并通过利用MATLAB 软件对Voss 映射进行编程分析(见附件1),得到功率谱和信噪比的快速计算方法。
(2)根据附件1中的Z-curve 映射来探求频谱与信噪比的快速计算方法。
通过运行程序得到Z-curve 映射下频谱和信噪比的值,然后采用100个组进行对比分析,发现在Voss 映射和Z-curve 映射下得到的信噪比之间呈现一定的倍数比例关系。
(3)根据已编好的程序在实数映射下,如:0,1,2,3A C G T →→→→,采取快速傅里叶方法得到功率谱与信噪比的快速计算方法。
问题二:假定运行的数据拥有足够的长度。
从带有编码外显因子信息的8个人和92个鼠类中找出具有代表性的基因序列,并对每类基因研究其阈值确定方法,适当地评论其有效性。
首先根据快速傅里叶变换方法,运行相关程序得到在不同基因片段时能够得到的信噪比,然后将得到的信噪比进行数据分析与整合;其次,把外显子和内含子的功率谱都运行出来;最后将外显子和内含子内部结构已知的8个人类和92个鼠类的信噪比进行分类,找出2者的信噪比并确定以何种信噪比作为标准。
我们预测到人类的基因序列组合信噪比为R=1.5861,鼠类的基因序列组合信噪比为R=1.7503。
问题三:我们假定3-周期性具有一定的普遍性。
采用相邻峰值频谱差异法确定外显子的起点和终点。
首先,画出genes6中的DNA 序列功率谱图像;其次,截取总片断中呈3的倍数的小片段,逐步测验,得到不同的频谱图;第三,在基因片段N/3和2N/3处取峰值;最后,根据3-周期性,得到基因片段的两处端点。