当前位置:文档之家› 基于新药药效的预测模型

基于新药药效的预测模型

数学建模竞赛承诺书我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。

如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从A/B中选择一项填写):我们的队号为:参赛队员:1.2.3.指导教师或指导教师组负责人:数模组日期: 2009 年 8 月 14 日评阅编号(由评阅老师评阅前进行编号):数学建模竞赛编号专用页评阅编号:基于新药药效的预测模型摘要本文主要讨论了新药临床实验的数据分析问题,根据公司在新药上的实验数据表,建立了统计回归模型和神经网络模型,并对题目给出的四个人服了这种药剂后疼痛减轻时间进行了预测。

我们建立了统计回归模型,在回归方程的确定过程中,从多元的线性回归模型推导至可化为线性的非线性回归模型,然后运用EView5.0分别对两个线性回归方程进行了检验,模型在置信概率为95%的条件下通过检验,并画出相应模型的的残差图,以便于模型的最优化选择。

同时我们还构造两个可线性化非线性模型,用matlab7.0对这两个回归方程进行了检验,同样在置信概率为95%的条件下通过检验。

然后进行逐步回归分析,计算出各项的系数。

最后通过分析及剔除变量法,并运用Excel2003对可化为线性的非线性回归方程的显著性检验,结合两个线性回归方程,最终得到一个比较合理的非线性回归模型。

运用该模型得到的预测结果分别为11.3631,15.6312,28.3152,39.9367分钟。

BP神经网络模型通过建立BP神经网络,让其依照试验结果记录中疼痛减轻时间,用药剂量,性别与血压的数据进行自我训练,得到一个误差小的关系式,最后利用这个关系式来对另外四个人服用止痛药后疼痛减轻时间进行预测。

并得到以下结果:四个服用止痛药的人疼痛明显减轻的时间为11.2875,16.1335,29.3262,41.0284分钟。

最后,我们对上述模型进行分析评价,提出了一些可能的改进方向。

关键字:统计回归线性方程非线性方程神经网络残差检验一、问题的重述与分析1.1 问题的重述1、某公司研制了一种止痛的新药,通过临床试验来确定它的疗效。

在临床试验过程中,用4种剂量来试验,剂量分别是2g,5g,7g,10g,分别记录每个病人用药后病痛明显减轻所需的时间(以分钟计)。

为了了解新药的疗效与病人性别和血压之间的关系,试验过程中研究人员把病人按性别及血压的高(0.8)、中(0.55)、低(0.3)三档来进行测试。

试验结束后,公司的记录结果见附件(性别1表示女,0表示男)。

附件中给出了相关的数据,需要建立合适的数学模型来分析病痛减轻的时间与用药剂量、性别和血压的关系。

2、通过问题一对病痛减轻的时间与用药剂量、性别和血压的关系的分析,进一步对于下面不同人服药的数据,预测出病痛明显减轻的时间。

1.2问题的分析问题一:为了了解新药的疗效与用药剂量、病人性别和血压之间的关系,我们用病痛减轻的时间长短来评估药效,即我们可以这样认为:疼痛减轻时间长则表示药效相对不好,而疼痛减轻时间短则表示药效相对较好。

而病痛减轻时间与用药剂量、病人性别和血压的关系是无法事先确定的,需要通过对样本数据的拟合,建立回归模型后加以分析。

问题二:为了预测出不同性别,有不同血压的病人用不同剂量的止痛药,病痛明显减轻的时间的多少,需要研究病痛减轻的时间与用药剂量、性别和血压的关系。

借助于MATLAB软件,构建一个输入用药剂量,性别与血压组别,输出疼痛减轻时间的神经网络可以达到目的。

二、模型的基本假设假设1:疼痛减轻的时间长短可以代表用药效果。

即疼痛减轻时间长则表示药效相对不好,而疼痛减轻时间短则表示药效相对较好。

假设2:疼痛减轻时间只与题目所给的用药剂量、性别、血压有关,其他外在条件对其不存在影响。

假设3:假设男性以0来计算,女性以1来计算,以便于问题研究。

三、符号说明四、模型的建立与求解4.1 模型一:统计回归模型我们记药效减轻的时间为y ,病人的用药剂量记为1x ,性别记为2x ,血压记为3x 。

基于以上分析并结合题目给出的24组数据,我们建立预测模型——统计回归模型。

4.1.1 (建立多元线性回归模型)(1)建立包含用药剂量、性别、血压的三元线性回归模型:我们运用EView5.0软件进行求解: 在命令窗口依次键入以下命令即可:CREATE U 24DATA Y X1 X2 X3 输入数据后键入命令:LS Y C X1 X2 X3即得如下结果(图表一):图表一 新药药效的估计结果因此病痛减轻的时间与用药剂量、性别和血压的关系函数为:3215000.16667.51373.4149.49x x x y -+-=∧]1[t=(8.4807) (-7.6460) (1.7960) (-0.1940) (模型1)7553.02=R 7186.02=R 575.20=F模型的求解结果表明,用药剂量对疼痛减轻时间的边际效益为(-4.1373), 由于性别只存在0和1的取值,所以男性和女性的不同对因变量的影响值为5.6667,血压对疼痛减轻时间的边际效益为(-1.5000)。

7553.02=R ,说明模型的拟合度不错。

模型1的显著性检验:1、F 检验:对于多元线性回归模型:i ik k i i i x b x b x b b y ε+++++=∧22110 假设0H : 021====k b b b 若假设成立,则意味着:i i a y ε+=表明y 的变化主要由模型之外的变量来决定,模型的线性关系不显著,所设定的模型没有意义。

在原假设0H 成立的情况下,可以证明:)1,(~)1(22----⎪⎪⎭⎫ ⎝⎛-=∑∑-∧k n k F k n iki F e y y ]2[所以,对于给定的显著水平α,可由F 分布表查得临界值αF ,如果根据样本数据计算得出: αF F >则拒绝原假设0H ,即回归系数k b b b ,,,21 中至少有一个显著地不为0;此时可以认为模型的线性关系式显著的。

反之,则接受0H ,认为模型的线性关系不显著。

结合该模型数据(图表一),在置信概率为95%的条件下,由F 分布表查得临界值10.3=αF ,而实际模型中的F=20.575,即αF F >说明F 检验也是高度显著的,说明用药剂量、性别和血压对疼痛减轻时间的总影响是显著的。

2、解释变量的显著性检验(t 检验):如果模型通过了F 检验,则表明模型中所有解释变量的“总影响是显著的, 但这并不同时意味着模型中的每一个解释变量对y 都有重要的影响,或者说并不是每个解释变量的单独影响都是显著的。

因此,有必要对模型中每个解释变量(影响)的显著性进行检验,检验过程仍然采用假设检验方法。

对于多元线性回归模型:i ik k i i i x b x b x b b y ε+++++=∧22110 假设0H : 021====k b b b 即假设i x 对y 没有显著影响。

对于t 统计量我们有:)1(~)(---=∧∧k n t b S b b t i i i ]2[因此,对于给定的显著水平α,可以由t 分布表查得临界2αt ,若2||αt t >,则表明原假设0H 是一个错误假设,应该拒绝,即认为系数i b 显著的不等于0,i x 对y 有显著的影响:反之,则认为影响不显著,应该考虑i x 从模型中剔除而重新建立模型。

结合该模型数据(图表一),在置信概率95%的条件下,由t 分布表查得临界值086.2205.0=t ,而实际模型中解释变量32,x x 的t 统计值都要小于205.0t ,所以不能通过检验。

因此,需要对以上三元线性回归模型做适当的调整,按照统计检验程序,一般应先剔除t 统计量最小的变量(即血压变量)而重新建立模型。

]3[(2)建立剔除血压变量的二元线性回归模型:我们运用EView5.0软件进行求解: 在命令窗口依次键入以下命令即可:CREATE U 24 DATA Y X1 X2输入数据后键入命令:LS Y C X1 X2即得如下结果(图表二)图表二 剔除时间变量后的估计结果因此病痛减轻的时间与用药剂量和性别的关系函数为:216667.51373.4323.48x x y +-=∧t=(12.558) (-7.827) (1.839) (模型2) 7548.02=R 7315.02=R 325.32=F模型的求解结果表明,用药剂量的对疼痛减轻时间的边际效益为(-4.1373), 由于性别只存在0和1的取值,所以男性和女性的不同对因变量的影响值为5.6667,表明在这种情况下性别对疼痛时间的影响较为明显。

模型2的显著性检验:1、F 检验:用模型显著性检验的方法,结合图表二的数据,我们可以得到这样的结论:在置信概率为95%的条件下,由F 分布表查得临界值47.3=αF ,而实际模型中的F=32.325,即αF F >说明F 检验也是高度显著的,说明用药剂量和性别对疼痛减轻时间的总影响是显著的。

2、解释变量的显著性检验(t 检验):用模型显著性检验的方法,结合图表二的数据,我们可以得到这样的结论:在置信概率90%的条件下,由t 分布表查得临界值721.105.0=t ,而实际模型中解释变量21,x x 的t 统计值都要大于205.0t ,所以能通过检验。

模型2的拟合度相较模型1并没有多大变化,F 检验也是高度显著的。

这里,解释变量、常数项的t 检验值都相对比较大,都可以在置信概率90%以上通过检验,因此模型2较模型1更为合理。

4.1.2 (建立多元非线性回归模型)模型的准备:由附件中给出的数据,我们可以看出,同列相同值但是对应的疼痛时间值是不同的,这说明疼痛时间y 的确定与用药剂量1x 、性别2x 和血压3x 这三个因变量有关的。

于是我们用matlab7.0软件来分析Y 与这三个变量之间的关系,分别求出不同的变量对应的合适值,以用药剂量与病痛减轻时间的关系为例(程序见附录一),用药剂量为()T10752时,病痛减轻的时间为()T6176.133627.186373.267157.46。

然后我们通过MATLAB7.0软件分别画出对应图像(图表三):图表三 疼痛减轻时间分别与三个变量之间的关系图其中红色曲线代表y 与用药剂量1x 之间的关系,绿色曲线代表y 与性别2x 之间的关系,蓝色曲线代表y 与血压3x 之间的关系。

从上面的图,我们发现:因变量y 与三个自变量1x 、2x 、3x 之间存在着复杂的非线性关系,于是对模型1中的线性回归模型进行修改,并逐步加以分析。

相关主题