影响戒烟成功的因素分析数模26545507影响戒烟成功的因素分析数学建模论文摘要本论文通过对戒烟者的年龄、性别、每日抽烟支数及调整的CO 浓度等因素的数量变化分析说明影响戒烟成功的因素,分段讨论不同因素下的累加发病率分布情况,用相关系数讨论影响戒烟时间的因素,用多元线性回归讨论影响戒烟成功的主要因素有哪些,建立出三个相应的模型。
针对问题一,利用数理统计与概率的知识分别在不同年龄段、不同性别等因素下对234名烟民进行分段,设再次吸烟的人数为p ,总人数为p 总,统计累加发病率∑P ,建立一个较为简单的模型。
∑=P 总p p针对问题二,利用相关系数和平均数的方法分两步来讨论分析影响戒烟时间的因素:(1)对于戒烟时间受年龄、每日抽烟支数及调整的CO 浓度等因素的影响的差异,首先分别求戒烟时间y 与年龄、每日抽烟支数及调整的CO 浓度等因素即x n 的相关系数。
以戒烟时间与不同因素分别对应的相关系数r 为基础,建立相应的模型.∑∑∑----=22)()())((y y x x y y x x r然后根据不同的r 讨论影响戒烟时间的因素。
(2)对于性别对戒烟天数的影响,我们分别求出不同性别对应的戒烟天数t 的平均值,再进行比较,由此得出性别对戒烟天数的影响。
x =nt(n 为不同性别对应的人数) (3)另外,我们分别绘制出戒烟时间与年龄、每日抽烟支数及调整的CO 浓度等因素的散点图,由点的分布更直观地体现不同因素对戒烟时间的影响程度。
针对问题三,把戒烟天数作为戒烟成功的标准,运用多元线性回归的知识,由于在问题一和二的解答中,我们得知性别对戒烟情况影响不大,所以只把年龄,每日抽烟支数,CO 浓度,调整的CO 浓度四个因素作为自变量X ,戒烟天数作为Y ,建立新的模型:Y=εβββββ+++++LogCoadj co Day Cig Age X X X X 43_210通过本模型分析各种因素与成功戒烟之间的关系,确定了影响戒烟成功的因素。
最后,我们对模型的科学性和现实性进行了阐述,并得到了对模型的整体评价,及急需改进之处。
关键词:戒烟 概率论与数理统计方法 相关系数 多元线性回归 EXCEL问题重述众所周知,吸烟不仅危害自身健康,而且由此引起的被动吸烟更是危害公众身心健康的主要原因。
为此,如何帮助相关人士摆脱烟瘾的困扰也就成为一个重要的研究课题。
本文研究数据涉及 234人,他们都自愿表示戒烟但还未戒烟。
在他们戒烟的这一天,测量了每个人的CO (一氧化碳)水平并记下他们抽最后一支烟到CO 测定时间.。
CO 的水平提供了一个他们先前抽烟数量的客观指标,但其值也受到抽最后一支烟的时间的影响, 因此抽最后一支烟的时间可以用来调整CO 的水平。
记录下研究对象的性别、年龄及自述每日抽烟支数。
这个调查跟踪1年, 考察他们一直保持戒烟的天数, 由此估计这些人中再次吸烟的累加发病率, 也就是原吸烟者戒烟一段时间后又再吸烟的比例. 其中假设原烟民戒烟的可信度是很低的(更恰当地说多数是再犯者)戒烟天数是从0到他(她)退出戒烟或研究截止时间(1 年)的天数。
假定他们全部没有人中途退出研究。
请回答下列问题:1)试分析上述234人中再次吸烟的累加发病率分布情况(如不同年龄段、不同性别等因素下的累加发病率分布情况)。
2)你认为年龄、性别、每日抽烟支数及调整的CO浓度等因素会影响戒烟时间(天数)长短吗?如果影响请利用附录中的数据,分别给出戒烟时间与上述你认为有影响的因素之间的定量分析结果。
3)请利用附录中的数据建立适当的数学模型,讨论影响戒烟成功的主要因素有哪些,并对你的模型进行可靠性分析。
4)请根据你的模型,撰写一篇500字左右的短文,向有志于戒烟的人士提供戒烟对策和建议。
问题分析全世界现有11亿人在抽烟,每年约有120万人死于烟草诱发的相关疾病,中国烟民已超过3亿,占全球吸烟者总数的1/3,二手烟民更高达7.4亿人。
为什么戒烟如此困难?吸一口烟能在几秒钟内迅速将尼古丁颗粒送进大脑,从而使脑细胞受体释放出多巴胺等使人感觉良好的其他微小颗粒,让烟民明知吸烟百害无一利,也欲罢不能。
所以,如何帮助烟民戒烟,成了既急迫又棘手的问题。
从理论上讲,戒烟难度可能受年龄,性别,每日抽烟支数等因素的影响。
但从数据分析中发现,这种相关性并不十分明显。
所以我们将综合累加发病率,影响戒烟时间的因素,影响戒烟成功的主要因素这三方面来,从而得出戒烟对策和建议。
1)对影响戒烟成功的因素的理解问题一:数据中的戒烟天数直接反映了调查对象的戒烟情况,这个调查跟踪1年,则戒烟天数小于一年(365天)的人即为再次发病的人数。
由于再次吸烟的累积发病率指总人群,经过一段特定的观察期(一年)之后,再次吸烟的频率,所以分子是在一年内再次吸烟的人数,分母是观察开始时的总人数。
且题目要求分析在不同年龄段等因素下的累加发病率,所以我们将进行分段统计。
问题二:讨论影响戒烟时间的因素,可以分别求年龄、性别等因素与戒烟时间之间的相关系数r,再根据r越接近1则相关性越大的原理来对影响戒烟时间的因素进行排序。
另外,由于性别仅有2个变量,我们将对不同性别对应的戒烟天数的平均数进行比较。
最后,我们分别制出年龄、性别等因素与戒烟时间之间的散点图,更直观地反应不同因素对戒烟天数的影响程度。
问题三:由于戒烟天数可看成戒烟成功的指标,讨论影响戒烟成功的主要因素,可转化为影响戒烟天数的主要因素。
与问题二不同的是,问题三是戒烟天数这一因变量与多个自变量对应,从而比较得出主要影响因素;而问题二仅需判断各个因素是否单独对戒烟天数产生影响。
所以这里可用多元线性回归的方法来讨论。
问题假设由于问题本身尚有一些不确定因素,为使问题抽象成一个数学问题,做如下假设;(1)一年为365天。
(2)数据不全的调查对象的已知数据仍有说服力,其数据可正常使用。
(3)本题提供的数据能代表全部戒烟人士的情况,数据的象征性,准确性无需置疑。
(4)没有人中途退出该测试。
模型分析及求解问题(1):符号说明:p: 再次吸烟的人数p 总,;总人数∑P ;累加发病率我们将B 组数据中戒烟天数按时间用Excel 进行重新排序并计算上述234人中再次吸烟的累加发病率为∑=P 总p p =234201=0.858974359。
在计算年龄,性别,每日抽烟支数,CO 浓度,调整的CO 浓度的累加发病率分布时,我们坚持一个原则:当戒烟天数分别与年龄,性别,每日抽烟支数,CO 浓度,调整的CO 浓度一一对应存在时,我们才采纳这个数据,他们的柱状图如下:(1) 根据上述原则,我们采纳了234个数据。
根据测试人群年龄,我们把年龄分成三段(单位:岁):青年19-39,中年39-59,老年59-79.在不同年龄段,三个年龄段得到的累加发病率分别为;∑=-)3919(P 总p p =10896=0.8888888889,∑=-)5939(P 总p p =10489=0.8557692308,∑=)79,59(P 总p p =2216=0.7272727273可见年龄越大,累加发病率越低,且老年(59,79)的累加发病率较低。
(2) 根据上述原则,我们采纳了234个数据。
我们把性别分成两段:2男,1女. 在不同性别,得到的累加发病率分别为;∑=女P 总p p =124108=0.8709677419∑=男P 总p p=11093=0.8454545455, 可见女性的累加发病率较高。
(3) 根据上述原则,我们采纳了234个数据。
我们把每日抽烟支数分成三段(单位:支):每日抽烟只数不太多(0,15),每日抽烟只数一般多[15,30),每日抽烟只数很多[30,+ ∞).在不同每日抽烟支数段,得到的累加发病率分别为;∑=)15,0(P 总p p =124108=0.8461538462,∑=)30,15[P 总p p =11093=0.8828828829,∑=+∞),30[P 总p p =124108=0.8333333333可见每日抽烟只数在[15,30)时的累加发病率最高,在(0,15)时的累加发病率次之,在[30,+ ∞)时的累加发病率最低。
(4) 根据上述原则,我们采纳了227个数据。
我们把CO 浓度分成三段:浓度不算太高(0,200),浓度不算一般高[200,400),浓度较高[400,+ ∞).在不同CO 浓度段,得到的累加发病率分别为;∑=)200,0(P 总p p =8269=0.8414634146,∑=)400,200[P 总p p =11093=0.8636363636,∑=∞+)400[,P 总p p=3532=0.9142857143 可见CO 浓度越高,累加发病率越高,且浓度较高[400,+ ∞)的累加发病率特别高。
(5) 根据上述原则,我们采纳了224个数据。
我们把调整的CO 浓度分成三段:浓度不算太高(500,1000),浓度不算一般高[1000,1500),浓度较高[1500,2000).在不同的调整的CO 浓度段,得到的累加发病率分别为;∑=)1000,500(P 总p p =118=0.7272727273,∑=)1500,1000[P 总p p =147126=0.8571428571,∑=)20001500[,P 总p p=6659=0.8939393939 可见调整的CO 浓度越高,累加发病率越高,浓度不算太高(500,1000)的累加发病率相较低。
总结分析:对于年龄,越年轻,累加发病率越低。
对于性别,女性,累加发病率较高。
对于每日抽烟支数,累加发病率的分布没有明显规律。
对于CO 浓度和调整的CO 浓度,浓度越高,累加发病率越高。
模型改进方向:由于累加发病率指已知人群,经过一段特定的观察期之后,发生某病的频率。
分子是在某一特定观察期内发生的某病新病例数。
分母是观察开始时的暴露人数。
这是一个规定的概念,所以我们按要求对数据进行分段统计分析,无需再寻找其他更好的模型。
问题(2): 变量假设: 符号说明:Age x :年龄Cig_Day x :每日抽烟支数CO x :CO 浓度LogCOadj x :调整的CO 浓度建立模型:∑∑∑----=22)()())((y y x x y y x x r我们利用excel 通过对已知数据的分析,分别计算出年龄,每日抽烟支数,CO 浓度,调整的CO 浓度与戒烟天数的相关系数,如下表所示:1) 由表可知,年龄、每日抽烟支数,CO 浓度调整的CO 浓度会影响戒烟时间(天数)长短,据r 越接近1则相关性越大的原理,他们对戒烟天数的影响程度有大到小排序如下:CO 浓度,调整的CO 浓度,年龄,每日抽烟支数。
2)由r的符号可知,年龄,每日抽烟支数与戒烟天数是正相关的,CO浓度,调整的CO浓度与与戒烟天数是负相关的。