承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B我们的参赛报名号为(如果赛区设置报名号的话):74所属学校(请填写完整的全名):河南理工大学参赛队员(打印并签名) :1. 闫冬2. 全向前3. 吴兵晓指导教师或指导教师组负责人(打印并签名):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。
以上内容请仔细核对,提交后将不再允许做任何修改。
如填写错误,论文可能被取消评奖资格。
)日期: 2014 年 9 月 3 日编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):克服烟瘾问题的分析摘要本文主要利用MATLAB和SPASS统计工具对数据进行拟合并进行逐步多元回归分析和方差分析。
首先,对戒烟成功的因素、再次吸烟的累加发病率和影响戒烟时间长短的因素进行分析。
其次在建立模型时,我们还利用残差分析法发现了模型的缺陷,并及时引入交互作用项来对模型进行修改。
在分析再次吸烟的累加发病率时,我们用控制变量法对各个影响因素的数据进行控制,使其看起来直观易懂。
最后,通过建立模型分析,得出影响戒烟成功的因素有每天抽烟的支数、CO的浓度和调整的CO浓度三个因素。
其中,最主要的因素是每日抽烟支数。
针对问题一,本文主要通过SPASS把上述的234人分别按不同年龄段和不同性别、抽烟指数、调整的CO浓度等因素对进行研究,对分析不同年龄段和不同性别下的累加发病率分布情况,主要利用SPASS对原始数据进行分组、筛选和统计分别得出234人中再次吸烟的累加发病率分布情况,并作出各个因素与累计发病率的统计表。
针对问题二,在模型一结论的基础上,我们继续深入探讨各因素对戒烟天数的影响程度是否显著。
通过对不同年龄段戒烟天数比较、不同性别戒烟天数比较、每天吸烟支数与戒烟天数比较、CO浓度与戒烟天数比较,定量地给各影响因素对戒烟天数的影响程度初步排序,得出各因素之间的定量分析结果。
处理结果为,影响程度由大到小排序:CO浓度,每日抽烟支数,调整CO浓度,年龄。
针对问题三,本文主要建立了统计回归模型。
首先对原始数据做了预处理,等距分组,并求出每组戒烟天数的均值,以减小数据的波动,同时方便观察数据的之间的宏观关系。
再利用处理后的数据建模分析,通过对建立统计回归模型对处理后的数据做二次函数拟合,进行回归分析,比较回归方程的决定系数2R 等,进一步量化和判断不同因素对戒烟成功影响程度的大小。
最后得到的结论是每天抽烟支数是影响戒烟成功的最主要因素。
针对问题四,借助问题三建立的模型得到的结论,适当地对有志戒烟者提出相关的决策和建议,比如减少每天吸烟支数、多做室外运动,少去CO浓度高的环境等,以帮助他们早日走上戒烟成功的道路。
关键词:多元回归分析累计发病率层次分析戒烟天数一:问题重述众所周知,吸烟不仅危害自身健康,而且由此引起的被动吸烟更是危害公众身心健康的主要原因。
为此,如何帮助相关人士摆脱烟瘾的困扰也就成为一个重要的研究课题。
本文研究数据涉及234人,他们都自愿表示戒烟但还未戒烟。
在他们戒烟的这一天,测量了每个人的CO(一氧化碳)水平并记下他们抽最后一支烟到CO 测定时间.。
CO的水平提供了一个他们先前抽烟数量的客观指标,但其值也受到抽最后一支烟的时间的影响, 因此抽最后一支烟的时间可以用来调整CO的水平。
记录下研究对象的性别、年龄及自述每日抽烟支数。
这个调查跟踪1年, 考察他们一直保持戒烟的天数, 由此估计这些人中再次吸烟的累加发病率, 也就是原吸烟者戒烟一段时间后又再吸烟的比例. 其中假设原烟民戒烟的可信度是很低的(更恰当地说多数是再犯者)戒烟天数是从0到他(她)退出戒烟或研究截止时间(1 年)的天数。
假定他们全部没有人中途退出研究。
请回答下列问题:1)试分析上述234人中再次吸烟的累加发病率分布情况(如不同年龄段、不同性别等因素下的累加发病率分布情况)。
2)你认为年龄、性别、每日抽烟支数及调整的CO浓度等因素会影响戒烟时(天数)长短吗?如果影响请利用附录中的数据,分别给出戒烟时间与上述你认为有影响的因素之间的定量分析结果。
3)请利用附录中的数据建立适当的数学模型,讨论影响戒烟成功的主要因素有哪些,并对你的模型进行可靠性分析。
4)请根据你的模型,撰写一篇500字左右的短文,向有志于戒烟的人士提供戒烟对策和建议。
二:模型假设假设1:假设原烟民戒烟的可信度是很低的(更恰当地说多数是再犯者);假设2:假设他们全部没有人中途退出研究;假设3:假设本题涉及的234人是从愿意戒烟人群中随机抽取的;假设4:假设采样点合理,所给的数据准确,统计无误;假设5:假设数据都是可靠的,不包括人为造成的不合理因素。
三:符号说明X: 年龄1X:性别(1表示男性,2表示女性)2X:每日抽烟支数3X:CO的浓度4X:调整的CO浓度5Y:戒烟时间(天数)S:随机误差2R:决定系数F:统计量值p:统计量值对应的概率值四:问题分析4.1问题一的分析一般来讲,年轻人体质较好,吸烟对身体危害感受不明显,但随着年龄增大,体质减弱,吸烟对身体累积的危害就日渐显露。
因此,戒烟的人也就越来越多。
在意志力方面,男性普遍比女性强,所以在女性的累加发病率在同一年龄段中相对男性会偏高一点。
4.2 问题二的分析由于所给的数据表中存在一些信息不完整的情况,在进行数据的定量分析之前,我们把那一小部分信息不完全的数据删除掉。
完成数据的初步处理之后,我们对剩下的224位戒烟者所给的信息进行单变量因素统计,分别考虑四种因素对戒烟天数的比例。
4.3 问题三的分析利用模型一、二得出的有关数据和结论,进行拟合并进行逐步多元回归分析和方差分析,再及时引入交互作用项来对模型进行修改。
从而得到得到影响戒烟成功的主要因素。
4.4问题四的分析吸烟者戒烟成功通常需要两个条件,一是戒烟的动机,二是戒烟的技能和帮助。
影响吸烟者下定决心戒烟的因素很多,例如吸烟者对健康危害的认识、工作场所全部戒烟的政策、昂贵的烟草价格、烟盒包装上的警示性图形等。
五:模型的建立和求解5.1 问题一的分析及求解我们通过SPASS把上述的234人分别按不同年龄段和不同性别、抽烟指数、调整的CO浓度等因素对进行研究,分别得出234人中再次吸烟的累加发病率分布情况如以下表格所示。
表一:年龄以及性别与戒烟发病率的统计年龄段/性别男女合计青年39/22453/22492/224中年35/22450/22485/224老年13/2243/22416/224合计87/224106/224193/224表二:调整的CO浓度与累计发病率的统计调整的CO浓度参与戒烟人数戒烟失败人数戒烟失败率(0—1000)11 8 8/224 (1000—1200)19 17 17/224 (1200—1400)70 61 61/224 (1400—1600)92 78 78/224 (1600+)32 29 29/224 合计224 193 193/224表三:抽烟支数与累计发病率的统计抽烟支数参与戒烟人数戒烟失败人数戒烟失败率(1—10)26 22 22/224(11—20)77 69 69/224(21—30)69 57 57/224(31—40)36 32 32/224(41—50)8 7 7/224(51—60) 6 6 6/224(61—70) 1 0 0(71—80)0 0 0(81—90) 1 0 0合计224 193 193/2245.2题二的分析及求解为了分析问题,首先,我们从已知的234个调查者中剔除了10个资料不全的调查者之后剩下224个调查者。
然后再将这224个调查者中戒烟天数相同的调查者的各项影响因素中的数据取均值当成一个新的新的数据进行分析。
以下的模型建立也都是在此基础上进行的(处理后的数据如附录1所示)。
5.2.1基本模型结合常识,我们认为年龄1X 、性别2X 与每天抽烟的支数3X 之间可能会有交互作用。
因此,在上述的模型中我们增加了3X 错误!未找到引用源。
与1X 、2X 错误!未找到引用源。
的交互项后,得到的模型记作:20112233445563713823Y a a X a X a X a X a X a X a X X a X X S =+++++++++其中012345678,,,,,,,,a a a a a a a a a 错误!未找到引用源。
是待估计的回归系数,S 是随机误差。
再一次利用MATLAB 的统计工具经过多次的去点拟合可以得到回归系数及其置信区间(a =0.05)、检验统计量2,,p R F 的结果,如4表所示:表4:回归系数的参数置信区间参数参数估计值 置信区间 0a195.8226[3.0853 , 388.5599]1a-1.9402 [-4.4711,0.5908]2a9.6849 [-54.1522 ,73.5220]3a-14.4118 [-23.0221,-5.8014]4a-0.1284 [-0.2256 ,-0.0311]5a0.0688 [0.0125 ,0.1252]6a0.2681 [0.1880 , 0.3482]7a0.0341 [ -0.0765 , 0.1447]8a-0.5083 [ -3.0585 ,2.0418]2R =0.8051 F =18.0759 p = 0从上表中,我们可以看出2R 错误!未找到引用源。
=0.8051,即因变量(戒烟时间)的80%可由该模型确定,F =18.0759也还可以,p 远小于a ,因而模型总体上来说还是可以用的。
但是美中不足的是1278,,,a a a a 的置信区间包含了零点。
为此,我们再对此模型进行了修改。
5.2.2优化的模型根据上述的分析,我们将上述模型中的性别(2X )、年龄(1X )分别与每天抽烟的支数(3X )的交互去掉,改成以下模型:201133445563Y a a X a X a X a X a X S =++++++其中0a ,1a ,2a ,4a ,5a ,6a 是待估计的回归系数,S 是随机误差。