中国矿业大学数学建模常规赛竞赛承诺书我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。
在网上交流和下载他人的论文是严重违规违纪行为。
我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们的参赛队号:25参赛队员(打印并签名):1. 易阳俊2. 令月霞3. 刘景瑞日期: 2016 年 10 月日(请勿改动此页内容和格式。
此承诺书打印签名后作为纸质论文的封面。
以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。
)中国矿业大学数学建模常规赛竞赛编号专用页评阅统一编号(数学建模协会填写):题目:数据的分析问题摘要本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。
通过解读题目可知,此类问题为典型的分析判别问题。
我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。
对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。
对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB 程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%;针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1:行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上;对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。
对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。
关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS一、问题重述.随着大数据时代的到来,人们在处理问题时往往要借助一些实验或检测数据的分析;病人到医院就诊时,医生通常要通过化验和检测得到的数据分析来协助诊断。
在医疗诊断中,要诊断一个人是否患上疾病G时,通常要检测人体内7种元素的含量。
表1是50个确诊病例的检测结果,其中1-25号病例是已经确诊为疾病G的病人的检测结果;26-50号病例是已经确定为健康人的检测结果。
表2是25个就诊人员的检测结果。
试解决下列问题:问题1:根据表1中的数据,提出一种或多种简便的判别方法,判别属于疾病G的病人或健康人的方法,并检验你提出方法的正确性。
问题2:按照问题1提出的方法,对表2中的25名就诊人员的检测结果进行判别,判定他(她)们是疾病G的病人还是健康人。
问题3:能否根据表1的数据特征,确定哪些指标是影响人们患疾病G的关键或主要因素,以便减少化验的指标。
问题4:根据问题3的结果,重复问题2的工作。
问题5:对问题2和问题4的结果作进一步的分析。
二、模型假设(1)假设题目中所给的数据绝大多数真实可靠,不排除出现少数异常数据的可能;(2)假设就诊人员在化验前不会采取增加体内这7种元素的措施;(3)题目中所给的样本只有因这7种元素含量而患G病的患者或者为健康人员,不会受到其他疾病和其他元素的干扰;(4)不考虑各种元素之间的相互作用对机体产生的影响;三、问题的分析对于此题,我们需要通过对已知病例数据进行分析,从而找到疾病确诊方法。
我们首先运用Excel对健康人的7种元素含量绘制散点图进行分析和W检验,得知这7种元素的分布均符合正态分布,再通过拉依达准则法排除了高度异常数据10号样本。
针对问题一,我们建立了元素分布判别、马氏距离判别和Fisher判别三种模型。
首先,已知7种元素含量分布均符合正态分布,于是我们以健康人员的7种元素含量的均值为大致中心值,确立了一个元素正常含量范围,对于只要存在一个不在正常范围内的元素含量的待诊人员,我们就判定为患者,从而建立了元素分布判别模型;其次,我们利用马氏距离判别法,对原始数据直接进行分析归类,并排除了元素之间的相关性的干扰,运用MATLAB编程中得到的判别函数来对患者和健康人员这两组样本进行马氏判别分析,从而建立了马氏距离判别模型;然后,我们运用SPSS软件对患者和健康人员这两组样本进行Fisher判别,得到区分人员是否患病的线性判别函数和判断准确率,从而建立了Fisher判别模型。
最后,我们用已知的49个病例数据对这三个模型分别进行了检验,得到的判别准确率均在90%以上。
针对问题二,我们利用问题一中建立的三个判别模型分别对25位就诊人员是否患病进行判别,结果见表1:Excel 图表功能对7种元素分别绘制折线图进行对比。
通过分析,可知绝大多数健康人员的元素4和元素5含量均大于患者在这两种元素含量的最大值,健康人员与患者含量呈现明显数值差异;而健康人与患者在其他5种元素上的分布差距没有元素4与元素5如此明显,所以我们初步判定元素4与元素5是影响人们患疾病G 的主要因素。
然后我们用问题一中的三种判别模型对已知病例进行检验,得到的判别准确率均在85%以上。
针对问题四,虽然利用问题三中得到的主要元素来进行分析判别的准确率在85%以上,但在与问题二的判别结果进行对比后,可知两种判别结果的差异性(见下表2)。
24%,表明此时利用这两个主要因素进行判别结果无法较好达到问题二的判别效果。
针对问题五,已知问题四中得到的两个主要因素的判断结果与问题二的判断结果差异性大,而且这三种判别方法均有各自的缺点,于是我们建立了一个综合判别模型,通过三种判别方法来得到最后的判别结果,最终使得两个判别结果的差异性降到了12%,一致性达到了88%。
四、符号及变量说明符号 意义i(1,2,...,7)i i =病例序号 j(1,2,...,75)j j =元素序号 ijxj i 序号为的病例的元素的含量k αW 正态性检验统计量的系数 W αW α正态性检验统计量的分位数α 显著性水平()x ω马氏距离判别函数 D Fisher 判别线性函数 SFisher 判别临界值五、数据预处理5.1 数据分析处理实验数据的时候,我们常常会遇到个别数据值偏离预期或大量统计数据值结果的情况,如果我们把这些数据值和正常数据值放在一起进行统计,可能会影响实验结果的正确性。
我们首先通过Excel 做出了26-50号健康人的7种元素的散点图(如下图):图1 图2图3 图4图5 图6图7由图可知:1、序号为10的健康人员的元素数据十分异常,我们暂且忽略这个样本。
2、我们可以发现忽略掉少数几个异常数据外,每种元素数值大都集中在中间某个数值附近,则我们可以初步判断这7种元素的含量可能服从正态分布,于是我们认为可以通过统计学知识中的W检验来对这些数据分别进行正态性检验。
5.3 正态性检验通过编写MATLAB程序(见附录),我们可以得到健康人员的7种元素的W5.4 数据检测拉依达准则法是最常用的异常值判定与剔除准则,优点是简单,无需查表,测量次数较多或要求不高时用。
在这种情况下,异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。
与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。
在处理数据时,应剔除高度异常的异常值。
异常值是否剔除,视具体情况而定。
在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。
由于我们已知7种元素含量分布均符合正态分布,所以我们可以用以下计算公式来判断异常值是否存在,公式如下:1,1,2,...,n()23ni ij j i ij x x i s x x c c ====--=∑、当s>0时,为异常值;当s<0时,为正常值;通过Excel 的简单编程计算,我们得到以下异常数据表(见表4):表5当c=3时,序号为10的健康人员在4个元素检测上均为高度异常值,故我们可以排除该样本。
当c=2时,有6个健康人员也存在一些相对异常的数据,我们可以在对这些健康人员进行数据分析处理时,选择忽略掉这些异常数据,以免对最终分析结果产生较大的影响。
六、问题模型建立与求解6.1问题一的模型建立6.1.1元素分布判别模型的建立我们已知这7个元素分布符合正态分布,由正态分布关于平均值对称的性质,于是我们以平均值为大致中心值,同时尽量保证两端点值与均值的距离相差不大,以此来确定元素正常含量范围,建立元素分布判别模型,从而判断待诊人员是否患病;只要待诊人员的某一种元素含量在该范围之外时,我们就判定他为病人。
根据元素的散点图分布和拉依达准则法得到的异常数据表(见上表5),我们得到元素正常含量范围:模型,检验结果如下(见表7):6.2马氏距离判别模型6.2.1基本思想首先根据已知分类的数据,分别计算各类中心即分组(类)的均值。
判别准则是对任意给的一次观测,若它与第i 类的中心距离最近,就认为它来自第i 类。
6.2.2 建立过程()()()()11,,,A B μμ∑∑分别为、的均值向量和协方差。
距离定义采用马氏设距离,即:()()()()()()12,Ti i ii DX G X X i μμ-=-∑- =0,101 G B G A根据问题要求,将对应于正常人数据组将对应于患者数据组()()22,,D X X A B A D X B 首先计算到、两个总体的距离,和分别记为,按照距离最近准则判别归类,则可以写成: ()()()()()()222222 ,, ,, ,=,X A D X A D X B X B D X A D X B D X A D X B ∈<∈>当当待判当()()()()()1 , 1,2 p=1,2, (7)i i i pXx x i ==记,则有()()()()()()()()27301111211,Tijii j D X A X XX X xx ===-∑-=-∑∑()()()()()()()()27300000211,Tijii j DX B X XX X xx ===-∑-=-∑∑()()22,,D X A D X B 的大小,按距离最近准则判然后比较和别归类。