承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): A我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):重庆工商大学参赛队员(打印并签名) :1.2.3.指导教师或指导教师组负责人(打印并签名):日期: 2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):葡萄酒的评价摘要酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定的程度上反映葡萄酒和葡萄的质量。
本论文主要研究葡萄酒的评价、酿酒葡萄的分级以及酿酒葡萄与葡萄酒的理化指标之间的相互关系问题。
对于问题一:我们从假设检验的角度出发分析,对两组的评分进行均值和方差运算,并在零假设成立的前提下通过使用Matlab 做T 检验,得出两组评酒员对于红葡萄酒的评价结果无显著性差异,而对于白葡萄酒的评价结果存在显著性差异的结果。
再建立可信度模型=H ,计算结果如下表,对于问题二:根据葡萄酒质量的综合得分,将其划分为优、良、合格、不合格四个等级,并对酿酒葡萄的理化指标进行主成分分析,得出对葡萄影响较大的到了它们的偏相关系矩阵。
利用通径方法建立了数学模型,得出了它们之间的线性回归方程:11231123=2.001x 0.0680.015x +........=0.0540.7580.753x .........y x y x x ----+红红红红白白白白对于问题四:在前面主成分分析和葡萄酒分级的基础上,建立Logistic 回归模型,并利用最大似然估计法求出线性回归方程的参数,得出线性回归方程。
运用SPSS 软件,通过matlab 编程运算,求出受它们综合影响的线性回归方程。
在验证时,随机从上面选取理化指标,将它们带入P 的计算式中,通过所求P 值判断此时葡萄酒质量所属级别,得出了不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量的结论。
最后,对模型进行了改进和推广。
关键词T检验主成分分析Logistic回归模型一、问题的重述葡萄酒作为体现时尚品味的元素,同名茶、咖啡一样备受追捧。
在物质社会的今天,人们酿造葡萄酒的品质还是有待鉴定的,因此,确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
此外,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据,现需要用数学建模方法研究解决以下问题:1.分析附件1中两组评酒员的评价结果有无显著性差异,并判断哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题的分析针对问题一:分析评酒员的评价结果有无显著性差异,需要从反面来论证,要从假设性检验角度来分析问题。
由于样本容量较大,近似地服从正态分布。
因此,本论文采用了使用Matlab做T检验,从而确定两组评价有无显著性差异。
为了确定哪一组的结果更可信,建立了一种可以替代可信度的模型。
又考虑到该样本涉及到的是正态分布,则数据的离散程度是对其影响最大的因素,所以采用用标准差与平均值的比值作为可信度模型H=来衡量可信度的高低。
针对问题二:该问题要求我们根据酿酒葡萄的理化指标和葡萄酒的质量来对酿酒葡萄进行分级,故我们要对酿酒葡萄的理化指标和葡萄酒的质量进行综合评价,但是在进行综合评价以前我们有分别要对它们二者分别进行分析。
在第一问中,我们已经对葡萄酒的整体进行了打分,因此,葡萄酒的质量实际上已经分好类了,那么我们就需要对酿酒葡萄的理化指标进行分析。
但是,由于影响酿酒葡萄的理化指标的因素有30个,要使问题得到简化,我们只需取其几个主要的影响因素,因此,采用主成分分析法来分析主要影响因素。
然而,葡萄酒的质量的单位系与酿酒葡萄的理化指标的单位系不同,因此不能直接加减来判断,所以,我们采用了模糊综合评价模型来对酿酒葡萄进行分级。
针对问题三:对酿酒葡萄的理化指标和酒样品的质量进行偏相关分析,得到了它们的偏相关系矩阵。
利用通径方法建立了数学模型,得出了它们之间的线性回归方程针对问题四:基于前面主成分分析和葡萄酒分级的基础,建立Logistic回归模型,并利用最大似然估计法求出线性回归方程的参数,得出线性回归方程。
运用SPSS软件,通过matlab编程运算,求出受它们综合影响的线性回归方程。
在验证时,随机从上面选取理化指标,将它们带入P的计算式中,通过所求P值判断此时葡萄酒质量所属级别,得出了不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量的结论。
三、基本假设1、各个样品酒中原产地相似,酿酒葡萄的产地对葡萄酒的质量影响相同;2、酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系;3、葡萄酒的酿造工序和贮藏条件相同;4、各评酒员的资质较高,在对葡萄酒品平时都是客观的,不存在主观偏好;5、仪器对样本理化指标和所含芳香物质的测试不存在随机误差,附件所给的数据真实、准确、可靠;6、酒样品容量较大时,认为各组样本服从正态分布且相互独立;7、两种葡萄酒和酿酒葡萄的分级标准相同,且葡萄酒分为优、良、合格、不合格四个级别;8、假设附件1中,酒样品为一级指标,外观、口感、香气分析和整体评价为二级指标,澄清度、色调、纯正度、浓度、持久性和质量为三级指标;四、符号定义a :表示澄清度,色调等指标个数,1,2,,10a = ;b :表示评酒员的个数,1,2,,10b = ;ab x :表示第b 个评酒员对a 指标的评分;,,i m n :表示酒样品数,,,1,2,,2728i m n = 或;i x :表示第i 种酒样品评分的均值;μ:表示总体均值;d :表示两组对应红(白)酒的均值差;d t :表示对均值差(d )做t 检验时的统计量;w :表示拒绝域;H :表示总体可信度的指标;p :表示酿酒葡萄的理化指标数,1,2,,30p = ;np x :表示第n 种酒样品的第p 中理化指标的值;*npx :表示对np x 标准化后的值; p λ:表示相关系数矩阵的第p 个特征值;Q :表示主要理化指标的贡献率;Z :表示主要理化指标的累计贡献率;j F :表示主要理化指标的综合评价函数,1,2,,j p = ;α:表示显著性水平;2s :表示方差;i a :表示相关系数矩阵的特征向量;ik U :表示子集i U 中含有k n 个评判因素;i A :表示i 个因数的权数分配;五、模型的建立与求解5.1、问题一模型的建立与求解5.1.1显著性差异的T 检验针对于如何确定有无显著性差异,我们从假设检验的角度出发,通过使用Matlab 做T 检验,分析它们的均值与方差来确定显著性。
1、对数据均值进行分析计算均值即每种酒样品的平均得分,它表示每个评酒员对每种酒样品评定的质量的具体值,其公1⎡⎤⎣⎦式为: 10ab a,b=11x=x b ∑, (5.1.1) 其中,a 表示附件1中的三级指标;b 表示评酒员的个数。
将各种葡萄酒样品各个评分代入式子(5.1.1),运用excel 计算可得出如下结果:2、对数据方差进行分析计算方差即各个数据与平均数之差的平方的平均数,它表示两组葡萄酒质量的波动大小,其公1⎡⎤⎣⎦式为:m2k i i=11s =(μ-x )m ∑, (5.1.2) 其中,m 表示酒样品数;k 表示组数,k =1,2.将以上各种葡萄酒样品的均值代入式子(5.1.2),可求得各组的方差,结果如下:3、成对数据进行T 检验根据表1、表2、表3和表4显示的结果,我们可将两组中红、白酒样品分别形成相应的成对数据,形式如下表:首先,假设:211(,)X μσ ,222(,)Y μσ 且独立,则2(,)d d X Y μσ=- ,其中12μμμ=-,22212d σσσ=+; 然后,T 检验问题为:零假设 0=0H μ: ,即12μμ=;对立假设10H μ≠:,即12μμ≠.此时,用T 统计量d dt =, (5.1.3)其中,11m i i d d m ==∑,()22111m d i i s d d m ==--∑ ,m 表示酒样品数,(红酒27m =,白酒28m =);在零假设成立的前提下,此d t 统计量服从()1t m -分布。
这时,零假设的α(0.05α=)显著水平的拒绝域是如下的样本区域:12(1)w t t m α-⎧⎫=>-⎨⎬⎩⎭. (5.1.4) 将表1和表2中的数据代入式子(5.1.3)中,可求得红葡萄酒的统计量t 值,通过查表法将m 值代入(5.1.4)可以求得显著水平的拒绝域。
结果为:t =2.04569d t =2.04106所以可得评酒员对红葡萄酒的评价没有显著性差异。
同理,我们可计算出白葡萄酒的统计量t 值,即d t =-2.66648,不在拒绝域内,所以,结果可得两组评酒员对白葡萄酒的评价存在显著性差异。
5.1.2可信度模型的建立及求解针对可信度的问题,我们用H 表示可信度。
在一定程度上,当平均值相等时,标准差能反映一个总体的离散程度,即标准差越大,离散程度越大,则表明这个总体的水平不稳定;标准差越小,反之水平越稳定。
基于标准差和平均值的性质,我们用标准差与平均值比值的大小来表示一个总体可信度的高低。
因而,我们建立一个可信度模型:H σμ=,其中,H 表示标准差与平均值的比值,即H 可见,H 值越大时它的可信度越低,H 值越小时可信度越高。
由此,可算得两组红葡萄酒样本的标准差与平均值的比值,如下表:由以上表格显示的结果可得出如下结论:对于两组中的红葡萄酒,有:2111H H <,所以第二组对红葡萄酒的评价结果的可信度更高;对于两组中的白葡萄酒,有:2212H H <,所以第二组对白葡萄酒的评价结果的可信度更高;综上所述:第二组更可信。