承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题.我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出.我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性.如有违反竞赛规则的行为,我们将受到严肃处理.我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等).我们参赛选择的题号是(从A/B/C/D中选择一项填写):我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员(打印并签名) :1.2.3.指导教师或指导教师组负责人(打印并签名):日期: 年月日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号): 全国评阅编号(由全国组委会评阅前进行编号):基于统计分析的葡萄酒评价模型摘 要本文针对葡萄酒评价问题, 指出了两组评酒员评价结果差异, 给出了更可信的小组,根据酿酒葡萄的理化指标和葡萄酒的质量确定了酿酒葡萄的分级, 然后建立了酿酒葡萄与葡萄酒理化指标之间的回归方程组, 得出了酿酒葡萄和葡萄酒理化指标对葡萄酒质量影响的方程, 最后论证了葡萄酒质量不能完全用这两种理化指标评价.问题一:首先对两组评酒员打分数据进行预处理,采用了两个独立样本的非参数统计方法进行Mann-Whitney U 检验,证明了两组评酒员评价结果存在显著差异,并通过比较两组打分样本的方差,异常值点等离散型度量,认为第二组的评价结果更加合理.问题二:首先选取能代表所有葡萄理化指标的变量,利用聚类分析法验证了所选变量具有代表性,然后通过主成分分析得出每种葡萄的理化指标综合得分,依据综合得分将酿酒红葡萄分为3类、白葡萄分为5类,并根据每一类中葡萄所酿造的酒的质量确定该类葡萄的等级.问题三:应用SPSS 软件,利用回归分析方法建立了酿酒葡萄和葡萄酒理化指标之间的回归方程组.问题四:首先利用Matlab 软件对酿酒葡萄和葡萄酒理化指标运用功效系数法进行无量纲量的转换,综合考虑这两方面因素,得到一个关于量化指标的综合指数,最后将葡萄酒质量作为因变量,量化综合指数作为自变量,利用回归分析方法建立两者的联系,得到回归方程为121317105.001.010*302.9171.10N N N M +-+=-,证明了葡萄酒质量不能完全用这两种理化指标评价.关键词: Mann-Whitney U 检验 聚类分析 主成分分析 回归分析 功效系数法一问题重述对于葡萄酒质量的确定没有统一的标准,一般会聘请一批有资质的评酒员,通过品评打分来确定葡萄酒质量.每个评酒员对葡萄酒进行品尝后先对对应分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量.另外酿酒葡萄的好坏与所酿葡萄酒的质量也有直接的关系,葡萄酒和酿酒葡萄检测的理化指标也可以在一定程度上反映葡萄酒和葡萄的质量.附件1-3给出了某一年份一些葡萄酒的评价结果、该年份这些葡萄酒的和酿酒葡萄的成分数据.根据附件中所提供的信息,运用数学建模的方法,首先分析两组评酒员的评价结果有无显著性差异,分析出哪一组结果更可信;其次根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,进一步分析酿酒葡萄与葡萄酒的理化指标之间的联系;进而分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量.最后评价所建模型的优缺点,为了更好地确定葡萄酒质量,收集一些其它的信息,在这些信息的基础上对所建立的模型进行改进.二问题分析葡萄酒的品鉴是一门复杂而精密的科学,针对葡萄酒评价问题一般情况一评酒员的评价为准.如何对葡萄及葡萄酒的各项指标进行合理分析,合理论证能否依据这些理化指标对葡萄酒质量进行评估备受大家关心.评价标准的的选择对葡萄酒质量的确定至关重要.可以查找权威数据确定评价标准,依据品酒师对27个葡萄样品的综合打分给出葡萄酒质量综合排名.进而用数学建模的方法分析各种指标之间或与葡萄质量之间的联系,分析后者是否可以用前者来评价.在建立模型之前,首先要将附表1中评酒员打分求和,从而确定葡萄酒的质量,对1、2组中元素进行分析,得到他们之间有无显著性差异,以此来判断哪一组结果更可信;分析酿酒葡萄理化指标中各因素数据,并结合前面得到的可信组评酒员对葡萄酒质量的打分,得到葡萄的等级分类;在第三问中根据酿酒葡萄和葡萄酒理化指标,得到数据中各因素的相关关系,以此判断数据间的联系;把量纲不同的两组数据转换成可以结合的同量纲量,同样参照第三问中的分析方法,判断酿酒葡萄和葡萄酒理化指标对葡萄酒质量的影响是什么样的.三符号说明A:第i组品酒员品尝评分表;iB:第i组评酒员i=1,2;iF:第j组评酒员的可信度;jX:12个代表因素i=1,2,3;iY:确定的三个主成分;iZ:葡萄预测品质;G:回归方程;ijij a :i B 的第j 个指标的值;i x :各项评价指标; i =1,2…n i f :i x 的各项系数; i =1,2…n i y :单项指标得分; i =1,2…nn :i x 总个数;1M :红葡萄酒的质量; 1N :理化指标的综合.四 模型假设1.两组评酒员打分彼此相互独立,客观公正;2. 葡萄的品质仅受到《关于葡萄品质的评价指标》[]1中因素影响;3. 附表中收集的数据真实可信,忽略抽样误差.五 模型的建立与求解5.1 问题一模型建立与求解5.1.1 评酒员评价结果差异性分析 5.1.1.1 背景分析分析两组评酒员的评价结果是否有显著性差异,可以采用相关性分析,t 检验,非参检验分析等(见[]2).我们分红白葡萄酒,选择恰当的假设检验方法分析两组打分数据,从而断定两组人员是否有显著性差异. 5.1.1.2 模型的建立首先对红葡萄酒评价结果进行分析,对数据预处理,通过SPSS []3中PP 图检验,认为两组数据不服从正态分布,所以不能用t检验,相关分析进行处理,另外样本分布未知,所以我们使用SPSS 进行非参检验分析(见[]3)得到表一.用同样的方法对白葡萄酒的评价结果进行分析,结果(见表二).表一 表二1. 分析表一数据因为05.0015.0<=p ,则两组评酒员对红葡萄酒的评价在05.0的显著性水平 下存在显著差异. 2. 分析表二数据因为05.0031.0<=p ,则两组评酒员对白葡萄酒的评价在05.0的显著性水平下存在显著差异.由以上分析可以得出无论是对红葡萄酒还是白葡萄酒的评价,两组评酒员的评价结果在0.05的显著性水平下都存在显著差异. 5.1.2 评酒员评价结果可信度分析对可信度分析前需要给出一个量化的可信度衡量标准.根据经验可知大家的共识度越高打分的可信度越大,而数据的波动性可以反映打分共识度.衡量波动性的指标有四类:异常值点、方差、四分位距、极差.所以可采用分层处理.分为两层,第一层为可信度,第二层为波动性的四个指标.两层之间可以建立一个多元函数j F .由于只能知道两层之间联系的部分信息我们采取模糊处理的方法确定j F .这样便建立了关于波动性大小的模糊模型,通过对某组打分的波动性来分析两组打分的可信度.首先分析红葡萄酒评酒员评价结果可信度,用SPSS 对两组数据做进一步处理得到四个指标的定量分析,后三个指标结果见附录表三,极值点的个数见箱线图(附录图一) 从表三及图一中挑选有用信息得到表四图二然后对可信度层次分析(见图二),记可信度关于四个指标的函数为j F =()4321,,,i i i i a a a a F .采用模糊处理的方式,由于指标值越小可信度越大我们用以下方式构造函数i F :ji B =⎪⎩⎪⎨⎧<>--j i ijji ij a a a a )3()3(01,i F =∑=41j ji B ,这样i F 越小可信度越高.将表六数据带入计算得1F =4,2F =0.21F F <.所以我们得出结论对于红葡萄酒,第二组专家评价结果的可信度更高.对白葡萄酒评酒员评价结果可信度分析,采用与红葡萄酒相同的方法处理,可以得到对于白葡萄酒,第二组专家的评价结果可信度更高. 5.2 问题二的求解 5.2.1 红葡萄分级5.2.1.1 主成分分析模型 1.背景分析附表二中给出的几十项指标详细地反映了酿酒葡萄的理化指标,但若要考虑全部指标对不同葡萄样品进行评价、比较、排序,则会因指标太多,主次不明而显得过于复杂,也很难做到客观公正.首先根据《关于葡萄品质的评价指标》,选出对葡萄酒质量影响显著的十二个变量:氨基酸总量、蛋白质、VC 、花色苷、总酚、单宁、总糖、可溶性物质、可滴定酸、PH 值、出汁率、果皮颜色.然后分别对红葡萄酒和白葡萄酒进行聚类分析[]5,得到图三和图四.图三通过图三分析:将指标变量分为五类时,总糖,可溶性物质可以代表第一类,VC,花色苷,总酚,单宁,可滴定酸,PH 值,出汁率,果皮颜色可以代表第二类,蛋白质代表第四类,氨基酸总量代表第五类.由于第三类只含褐变度一个变量,所以这十二个变量可以代表红葡萄的所有理化指标.综上所述,我们所选取的十二的指标变量具有代表性,可以代表所有的理化指标变量,并且可以根据这十二个指标对葡萄进行分类.因为每个变量都在不同程度上反映了所研究问题的某些信息,为了全面、系统的分析问题,本文采用主成分分析的方法,对所选出的酿酒葡萄的12个理化指标,构建主成分元素与它们间的线性关系,根据主成分元素与其方差贡献率构建出对于葡萄品质的预测评价模型Z ,Z 是主成分的线性组合.利用该数据对多种葡萄进行综合评价,比较综合主成分值的大小,得出依据酿酒葡萄理化指标的葡萄优劣排名. 2.主成分分析模型的建立 (1)相关系数矩阵的建立根据红葡萄理化指标知有27个样品,每个样品的12个代表因素1X ,2X ,…,12X ,原始数据矩阵为X =()1221,,,X X X =⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡12,272,271,2712,2222112,11211X X X X X X X X X . 由于12个因素,数据量较大,所以考虑问题比较麻烦,因此考虑其线性变化SPSS 分析得出其相关系数矩阵(见附录表五) (2) 求解特征值和特征向量求解相关系数绝矩阵的特征值和特征向量,以3个主成分1Y ,2Y ,3Y 预测方差贡献率(见附录表六)构建出葡萄品质的预测评价模型Z ,Z 是主成分1Y ,2Y ,3Y 的线性组合,即:32113171.023392.035991.0Y Y Y Z ++=.(3) 得出红葡萄的综合排名利用主成分分析模型,对27种酿酒葡萄进行综合评价,得到红葡萄的最终综合排名(见表七)从表中可以看出,各品种的综合评分互不相同.排名靠前的加工适应性较好,排名靠后的适应性较差(见表八1).⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=1212,2722,2711,27271212,222212121212,12121111X a X a X a Y X a X a X a Y X a X a X a Y5.2.1.2 结合葡萄酒质量对葡萄分级依据葡萄酒的质量对红葡萄排名,在5.1分析中得知第二组打分员较可信,所以依据该组打分对红葡萄酒质量进行排名(见表八2)通过比较分析第二组打分员对红葡萄酒质量的打分(见表八1)和红葡萄理化综合得分(见表八2),得出将红葡萄划分成三个等级较合理这一结论.理化综合得分在311以上的3,21,20,23,9,19,22,2号质量排名大部分集中在前10名,理化综6766.合得分在4777309的6,18,11,7,15,4,12,5,8,17,1的排名大部分集中..238到3762在20名以后,理化得分在4159.234以下的16,13,24,25,10,14,27,26的质量排名大部分集中在11到20名.通过综合得分将红葡萄样品进行分类,并根据酿出的葡萄酒质量确定级别,即A级:理化综合得分大于6766.234,C级:理化综合得分为311,B级:理化综合得分小于4159.309(其中A级质量最好,C级质量最低)...4777238到37625.2.2 白葡萄分级将5.2.1中红葡萄的数据换为白葡萄与之相对应的数据,重复对红葡萄分级过程,得出第二组打分员对白葡萄酒质量的打分和白葡萄理化综合得分(见表九).采用与红葡萄酒相同的比较分析原则,对表九中白葡萄进行分类,可将白葡萄分为五级,A级:理化综合得分03101.377<,C331理化综合得分7313..>,B级:<658372级:<<,E级:<3191989378理化..431理化得分02<,D级:理化综合得分5336113.463.综合得分4784<(其中A级质量最好)..4145.3 问题三的模型建立与求解5.3.1 背景分析酿酒葡萄是葡萄酒的原料,葡萄酒的理化指标主要由酿酒葡萄的理化指标决定,为了研究两者之间的联系,我们将葡萄酒的理化指标变量作为因变量,酿酒葡萄的理化指标变量作为自变量,通过SPSS软件建立表示两者关系回归方程组模型[]6.5.3.2 模型建立1. 选择酿酒葡萄的理化指标变量在第二问选择了十二个酿酒葡萄的理化理化指标的基础上,根据专业知识,又添加了与葡萄酒理化指标紧密相关的DPPH,葡萄总黄酮,白藜芦醇,葡萄黄酮醇四个变量作为酿酒葡萄的理化指标代表变量.2. 回归方程组的建立2.1 通过SPSS软件回归分析模块逐个建立回归方程表十表十一表十二表十三对上述表格分析,红葡萄酒中总酚与酿酒葡萄理化指标构建的回归方程为141613008.0209.0684.1t t G ++=,回归方程2R 806.0=,拟合效果很好,显著性水平0=p ,说明回归方程显著. 2.2 非线性回归拟合当线性回归方程不显著且拟合优度较差时,我们选择2R 最大即拟合优度最好的非线性回归方程.以白酒中理化指标单宁为例SPSS 分析结果见附录表十四,十五,十六数据表明用线性拟合只有白葡萄单宁进入方程,2R 329.0=说明回归方程的拟合优度很差,所以我们选择对白葡萄酒单宁用包葡萄单宁进行非线性拟合.通过对上述表格分析,三次拟合2R 最大,拟合优度最好,所以选择三次拟合,回归方程为2722732722026.249.038.0914.0t t t G +-+-=. 按照上述方法,可以得到酿酒葡萄的全部理化指标与葡萄酒的理化指标的回归方程组:215214272326282626226326242112823272273272219141716161218151614141613141116121141411043.032.0905.36048.001.008.0105.0811.1187.0007.04543.016.0173.0504.22026.2490.038.0914.0293.0091.0833.4817.0024.028.0477.0319.15398.0951.0008.0253.0684.111.0001.0209.0489.1762.6656.2404.348t t G t t t G t t t G t t G t t t G t t G t G t t G t G t t G t t t G t t G +-=+++-=+-+-=++-=+-+-=-+=+-=-+=+-=++=+++=-+=5.3.3 回归模型的优缺点上述回归方程组中的每个回归方程均显著,并且2R 较大,拟合优度好,能够比较准确的定量表示酿酒葡萄与葡萄酒的理化指标之间的关系.但是由于变量的数量级存在较大差异,导致某些回归系数较小,今后在回归拟合时应当先进行数据预处理,消除量纲的影响.利用已知的模型对白葡萄酒的白藜芦醇的拟合效果均不好,导致没有构造出合适的回归方程,无法准确的描述该理化指标与酿酒葡萄理化指标之间的关系,应该进一步探索新的回归模型.5.4 问题四的模型建立与求解5.4.1 理化指标对葡萄酒质量的影响 5.4.1.1 背景分析由于酿酒葡萄和葡萄酒的理化指标之间的数量级有差异,因此我们需要先运用功效系数法把数据转化成无量纲量.而功效系数法是根据多目标规划原理,在进行综合统计评价时,先运用功效系数对各指标进行无量纲同度量转换,以此确定个指标分数,在经过加权平均进行综合,从而评价别研究对象的综合状况.不同指标因素得以综合,得出更具有说服力的综合数据.得到了同度量酿酒葡萄和葡萄酒的理化指数和葡萄酒的质量指数,通过SPSS 分析两组数据之间的关系得出理化指标与质量之间的关系. 5.4.1.2 功效系数法求解1. 确定反映总体特征的各项评价指标i x ()n i ,,2,1 =;2. 确定各项评价指标允许的范围,即满意值h i x 和不允许值s i x .满意只是在目标 允许条件下能够达到的最优值;不允许值是该指标不应该出现的最低值.允许变动范围的参照系数就是满意值与不允许值之差;3. 计算各项评价指标的功效系数i f 对指标进行无量纲化处理.计算公式:()()s i h is i iix xx x f --=;4. 计算单项指标得分i y .计算公式:i i x f y i =;5.5.4.1.3 数据比较、结论分析用SPSS 分析对两组数据进行分析比较(见图四).图四通过图表分析,当质量为因变量,理化指标为自变量时,利用三次函数拟合效果最好,得到关系方程为121317105.001.010*302.9171.10N N N M +-+=-,回归方程的拟合优度2R 428.0=,说明方程的拟合效果比较差,但是方程的显著性水平01.0004.0<=p ,认为该回归方程显著,说明两组数据间存在三次函数关系.根据图四,当理化指标200<时,葡萄酒的质量与理化指标存在正相关关系.综上,红葡萄和红葡萄酒的理化指标与红葡萄酒的质量存在三次函数关系,并且当理化指标200<时存在明显的正相关关系.但是由于回归方程的拟合度很差,所以用红葡萄和红葡萄酒的理化指标来衡量葡萄酒的质量是会存在误差的.通过进一步分析得到这些误差可能来自酿酒过程中,如工艺,技术,方法等.用相同的方法对白葡萄和白葡萄理化指标与白葡萄酒的质量进行分析,通过图5显示,没有任何一种趋势可以拟合两者之间的关系,所以认为白葡萄和白葡萄的理化指标对白葡萄酒质量几乎没有影响.所以不能用白葡萄和白葡萄酒的理化指标来评价酒的质量.图五因此我们只能说明酿酒葡萄和葡萄酒的理化指标对葡萄酒的质量有一定的影响,但是葡萄酒的质量并不完全由上述两个因素决定的.只用葡萄和葡萄酒的理化指标评价葡萄酒的质量是不合理的.5.4.2 影响葡萄酒质量的因素分析酿造一瓶好的葡萄酒需要走过相当漫长的过程,每一个环节都不能疏忽大意.葡萄酒质量先天在于酿酒葡萄的质量后天在于工艺,葡萄酒生产集合了天时地利人和的因素,可以讲葡萄酒是一种艺术品,葡萄酒的品质与葡萄品种、栽培技术、土壤状况、葡萄成熟度、酿酒工艺、贮存消费方式有关.就如《优良品种优良品种葡萄酒的香气成分研究》[]7中所述葡萄酒的香气是葡萄酒质量的总体组成部分.香气本身就是葡萄酒感官品质的一个综合反映,先“香”夺人,先入为主,而且影响着后继的其他感官属性的感受.而我们在本题中只考虑了葡萄的理化指标和葡萄酒的理化指标,对附表三中给出的芳香物质成分数据可以对前面的模型略加修改用来分析芳香物质与葡萄酒香气的联系,以及芳香物质成分构成对葡萄酒质量的影响.此处我们只是提供一个思路,具体的分析过程由于时间原因没有给出.这就造成了数据之间的拟合度并不高.同时,酿造工艺、贮存方式等也会对葡萄酒的质量造成一定程度的影响,所以酿酒葡萄和葡萄酒的理化指标并不是影响葡萄酒质量的全部因素.参考文献[]1李记明,关于葡萄品质的评价指标,中外葡萄与葡萄酒,1999()1:54~57.[]2袁卫,刘超,统计学——思想,方法与应用,北京:中国人民大学出版社,2011年. []3卢纹岱,SPSS统计分析,北京:电子工业出版社,2003年.[]4孙山泽,非参数统计讲义,北京:北京大学出版社,2012年.[]5王学民,多元统计分析,上海:上海财经大学出版社,2009年.[]6何晓群,刘文卿,应用回归分析,北京:中国人民大学出版社,2010年.[]7李记明,贺普超,刘玲,优良品种葡萄酒的香气成分研究,西北农业大学学报,1998()12:1~2,56~64.附录图一表六表十六SPSS程序代码:1.PP图检验PPLOT/V ARIABLES=红一红二白一白二/NOLOG/NOSTANDARDIZE/TYPE=P-P/FRACTION=BLOM/TIES=MEAN/DIST=NORMAL.2.对红葡萄酒数据进行非参数检验NPAR TESTS/M-W= 红酒评分BY 红酒分组(1 2)/MISSING ANALYSIS.3.对红葡萄酒分组进行探索分析EXAMINE V ARIABLES=红葡萄酒BY 分组/PLOT BOXPLOT STEMLEAF/COMPARE GROUP/STATISTICS DESCRIPTIVES/CINTERV AL 95/MISSING LISTWISE/NOTOTAL.4.对红葡萄理化指标聚类PROXIMITIES 氨基酸蛋白质VC 花色苷酒石酸苹果酸柠檬酸多酚氧化酶活力褐变度dpph 总酚单宁葡萄总黄酮白藜芦醇黄酮醇总糖还原糖可溶性固形物质ph可滴定酸固酸比干物质含量果穗质量百粒质量果梗比出汁率果皮质量果皮颜色/MATRIX OUT('C:\Users\xing\AppData\Local\Temp\spss4128\spssclus.tmp')/VIEW=V ARIABLE/MEASURE=CORRELATION/PRINT NONE/STANDARDIZE=V ARIABLE NONE.CLUSTER/MATRIX IN('C:\Users\xing\AppData\Local\Temp\spss4128\spssclus.tmp')/METHOD BA VERAGE/PRINT SCHEDULE/PLOT VICICLE.ERASE FILE='C:\Users\xing\AppData\Local\Temp\spss4128\spssclus.tmp'.5.因子分析DATASET ACTIV ATE 数据集1.FACTOR/V ARIABLES 氨基酸总量蛋白质VC 花色苷总酚单宁糖可溶性固体物质可滴定酸PH值出汁率果皮颜色/MISSING LISTWISE/ANALYSIS 氨基酸总量蛋白质VC 花色苷总酚单宁糖可溶性固体物质可滴定酸PH值出汁率果皮颜色/PRINT INITIAL CORRELATION SIG EXTRACTION/PLOT EIGEN ROTATION/CRITERIA MINEIGEN(1) ITERATE(25)/EXTRACTION PC/ROTATION NOROTATE/METHOD=CORRELATION.6.线性回归程序REGRESSION/MISSING LISTWISE/STATISTICS COEFF OUTS R ANOV A/CRITERIA=PIN(.05) POUT(.10)/NOORIGIN/DEPENDENT 总酚/METHOD=STEPWISE 氨基酸蛋白质VC 葡萄花色苷葡萄dpph 葡萄总酚葡萄单宁葡萄总黄酮葡萄白藜芦醇总糖可溶性物质ph值可滴定酸出汁率果皮颜色黄酮醇.7.非线性回归程序* 曲线估计.TSET NEWV AR=NONE.CURVEFIT/V ARIABLES=单宁WITH 葡萄单宁/CONSTANT/MODEL=LINEAR QUADRATIC CUBIC GROWTH/PLOT FIT.8.葡萄酒质量与酿酒葡萄和葡萄酒的理化指标的曲线拟合* 曲线估计.TSET NEWV AR=NONE.CURVEFIT/V ARIABLES=葡萄酒质量WITH 理化指标/CONSTANT/MODEL=LINEAR LOGARITHMIC QUADRATIC CUBIC /PLOT FIT.。