承诺书参赛队员 (打印并签名) :题目葡萄酒与酿酒葡萄理化指标与质量关系分析关键词 t检验、Q型聚类分析、主成分分析、葡萄酒质量、理化指标题目摘要葡萄酒的品尝是一门学问。
本文通过两组品评员对红葡萄酒(27个样本)与白葡萄酒(28个样本)的评分表入手,根据酿酒葡萄与葡萄酒的理化指标的内在联系,运用t 检验、Q型聚类分析、主成分分析等方法,深入讨论酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响。
对于问题一:通过每组样本的总得分算出红葡萄与白葡萄的样本总方差,每组对应数据运用t检验进行统计。
结果为T1=1.7437<2.101,且P1=0.2130>0.05;T2=1.1641<2.101,且P2=0.3501>0.05。
所以两组品酒员对红葡萄酒、白葡萄酒的评价结果均无显著性差异。
且第一组的方差比第二组大,所以第二组的结果更可信。
对于问题二:通过建立Q型聚类分析模型,以酿酒葡萄的理化指标和葡萄酒的质量为标准来对酿酒葡萄进行分类,用类平均法来求相似性度量得到红葡萄、白葡萄分级图。
对于问题三:对红葡萄与白葡萄共有的理化指标进行相关性分析,根据他们之间的相关系数,根据各个指标建立典型相关系数表,同时画出相关系数大的指标的关系图。
对于问题四:根据对葡萄与葡萄酒的理化性质的分类,并将其对应于对葡萄酒的外观、香气、口感和整体评价的影响,由第三问知道他们之间存在线性关系,则利用多元回归模型将他们拟合出一个线性方程,进而找出他们的联系,从而得出可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量的结论。
关键词:t检验、Q型聚类分析、主成分分析、葡萄酒理化性质、多元线性回归一.问题重述本次研究对象为两组红葡萄酒与白葡萄酒,葡萄酒的主要质量指标为专业性评酒提供了依据,葡萄酒的主要质量指标大体可分为感官指标和理化指标两大类。
尤其是感官品评,是目前国内外鉴定葡萄酒品质的主要手段。
本论文从三大感官指标项目入手,分别是外观分析、香气分析、口感分析。
其中每个项目中有几项指标。
外观分析包含澄清度和色调;香气分析包含纯正度、浓度和质量;口感分析包含纯正度、浓度、持久性和质量。
理化指标主要指酒精含量(酒精度)、酸度和芳香物质浓度【1】。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
在研究葡萄酒的质量时,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系【2】,我们需要研究葡萄酒和酿酒葡萄检测的理化指标与葡萄酒和葡萄的质量之间的关系。
综上所述,我们需要解决以下问题:1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
二.符号说明和模型假设2.1符号说明n 样品数2S方差df 自由度x均值js标准差j2.2 模型假设1、假设所选取的样本值真实可信。
本文引用数据、资料均真实可靠。
2、假设全部品酒员符合品评葡萄酒的要求且在品评当天表达正常且真实的分数。
3、假设整个建模过程中忽略计算误差。
4、两组品酒员在评分时不会受另一组的影响。
5、假设二级指标的信息可以再一级指标中反映出来。
三.模型的建立与求解3.1.1 问题分析该题主要利用题目中的附件一的数据来进行求解,观察图表可以知道对葡萄酒的评分算得满分为100分,其中包括有十个评分项目,那么我们将品酒员给的十个项目分数相加来表示品酒员对这个酒样品的评价标准,这样每一个样品都有十个数据,然后两组之间对应样品号的数据就可以进行t 检验,从而确定两组对同一个样品评价有无显著性差异,从而可以通过建立这个分组对应样品进行t 检验的方法来解决第一小问。
求得两组评价都无显著性差异之后,要确定评价结果的可信度我们可以通过比较方差来得出结果。
3.1.2 建模求解首先对数据进行处理:(1)求各品酒员对各样品的总分并排序形成矩阵; (2)求t ;(3)查t(df)0.05和t(df)0.01,以便后面与t 进行比较; (4)结合P 与0.05比较,判断是否有显著性差异; 求解过程:)(成立如果1)()1()()()11(2)()(2122221121212122221121n n n n x x x x n n n n x x x x t =--+--=+-+-+--=∑∑μμμμ用matlab 编程运算得到红葡萄酒两组之间评价结果的t 检验如下:t1=[1.2917 2.6620 2.0965 0.6728 0.4362 2.0749 1.5204 1.9071 1.3623 2.0928 2.5768 4.4486 2.3635 0.1645 1.9649 2.5582 1.5398 1.7616 1.8738 1.0973 1.2584 2.0463 3.5523 2.221 0.3038 0.6669 0.5658]求t1的平均值得T1=1.7437<2.101,且P1=0.2130>0.05 所以两组品酒员对红葡萄酒的评价结果无显著性差异。
同理,对白葡萄酒的评价结果数据进行计算,t 检验结果如下:t2=[1.1931 0.3199 1.3615 0.8485 2.6868 1.6488 1.1570 0.1942 1.6811 1.0337 0.1748 1.7991 1.7152 1.4139 1.3925 1.3134 0.3510 0.8330 1.5604 0.3547 0.5750 1.9157 0.6381 0.7238 0.6406 1.6695 2.8759 0.5226]求t2的平均值得T2=1.1641<2.101,且P2=0.3501>0.05 所以两组品酒员对白葡萄酒的评价结果无显著性差异。
Matlab 运行结果如图一:图一因为两组的评价结果无显著性差异,那么对于可信度的问题可以用各品酒员对各个样品的评价结果的方差来求解。
求解方差:))((122x x nS i -=∑ (2)在matlab 中直接利用var 函数进行方差的求解即可得出结果:图二由图分析可得,无论是对红葡萄酒还是对白葡萄酒的评价结果,所得到第一组的方差比第二组大,所以第二组品酒员对酒的评价结果比较稳定,可信度也比较强,那么第二组的结果更可信。
3.2.1 模型二建立:通过建立Q 型聚类分析模型,以酿酒葡萄的理化指标和葡萄酒的质量为标准来对酿酒葡萄进行分类,聚类分析是用数量化的方法描述事物之间的相似程度,而酿酒葡萄的理化指标和葡萄酒的质量就是几个用来判定样品之间相似程度的变量。
如果每一个样品可以用十几个变量来描述的话,则在一个空间中变量可以看作这个空间的维数,每个样品就是这个空间的点,所以他们之间的相似程度就可以用他们之间的举例来体现了。
记各样品为i w w w ,......,21,每个样品的相关变量记为i v v v ,......,21;如果使用绝对值距离来测量点与点之间的距离,即使用短距离法来测量类与类之间的距离,这里使用欧氏距离法来计算,即∑=-=nk jk ik j i n v v w w d 1)(,),(为每个样品的变量数 (3)用类平均法来求类与类间的相似性度量)),...2,1(,(,),(1),(212112n n n n j i xx d n n G G D G x G x pqj i q P ==∈=∑∑∈∈其中 (4)然后再根据他们的距离长短即可得到分类结果。
3.2.2 求解:用matlab 计算如图三所示: 红葡萄分级结果:图三分类结果如下:同理对白葡萄进行分级:图四分类结果如下:表四:白葡萄分四类表五:白葡萄分五类表六:白葡萄分六类3.3.建立模型找出酿酒葡萄与葡萄酒相同的理化指标【3】,进行相关性分析。
酿酒红葡萄与红葡萄酒对应的有十五个共同的理化指标,分别是:花色苷、单宁、总酚、总黄酮、白黎芦醇、反式白黎芦醇苷、顺式白黎芦醇苷、反式白黎芦醇苷、顺式白黎芦醇苷、DPPH 半抑制体积、色泽L*\a*\b*\H\C 。
对酿酒红葡萄的15个共同的理化指标分别进行编号为1x 、2x 、3x .......15x ;对葡萄酒理化指标编号为16x 、17x 、18x .....30x 。
第一步:对原始数据进行标准化处理首先建立酿酒红葡萄理化指标与红葡萄酒的原始数据矩阵,即ij x =[1x 2x3x ....30x ],i ∈[1 27];j ∈[1 30]。
然后对数据矩阵进行标准化处理,处理方式为jjij ij s x x x -=~(5)其中j x 、j s 分别表示矩阵ij x 每一列的均值和标准差。
第二步:求它们两两变量之间的相关系数。
具体的相关系数见附件二。
同理找出白葡萄与白葡萄酒之间的共同指标,然后计算他们之间的相关系数矩阵,表八:选取典型的相关系数靠前的各个指标建立的典型相关系数表则由红葡萄相关系数表可得,红葡萄的理化性质与红葡萄有四个相关性比较大的因素:选定为花色苷,单宁,总酚和总黄酮;画出他们之间的关系图如下:图五图六图七图八同理由白葡萄相关系数表可得,白葡萄的理化性质与白葡萄有四个相关性比较大的因素:选定为单宁,总酚和总黄酮;画出他们之间的关系图如下:图九图十图十一则可以得到红葡萄中的花色苷,单宁,总酚和总黄酮与红葡萄酒的理化性质呈正比关系,白葡萄中的单宁和总黄酮与白葡萄酒的理化性质呈正比关系,而白葡萄中的总酚与白葡萄酒的理化性质大致呈反比关系。
则可以得到葡萄与葡萄酒的理化性质大致有线性关系。
3.4.1红葡萄和红葡萄酒的理化性质对葡萄酒质量的影响1.外观以621,...,,x x x 为全部自变量,采用小二乘法拟合一个多元回归模型得到葡萄酒的质量评分的外观部分1ˆy,得到如6622111*...**ˆx a x a x a y +++=式子,要求621,...,,a a a 的秩,可以通过建立多元回归模型来求得,求解过程如下:6543211*0518.0*1124.0*0010.0*0615.0*0419.0*0003.08.944ˆx x x x x x y-+++-+=(6)表九(t 检验值):这个回归模型的复判定系数 2R =0.4130图十二2.香气首先将红葡萄与红葡萄酒的各种芳香物质进行并列建立矩阵,然后用相应样品的均值填补缺失值。
,求出它们与红酒质量评分中香色部分的相关系数。
如下表1所示是选取相关系数靠前的几个芳香物质。
(其他具体相关系数见附件三)对这些变量按表中顺序进行编号分别为1x 、2x 、3x ......12x ;以上述所有变量为自变量,采用最小二乘法拟合一个多元回归模型,有:76543211964.00366.00615.01185.00262.05588.00522.08436.19ˆx x x x x x x y--+--++= 121110981157.00598.00286.00374.01630.0x x x x x ---++ (7)这个回归模型的复判定系数2R =0.8408 调整复判定系数2R =0.7044, 模型的标准剩余差为0.8798对各个参数的t 检验的结果见表2所以这个模型的t 检验和F 检验都符合。