一、问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
请尝试建立数学模型讨论下列问题:1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?附件1:葡萄酒品尝评分表(含4个表格)附件2:葡萄和葡萄酒的理化指标(含2个表格)附件3:葡萄和葡萄酒的芳香物质(含4个表格)二、问题分析问题二的分析问题二要根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
题目对葡萄酒样品给出了葡萄酒品尝评分表、理化指标分析表和芳香物质分析表。
由于葡萄酒理化指标分析表和芳香物质分析表没有一个可行的分析方法对葡萄酒的质量进行判断。
因此,把葡萄酒品尝评分表作为对葡萄酒质量的评定。
由问题一,得到第二组评酒员的评价结果更可信。
先对葡萄酒评分求平均值。
再用主成分分析法处理酿酒葡萄的理化指标,将30个指标缩减为几个主成分。
由于数据的计量单位不同,对葡萄酒的平均分和酿酒葡萄的理化指标量纲化处理。
通过spss求出葡萄样本各指标与主成分的相关系数矩阵。
从而求出各葡萄样本与主成分的关系矩阵Y=()yij最后用综合主成分分析法,将各葡萄酒的平均值(量纲化处理)与各葡萄样本跟主成分的关系矩阵建立一个线性关系。
通过这个线性关系对葡萄样品进行打分,再用分值对葡萄进行分级。
三、模型假设1、葡萄酒的质量仅由葡萄酒的评分决定。
2、葡萄酒的二级理化指标的信息全部反应在相对应得一级理化指标中。
四、符号说明μ 表示综合得分的数学期望,i α 表示第i 组评分与总平均值之差,ij β 表示第i 组第j 个评酒师的评分与第i 组评分均值的偏差;ijk x 表示第i 组的第j 号评酒师对第k 号酒的综合评分ijk ε 表示第i 组第j 个评酒师弟K 号样品酒分析结果与第j 号评酒师评分的偏离;A SS 称为因素A 的离差平方和, E SS 称为因素E 的离差平方和,B SS 称为因素B 的离差平方和 i X 酿酒葡萄的不同的理化指标Y 各葡萄样本与主成分的关系矩阵i a 酿酒葡萄理化指标提取的主成分对应理化指标中的贡献率 i b 各葡萄酒评分量纲化处理后的数值i Z 主成分Y 与其贡献率i a 的乘积加上葡萄酒评分数值构成线性组合五、模型建立及求解5.1.1问题一模型的建立及求解葡萄酒历史悠久,在葡萄酒诞生之初,人类就给予了它对于其它任何食物与饮品都没有的偏爱。
然而即使是极品葡萄酒不同的人对他的评价也不可能完全一样,本问就是要讨论两组评酒员的评价结果有无显著性差异,及哪一组结果更可信。
对于要分析无显著性差异,这里是通过用三因素(酒类,品酒员,组号)方差分析及T 检验法,T 检验当中的值小于0.05则说明而对于要判断哪一组结果更可信,则是通过计算出每组样品酒方差的平均来判断,平均值越小则说明越稳定,结果就更可靠。
首先建立三因素方差分析的数学模型 三因素方差分析的数学模型:ijk i ij ijk x μαβε=+++ (1,2;1,......10;1,......28)i j ==μ表示综合得分的数学期望,i α表示第i 组评分与总平均值之差,ij β表示第i 组第j 个评酒师的评分与第i 组评分均值的偏差;ijk x 表示第i 组的第j 号评酒师对第k 号酒的综合评分ijk ε表示第i 组第j 个评酒师弟K 号样品酒分析结果与第j 号评酒师评分的偏离;三因素方差分析的计算步骤根据数理统计原理,计算各离差平方和:2211111111()()a b ca b cA ijkijk bcabci j k i j k SS xx =======-∑∑∑∑∑∑221111111()abc abcE ijk ijkci j k i j k SS x x=======-∑∑∑∑∑∑2211111111()()a b c a b cB ijk ijk c bc i j k i j k SS x x =======-∑∑∑∑∑∑ A SS 称为因素A 的离差平方和,反映因素A 对试验指标的影响。
E SS 称为因素E 的离差平方和,反映因素E 对试验指标的影响。
B SS 称为因素B 的离差平方和,反映因素B 对试验指标的影响计算样本方差21A A ASS SS A A f a MS S -===2(1)B BBSS SS B B f a b MS S -=== 2(1)EE E SS SS E E f ab c MS S -=== Sig 单总体T 检验X t σ-∆=。
如果样本是属于大样本(n >30)也可写成:X t σ-∆=。
在这里,t 为样本平均数与总体平均数的离差统计量;X 为样本平均数;∆为总体平均数;X σ为样本标准差;n 为样本容量。
以0.05为显著性水平, t>0.05则说明无显著性差异。
反之说明有显著性差异。
可信度分析的数学模型ijn M 表示第i 组的第j 号评酒师对第n 个评分项目的分值(n =1……10,分别表示澄清度,色调,香气分析当中的纯正度,香气分析当中的浓度,香气分析当中的质量,纯正度,浓度,持久性,质量,整体评价 )1210......ijk ij ij ij x M M M =++1210()......ik i k i k i k E X x x x =++2221210var()(())(())......(())ik i k ik i k ik i k ik x x E x x E x x E x =-+-+-1227var()var()......var()i i i Q x x x =++()ik E X 表示第i 组中第j 号酒的综合得分期望。
var()ik x 表示第i 组j 号酒的综合得分方差。
Q 表示该组方差的平均值方差的平均越小说明越稳定,则可信度越高。
数据的处理及结果根据附表一中的数据通过excel 可以算出白酒第一组中毎位评酒师对各样品酒的综合得分,例如第26号酒的综合得分如表一所示:表一总分:100 品酒员1 …品酒员1026 项目满分酒样品26 …外观分析 5 澄清度 4 (4)15 10 色调 6 (8)香气分析 6 纯正度 5 (5)30 8 浓度7 (7)16 质量14 (14)口感分析 6 纯正度 4 (4)44 8 浓度7 (6)8 持久性7 (7)22 质量13 (19)平衡/整体评价11 8 (10)75 (84)如表一所示算出第一组及第二组每种样品酒的综合得分,将所有白酒的数据整理得到下表二:组别品酒员酒样品综合得分1 品酒1号26 751 品酒2号26 66…………2品酒员1号2680...………全表为附录表一将附录表一当中的数据导入到SPSS,分析综合得分与酒类,品酒员,组号的关系,得到数据如表三:T检验当中组别的t小于0.05可得知白酒的两组评价员的结果有显著性差异。
同样的方法用SPSS对红酒进行三因素分析得到表四:表四T检验当中组别的t小于0.05可得知白酒的两组评价员的结果有显著性差异。
不管是白酒还是红酒,两组评价员的结果都有显著性差异。
附录表一当中已经算出来所有样品酒的综合得分利用excel可以很容易的算出每组综合得分的方差平均值,结果如表五所示:表五从表五中可以看出不管是白酒还是红酒,第二组方差的平均值都小于第一组的方差平均值,可得出结论第二组的稳定性更好,结果更可靠。
5.3.1问题三模型的建立及求解为了研究酿酒葡萄与葡萄酒的理化指标之间的联系,将葡萄酒的理化指标定义为Y,把酿酒葡萄的理化指标定义为X,先利用相关性分析,可以分别算出每一个Y关于所有X的相关系数矩阵。
取出其中相关系数大于0.35的X,在利用多元线性回归,分别算出每一个Y关于相关系数大于0.35的X的R2,及各X的系数与置信区间。
根据R2的值把Y分成三类:A类为R2大于0.8。
B类为R2介于0.5到0.8之间C类为R2小于0.5.对于A类如果置信区间包含0,则把相应的变量踢除。
根据这些新的变量,从新做一次线性回归如果R2的值与剔除变量之前相差不大,就取剔除变量之后的变量。
若相差较大则取没有剔除变量的那些X来表示Y。
对于B类可直接得出Y关于X的线性方程,对于C类,模型的建立与求解:问题二的模型葡萄酒的理化指标分为一级指标和二级指标。
由于二级指标都在一级指标中进行反应,剔除二级指标。
对多次测试的项目取平均值,精简得到酿酒葡萄的理化指标分析表,共30个指标。
由于指标太多,并且多指标之间往往存在着一定程度的相关性。
为了把指标复杂的关系进行简化,对理化指标做主成分分析。
由于理化指标中的指标不同,其计量单位不同,所以数据量纲也不一致。
因此,在进行主成分分析前,先对数据进行量纲化处理。
统计学原理告诉我们,要对多组不同量纲数据进行比较,可以先将它们标准化转化成无量纲的标准化数据。
而综合评价就是要将多组不同的数据进行综合,因而可以借助于标准化方法来消除数据量纲的影响。
无量纲标准化法:sxx y i i -=上式中: ∑==n i i x n x 11 ∑=--=n i i x x n s 12)(11 无量纲化处理葡萄样品的评分、葡萄酒的理化指标结果(以下仅是表的一部分)如下:红葡萄 得分平均均值标准化 氨基酸总量标准蛋白质标准 VC 含标准葡萄样品1-0.607044289 -0.23 -0.05 -0.13葡萄样品20.876117601 -0.16 1.56 -0.22葡萄样品31.026947623 3.84 0.65 -0.09白葡萄 得分平均值标准化 氨基酸总量标准蛋白质标准 VC 含标准葡萄样品1 0.431372889 -0.73 -0.18 2.2 葡萄样品2 -0.230891494 -0.08 0.55 -0.75 葡萄样品3 -0.293964293 3.37 -0.69 -0.29主成分分析模型:酿酒葡萄的无量纲化理化指标有30个,设为12330,,X X X X 。
令X=(12330,,X X X X ),假定存在二阶矩阵,其均值和协方差分别记为(),()E X D X μ=∑=。