当前位置:文档之家› 属性数据分析第五章课后答案

属性数据分析第五章课后答案

属性数据分析第五章课后答案属性数据分析第五章课后作业6.为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。

调查数据如下:偏好饮料A偏好饮料B年青人 男性 37 26 女性 11 23 老年人男性 30 43 女性3111试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?为什么? 解:(1)数据压缩分析首先将上表中不同年龄段的数据合并在一起压缩成二维2×2列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异?表1.1 “性别×偏好饮料”列联表偏好饮料A 偏好饮料B 合计 偏好A 比例 偏好B 比例男性 67 69 136 49.26% 50.74% 女性42 34 7655.26% 44.74%二维2×2列联表独立检验的似然比检验统计量Λ-ln 2的值为0.7032,p 值为05.04017.0)7032.0)1((2>=≥=χP p ,不应拒绝原假设,即认为“偏好类型”与“性别”无关。

(2)数据分层分析其次,按年龄段分层,得到如下三维2×2×2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异?表1.2 三维2×2×2列联表偏好饮料A 偏好饮料B 合计偏好A 比例偏好B 比例年青人男性37 26 63 58.73% 41.27% 女性11 23 3432.35%67.65%老年人男性 30 43 73 41.10% 58.90% 女性 31 11 42 73.81% 26.19%在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A 占58.73%,偏好饮料B 占41.27%;女性中偏好饮料A 占58.73%,偏好饮料B 占41.27%,我们可以得出在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。

同理,在“老年人”年龄段,也有一定的差异。

(3)条件独立性检验为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。

即由题意,可令C 表示年龄段,1C 表示年青人,2C 表示老年人;D 表示性别,1D 表示男性,2D 表示女性;E 表示偏好饮料的类型,1E 表示偏好饮料A ,2E 表示偏好饮料B 。

欲检验的原假设为:C 给定后D 和E 条件独立。

按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量Λ-ln 2的值如下:1C 层 2C 层822.11ln 2=Λ-248.6ln 2=Λ-条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,其值为07.18822.11248.6ln 2=+=Λ-由于2===t c r ,所以条件独立性检验的似然比检验统计量的渐近2χ分布的自由度为2)1)(1(=--t c r ,也就是上面这2个四格表的渐近2χ分布的自由度的和。

由于p 值50.00011916)07.18)2((2=≥χP 很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。

1E 2E合计1D37 26 632D11 23 34 合计48 49 971E 2E合计1D30 43 732D31 11 42合计61 54 115(4)产生偏差的原因a、在(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性在对两种类型的饮料的偏好上是没有差异的。

但将数据以不同的年龄段分层后并分别分析发现男性和女性在对两种类型的饮料的偏好上是有一定差异的。

合起来看和分开来看的结果不同。

b、由此看来,年龄段在此次调查中属于混杂因素。

由于不同年龄段的人对饮料的选择也会有差异,例如现在的年青人偏好喝一些像可口可乐,美年达等这样的碳酸饮料,而老年人则偏好喝一些红茶,绿茶等这样的非碳酸饮料,在调查中,“老年人”年龄段共有115人,所占比例大,从而使整个结果就倾向于老年人的观点,即使得混杂因素“年龄段”起到一定的干扰作用,从而导致整个调查结果产生了偏差。

8.某工厂有三个车间。

车间主任分别为王、张和李。

过去的一年里,该工厂产品的质量情况总结如下:车间主任产品类别产品质量情况产品总数合格产品数不合格产品数王内销2368 131 2499 外销123 81 204张内销293 3 296 外销1247 255 1502李内销307 12 319 外销359 75 434王主任将内销和外销产品合并在一起,然后计算各个车间的不合格率。

计算结果如下:主任产品质量情况不合格率合格产品数不合格产品数王2491 212 7.84%张1540 258 14.35%李666 87 11.55%王主任说,我负责的车间生产情况最好,其次是李主任负责的车间,最差的是张主任负责的车间。

这样的比较是不是有偏比较?为什么?解:不是,有偏比较是指将数据压缩后合起来看与分层后分开来看得出的结果不一致时所产生的偏差,而此题只是将数据压缩起来后相互间比较,因此这样的比较不是有偏比较。

具体分析如下:由题知,分析车间主任与产品的质量情况之间的关系,则本题是以产品类别为层,以车间主任为行,产品的质量情况为列进行相关分析。

(1)数据压缩分析首先将上表中不同产品类别的数据合并在一起压缩成二维3×2列联表2.1,合起来看,分析车间主任与产品的质量情况两者之间的关系?表2.1 “车间主任×产品质量”列联表主任产品质量情况不合格率合格产品数不合格产品数王2491 212 7.84%张1540 258 14.35%李666 87 11.55%可计算出该表独立性检验的似然比检验统计量Λ-ln2的值为48.612,p值为)612.48)2((2≈≥=χPp。

应该拒绝原假设,即认为车间主任与产品的质量情况两者是有一定相关性的。

(2)数据分层分析其次,按产品类别分层,得到如下三维2×3×2列联表2.2,分开来看,分析车间主任与产品的质量情况两者之间的关系?表1.2 三维2×2×2列联表产品类别车间主任产品的质量情况不合格率合格产品数不合格产品数内销王2368 131 5.24% 张293 3 1.01% 李307 12 3.76%外销王 123 81 39.71% 张 1247 255 16.98% 李 359 75 17.28%在上述数据中,分别对两个产品类别(即内销和外销)进行分析,在“内销”类别中,王姓主任车间的产品不合格率最高,即车间生产情况最差,张姓主任车间的不合格率最低,即车间生产情况最好;在“外销”类别中,王姓主任车间的产品不合格率最高,即车间生产情况最差,张姓和李姓主任车间生产情况差不多。

(3)条件独立性检验为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。

即由题意,可令A 表示产品类别,1A 表示内销,2A 表示外销;B 表示车间主任,1B 表示王姓主任,2B 表示张姓主任,3B 表示李姓主任;C 表示产品的质量情况,1C 表示合格产品数,2C 表示不合格产品数。

欲检验的原假设为:A 给定后B 和C 条件独立。

按产品类别分层后得到的两张表格,以及它们的似然比检验统计量Λ-ln 2的值如下:1A 层1C 2C合计 1B2368 131 2499 2B 2933296 3B307 12319合计 2968 146 3114 289.15ln 2=Λ- 2A 层1C 2C合计 1B123 81 2042B 12472551502 3B359 75434合计 1729 411 2140684.51ln 2=Λ-条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,其值为973.66684.51289.15ln 2=+=Λ-由于3,2===r t c ,所以条件独立性检验的似然比检验统计量的渐近2χ分布的自由度为3)1)(1(=--t c r ,也就是上面这2个表格的渐近2χ分布的自由度的和。

由于p 值0)973.66)3((2≈≥χP 很小,所以认为条件独立性不成立,即在产品类别给定的条件下,车间主任与产品的质量情况两者是有一定相关性的。

(4)结论在(1)中,将不同产品类别的数据压缩在一起合起来后分析发现车间主任与产品的质量情况两者是有一定相关性的;在(2)中,将数据以不同的产品类别分层后分析发现车间主任与产品的质量情况两者也是有一定相关性的。

即合起来看和分开来看的结果相同。

据我们所知,有偏比较是指将数据压缩后合起来看与分层后分开来看得出的结果不一致时所产生的偏差,而此题合起来看和分开来看的结果都是相同的。

因此此题若是分析车间主任与产品的质量情况两者之间的相关关系的话,则该题是无偏的,即不均有有偏性,无法进行有偏比较。

相关主题