9.3统计案例公司员工的肥胖情况调查分析课标要求素养要求进一步学习数据收集和整理的方法、数据直观图表的表示方法、数据统计特征的刻画方法,通过具体实例,感悟在实际生活中进行科学决策的必要性和可能性,体会统计思维与确定性思维的差异,积累数据分析的经验.通过生活中具体的统计案例模型,进行提出问题、分析数据、建立模型、检验模型来发展数据分析、数学抽象及数学建模素养.教材知识探究大数据配合乔布斯癌症治疗苹果手机创始人乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人.为此,他支付了高达几十万美元的费用.他得到的不是样本,而是包括整个基因的数据文档.医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命.这是一个著名的数据分析案例.问题你知道什么是统计数据分析吗?提示数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程.这一过程也是质量管理体系的支持过程.在实用中,数据分析可帮助人们作出判断,以便采取适当行动.统计分析报告的主要组成部分1.标题2.前言:简单交代调查的目的、方法、范围等背景情况,使读者了解调查的基本情况.3.主体:展示数据分析的全过程:(1)首先明确所关心的问题是什么,说明数据蕴含的信息;(2)根据数据分析的需要,说明如何选择合适的图表描述和表达数据;(3)从样本数据中提取能刻画其特征的量,用于分析比较;(4)通过样本估计总体的统计规律,分析总体的情况.4.结尾:对主体部分的内容进行概括,给出解决问题的方法和对策.教材拓展补遗[微判断]1.用于样本数据分析的统计图表主要有条形图、扇形图、折线图、频率分布直方图等.(√)2.反映样本数据的集中趋势的特征量有平均数、中位数、众数等.(√)3.反映样本数据的离散程度的特征量有方差和标准差.(√)[微思考]进行数据分析的过程是什么?提示(1)明确主题,说明数据信息;(2)选择图表描述和表达数据;(3)计算样本数据的特征量;(4)估计统计规律.题型一数据分析过程的探究【例1】[明确问题]为了实施“精准扶贫”战略,农科院试种了甲、乙两个西红柿新品种,从这两个品种中各任选5株,测量其产量(单位:kg),得到如下数据:甲 60 80 70 90 70 乙8060708075利用上述数据,现从中选出一个品种推荐给农民种植,应该推荐哪个品种呢? [描述数据] 使用折线图描述数据如下:从折线图上可以看出甲品种的平均产量稍高,但其产量不稳定;乙品种的产量稍低,但其产量较稳定.[计算特征量] 甲品种的平均产量为x -甲=74(kg),乙品种的平均产量为x -乙=73(kg),所以甲品种的平均产量稍高;甲品种的方差是s 2甲=15(142+62+42+162+42)=104, 乙品种的方差是s 2乙=15(72+132+32+72+22)=56, 由于s 2甲>s 2乙,所以乙品种的产量较稳定.[解决问题] 从以上分析可以看出甲品种的平均产量稍高,比乙品种单株平均高1 kg ,相差不大,但其产量远不如乙品种稳定.因为是推荐给需要扶助的贫困地区的农民种植,其抗风险能力较弱,所以推荐乙品种.【例2】 [明确问题] 为了备战下届奥运会,甲、乙两名运动员在相同条件下各射击10次,得到如下数据:甲射击10次中靶环数分别为:9,5,7,8,7,6,8,6,7,7. 乙射击10次中靶环数分别为:2,4,6,8,7,7,8,9,9,10.射击队教练希望利用此次射击成绩为依据,挑选一名运动员参加奥运会,请你帮助教练分析两个运动员的成绩,并作出判断.[描述数据] 用折线图描述数据如下图所示:由折线图可以看出甲运动员的成绩较稳定.[计算特征量] 甲射击10次中靶环数由小到大排列为5,6,6,7,7,7,7,8,8,9.乙射击10次中靶环数由小到大排列为2,4,6,7,7,8,8,9,9,10. 运动员甲的平均成绩x -甲=110×(5+6×2+7×4+8×2+9)=7(环),运动员乙的平均成绩x -乙=110×(2+4+6+7×2+8×2+9×2+10)=7(环),运动员甲的方差s 2甲=110×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]=110×(4+2+0+2+4)=1.2,运动员乙的方差s 2乙=110×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]=110×(25+9+1+0+2+8+9)=5.4.比较如下:平均数 方差 命中9环及9环以上的次数甲 7 1.2 1 乙75.43①∵平均数相同,s 2甲<s 2乙,∴甲成绩比乙稳定.②∵平均数相同,命中9环及9环以上的次数甲比乙少,∴乙成绩比甲好些.③甲成绩在平均数上下波动;而乙处于上升势头,从第三次以后就没有比甲少的情况发生,乙更有潜力.[解决问题]参考比赛的历史经验,如果对手的成绩不如甲、乙两个运动员,想确保赢得比赛,选派甲运动员参加比赛;如果对手的成绩远超过甲、乙两个运动员,因为乙更有潜力,成绩的方差较大,有可能超常发挥,则选派乙运动员参加比赛.题型二统计案例分析活动的探究和统计分析报告的撰写【例3】阶梯电价的设计一、背景与数据为了实现绿色发展,践行“绿水青山就是金山银山”的发展理念,避免浪费能源,某市政府计划对居民用电采用阶梯收费的方法.为此,相关部门在该市随机调查了200户居民六月份的用电量(单位:kW·h),以了解这个城市家庭用电量的情况.数据如下:10710178992081277422331131 214135896660115189135146127 20397966265111561511068 1629167932121596163178194 194216101981397811019210596 22501382511201121002019884 137203260134156617010072164 17413193100163807695152182 882471917013049114110163202 265189414614914717733957109 10718210114827428982213165224 142611081379025420183253113 130821701101086325023712084 15428817012317231962133130127 107719614077106132106135132167822585425110769987248 10913425042320113180144116530 200174135160462139133304191283 121132118134124178206626120274 14180187883241364981697757二、任务与要求根据以上数据,应当如何确定阶梯电价中的电量临界值,才能使得电价更为合理?三、问题的解决[问题分析]选取六月份调查,是因为这个城市六月份的部分时间需要使用空调,因此六月份的用电量在一年12个月中处于中等偏上水平.如果阶梯电价临界值的确定依赖于居民月用电量的分布,例如计划实施3阶的阶梯电价,有人给出一个分布如下:75%用户在第一档(最低一档),20%用户在第二档,5%用户在第三档(最高一档).这样,需要通过样本数据估计第一档与第二档、第二档与第三档的两个电量临界值,即75%和95%这两个电量临界值.利用电子表格软件,对上面的样本数据进行排序,可以得到下面的结果:81822314248495051565757606161616262636365666769707071727274767777787880808282828384848888899091939394959696969798989899 100100100101101101105106106106 107107107107108108109109110110 110111112113113114115116118120 120120121123124127127127130130 130131131132132132133133134134 134135135135135136137137138139 139140141142144416146147148149 151152154156159160162163163164165167169170170172174174177178 178180182182187189191191192194 194200201201202203203206208212 213214216223224237247250250251 253254258260265274274283288289 304319320324339462498530542626[特征量分析](1)样本数据总共有200个,最小值是8,最大值是626,说明200户居民六月份的最小用电量为8 kW·h,最大用电量为626 kW·h,极差为618.(2)因为数据量是200,那么这组数据的样本中位数就是有序样本第100个数130和第101个数130的平均数,即130,说明这个城市六月份居民用电量的中间水平大约在130 kW·h左右.(3)因为200×75%=150,所以第一个临界值为有序样本中第150个数178和第151个数178的平均数,仍然是178.因为200×95%=190,所以第二个临界值为有序样本中第190个数289和第191个数304的平均数,这个平均数为296.5(因为是对第百分位数的估计,估计值可以是289和304之间任何一个数,为了便于操作可以取值为297).[解决问题]依据确定了的电量临界值,阶梯电价可以规定如下:(1)用户每月用电量不超过178 kW·h(或每年用电量不超过2 136 kW·h),按第一档电价标准缴费;(2)每月用电量(单位:kW·h)在区间(178,297]内(或每年用电量在区间(2 136,3 564]内),其中的178 kW·h按第一档电价标准缴费,超过178 kW·h的部分按第二档电价标准缴费;(3)每月用量超过297 kW·h(或每年用电量超过3 564 kW·h),其中的178 kW·h按第一档电价标准缴费,119 kW·h按第二档电价标准缴费,超过297 kW·h的部分按第三档电价标准缴费.社会上对这种制定阶梯电价的原则和方法存在不同意见,可以讨论制定合理阶梯电价的原则和方法.[统计案例]对大学毕业生工薪的抽样估计很多测评机构在比较各个高校的实力或比较不同高校培养的大学生受社会欢迎的程度时,不仅使用到就业率等指标,还经常用大学毕业生的工薪高低来衡量.要反映一个学校所培养学生的工薪水平显然不宜用该校全部学生工薪的最高水平或最低水平,否则容易受个别极端值(统计上也称为异常值)的影响,通常应采用该校全部学生工薪的平均水平、工薪达到一定水平的毕业生比重等统计指标来衡量.但要对毕业生进行全面调查既不太可能也不必要,为此可进行抽样推断,即随机抽取一定数量的大学毕业生构成样本.从我国某高校2019年毕业且在某地区就业的学生中随机抽取36名进行调查,所得的样本数据如表所示.表中的工薪是指大学毕业生工作第一个月的工薪.大学毕业生工薪的抽样调查数据序号工薪/元序号工薪/元序号工薪/元1 5 80013 5 68025 6 2182 6 60014 6 66026 6 30037 10015 5 76027 5 8804 6 500165 88028 5 7505 5 200176 20029 6 5606 6 00018 6 50030 6 1007 5 60019 6 00031 6 7608 6 400207 50032 6 1209 6 70021 6 20033 6 85010 6 400227 30034 6 25011 5 75023 6 80035 6 18012 6 30024 6 40036 6 580案例分析与思考要求:1.以[5 000,5 500),[5 500,6 000),[6 000,6 500),[6 500,7 000),[7 000,7 500),将样本数据进行分组,绘制出频率分布直方图,观察样本数据分布特征.2.根据频率分布直方图,计算样本的中位数、众数和平均数.3.分析样本中工薪在6 500元以上的毕业生占多大比重,计算所得的数据和实际数据相差多少?。