当前位置:文档之家› 统计与统计案例 专题

统计与统计案例 专题

统计与统计案例专题[考情考向分析] 1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等.2.在概率与统计的交汇处命题,以解答题中档难度出现.热点一抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体数较少.2.系统抽样特点是将总体平均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.例1(1)某学校在高一新生入学后为了解学生的体质情况,决定从该校的1 000名高一新生中采用系统抽样的方法抽取50名学生进行体质分析,已知样本中第一个号为007号,则抽取的第10个学生的编号为()A.107 B.097 C.207 D.187(2)已知某高级中学高一、高二、高三学生人数分别为880,860,820,现用分层抽样的方法从该校抽调128人,则在高二年级中抽调的人数为________.思维升华(1)随机抽样的各种方法中,每个个体被抽到的概率都是相等的.(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.跟踪演练1(1) 为了解某地区的“微信健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.在下面的抽样方法中,最合理的抽样方法是( ) A .简单随机抽样 B .按性别分层抽样 C .按年龄段分层抽样D .系统抽样(2)(2018·永州模拟)现从已编号(1~50)的50位同学中随机抽取5位了解他们的数学学习状况,用每部分选取的号码间隔一样的系统抽样方法所选取的5位同学的编号可能是( ) A .5,10,15,20,25 B .3,13,23,33,43 C .1,2,3,4,5 D .2,10,18,26,34 热点二 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例2 (1)一组数据共有7个数,记得其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,这个数的所有可能值的和为( ) A .-11 B .3 C .9 D .17(2)某高校调查了320名学生每周的自习时间(单位:小时),制成了下图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据频率分布直方图可知,这320名学生中每周的自习时间不足22.5小时的人数约是( )A.68 B.72 C.76 D.80跟踪演练2(1)为了从甲、乙两人中选一人参加数学竞赛,老师将二人最近的6次数学测试的分数进行统计,甲、乙两人的得分情况如图所示,若甲、乙两人的平均成绩分别是x甲,x乙,则下列说法正确的是()A.x甲>x乙,乙比甲成绩稳定,应选乙参加比赛B.x甲>x乙,甲比乙成绩稳定,应选甲参加比赛C.x甲<x乙,甲比乙成绩稳定,应选甲参加比赛D.x甲<x乙,乙比甲成绩稳定,应选乙参加比赛(2)下面是追踪调查200个某种电子元件寿命(单位:h)的频率分布直方图,其中300~400,400~500的两组数据丢失,下列四个说法中有且只有一个与原数据相符,这个说法是()①寿命在300~400的频数是90;②寿命在400~500的矩形的面积是0.2;③用频率分布直方图估计电子元件的平均寿命为150×0.1+250×0.15+350×0.45+450×0.15+550×0.15;④寿命超过400 h的频率为0.3.A.①B.②C.③D.④热点三统计案例1.线性回归方程方程y^=b^x+a^称为线性回归方程,其中b^=∑ni=1x i y i-n x y∑ni=1x2i-n x2,a^=y-b^x,(x,y)称为样本点的中心.2.随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.例3 某高三理科班共有60名同学参加某次考试,从中随机挑选出5名同学,他们的数学成绩x与物理成绩y如下表:数据表明y与x之间有较强的线性关系.(1)求y 关于x 的线性回归方程;(2)该班一名同学的数学成绩为110分,利用(1)中的回归方程,估计该同学的物理成绩; (3)本次考试中,规定数学成绩达到125分为优秀,物理成绩达到100分为优秀.若该班数学优秀率与物理优秀率分别为50%和60%,且除去抽走的5名同学外,剩下的同学中数学优秀但物理不优秀的同学共有5人.能否在犯错误的概率不超过0.01的前提下认为数学优秀与物理优秀有关?参考数据:回归直线的系数b ^=∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2,a ^=y -b ^x . K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P ()K 2≥6.635=0.01,P ()K 2≥10.828=0.001.思维升华 (1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值;回归直线过样本点的中心(x ,y ),应引起关注.(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入公式求解K 2即可. 跟踪演练3 下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x =年份-2013.(1)已知y 与x 具有线性相关关系,求y 关于x 的线性回归方程,并预测2019年该百货零售企业的线下销售额;(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调査平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?参考公式及数据:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x ,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .真题体验1. 如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为________.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为________.3.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下列叙述不正确的是________.(填序号)①各月的平均最低气温都在0 ℃以上;②七月的平均温差比一月的平均温差大;③三月和十一月的平均最高气温基本相同;④平均最高气温高于20 ℃的月份有5个.答案④解析由题意知,平均最高气温高于20 ℃的有七月,八月,故④不正确.4.某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.押题预测1.某公司为了解用户对其产品的满意度,从甲、乙两地分别随机调查了10个用户,将满意度的分数绘成茎叶图,如图所示.设甲、乙两地的满意度分数的平均数分别为x甲,x乙,中位数分别为m甲,m乙,则()A.x甲<x乙,m甲>m乙B.x甲>x乙,m甲>m乙C.x甲>x乙,m甲<m乙D.x甲<x乙,m甲<m乙押题依据从茎叶图中提取数字的特征(如平均数、众数、中位数等)是高考命题的热点题型.2.某校为了解高三学生寒假期间的学习情况,抽查了100名学生,统计他们每天的平均学习时间,绘制成频率分布直方图,如图所示,则这100名学生中学习时间在6至10小时之间的人数为________.押题依据 频率分布直方图多以现实生活中的实际问题为背景,对图形的理解应用可以考查学生的基本分析能力,是高考的热点.3.某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件大约需要多少小时?(注:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x )押题依据 线性回归分析在生活中具有很强的应用价值,是高考的一个重要考点.A 组 专题通关1.我校高三8个学生参加数学竞赛的得分用茎叶图表示,其中茎为十位数,叶为个位数,则这组数据的平均数和方差分别是( )A .91,9.5B .91,9C .92,8.5D .92,8 2.A 地的天气预报显示,A 地在今后的三天中,每一天有强浓雾的概率为30%,现用随机模拟的方法估计这三天中至少有两天有强浓雾的概率:先利用计算器产生0~9之间整数值的随机数,并用0,1,2,3,4,5,6表示没有强浓雾,用7,8,9表示有强浓雾,再以每3个随机数作为一组,代表三天的天气情况,产生了如下20组随机数: 402 978 191 925 273 842 812 479 569 683 231 357 394 027 506 588 730 113 537 779 则这三天中至少有两天有强浓雾的概率近似值为( )A.14B.25C.710D.153.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( ) A .若K 2的观测值k =6.635,则在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B .由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C .若从随机变量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D .以上三种说法都不正确4.“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.“搜索指数”越大,表示网民对该关键词的搜索次数越多,对该关键词相关的信息关注度也越高.下图是2017年9月到2018年2月这半年中,某个关键词的搜索指数变化的走势图.根据该走势图,下列结论正确的是( )A .这半年中,网民对该关键词相关的信息关注度呈周期性变化B .这半年中,网民对该关键词相关的信息关注度不断减弱C .从网民对该关键词的搜索指数来看,去年10月份的方差小于11月份的方差D .从网民对该关键词的搜索指数来看,去年12月份的平均值大于今年1月份的平均值 5.下列说法中正确的是( )①相关系数r 用来衡量两个变量之间线性关系的强弱,|r |越接近于1,相关性越弱; ②回归直线y ^=b ^x +a ^一定经过样本点的中心(x ,y );③随机误差e 满足E (e )=0,其方差D (e )的大小用来衡量预报的精度; ④相关指数R 2用来刻画回归的效果,R 2越小,说明模型的拟合效果越好.A .①②B .③④C .①④D .②③ 6.已知某市A 社区35岁至45岁的居民有450人,46岁至55岁的居民有750人,56岁至65岁的居民有900人.为了解该社区35岁至65岁居民的身体健康状况,社区负责人采用分层抽样技术抽取若干人进行体检调查,若从46岁至55岁的居民中随机抽取了50人,试问这次抽样调查抽取的人数是________.7.用系统抽样法(按等距离的规则)从160部智能手机中抽取容量为20的样本,现将这160部智能手机随机地从001~160编号,按编号顺序平均分成20组:001~008号,009~016号,017~024号,…,153~160号,若第9组与第10组抽出的号码之和为140,则第1组中抽取的号码是________.8.某班40名学生参加普法知识竞赛,成绩都在区间[40,100]内,其频率分布直方图如图所示,则成绩不低于60分的人数为________.9.某设备的使用年数x 与所支出的维修总费用y 的统计数据如下表:根据上表可得线性回归方程为y ^=1.4x +a ^.若该设备维修总费用超过12万元就报废,据此模型预测该设备最多可使用________年.10.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表;(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.B组能力提高11.某公司有30名男职员和20名女职员,公司进行了一次全员参与的职业能力测试,现随机询问了该公司5名男职员和5名女职员在测试中的成绩(满分为30分),可知这5名男职员的测试成绩分别为16,24,18,22,20,5名女职员的测试成绩分别为18,23,23,18,23,则下列说法一定正确的是()A .这种抽样方法是分层抽样B .这种抽样方法是系统抽样C .这5名男职员的测试成绩的方差大于这5名女职员的测试成绩的方差D .该测试中公司男职员的测试成绩的平均数小于女职员的测试成绩的平均数12.某青少年成长关爱机构为了调查所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如图所示的散点图和回归直线l .根据图中数据,下列对该样本描述错误的是( )A .据样本数据估计,该地区青少年身高与年龄成正相关B .所抽取数据中,5 000名青少年平均身高约为145 cmC .直线l 的斜率的值近似等于样本中青少年平均身高每年的增量D .从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l 上13.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得线性回归方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.14.某工厂有两台不同机器A 和B 生产同一种产品各10万件,现从各自生产的产品中分别随机抽取20件,进行品质鉴定,鉴定成绩的茎叶图如下所示:该产品的质量评定标准规定:鉴定成绩达到[90,100)的产品,质量等级为优秀;鉴定成绩达到[80,90)的产品,质量等级为良好;鉴定成绩达到[60,80)的产品,质量等级为合格.将这组数据的频率视为整批产品的概率.(1)从等级为优秀的样本中随机抽取两件,记X为来自B机器生产的产品数量,写出X的分布列,并求X的期望;(2)完成下列2×2列联表,以产品等级是否达到良好以上(含良好)为判断依据,判断能不能在误差不超过0.05的情况下,认为B机器生产的产品比A机器生产的产品好;(3)已知优秀等级产品的利润为12元/件,良好等级产品的利润为10元/件,合格等级产品的利润为5元/件,A机器每生产10万件的成本为20万元,B机器每生产10万件的成本为30万元.该工厂决定:按样本数据测算,两种机器分别生产10万件产品,若收益之差达到5万元以上,则淘汰收益低的机器,若收益之差不超过5万元,则仍然保留原来的两台机器.你认为该工厂会仍然保留原来的两台机器吗?附:(1)独立性检验计算公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.(2)临界值表:统计与统计案例专题答案[考情考向分析] 1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等.2.在概率与统计的交汇处命题,以解答题中档难度出现.热点一抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体数较少.2.系统抽样特点是将总体平均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.例1(1)某学校在高一新生入学后为了解学生的体质情况,决定从该校的1 000名高一新生中采用系统抽样的方法抽取50名学生进行体质分析,已知样本中第一个号为007号,则抽取的第10个学生的编号为( )A .107B .097C .207D .187 答案 D解析 根据题意组距为1 00050=20,则抽取学生的编号组成以7为首项,20为公差的等差数列,其通项公式为a n =7+20(n -1),∴a 10=7+20()10-1=187.(2)已知某高级中学高一、高二、高三学生人数分别为880,860,820,现用分层抽样的方法从该校抽调128人,则在高二年级中抽调的人数为________. 答案 43解析 由题意可知,在高二年级中抽调的人数为128×860880+860+820=43.思维升华 (1)随机抽样的各种方法中,每个个体被抽到的概率都是相等的. (2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.跟踪演练1 (1) 为了解某地区的“微信健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.在下面的抽样方法中,最合理的抽样方法是( ) A .简单随机抽样 B .按性别分层抽样 C .按年龄段分层抽样 D .系统抽样答案 C解析 我们常用的抽样方法有:简单随机抽样、分层抽样和系统抽样,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.了解某地区的“微信健步走”活动情况,按年龄段分层抽样,这种方式具有代表性,比较合理.(2)(2018·永州模拟)现从已编号(1~50)的50位同学中随机抽取5位了解他们的数学学习状况,用每部分选取的号码间隔一样的系统抽样方法所选取的5位同学的编号可能是( ) A .5,10,15,20,25 B .3,13,23,33,43 C .1,2,3,4,5 D .2,10,18,26,34 答案 B解析 由系统抽样方法的概念可知,抽取5位,必须每层都有,则每10个里面有1个,所以符合要求的编号可能是3,13,23,33,43.热点二 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例2 (1)一组数据共有7个数,记得其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,这个数的所有可能值的和为( ) A .-11 B .3 C .9 D .17 答案 C解析 设没记清的数为x ,若x ≤2,则这列数为x,2,2,2,4,5,10,平均数为25+x7,中位数为2,众数为2,所以2×2=25+x7+2,得x =-11;若2<x ≤4,则这列数为2,2,2,x,4,5,10,则平均数为25+x7,中位数为x ,众数为2,所以2x =25+x7+2,得x =3;若x ≥5,则这列数为 2,2,2,4,5,x,10或2,2,2,4,5,10,x ,则平均数为25+x 7,中位数为4,众数为2,所以2×4=25+x 7+2,得x =17,所以-11+3+17=9.(2)某高校调查了320名学生每周的自习时间(单位:小时),制成了下图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据频率分布直方图可知,这320名学生中每周的自习时间不足22.5小时的人数约是( )A.68 B.72 C.76 D.80答案 B解析由频率分布直方图可得,320名学生中每周的自习时间不足22.5小时的人数约是320×(0.02+0.07)×2.5=72.思维升华(1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的平均数、众数、中位数和方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.跟踪演练2(1)为了从甲、乙两人中选一人参加数学竞赛,老师将二人最近的6次数学测试的分数进行统计,甲、乙两人的得分情况如图所示,若甲、乙两人的平均成绩分别是x甲,x 乙,则下列说法正确的是()A .x 甲>x 乙,乙比甲成绩稳定,应选乙参加比赛B .x 甲>x 乙,甲比乙成绩稳定,应选甲参加比赛C .x 甲<x 乙,甲比乙成绩稳定,应选甲参加比赛D .x 甲<x 乙,乙比甲成绩稳定,应选乙参加比赛 答案 D解析 由茎叶图可知,甲的平均数是x 甲=72+78+79+85+86+926=82,乙的平均数是x 乙=78+86+87+87+91+936=87,所以乙的平均数大于甲的平均数,即x 甲<x 乙,从茎叶图可以看出乙的成绩比较稳定,应选乙参加比赛.(2)(2018·大庆质检)下面是追踪调查200个某种电子元件寿命(单位:h)的频率分布直方图,其中300~400,400~500的两组数据丢失,下列四个说法中有且只有一个与原数据相符,这个说法是()①寿命在300~400的频数是90;②寿命在400~500的矩形的面积是0.2;③用频率分布直方图估计电子元件的平均寿命为150×0.1+250×0.15+350×0.45+450×0.15+550×0.15;④寿命超过400 h的频率为0.3.A.①B.②C.③D.④答案 B解析若①正确,则300~400对应的频率为0.45,则400~500对应的频率为0.15,明显与图不一致,故①不符合原数据;若②正确,则300~400对应的频率为0.4,频数为80,则①错误;电子元件的平均寿命为150×0.1+250×0.15+350×0.4+450×0.2+550×0.15,则③错误;寿命超过400 h的频率为0.2+0.15=0.35,则④错误,故符合题意.由[400,500)对应的频率明显大于0.15知③,④不符合原数据.热点三 统计案例 1.线性回归方程方程y ^=b ^x +a ^称为线性回归方程,其中b ^=∑ni =1x i y i -n x y ∑ni =1x 2i -n x2,a ^=y -b ^x ,(x ,y )称为样本点的中心. 2.随机变量 K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .例3 某高三理科班共有60名同学参加某次考试,从中随机挑选出5名同学,他们的数学成绩x 与物理成绩y 如下表:数据表明y 与x 之间有较强的线性关系. (1)求y 关于x 的线性回归方程;(2)该班一名同学的数学成绩为110分,利用(1)中的回归方程,估计该同学的物理成绩; (3)本次考试中,规定数学成绩达到125分为优秀,物理成绩达到100分为优秀.若该班数学优秀率与物理优秀率分别为50%和60%,且除去抽走的5名同学外,剩下的同学中数学优秀但物理不优秀的同学共有5人.能否在犯错误的概率不超过0.01的前提下认为数学优秀与物理优秀有关?参考数据:回归直线的系数b ^=∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2,a ^=y -b ^x . K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P ()K 2≥6.635=0.01,P ()K 2≥10.828=0.001. 解 (1)由题意可知x =120,y =90,∑i =15(x i -x )(y i -y )=(145-120)(110-90)+(130-120)×(90-90)+(120-120)(102-90)+(105-120)(78-90)+(100-120)(70-90) =500+0+0+180+400=1 080,i =15(x i -x )2=(145-120)2+(130-120)2+(120-120)2+(105-120)2+(100-120)2=625+100+0+225+400=1 350, 故b ^=1 0801 350=45=0.8.a ^=90-120×0.8=-6, 故线性回归方程为y ^=0.8x -6.(2)将x =110代入上述方程,得y ^=0.8×110-6=82.(3)由题意可知,该班数学优秀人数及物理优秀人数分别为30,36. 抽出的5人中,数学优秀但物理不优秀的共1人, 故全班数学优秀但物理不优秀的共6人. 于是可以得到如下2×2列联表:于是K 2=60×()24×18-12×6230×30×36×24=10>6.635,因此在犯错误的概率不超过0.01的前提下,可以认为数学优秀与物理优秀有关.思维升华 (1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值;回归直线过样本点的中心(x,y ),应引起关注.(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入公式求解K 2即可. 跟踪演练3 下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x =年份-2013.(1)已知y 与x 具有线性相关关系,求y 关于x 的线性回归方程,并预测2019年该百货零售企业的线下销售额;(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀。

相关主题