当前位置:文档之家› 2015届高考数学二轮专题训练:专题七 第3讲 统计与统计案例

2015届高考数学二轮专题训练:专题七 第3讲 统计与统计案例

第3讲 统计与统计案例考情解读 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中、低档题.1.随机抽样(1)简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.2.常用的统计图表 (1)频率分布直方图 ①小长方形的面积=组距×频率组距=频率; ②各小长方形的面积之和等于1;③小长方形的高=频率组距,所有小长方形的高的和为1组距.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数(2)方差:s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2].标准差: s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 4.变量的相关性与最小二乘法(1)相关关系的概念、正相关和负相关、相关系数.(2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q =∑i =1n(y i-a -bx i )2最小时,得到线性回归方程y ^=b ^x +a ^的方法叫做最小二乘法. 5.独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是则K 2(χ2)=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 抽样方法例1 (1)(2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14(2)(2014·石家庄高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________. 思维启迪 (1)系统抽样时需要抽取几个个体,样本就分成几组,且抽取号码的间隔相同;(2)分层抽样最重要的是各层的比例. 答案 (1)B (2)200解析 (1)由84042=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为720-48020=24020=12. (2)本题属于分层抽样,设该学校的教师人数为x ,所以1603 200=160-150x,所以x =200.思维升华(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.(1)某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法,抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,…,1 470编号,若第1组有简单随机抽样方法抽取的号码为23,则高二应抽取的学生人数为()A.15 B.16 C.17 D.18(2)(2014·广东)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A.200,20 B.100,20C.200,10 D.100,10答案(1)C(2)A解析(1)由系统抽样方法,知按编号依次每30个编号作为一组,共分49组,高二学生的编号为496到988,在第17组到第33组内,第17组抽取的编号为16×30+23=503,为高二学生,第33组抽取的编号为32×30+23=983,为高二学生,故共抽取高二学生人数为33-16=17,故选C.(2)该地区中、小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20,故选A.热点二用样本估计总体例2(1)(2014·山东)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A.6 B.8 C.12 D.18(2)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,如图是根据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是()A.甲B.乙C.甲乙相等D.无法确定甲乙20.04123 6930.0596210.06293310.079640.08770.09246思维启迪(1)根据第一组与第二组的人数和对应频率估计样本总数,然后利用第三组的频率和无疗效人数计算;(2)直接根据公式计算方差.答案(1)C(2)A解析(1)志愿者的总人数为20(0.16+0.24)×1=50,所以第三组人数为50×0.36=18,有疗效的人数为18-6=12.(2)x甲=(0.042+0.053+0.059+0.061+0.062+0.066+0.071+0.073+0.073+0.084+0.086+0.097)÷12≈0.068 9,x乙=(0.041+0.042+0.043+0.046+0.059+0.062+0.069+0.079+0.087+0.092+0.094+0.096)÷12≈0.067 5,s2=112[(0.042-0.068 9)2+(0.053-0.068 9)2+…+(0.097-0.068 9)2]≈0.000 212.s2=112[(0.041-0.067 5)2+(0.042-0.067 5)2+…+(0.096-0.067 5)2]≈0.000 429.所以甲、乙两地浓度的方差较小的是甲地.思维升华(1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.(1)某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.(2)(2014·陕西)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a (a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( ) A .1+a,4 B .1+a,4+a C .1,4D .1,4+a答案 (1)10 (2)A解析 (1)由频率分布直方图可知: 0.100.40=2.5x,所以x =10. (2)x 1+x 2+…+x 1010=1,y i =x i +a ,所以y 1,y 2,…,y 10的均值为1+a ,方差不变仍为4. 故选A.热点三 统计案例例3 (1)以下是某年2月某地区搜集到的新房屋的销售价格y 和房屋的面积x 的数据.根据上表可得线性回归方程y =b x +a 中的b =0.196 2,则面积为150 m 2的房屋的销售价格约为________万元.(2)(2014·江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表4A.成绩 B .视力 C 思维启迪 (1)回归直线过样本点中心(x ,y ); (2)根据列联表,计算K 2的值 答案 (1)31.244 2 (2)D解析 (1)由表格可知x =15(115+110+80+135+105)=109,y =15(24.8+21.6+18.4+29.2+22)=23.2.所以a ^=y -b ^x =23.2-0.196 2×109=1.814 2.所以所求线性回归方程为y ^=0.196 2x +1.814 2.故当x =150时,销售价格的估计值为y ^=0.196 2×150+1.814 2=31.244 2(万元).(2)A 中,a =6,b =14,c =10,d =22,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(6×22-14×10)220×32×16×36=131 440.B 中,a =4,b =16,c =12,d =20,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(4×20-16×12)220×32×16×36=637360.C 中,a =8,b =12,c =8,d =24,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(8×24-12×8)220×32×16×36=1310.D 中,a =14,b =6,c =2,d =30,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(14×30-6×2)220×32×16×36=3 757160.∵131 440<1310<637360<3 757160, ∴与性别有关联的可能性最大的变量是阅读量.思维升华 (1)线性回归方程求解的关键在于准确求出样本点中心.回归系数的求解可直接把相应数据代入公式中求解,回归常数的确定则需要利用中心点在回归直线上建立方程求解;(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入K 2(χ2)计算公式求其值,根据K 2(χ2)取值范围求解即可.(1)已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a 等于( ) A .1.30 B .1.45 C .1.65 D .1.80(2)某研究机构为了研究人的脚的大小与身高之间的关系,随机抽测了20人,若“身高大于175厘米”的为“高个”,“身高小于等于175厘米”的为“非高个”,“脚长大于42码”的为“大脚”,“脚长小于等于42码”的为“非大脚”.得以下2×2列联表:则在犯错误的概率不超过 (附:P (K 2>k ) 0.05 0.01 0.001 k3.8416.63510.828)答案 (1)B (2)0.01解析 (1)依题意得,x =16×(0+1+4+5+6+8)=4,y =16(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a ^必过样本点中心(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ^,由此解得a ^=1.45. (2)由题意得K 2=20×(5×12-1×2)26×14×7×13≈8.802>6.635.而K 2>6.635的概率约为0.01,所以在犯错误的概率不超过0.01的前提下认为人的脚的大小与身高之间有关系.1.随机抽样的方法有三种,其中简单随机抽样适用于总体中的个体数量不多的情况,当总体中的个体数量明显较多时要使用系统抽样,当总体中的个体具有明显的层次时使用分层抽样.系统抽样最重要的特征是“等距”,分层抽样,最重要的是各层的“比例”. 2.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1. (2)众数、中位数及平均数的异同:众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.①总体期望的估计,计算样本平均值x =1n ∑n i =1x i .②总体方差(标准差)的估计:方差=1n ∑ni =1 (x i -x )2,标准差=方差,方差(标准差)较小者较稳定.3.线性回归方程y ^=b ^x +a ^过样本点中心(x ,y ),这为求线性回归方程带来很多方便. 4.独立性检验(1)作出2×2列联表.(2)计算随机变量K 2(χ2)的值.(3)查临界值,检验作答.真题感悟1.(2014·江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.答案 24解析 底部周长在[80,90)的频率为0.015×10=0.15, 底部周长在[90,100)的频率为0.025×10=0.25,样本容量为60,所以树木的底部周长小于100 cm 的株数为(0.15+0.25)×60=24.2.(2014·重庆)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的线性回归方程进行检验,可以排除B ,故选A. 押题精练1.某地区对某路段公路上行驶的汽车速度实施监控,从中抽取50辆汽车进行测速分析,得到如图所示的时速的频率分布直方图,根据该图,时速在70 km/h 以下的汽车有________辆.答案 20解析 时速在70 km/h 以下的汽车所占的频率为0.01×10+0.03×10=0.4,共有0.4×50=20(辆).2.某教育出版社在高三期末考试结束后,从某市参与考试的考生中选取600名学生对在此期间购买教辅资料的情况进行调研,得到如下数据:的学生应抽取的人数为________. 答案 24解析 只买试题类的学生应抽取的人数为60×240600=24.3.下表提供了某厂节能减排技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为________. 答案 3解析 ∵样本点中心为⎝⎛⎭⎫4.5,11+t 4,∴11+t 4=0.7×4.5+0.35,解得t =3.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )参照附表,得到的正确结论是( )A .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关” 答案 C解析 由公式可计算K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(45×15-30×10)255×45×75×25≈3.03>2.706,所以有90%以上的把握认为“该市民能否做到‘光盘’与性别有关”,故选C.(推荐时间:40分钟)一、选择题1.(2014·湖南)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则() A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3答案 D解析由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p1=p2=p3.2.某中学高中一年级有400人,高中二年级有320人,高中三年级有280人,现从中抽取一个容量为200人的样本,则高中二年级被抽取的人数为()A.28 B.32C.40 D.64答案 D解析由已知,得样本容量为400+320+280=1 000,所以,高中二年级被抽取的人数为2001 000×320=64,选D.3.(2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A.08C.02 D.01答案 D解析从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.4.为了了解某城市今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为120,则抽取的学生人数是()A .240B .280C .320D .480答案 D解析 由频率分布直方图知:学生的体重在65~75 kg 的频率为(0.012 5+0.037 5)×5=0.25, 则学生的体重在50~65 kg 的频率为1-0.25=0.75. 从左到右第2个小组的频率为0.75×26=0.25.所以抽取的学生人数是120÷0.25=480.5.某产品在某零售摊位上的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得线性回归方程y ^=b ^x +a 中的b =-4,据此模型预计零售价定为15元时,每天的销售量为( ) A .48个 B .49个 C .50个 D .51个答案 B解析 由题意知x =17.5,y =39,代入线性回归方程得a ^=109,109-15×4=49,故选B. 6.某校为了研究学生的性别和对待某一活动的态度(支持和不支持的两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动有关系.”( ) 附:A.0.1% C .99% D .99.9%答案 C解析 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”,选C.7.某苗圃基地为了解基地内甲、乙两块地种植的同一种树苗的长势情况,从两块地各随机抽取了10株树苗,用茎叶图表示上述两组数据,对两块地抽取树苗的高度的平均数x 甲,x 乙和中位数y 甲,y 乙进行比较,下面结论正确的是( ) A.x 甲>x 乙,y 甲>y 乙 B.x 甲<x 乙,y 甲<y 乙 C.x 甲<x 乙,y 甲>y 乙 D.x 甲>x 乙,y 甲<y 乙 答案 B 二、填空题8.从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图).则这100名学生成绩的平均数、中位数分别为________.答案 125,124解析 由图可知(a +a -0.005)×10=1-(0.010+0.015+0.030)×10,解得a =0.025,则x =105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.中位数在120~130之间,设为x ,则0.01×10+0.03×10+0.025×(x -120)=0.5,解得x =124.9.某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A 给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x )无法看清,若记分员计算无误,则数字x 应该是__________. 答案 1解析 当x ≥4时,89+89+92+93+92+91+947=6407≠91,∴x <4,∴89+89+92+93+92+91+x +907=91,∴x =1.10.(2013·辽宁)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________. 答案 10解析 设5个班级中参加的人数分别为x 1,x 2,x 3,x 4,x 5, 则由题意知x 1+x 2+x 3+x 4+x 55=7,(x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)2=20, 五个整数的平方和为20,则必为0+1+1+9+9=20, 由|x -7|=3可得x =10或x =4. 由|x -7|=1可得x =8或x =6.由上可知参加的人数分别为4,6,7,8,10, 故最大值为10. 三、解答题11.(2014·课标全国Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17=(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求线性回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的线性回归方程,得y ^=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12.某城市随机抽取一年(365天)内100天的空气质量指数API 的监测数据,结果统计如下:式为:S =⎩⎪⎨⎪⎧0, 0≤w ≤1004w -400,100<w ≤3002 000, w >300,试估计在本年度内随机抽取一天,该天经济损失S 大于200元且不超过600元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染.完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?附: K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).解 (1)设“在本年内随机抽取一天,该天经济损失S 大于200元且不超过600元”为事件A , 由200<S ≤600,得150<w ≤250,频数为39, 所以P (A )=39100.(2)根据以上数据得到如下列联表:K 2的观测值k =100×(63×8-22×7)85×15×30×70≈4.575>3.841.所以有95%的把握认为空气重度污染与供暖有关.。

相关主题