当前位置:文档之家› 高考文科数学二轮复习统计与统计案例

高考文科数学二轮复习统计与统计案例

第2讲统计与统计案例[做小题——激活思维]s1.采用系统抽样的方法从800人中抽取40人参加某种测试,为此将800人随机编号为1,2,…,800,分组后在第一组采用简单随机抽样的方法抽到的号码为18,在抽到的40人中,编号落入区间[1,200]的人做试卷A,编号落入区间[201,560]的人做试卷B,其余的人做试卷C,则做试卷C的人数为()A.10B.12C.18D.28[答案]B2.某校有高级教师26人,中级教师104人,其他教师若干人,现按分层抽样的方法从该校的所有教师中抽取56人进行某项调查,已知从其他教师中共抽取了16人,则该校共有教师人数为()A.81 B.152 C.182 D.202[答案]C3.为了参加端午节龙舟赛,某龙舟队进行了6次测试,测得最大速度(单位:m/s)的茎叶图如图所示,则6次测试的最大速度的平均数为________m/s,方差为________.[答案]3347 34.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据,第i 次试验零件个数x i (单位:个)与加工零件所花费时间y i (单位:小时)的数据资料,算得∑10i =1x i =80,∑10i =1y i =20,∑10i =1x i y i =184,∑10i =1x 2i =720,那么加工零件所花费时间y 对零件个数x 的线性回归方程为________.y ^=0.3x -0.4 [由题意知n =10,x =1n ∑n i =1x i =8010=8,y =1n ∑n i =1y i =2010=2,又∑ni =1x 2i -n x 2=720-10×82=80,∑ni =1x i y i -n x y =184-10×8×2=24,由此得b ^=2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4, 故所求回归方程为y ^=0.3x -0.4.]5.在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:感染与服用疫苗有关”.0.05 [由题意算得,K 2=100×(10×30-20×40)250×50×30×70≈4.762>3.841,参照附表,可得:在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用疫苗有关”.][扣要点——查缺补漏]1.随机抽样简单随机抽样的特点是逐个抽取,适用于总体个数较少的情况;系统抽样也称等距抽样,适用总体个数较多的情况,如T 1;分层抽样一定要注意按比例抽取,总体由差异明显的几部分组成,如T 2.2.统计图表和样本数字特征(1)由频率分布直方图进行相关计算时,需掌握关系式:频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.(2)总体估计的方法:用样本的数字特征估计总体的数字特征.(3)图表判断法:若根据统计图表比较样本数据的大小,可根据数据的分布情况直观分析,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小.如T 3.3.统计案例(1)线性回归方程问题的两个要点:样本点的中心在回归直线上;由线性回归方程求出的数值是估计值.如T 4.(2)独立性检验的关键在于准确求出K 2值,然后对比临界值表中的数据,最后下结论.如T 5.抽样方法(5年2考)[高考解读]全国卷对抽样方法的要求较低,很少单独命题考查.1.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.切入点:不同年龄段客户对其服务的评价有较大差异.关键点:正确掌握三种抽样方法的特点及适用条件.分层抽样[因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.] 2.(2019·全国卷Ⅰ)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生切入点:①系统抽样;②46号学生被抽到.关键点:正确掌握系统抽样的概念.C[根据题意,系统抽样是等距抽样,所以抽样间隔为1 000100=10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.]1.(系统抽样)某班共有52人,现根据学生的学号,用系统抽样的方法抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一名学生的学号是()A.10B.11C.12 D.16D[从被抽中的3名学生的学号可以看出学号间距为13,所以样本中还有一名学生的学号是16,故选D.]2.(分层抽样)某商场有四类食品,食品类别和种数见下表:取样本,则抽取的植物油类与果蔬类食品种数之和为________.6[因为粮食类种数∶植物油类种数∶动物性食品类种数∶果蔬类种数=40∶10∶30∶20=4∶1∶3∶2,所以根据分层抽样的定义可知,抽取的植物油类食品种数为110×20=2,抽取的果蔬类食品种数为210×20=4,所以抽取的植物油类与果蔬类食品种数之和为2+4=6.]3.(简单随机抽样)“双色球”彩票中红色球的号码由编号为01,02,…,33的33个个体组成,一位彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为________.字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.]4.(分层抽样与统计图表的综合)某企业三月中旬生产A、B、C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:由于不小心,表格中A、C产品的有关数据已被损坏,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C产品的数量是________.800[设样本的总容量为x,则x3 000×1 300=130,∴x=300.∴A产品和C产品在样本中共有300-130=170(件),设C产品的样本容量为y,则y+y+10=170,∴y=80,∴C产品的数量为3 000300×80=800.]用样本估计总体(5年10考)倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半切入点:①建设前经济收入构成比例;②建设后经济收入构成比例.关键点:从图表中正确提取有用信息.A[设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D 正确.]2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳切入点:2014年1月至2016年12月期间月接待游客量的数据.关键点:从折线图中准确提取信息.A[对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.]3.(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602. 切入点:频数分布表.关键点:正确应用平均数与标准差的计算方法.[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100∑5i =1n i (y i -y )2=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7] =0.029 6,s =0.029 6=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.1.(频率分布折线图、众数)某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率分布折线图(如图所示).据此估计此次考试成绩的众数是()A.100B.110C.115D.120C[众数是一组数据出现次数最多的数,结合题中频率分布折线图可以看出,数据“115”对应的纵坐标最大,所以相应的频率最大,频数最大,据此估计此次考试成绩的众数是115.]2.(频率分布直方图)某校为了解学生平均每周的上网时间(单位;h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为()A.200 B.240 C.400 D.480C[设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,人数为0.4×1 000=400.]3.(茎叶图、平均数、方差)甲、乙两名学生在5次数学考试中的成绩统计如图所示,若x甲,x乙分别表示甲、乙两人的平均成绩,则下列结论正确的是()A.x甲>x乙,乙比甲稳定B.x甲>x乙,甲比乙稳定C.x甲<x乙,乙比甲稳定D.x甲<x乙,甲比乙稳定A[因为x甲=15×(74+82+88+91+95)=86,x乙=15×(77+77+78+86+92)=82,所以x甲>x乙.因为s2甲=15×[(-12)2+(-4)2+22+52+92]=54,s2乙=15×[(-5)2+(-5)2+(-4)2+42+102]=36.4,所以s2甲>s2乙,故乙比甲稳定.故选A.]4.(频率分布直方图、均值的应用)为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单位:小时)如下:248 256 232 243 188 268 278 266 289 312274 296 288 302 295 228 287 217 329 283(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.(2)由题意可得8×(0.30+0.10+0.05)=3.6,所以估计8万台电风扇中有3.6万台无故障持续使用时限不低于280小时.(3)由频率分布直方图可知x=190×0.05+210×0.05+230×0.10+250×0.15+270×0.20+290×0.30+310×0.10+330×0.05=269(小时),所以样本的平均无故障连续使用时限为269小时.统计案例(5年6考)1.(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:≈0.212,∑16i=1(i-8.5)2≈18.439,i=1(x i-x)(i-8.5)=-2.78,其中x i为抽取的第i个零件的尺寸,i=1,2, (16)(1)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i,y i)(i=1,2,…,n)的相关系数r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2,0.008≈0.09.切入点:相关系数r和标准差s的计算公式.关键点:题意的理解及数据的准确计算.[解](1)由样本数据得(x i,i)(i=1,2,…,16)的相关系数r=∑16i=1(x i-x)(i-8.5)∑16i=1(x i-x)2∑16i=1(i-8.5)2≈-2.780.212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于x=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x-3s,x+3s)以外,因此需对当天的生产过程进行检查.(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑16i=1x2i≈16×0.2122+16×9.972≈1 591.134,剔除第13个数据,剩下数据的样本方差为115(1 591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.角度二:独立性检验的应用2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),关键点:根据茎叶图中的数据的集中程度作出效率高低的判断;通过茎叶图确定中位数,并完成2×2列联表,将数据代入公式计算.[解](1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可.)(2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2=20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.1.(线性回归分析)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如表:(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);(3)根据y关于x的回归方程,预测第5年的销售量.参考公式:回归直线的斜率和截距的最小二乘法估计分别为b ^=∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2=∑n i =1x i y i -n x y ∑ni =1x 2i -n x2,a ^=y -b ^x .[解] (1)作出的散点图如图:(2)根据散点图观察,可以用线性回归模型拟合y 与x 的关系.观察散点图可知各点大致分布在一条直线附近,列出表格:可得x =52,y =692,所以b ^=∑4i =1x i y i -4x y∑4i =1x 2i -4x2=418-4×52×69230-4×⎝ ⎛⎭⎪⎫522=735,a ^=y -b ^x =692-735×52=-2. 故回归直线方程为y ^=735x -2.(3)当x =5时,y ^=735×5-2=71. 故预测第5年的销售量为71万件.2.(直方图与统计案例的综合问题)“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”……江南梅雨的点点滴滴都流润着浓烈的诗情.每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q 镇2009~2018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:(1)“梅实初黄暮雨深”,请用样本平均数估计Q 镇明年梅雨季节的降雨量; (2)“江南梅雨无限愁”,Q 镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅2009~2018年的亩产量(单位:kg)与降雨量的发生频数(年)如2×2列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .0.1.所以用样本平均数估计Q 镇明年梅雨季节的降雨量为150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm). (2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.进而完善列联表如下.K 2=10×(2×1-5×2)7×3×4×6=8063≈1.270<1.323.故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.。

相关主题