当前位置:文档之家› 第三讲 正态分布、统计与统计案例

第三讲 正态分布、统计与统计案例

专题六概率与统计、算法、复数、推理与证明第三讲正态分布、统计与统计案例高考导航1.考查正态曲线的性质及正态分布的概率计算.2.考查系统抽样和分层抽样、样本的频率分布与数字特征、线性回归分析、独立性检验.3.与概率知识交汇进行综合考查.1.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图:根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳[解析] 折线图呈现出的是一个逐渐上升的趋势,但是并不是每个月都在增加,故A 说法错误;折线图中按照年份进行划分,可以看出每年的游客量都在逐年增加,故B 说法正确;折线图中每年的高峰出现在每年的7,8月,故C 说法正确;每年的1月至6月相对于7月至12月的波动性更小,变化的幅度较小,说明变化比较平稳,故D 说法正确.[答案] A2.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^,已知∑i =110x i =225,∑i =110y i =1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170[解析] 由题意可得x -=22.5,y -=160,∴a ^=160-4×22.5=70,即y ^=4x +70.当x =24时,y ^=4×24+70=166,故选C.[答案] C3.(2017·江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量 ,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.[解析]从丙种型号的产品中抽取的件数为60×300200+400+300+100=18.[答案]184.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)的估计值(精确到0.01).附:K2=.(a+b)(c+d)(a+c)(b+d)[解](1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.4092.(2)根据箱产量的频率分布直方图得列联表K2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg).考点一正态分布1.正态曲线的性质(1)曲线位于x轴上方,与x轴不相交;曲线关于直线x=μ对称,且在x=μ处达到峰值.(2)曲线与x轴之间的面积为1.(3)当μ一定时,曲线的形状由σ确定,σ越小,曲线越“瘦高”,表示总体的分布越集中;σ越大,曲线越“矮胖”,表示总体的分布越分散.2.正态分布X~N(μ,σ2)的三个常用数据(1)P(μ-σ<X≤μ+σ)=0.6826;(2)P(μ-2σ<X≤μ+2σ)=0.9544;(2)P(μ-3σ<X≤μ+3σ)=0.9974.[思维流程][解](1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.9974,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.0026,故X~B(16,0.0026).因此P(X≥1)=1-P(X=0)=1-0.997416≈0.0408.X的数学期望为E(X)=16×0.0026=0.0416.(2)(ⅰ)如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.0026,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.0408,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.(ⅱ)由x -=9.97,s ≈0.212,得μ的估计值为μ^=9.97,σ的估计值为σ^=0.212,由样本数据可以看出有一个零件的尺寸在(μ^-3σ^,μ^+3σ^)之外,因此需对当天的生产过程进行检查.剔除(μ^-3σ^,μ^+3σ^)之外的数据9.22,剩下数据的平均数为 115×(16×9.97-9.22)=10.02,因此μ的估计值为10.02.i =116x 2i =16×0.2122+16×9.972≈1591.134,剔除(μ^-3σ^,μ^+3σ^)之外的数据9.22,剩下数据的样本方差为 115×(1591.134-9.222-15×10.022)≈0.008, 因此σ的估计值为0.008≈0.09.正态分布应关注的两点(1)利用P (μ-σ<X ≤μ+σ),P (μ-2σ<X ≤μ+2σ),P (μ-3σ<X ≤μ+3σ)的值直接求解.(2)充分利用正态曲线的对称性和曲线与x 轴之间的面积为1来求解.[对点训练]1.(2017·兰州检测)设X~N(μ1,σ21),Y~N(μ2,σ22),这两个正态分布密度曲线如图所示,下列结论中正确的是()A.P(Y≥μ2)≥P(Y≥μ1)B.P(X≤σ2)≤P(X≤σ1)C.对任意正数t,P(X≥t)≥P(Y≥t)D.对任意正数t,P(X≤t)≥P(Y≤t)[解析]由题图可知μ<0<μ2,σ1<σ2,1∴P(Y≥μ2)<P(Y≥μ1),故A错;P(X≤σ2)>P(X≤σ1),故B错;当t为任意正数时,由题图可知P(X≤t)≥P(Y≤t),而P(X≤t)=1-P(X≥t),P(Y≤t)=1-P(Y≥t),∴P(X≥t)≤P(Y≥t),故C正确,D错.[答案] C2.某校组织了“2017年第15届希望杯数学竞赛(第一试)”,已知此次选拔赛的数学成绩X服从正态分布N(72,121)(单位:分),此次考生共有500人,估计数学成绩在72分到83分之间的人数约为(参数数据:P(μ-σ<X<μ+σ)=0.6826,P(μ-2σ<X<μ+2σ)=0.9544.)()A .238B .170C .340D .477[解析] 因为X ~N (72,121),所以μ=72,σ=11,又P (μ-σ<X <μ+σ)=0.6826,所以P (61<X <83)=0.6826,因为该正态曲线关于直线x =72对称,所以P (72<X <83)=12P (61<X <83)=12×0.6826=0.3413,所以0.3413×500=170.65,从而可得在72分到83分之间的人数约为170,故选B.[答案] B考点二 抽样方法、用样本估计总体1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样.2.频率分布直方图(1)频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距. (2)频率分布直方图中各小长方形的面积之和为1.3.方差公式s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2][对点训练]1.(2017·怀化二模)某校高三(1)班共有48人,学号依次为1,2,3,…,48,现用系统抽样的方法抽取一个容量为6的样本,已知学号为3,11,19,35,43的同学在样本中,则还有一个同学的学号应为()A.27 B.26C.25 D.24[解析]根据系统抽样的规则——“等距离”抽取,则抽取的号码差相等,易知相邻两个学号之间的差为11-3=8,所以在19与35之间还有27,故选A.[答案] A2.(2016·山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56 B.60C.120 D.140[解析]由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140.故选D.[答案] D3.(2017·山东临沂一模)传承传统文化再掀热潮,在刚刚过去的新春假期中,央视科教频道以诗词知识竞赛为主的《中国诗词大会》火爆荧屏,如图的茎叶图是两位选手在个人追逐赛中的比赛得分,则下列说法正确的是( )A .甲的平均数大于乙的平均数B .甲的中位数大于乙的中位数C .甲的方差大于乙的方差D .甲的平均数等于乙的中位数[解析] 由茎叶图,知:x -甲=19(59+45+32+38+24+26+11+12+14)=29,x -乙=19(51+43+30+34+20+25+27+28+12)=30, s 2甲=19[302+162+32+92+(-5)2+(-3)2+(-18)2+(-17)2+(-15)2]≈235.3,s 2乙=19[212+132+02+42+(-10)2+(-5)2+(-3)2+(-2)2+(-18)2]≈120.9,甲的中位数为:26,乙的中位数为:28,∴甲的方差大于乙的方差.故选C.[答案] C4.(2017·正定中学抽测)从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图),则这100名学生成绩的平均数为________,中位数为________.[解析]由图可知,平均数x=105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.中位数在120~130之间,设为x,则0.01×10+0.03×10+0.025×(x-120)=0.5,解得x=124.[答案]125124统计问题应关注的3点(1)分层抽样的关键是确定抽样比例,系统抽样主要是确定分段间隔,应用等差数列计算个体号码数.(2)在频率分布直方图中,众数为最高矩形的底边中点的横坐标,中位数为垂直横轴且平分直方图面积的直线与横轴交点的横坐标,平均数为每个小矩形的面积乘以相应小矩形底边中点的横坐标之积的和.(3)计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.考点三 线性回归分析、独立性检验1.线性回归方程方程y ^=b ^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y-b ^x ;(x ,y )称为样本中心点.2.独立性检验K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).角度1:线性回归方程的求解及应用【例2-1】 (2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.[解] (1)由折线图中数据和附注中参考数据得 t =4,∑i =17(t i -t )2=28,∑i =17(y i -y )2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=2.8928≈0.103,a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 角度2:独立性检验的应用[解] (1)优秀 非优秀 合计 甲班 10 50 60 乙班203050(2)K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩是否优秀与班级有关系”.(1)求回归直线方程的关键①正确理解计算b ^,a ^的公式和准确的计算,其中线性回归方程必过样本中心点(x ,y ).②在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)独立性检验的关键根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表.K 2的观测值k 越大,对应假设事件H 0成立的概率越小,H 0不成立的概率越大.[对点训练]1.[角度1]某地随着经济的发展,居民收入逐年增长,该地一建设银行连续五年的储蓄存款(年底余额)如下表:t =x -2010,z =y -5得到下表:(1)求z 关于(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x -·y-∑i =1nx 2i -n x-2,a ^=y--b ^x -)[解] (1)令z 关于t 的线性回归方程为z ^=b ^t +a ^, ∵t -=3,z -=2.2,∑i =15t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4,∴z ^=1.2t -1.4.(2)将t =x -2010,z =y -5,代入z ^=1.2t -1.4, 得y ^-5=1.2(x -2010)-1.4,即y ^=1.2x -2408.4. (3)∵y ^=1.2×2020-2408.4=15.6(千亿元),∴预测到2020年年底,该地储蓄存款额可达15.6千亿元. 2.[角度2](2018·惠州市高三第一次调研)近年来,随着我国在教育科研上的投入不断加大,科学技术得到迅猛发展,国内企业的国际竞争力得到大幅提升.伴随着国内市场增速放缓,国内有实力的企业纷纷进行海外布局,第二轮企业出海潮到来.如在智能手机行业,国产品牌已在赶超国外巨头,某品牌手机公司一直默默拓展海外市场,在海外共设30多个分支机构,需要国内公司外派大量70后、80后中青年员工.该企业为了解这两个年龄层员工是否愿意被外派工作的态度,按分层抽样的方法从70后和80后的员工中随机调查了100位,得到数据如表:(1)外派与年龄有关”,并说明理由;(2)该公司举行参观驻海外分支机构的交流体验活动,拟安排6名参与调查的70后、80后员工参加.70后员工中有愿意被外派的3人和不愿意被外派的3人报名参加,从中随机选出3人,记选到愿意被外派的人数为x;80后员工中有愿意被外派的4人和不愿意被外派的2人报名参加,从中随机选出3人,记选到愿意被外派的人数为y.求x<y的概率.参考数据:参考公式:K2=,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)[解](1)有90%以上的把握认为“是否愿意被外派与年龄有关”,理由如下:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(20×20-40×20)260×40×60×40=400×400×1005760000≈2.778>2.706,所以有90%以上的把握认为“是否愿意被外派与年龄有关”. (2)“x <y ”包含“x =0,y =1”、“x =0,y =2”、“x =0,y =3”、“x =1,y =2”、“x =1,y =3”、“x =2,y =3”六个事件,且P (x =0,y =1)=C 03C 33C 36×C 14C 22C 36=4400,P (x =0,y =2)=C 03C 33C 36×C 24C 12C 36=12400,P (x =0,y =3)=C 03C 33C 36×C 34C 02C 36=4400,P (x =1,y =2)=C 13C 23C 36×C 24C 12C 36=108400,P (x =1,y =3)=C 13C 23C 36×C 34C 02C 36=36400,P (x =2,y =3)=C 23C 13C 36×C 34C 02C 36=36400,所以P (x <y )=4+12+4+108+36+36400=200400=12. 即x <y 的概率为12.热点课题23 统计知识的实际应用[感悟体验](2017·山西吕梁二模)某校某次N 名学生的学科能力测评成绩(满分120分)的频率分布直方图如下,已知分数在100~110的学生数有21人.(1)求总人数N 和分数在110~115分的人数n ;(2)现准备从分数在110~115的n 名学生(女生占13)中选3位分配给A老师进行指导,求选出的3位学生中有1位女生的概率;(3)为了分析某个学生的学习状态,对其下一阶段的学习提供指导建议,对他前7次考试的数学成绩x、物理成绩y进行分析,该生7次考试成绩如表y关于x的线性回归方程y^=b^x+a^.若该生的数学成绩达到130分,请你估计他的物理成绩大约是多少?附:对于一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归方程y^=b^x+a^的斜率和截距的最小二乘估计分别为b^=∑i=1n(x i-x-)(y i-y-)∑i=1n(x i-x-)2,a^=y--b^x-.[解](1)分数在100~110内的学生的频率为P1=(0.04+0.03)×5=0.35,所以该班总人数为N=210.35=60,分数在110~115内的学生的频率为P 2=1-(0.01+0.04+0.05+0.04+0.03+0.01)×5=0.1, 分数在110~115内的人数为n =60×0.1=6.(2)由题意分数在110~115内有6名学生,其中女生有2名,从6名学生中选出3人,有1位女生的概率为P =C 12·C 24C 36=35.(3)计算x -=17×(88+83+117+92+108+100+112)=100, y -=17×(94+91+108+96+104+101+106)=100; 由于x 与y 之间具有线性相关关系,根据回归系数公式得到b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n (x i -x -)2=497994=0.5,a ^=y --b ^x -=100-0.5×100=50, ∴线性回归方程为y ^=0.5x +50, ∴当x =130时,y ^=0.5×130+50=115.。

相关主题