重难点05 概率与统计【命题趋势】统计与概率是高考文科中的一个重要的一环高考对概率与统计内容的考查一般以实际应用题出现,这既是这类问题的特点,也符合高考发展的方向.概率应用题侧重于古典概率,近几年的高考有以概率应用题替代传统应用题的趋势,该题出现在解答题第二或第三题的位置,可见概率统计在高考中属于中档题.虽为中档题,但是实际生活背景在加强,阅读量大,所以快速阅读考题并准确理解题意是很重要的.对于这部分,我们还应当重视与传统内容的有机结合. 为了准确地把握2020年高考概率统计命题思想与趋势,在最后的复习中做到有的放矢,提高复习效率,纵观近五年的全国文科I卷,我们看到近几年每年一考,多出现在19题,分值12分;从难度上看:以中档题为主,重基础,考查的重点为统计图表的绘制与分析、数字特征的计算与分析、概率计算、线性回归分析,独立性检验等知识点,一般都会以实际问题为载体,代替传统建模题目.本专题我们把这些热点问题逐一说明,并提出备考指南,希望同学们在复习时抓住重点、事半功倍.【热点预测以及解题技巧】热点一:“统计”背景下的“概率”问题这类问题一般将统计与概率相结合.以频率分布直方图或茎叶图为背景来考查概率知识,有时以表格为背景来考查概率知识,需要从统计图、表格获取信息、处理数据的能力,并根据得出的数据求概率.热点二:样本分析并通过样本分析作决策进行样本分析时从统计图表中获取数据,得出频率、平均数、方差,用样本频率估计概率、样本数字特征估计总体数字特征,有时需以此作出决策.热点三:线性回归分析根据最小二乘法得出回归直线方程,有时需适当换元转化为线性回归方程. 由于计算量很大,题目一般会给出的参考数据,但是注意数据设置的“障眼法”,这时就要认真领会题意,找出适用的参考数据加以计算.热点四:独立性检验寻找数据完成列联表,下面的解题步骤比较固定,按部就班完成即可.热点五:与函数相结合的概率统计题这类题也是近几年出现较多的一类题,其综合性强,理解题意后找准变量,构建函数关系式.【限时检测】(建议用时:35分钟) 一、单选题1.(2019·四川高考模拟(文))空气质量指数AQI 是一种反映和评价空气质量的方法,AQI 指数与空气质量对应如下表所示:如图是某城市2018年12月全月的指AQI 数变化统计图.根据统计图判断,下列结论正确的是( ) A .整体上看,这个月的空气质量越来越差B .整体上看,前半月的空气质量好于后半月的空气质量C .从AQI 数据看,前半月的方差大于后半月的方差D .从AQI 数据看,前半月的平均值小于后半月的平均值 【答案】C 【分析】根据题意可得,AQI 指数越高,空气质量越差;数据波动越大,方差就越大,由此逐项判断,即可得出结果.【详解】从整体上看,这个月AQI数据越来越低,故空气质量越来越好;故A,B不正确;从AQI数据来看,前半个月数据波动较大,后半个月数据波动小,比较稳定,因此前半个月的方差大于后半个月的方差,所以C正确;从AQI数据来看,前半个月数据大于后半个月数据,因此前半个月平均值大于后半个月平均值,故D不正确.故选C.【点睛】本题主要考查样本的均值与方差,熟记方差与均值的意义即可,属于基础题型. 2.(2020·陕西高三月考(理))如图是某学校研究性课题《什么样的活动最能促进同学们进行垃圾分类》向题的统计图(每个受访者都只能在问卷的5个活动中选择一个),以下结论错误的是()A.回答该问卷的总人数不可能是100个B.回答该问卷的受访者中,选择“设置分类明确的垃圾桶”的人数最多C.回答该问卷的受访者中,选择“学校团委会宣传”的人数最少D.回答该问卷的受访者中,选择“公益广告”的人数比选择“学校要求”的少8个【答案】D【分析】先对图表数据分析处理,再结合简单的合情推理逐一检验即可得解.【详解】对于选项A,若回答该问卷的总人数不可能是100个,则选择③④⑤的同学人数不为整数,故A正确,对于选项B,由统计图可知,选择“设置分类明确的垃圾桶”的人数最多,故B正确,对于选项C,由统计图可知,选择“学校团委会宣传”的人数最少,故C正确,对于选项D,由统计图可知,选择“公益广告”的人数比选择“学校要求”的少8%,故D 错误,故选D.【点睛】本题考查了对图表数据的分析处理能力及简单的合情推理,属中档题. 3.(2018·湖南高考模拟(文))已知变量x 、y 之间的线性回归方程为0.710.3y x =-+,且变量x 、y 之间的一-组相关数据如下表所示,则下列说法错误..的是( )A .可以预测,当20x =时, 3.7y =-B .4m =C .变量x 、y 之间呈负相关关系D .该回归直线必过点()9,4【答案】B 【分析】将20x =的值代入回归直线方程可判断出A 选项的正误;将(),x y 的坐标代入回归直线方程可计算出实数m 的值,可判断出B 选项的正误;根据回归直线方程的斜率的正负可判断出C 选项的正误;根据回归直线过点(),x y 可判断出D 选项的正误. 【详解】对于A 选项,当20x =时,0.72010.3 3.7y =-⨯+=-,A 选项正确;对于B 选项,6810+1292x ++==,6321144m m y ++++==,将点(),x y 的坐标代入回归直线方程得110.7910.344m +=-⨯+=,解得5m =,B 选项错误; 对于C 选项,由于回归直线方程的斜率为负,则变量x 、y 之间呈负相关关系,C 选项正确;对于D 选项,由B 选项可知,回归直线0.710.3y x =-+必过点()9,4,D 选项正确.故选:B.【点睛】本题考查回归直线方程有关命题的判断,解题时要熟悉与回归直线有关的结论,考查分析问题和解决问题的能力,属于基础题.4.(2019·莒县第二中学高考模拟(文))我国现代著名数学家徐利治教授提出:图形的对称性是数学美的具体内容.如图,一个圆的外切正方形和内接正方形构成一个优美的几何图形,正方形ABCD 所围成的区域记为Ⅰ,在圆内且在正方形ABCD 外的部分记为Ⅱ,在圆外且在大正方形内的部分记为Ⅲ.在整个图形中随机取一点,此点取自Ⅰ,Ⅱ,Ⅲ的概率分别记为123,,P P P ,则( )A .123P P P =+B .132P P P >>C .123P P P >=D .123P P P => 【答案】A 【分析】首先要将小正方形旋转45度,由此看出大正方形与小正方形边长的比值,进而得到面积比,从而可确定概率间的关系. 【详解】将小正方形旋转45度,图像转化为:由图像易知:小正方形的面积是大正方形面积的一半,所以123P P P =+. 则选A.【点睛】本题考查了几何概型,着重考查了利用相似比求面积比,突显了对数学抽象与直观想象的考查.5.(2019·湖北高考模拟(理))七巧板是我们祖先的一项创造,被誉为“东方魔板”,它是由五块等腰直角三角形(两块全等的小三角形、一块中三角形和两块全等的大三角形)、一块正方形和一块平行四边形组成的.如图是一个用七巧板拼成的正方形,现从该正方形中任取一点,则此点取自黑色部分的概率是A .316B .38C .14D .18【答案】A 【解析】设2AB =,则1BC CD DE EF ====.∴1124BCI S ∆==,112242BCI EFGH S S ∆==⨯=平行四边形∴所求的概率为113422216P +==⨯ 故选A.二、解答题6.(2019·陕西高考模拟(文))某公司在若干地区各投入4万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图,计算图中各小长方形的宽度;(2)根据频率分布直方图,估计投入4万元广告费用之后,销售收益的平均值(以各组的区间中点值代表该组的取值);(3)按照类似的研究方法,测得另外一些数据,并整理得到下表:表中的数据显示,x 与y 之间存在线性相关关系,请将(2)的结果填入空白栏,并计算y 关于x 的回归方程.附公式:1221ni ii nii x y nx ybxnx==-=-∑∑$,a y bx =-$$.【答案】(1)2;(2)5;(3) 1.20.2y x =+. 【分析】(Ⅰ)根据频率分布直方图,由频率分布直方图各小长方形面积总和为1,可计算图中各小长方形的宽度;(Ⅱ)以各组的区间中点值代表该组的取值,即可计算销售收益的平均值; (Ⅲ)求出回归系数,即可得出结论. 【详解】(Ⅰ)设各小长方形的宽度为m ,由频率分布直方图各小长方形面积总和为1,可知()0.080.10.140.120.040.020.51m m +++++⋅==,故2m =;(Ⅱ)由(Ⅰ)知各小组依次是[)[)[)[)[)[]0,2,2,4,4,6,6,8,8,10,10,12, 其中点分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04, 故可估计平均值为10.1630.250.2870.2490.08110.045⨯+⨯+⨯+⨯+⨯+⨯=; (Ⅲ)由(Ⅱ)知空白栏中填5. 由题意可知,1234535x ++++==,232573.85y ++++==,51122332455769i ii x y==⨯+⨯+⨯+⨯+⨯=∑,522222211234555ii x==++++=∑,根据公式,可求得26953 3.8121.2555310ˆb-⨯⨯===-⨯, 3.8 1.230ˆ.2a =-⨯=,即回归直线的方程为 1.2.2ˆ0yx =+. 【点睛】本题考查回归方程,考查频率分布直方图,考查学生的读图、计算能力,属于中档题.7.(2019·宁夏高考模拟(文))2014年7月18日15时,超强台风“威马逊”登陆海南省.据统计,本次台风造成全省直接经济损失119.52亿元,适逢暑假,小明调查住在自己小区的50户居民由于台风造成的经济损失,作出如下频率分布直方图:(1)台风后区委会号召小区居民为台风重灾区捐款,小明调查的50户居民捐款情况如上表,在表格空白处填写正确数字,并说明是否有95%以上的把握认为捐款数额是否多于或少于500元和自身经济损失是否到4000元有关?(2)台风造成了小区多户居民门窗损坏,若小区所有居民的门窗均由李师傅和张师傅两人进行维修,李师傅每天早上在7:00到8:00之间的任意时刻来到小区,张师傅每天早上在7:30到8:30分之间的任意时刻来到小区,求李师傅比张师傅早到小区的概率.附:临界值表参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,n a b c d=+++.【答案】(1)有把握;(2)218. 【分析】(1)由直方图得到22⨯列联表,利用公式求得2K 的值,与临界值比较即可作出判定,得到结论.(2)设李师傅、张师傅到小区的时间分别为,x y ,得到试验的全部结果所构成的区域及事件A 表示“李师傅比张师傅早到小区”, 根据几何概型,利用面积比可求()78P A =,则李师傅比张师傅早到小区的天数的分布列为二项分布,利用二项分布的期望公式可得结果. 【详解】 (1)如下表:()225030695 4.046 3.84139113515K ⨯⨯-⨯=≈>⨯⨯⨯所以有95%以上的把握认为捐款数额是否多于或少于500元和自身经济损失是否到4000元有关. (2)设李师傅、张师傅到小区的时间分别为,x y ,则(,x y )可以看成平面中的点.试验的全部结果所构成的区域为(){,|78,7.58.5}Q x y x x =≤≤≤≤,则S Ω=1,事件A 表示“李师傅比张师傅早到小区”,所构成的区域为A ={(x ,y )|y ≥x ,7≤x ≤8,7.5≤y ≤8.5}, 即图中的阴影部分面积为111712228A S =-⨯⨯=,所以()78A QS P A S ==, 李师傅比张师傅早到小区的天数的分布列为二项分布73,8B ξ⎛⎫~ ⎪⎝⎭,721388E ξ=⨯=. 【点睛】本题主要考查了独立性检验的应用,以及几何概型概率的计算问题,以及二项分布的数学期望公式的应用,属于中档试题. “求期望”,一般利用离散型随机变量的数学期望的定义求期望.对于某些实际问题中的随机变量,如果能够断定它服从某常见的典型分布(如二项分布(),X B n p ~),则此随机变量的期望可直接利用这种典型分布的期望公式(()E X np =)求得.因此,应熟记常见的典型分布的期望公式,可加快解题速度. 8.(2019·江西高二月考(文))通过随机询问某地100名高中学生在选择座位时是否挑同桌,得到如下22⨯列联表:()1从这50名男生中按是否挑同桌采取分层抽样的方法抽取一个容量为5的样本,现从这5人中随机选取3人做深度采访,求这3名学生中至少有2名要挑同桌的概率; ()2根据以上22⨯列联表,是否有95%以上的把握认为“性别与在选择座位时是否挑同桌”有关?下面的临界值表供参考:(参考公式:()()()()22()n ad bc K a b c d a c b d -=++++,其中)n a b c d =+++【答案】(Ⅰ) 7(10P =Ⅱ)见解析 试题分析:(Ⅰ)根据分层抽样原理求出样本中挑同桌有3人,不挑同桌有2人,利用列举法求出基本事件数,计算对应的概率值;(Ⅱ)根据2×2列联表计算观测值,对照临界值表得出结论. 解析:(Ⅰ)根据分层抽样方法抽取容量为5的样本,挑同桌有3人,记为A 、B 、C ,不挑同桌有2人,记为d 、e ; 从这5人中随机选取3人,基本事件为ABC ABd ABe ACd ACe Ade BCd BCe Bde Cde ,,,,,,,,,共10种;这3名学生中至少有2名要挑同桌的事件为概率为ABC ABd ABe ACd ACe BCd BCe ,,,,,,,共7种;故所求的概率为710P =; (Ⅱ)根据以上22⨯列联表,计算观测值22100(30102040) 4.7619 3.84170305050K ⨯⨯-⨯=≈>⨯⨯⨯,对照临界值表知,有95%以上的把握认为“性别与在选择座位时是否挑同桌”有关. 9.(2019·四川棠湖中学高三(文))省环保厅对A 、B 、C 三个城市同时进行了多天的空气质量监测,测得三个城市空气质量为优或良的数据共有180个,三城市各自空气质量为优或良的数据个数如下表所示:已知在这180个数据中随机抽取一个,恰好抽到记录B 城市空气质量为优的数据的概率为0.2.(I )现按城市用分层抽样的方法,从上述180个数据中抽取30个进行后续分析,求在C 城中应抽取的数据的个数;(II )已知23y ≥,24z ≥,求在C 城中空气质量为优的天数大于空气质量为良的天数的概率.【答案】(1)9;(2)38.【试题分析】(1)由0.2180x=计算出x ,再由总数计算出y z +,按比例计算得应抽人数.(2) 由(1)知54y z +=,,y z N ∈且23y ≥,24z ≥,利用列举法和古典概型计算公式计算得相应的概率. 【试题解析】 (1)由题意得0.2180x=,即36x =. ∴1802832363054y z +=----=, ∴在C 城中应抽取的数据个数为30549180⨯=. (2)由(1)知54y z +=,,y z N ∈且23y ≥,24z ≥,∴满足条件的数对(),y z 可能的结果有()23,31,()24,30,()25,29,()26,28,()27,27,()28,26,()29,25,()30,24共8种.其中“空气质量为优的天数大于空气质量为良的天数”对应的结果有()28,26,()29,25,()30,24共3种.∴在C 城中空气质量为优的天数大于空气质量为良的天数的概率为38. 10.(2019·江西高考模拟(文))某书店为了了解销售单价(单位:元)在[8,20]]内的图书销售情况,从2018年上半年已经销售的图书中随机抽取100本,获得的所有样本数据按照[8,10),[10,12),[12,14),[14,16),[16,18),[18,20]分成6组,制成如图所示的频率分布直方图,已知样本中销售单价在[14,16)内的图书数是销售单价在[18,20]内的图书数的2倍.(1)求出x 与y ,再根据频率分布直方图估计这100本图书销售单价的平均数(同一组中的数据用该组区间的中点值作代表);(2)用分层抽样的方法从销售单价在[8,20]内的图书中共抽取40本,求单价在6组样本数据中的图书销售的数量;(3)从(2)中抽取且价格低于12元的书中任取2本,求这2本书价格都不低于10元的概率.【答案】(1)见解析;(2)6本;(3)25【解析】(1)先求出x 与y ,再根据直方图求出平均值; (2)根据分层抽样是按比例抽样可得结果; (3)用列举法和古典概型概率公式求出结果 【详解】(1)样本中图书的销售单价在[)14,16内的图书数是2100200x x ⨯=g ,样本中图书的销售单价在[)1820,内的图书数是2100200y y ⨯=g , 依据题意,有2002200x y =⨯,即2x y =,①根据频率分布直方图可知()0.120.0250.0521x y ⨯++++⨯=,② 由①②得0.15,0.075x y ==.根据频率分布直方图估计这100本图书销售单价的平均数为810101212141416161818200.02520.0520.120.1520.120.0752222222++++++⨯⨯+⨯⨯+⨯⨯+⨯⨯+⨯⨯+⨯⨯ =0.45+1.1+2.6+4.5+3.4+2.85=14.9(元)(2)因为销售单价在[)[)[)[)[)[]8,10,10,12,12,14,14,16,16,18,18,20的图书的分层抽样比为1:2:4:6:4:3,故在抽取的40本图书中,销售单价在[)[)[)[)[)[]8,10,10,12,12,14,14,16,16,18,18,20内的图书分别为124643402,404,408,4012,408,406202020202020⨯=⨯=⨯=⨯=⨯=⨯=(本) (3)这40本书中价格低于12元的共有6本,其中价格低于10元的2本,记这2本为12,A A ,另外4本记为1234,,,B B B B ,从中抽取2本的基本事件有:121112131421222324121314232434,,,,,,,,,,,,,,A A A B A B A B A B A B A B A B A B B B B B B B B B B B B B共15个,其中价格不低于10元的有6个,所以: 这2本书价格都不低于10元的概率62155P ==. 【点睛】本题考查了频率分布直方图、分层抽样及概率问题,较为简单11.(2019·四川高考模拟(文))目前有声书正受着越来越多人的喜爱.某有声书公司为了解用户使用情况,随机选取了100名用户,统计出年龄分布和用户付费金额(金额为整数)情况如下图.有声书公司将付费高于20元的用户定义为“爱付费用户”,将年龄在30岁及以下的用户定义为“年轻用户”.已知抽取的样本中有38的“年轻用户”是“爱付费用户”. (1)完成下面的22⨯列联表,并据此资料,能否有95%的把握认为用户“爱付费”与其为“年轻用户”有关?(2)若公司采用分层抽样方法从“爱付费用户”中随机选取5人,再从这5人中随机抽取2 人进行访谈,求抽取的2人恰好都是“年轻用户”的概率.()()()()()22n ad bc K a b c d a c b d -=++++.【答案】(1)有95%的把握认为“爱付费用户”和“年轻用户”有关;(2)35. 【解析】 【分析】(1)根据题意可得列联表,然后根据表中的数据求出2K 后与临界值表中的数据对照后可得结论.(2)根据古典概型概率公式求解可得所求概率. 【详解】(1)根据题意可得22⨯列联表如下:由表中数据可得()()()()()()2221002430406 4.76 3.84130706436n ad bc K a b c d a c b d -⨯⨯-⨯==≈>++++⨯⨯⨯,所以有95%的把握认为“爱付费用户”和“年轻用户”有关.(2)由分层抽样可知,抽取的5人中有4人为“年轻用户”,记为1A ,2A ,3A ,4A ,1人为“非年轻用户”,记为B .则从这5人中随机抽取2人的基本事件有:()12,A A ,()13,A A ,()14,A A ,()1,A B ,()23,A A ,()24,A A ,()2,A B ,()34,A A ,()3,A B ,()4,A B ,共10个基本事件.其中满足抽取的2人均是“年轻用户”的事件有:()12,A A ,()13,A A ,()14,A A ,()23,A A ,()24,A A ,()34,A A ,共6个.所以从中抽取2人恰好都是“年轻用户”的概率为63P 105==. 【点睛】独立性检验的方法是得到列联表后求出2K 的值后与临界值表进行对照后得到结论,查表时要根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k 值与求得的2K 相比较.另外,表中第一行数据表示两个变量没有关联的可能性p ,所以其有关联的可能性为1p -.。