第十八讲 统计与统计案例A 组一、选择题1.某书法社团有男生30名,女生20名,从中抽取一个5人的样本,恰好抽到了2名男生和3名女生①该抽样一定不是系统抽样;②该抽样可能是随机抽样;③该抽样不可能是分层抽样;④男生被抽到的概率大于女生被抽到的概率,其中说法正确的为( ) A .①②③ B .②③ C . ③④ D .①④ 【答案】B【解析】由题意得,从男生30名,女生20名,从中抽取一个5人的样本,恰好抽到了2名男生和3名女生,该抽样应该是简单的随机抽样,其中男生被抽到的概率为135P =,女生被抽到的概率为225P =,所以只有②③是正确的,故选B. 2.如下图所示的茎叶图记录了甲、乙两组各5名学生在一次英语听力测试中的成绩(单位:分)。
已知甲组数据的中位数为15,乙组数据的平均数为16.8,则,x y 的值分别为( )A .2,5B .5,5C .5,8D .8,8 【答案】C【解析】由中位数的定义可知5=x ,因8.16524930)85(⨯=+++++y ,故8=y ,应选C 。
3.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设0H :“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的结果,认为0H 成立的可能性不足1%,那么2K 的一个可能取值为( )A .7.897 B.6.635 C. 5.024 D. 3.841 【答案】A【解析】由题这种血清能起到预防感冒的作用为99%的有效率,显然0 6.635,k >所以选A. 4.下列说法正确的是 ( )A .在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法B .线性回归方程对应的直线a x b yˆˆˆ+=至少经过其样本数据点),,(11y x ),,(22y x ),(,33y x ),(n n y x 中的一个点C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,相关指数2R 为98.0的模型比相关指数2R 为80.0的模型拟合的效果差 【答案】C【解析】A .回归分析反映两个变量相关关系的数学方法,由建立回归方程来预报变量的情况。
错误;B .线性回归方程对应的直线a x b yˆˆˆ+=,过其样本数据平均数点,错误;D .相关指数2R 越大,则相关性越强,模型的拟合效果越好。
错误;C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高. 正确。
二、填空题5.甲、乙、丙三名射击运动员在某次测试中各射击20次,三人的测试成绩如下表123,,x x x 分别表示甲、乙、丙三名运动员这次测试成绩的平均数,则123,,x x x 的大小关系为 ;123,,s s s 分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则123,,s s s 的大小关系为 . 【答案】123x x x ==;213s s s >>6.某班有55人,现根据学生的学号,用系统抽样的方法,抽取一个容量为5的样本,已知3号、25号、47号同学在样本中,那么样本中还有两个同学的学号分别为 和 。
【答案】14和36 三、解答题7. 某生产企业对其所生产的甲、乙两种产品进行质量检测,分别各抽查10件产品,检测其重量的误差,测得数据如下(单位:mg ): 甲:13 15 14 14 9 14 21 9 10 11 乙:10 14 9 1 15 21 23 19 22 16(Ⅰ)画出样本数据的茎叶图,并指出甲,乙两种商品重量误差的中位数; (Ⅱ)计算甲种商品重量误差的样本方差; (Ⅲ)根据茎叶图分析甲、乙两种产品的质量.甲的成绩 环数 7 8 9 10 频数5555乙的成绩 环数 7 8 9 10 频数6446丙的成绩 环数 7 8 9 10 频数4664【解析】茎叶图如图.甲,乙两种商品重量误差的中位数分别为13.5,15.5.(Ⅱ)1315141491421111091310x+++++++++==.∴甲种商品重量误差的样本方差为()()()()222221[(1313)15131413141391310-+-+-+-+-()()()()()222221413211311131013913]+-+-+-+-+-=11.6(Ⅲ)由茎叶图知,乙产品的重量误差的中位数高于甲产品的重量误差的中位数,而且由茎叶图可以大致看出乙产品的重量误差的的标准差要大于甲产品的重量误差的的标准差,说明甲产品的质量较好,而且较稳定.8.某工厂36名工人的年龄数据如下表:(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;(2)计算(1)中样本的平均值x和方差2s;(3)求这36名工人中年龄在(),x s x s-+内的人数所占的百分比.【解析】(1)根据系统抽样的方法,抽取容量为9的样本,应分为9组,每组4人.由题意可知,抽取的样本编号依次为:2,6,10,14,18,22,26,30,34,对应样本的年龄数据依次为:44,40,36,43,36,37,44,43,37.(2)由(1),得444036433637444337409x++++++++==,()()()()()()()()()222222 2222444040403640434036403740 1100 99 444043403740s⎡⎤-+-+-+-+-+-+⎢⎥==⎢⎥-+-+-⎣⎦.工人编号年龄工人编号年龄工人编号年龄工人编号年龄1 402 443 404 415 336 407 458 429 4310 3611 3112 3813 3914 4315 4516 3917 3818 3619 2720 4321 4122 3723 3424 4225 3726 4427 4228 3429 3930 4331 3832 4233 5334 3735 4936 39(3)由(2),得1040,3x s ==,∴2136,4333x s x s -=+=,由表可知,这36名工人中年龄在(),x s x s -+内共有23人,所占的百分比为23100%63.89%36⨯≈.x 和判断力y 进行统计分析,得下表数据:(1)请在图中画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y bx a =+;(3)试根据(2)求出的线性回归方程,预测记忆力为9的同学的判断力。
【解析】(1)如图所示.(2)1ni ii x y=∑=6×2+8×3+10×5+12×6=158,9,4x y ==21nii x=∑=62+82+102+122=344,0.7b =,a bx y =-=4-0.7×9=-2.3,故线性回归方程为ˆy=0.7x -2.3. (3)由回归直线方程,当x =9时,ˆy=6.3-2.3=4, 所以预测记忆力为9的同学的判断力约为4.10.2016年全国两会,即中华人民共和国第十二届全国人民代表大会第四次会议和中国人民政治协商会议第十二届全国委员会第四次会议,分别于2016年3月5日和3月3日在北京开幕.为了解哪些人更关注两会,某机构随机抽取了年龄在1575岁之间的100人进行调查,并按年龄绘制的频率分布直方图如下图所示,其分组区间为:[)[)[)[)[]15,25,25,35,35,45,55,65,65,75.把年龄落在区间[)15,35和[]35,75内的人分别称为“青少年人”和“中老年人”,经统计“青少年人”与“中老年人”的人数之比为9:11.(1)求图中a b、的值;(2)若“青少年人”中有15人在关注两会,根据已知条件完成下面的22⨯列联表,根据此统计结果能否有99%的把握认为“中老年人”比“青少年人”更加关注两会?关注不关注合计青少年人15中老年人合计5050100附参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.临界值表:()2P K k≥0.050.0100.001k 3.841 6.63510.828【解析】(1)依频率分布直方图可知:()()45100.0310055100.0100.0050.005100ba⎧⨯+=⎪⎪⎨⎪⨯+++=⎪⎩,解之,得0.0350.015ab=⎧⎨=⎩,(2)依题意可知:“青少年人”共有()1000.0150.03045⨯+=人, “中老年人”共有100-45=55人,完成的22⨯列联表如下: 关注 不关注 合计 青少年人 15 30 45 中老年人 35 20 55 合计5050100结合列联表的数据得:()()()()()()222100303520159.0915*******n ad bc K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯因为()2 6.6350.01,9.091 6.635P K >=>,所以有超过99%的把握认为“中老年人”比“青少年人”更加关注两会B 组一、选择题1.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)如图所示;若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数为( )A 、3B 、4C 、5D 、6 【答案】B【解析】根据茎叶图中的数据得,成绩在区间[139,151]上的运动员人数是20,用系统抽样方法从35人中抽取7人,成绩在区间[139,151]上的运动员应抽取207435⨯= (人),故选B.2.从实验小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图由图中数据可知身高在[120,130]内的学生人数为( )A .3B .25C .30D .35 【答案】C【解析】由图知,(0.035+a+0.020+0.010+0.005)×10=1,解得a=0.03 ∴身高在[120,130]内的学生人数在样本的频率为0.03×10=0.3 故身高在[120,130]内的学生人数为0.3×100=30 3.已知x 与y 之间的一组数据: x 0 1 2 3 y m 3 5.5 7 已求得关于y 与x 的线性回归方程为 2.10.85y x =+,则m 的值为( )A .1B .0.85C .0.7D .0.5 【答案】D 【解析】因45.15,5.143210+==+++=m y x ,故将其代入 2.10.85y x =+,可得5.0=m .应选D.4.在一次独立性检验中,得出2×2列联表如下: y 1 y 2 合计 x 1 200 800 1000 x 2 180 m 180+m 合计 380800+m1180+m最后发现,两个分类变量x 和y 没有任何关系,则m 的可能值是( )A .200B .720C .100D .180 【答案】B【解析】由独立性检验,已知使两个分类变量无关,则可得;720,800380180=+=m mm二、填空题5.为了了解我校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为12,则报考飞行员的学生人数是 . 【答案】48.【解析】设图中从左到右的第1小组的频率为x ,则第2小组的频率为2x ,第3小组的频率为3x ,由频率分布直方图的性质,得: 230.03750.01351x x x +++⨯+⨯=,解得:0.125x =,∴第2小组的频率为20.25x =,又已知第2小组的频数为12, ∴报考飞行员的学生人数是:120.2548÷=. 故答案应填:48.6.某村有2500人,其中青少年1000人,中年人900人,老年人600人,为了调查本村居民的血压情况,采用分层抽样的方法抽取一个样本,若从中年人中抽取36人,从青年人和老年人中抽取的个体数分别为,a b ,则直线80ax by ++=上的点到原点的最短距离为___________. 【答案】3434 【解析】2436900600,40369001000=⨯==⨯=b a ,因此直线80ax by ++=上的点到原点的最短距离为34342440822=+ 三、解答题7.今年的NBA 西部决赛勇士和雷霆共进行了七场比赛,经历了残酷的“抢七”比赛,两队的当家球星库里和杜兰特七场比赛的每场比赛的得分如下表: 第一场 第二场 第三场 第四场 第五场 第六场 第七场 库里2628 24 22 31 29 36 杜兰特 26293326402927(1)绘制两人得分的茎叶图;(2)分析并比较两位球星的七场比赛的平均得分及得分的稳定程度. 【解析】 (1)如图(2)库里的平均得分28)36293122242826(711=++++++=x 分 方差7130]813)6()4(0)2[(71222222221=+++-+-++-=s .杜兰特的平均得分30)27294026332926(712=++++++=x 分方差7152])3()1(10)4(3)1()4[(71222222222=-+-++-++-+-=s . ∴222121,s s x x <<,则这七场比赛库里的平均得分低于杜兰特,但库里的得分更稳定一些.8.100名学生某次数学考试成绩(单位:分)的频率分布直方图如图所示.(1)估计这100名学生的数学成绩落在[50,60)中的人数; (2)求频率分布直方图中a 的值;(3)估计这次考试的中位数n (结果保留一位小数). 【解析】(1)由图可知落在[50,60)的频率为0.01×10=0.1由频数=总数×频率,从而得到该范围内的人数为100×0.1=10.(2)由频率分布直方图知组距为10,频率总和为1,可列如下等式:(0.01+0.015+0.03++0.01+a )×10=1 解得a =0.035.(3)前两个小矩形面积为0.01×10+0.015×10=0.25. 第三个小矩形的面积为0.035×10=0.35∵中位数要平分直方图的面积. 1.771.770035.025.05.070=+≈+=∴—n9.甲、乙两所学校高三年级分别有1200人,1000人,为了了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布 统计表如下: 甲 校 分组 [70,80) [80,90) [90,100) [100,110) 频数 34 8 15 分组 [110,120) [120,130) [130,140) [140,150] 频数 15 x3 2乙 校 分组 [70,80) [80,90) [90,100) [100,110) 频数 1 2 8 9 分组 [110,120) [120,130) [130,140) [140,150] 频数 10 10y3甲校 乙校 总计 优秀非优秀 总计(1)计算x ,y 的值;(2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率; (3)根据以上统计数据完成2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异. 【解析】(1)甲校抽取110×12002200=60人, 乙校抽取110×10002200=50人, 故x =10, y =7, (2)估计甲校优秀率为1525%60=, 乙校优秀率为2050=40%.k 2=2110(15302045)60503575⨯-⨯⨯⨯⨯≈2.83>2.706又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异. 10.下表提供了甲产品的产量x (吨)与利润y (万元)的几组对照数据.(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆˆybx a =+; (2)计算相关指数2R 的值,并判断线性模型拟合的效果.参考公式:1122211()()ˆˆˆ,()n niii ii i nniii i x x y y x y nx ybay bx x x xnx====---===---∑∑∑∑,22121ˆ()1()niii nii y yR y y ==-=--∑∑【解析】(1) 4.5, 3.5x y ==∴224 4.5 3.563,4 4.581nx y nx ⋅=⨯⨯==⨯=,17.512202766.5ni ii x y==+++=∑,21916253686ni i x ==+++=∑∴122166.563ˆ0.78681ni ii ni i x y nx ybx nx==--===--∑∑,∴ˆˆ 3.50.7 4.50.35a y bx =-=-⨯= ∴y 关于x 的线性回归方程ˆ0.70.35yx =+ (2)222221()(2.5 3.5)(3 3.5)(4 3.5)(4.5 3.5) 2.5nii y y =-=-+-+--=∑222221ˆ()(2.5 2.45)(3 3.15)(4 3.85)(4.5 4.55)0.05niii y y=-=-+-+--=∑∴22121ˆ()0.05110.982.5()niii nii y yR y y ==-=-=-=-∑∑∴线性模型拟合的效果较好C 组一、选择题1.某学校高一、高二、高三年级分别有720、720、800人,现从全校随机抽取56人参加防火防灾问卷调查.先采用分层抽样确定各年级参加调查的人数,再在各年级内采用系统抽样确定参加调查的同学,若将高三年级的同学依次编号为001,002,…,800,则高三年级抽取的同学的编号不可能为( ) A .001,041,……761 B .031,071,……791 C .027,067,……787 D .055,095,……795 【答案】D 【解析】由根据分层抽样可得高三年级抽取出20人,利用系统抽样可分成40组得到的数据特征应成等差数列,经计算答案中的数据740055795=-不是40的整数倍,因此这组数据不合系统抽样得到的,故应选D.2.已知一组数据54321,,,,x x x x x 的平均数是2,方差是31,那么另一组数据23,23,23,23,2354321-----x x x x x 的平均数,方差是( )A .31,2B .1,2C .32,4 D .3,4 【答案】D【解析】因为数据54321,,,,x x x x x 的平均数是2,方差是31,所以31)2(51,2512=-=∑=i i x x ,因此数据23,23,23,23,2354321-----x x x x x 的平均数为:42513)23(515151=-⨯=-∑∑==i i i i x x , 方差为:3319)2(519)63(51)23(51512512251=⨯=-⨯=-=--∑∑∑===i i i i i i x x x x .3.已知关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)有如下的统计资料,由上表可得线性回归方程0.08y bx =+,若规定当维修费用12y >时该设备必须报废,据此模型预报该设备使用年限的最大值为( )A .7B .8C .9D .10 【答案】C 【解析】由已知表格得:1(23456)45x =++++=,1(2.2 3.8 5.5 6.57.0)55y =++++= ,由于线性回归直线恒过样本中心点(),x y ,所以有:540.08b =+,解得: 1.23b =, 所以线性回归方程^1.230.08y x =+,由12y >得:1.230.0812x +>解得:9.69x >, 由于*x N ∈,所以据此模型预报该设备使用年限的最大值为9. 故选C.x -2.0 -1.0 0 1.00 2.00 3.00y0.24 0.51 1 2.02 3.98 8.02则,x y 的函数关系与下列( )类函数最接近(其中,a b 为待定系数) A .y a bx =+ B . xy a b =+ C. 2y ax b =+ D. by a x=+【答案】B 【解析】由表格数据逐个验证,观察图象,类似于指数函数,分析选项可知模拟函数为y=a+b x .故选B .二、填空题 5.一个总体中的80个个体编号为0,1,2,…,79,并依次将其分为8个组,组号为0,1,…,9,要用(错位)系统抽样的方法抽取一个容量为8的样本,即规定先在第1组随机抽取一个号码,记为i ,依次错位地得到后面各组的号码,即第k 组中抽取个位数为i k +(当10i k +<)或10i k +-(当10i k +≥)的号码,在6i =时,所抽到的第8组的号码是 . 【答案】73【解析】第1组抽取号码为6,第8组抽取号码为68106973+-+=6.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程ˆ0.110yx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是 .【答案】②④⑤【解析】线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱,故①错;回归直线方程一定经过样本中心点(),x y P ,所以②正确;③的抽样方式为系统抽样,故③错;由在含有一个解释变量的线性模型中,R 2恰好等于相关系数r 的平方。