第一章 统计案例1.1 回归分析的基本思想及其初步应用A 级 基础巩固一、选择题1.已知x 和y 之间的一组数据x 0 1 2 3 y1357则y 与x 的线性回归方程y =b x +a 必过点( )A .(2,2) B.⎝ ⎛⎭⎪⎫32,0 C .(1,2)D.⎝ ⎛⎭⎪⎫32,4 解析:∵x -=14(0+1+2+3)=32,y -=14(1+3+5+7)=4,∴回归方程y ^=b ^x +a ^必过点⎝⎛⎭⎪⎫32,4.答案:D2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x -5.648;③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④解析:①中y 与x 负相关而斜率为正,不正确;④中y 与x 正相关而斜率为负,不正确.答案:D3.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如表:甲乙丙丁R 2 0.98 0.78 0.50 0.85A .甲B .乙C .丙D .丁解析:相关指数R 2越大,表示回归模型的效果越好. 答案:A4.如图所示的是四个残差图,其中回归模型的拟合效果最好的是( )解析:残差图中,只有A 、B 是水平带状区域分布,且B 中残差点散点分布集中在更狭窄的范围内所以B 项中回归模型的拟合效果最好.答案:B5.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元) 6.2 7.58.08.59.8根据上表可得回归直线方程y =b x +a ,其中b =0.76,a ^=y --b ^x -.据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元解析:先求a ^,再利用回归直线方程预测. 由题意知,x -=8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元). 答案:B 二、填空题6.如果散点图中的所有的点都在一条斜率不为0的直线上,则残差为________,相关指数R 2=________.解析:由题意知,y i =y ^i ∴相应的残差e ^i =y i -y ^i =0.相关指数R 2=1-答案:0 17.甲、乙、丙、丁4位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和如表:甲乙丙丁散点图残差平方和115106124103精度高.解析:由图表知,丁同学拟合的残差平方和为103最小.即R 2最大,所以丁的拟合效果好,精度高.答案:丁8.若下表数据对应的y 关于x 的线性回归方程为y ^=0.7x +a ,则a =________.解析:x -=4.5,y =3.5,回归直线过样本中心点(x -,y -),则3.5=0.7×4.5+a ,所以a =0.35.答案:0.35 三、解答题9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如表数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b ^x -; (2)预计在今后的销售中,销售与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x -=16(8+8.2+8.4+8.6+8.8+9)=8.5,y -=16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y --b ^x -=80+20×8.5=250, 从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000=-20(x-8.25)2+361.25.当且仅当x=8.25时,L取得最大值.故当单价定为8.25元时,工厂可获得最大利润.10.某企业每天由空气污染造成的经济损失y(单位:元)与空气污染指数(API)x的数据统计如下:空气污染指数(API)x150200250300经济损失y 200350550800(1)求出y与x的线性回归方程y^=b^x+a^;(2)若该地区某天的空气污染指数为800,预测该企业当天由空气污染造成的经济损失;(3)若相关指数R2=0.958 7,请说明其含义.解:(1)x-=14(150+200+250+300)=225,y-=14(200+350+550+800)=475.所以b^=50 00012 500=4,a^=y--b^x-=475-4×225=-425,所以y^=4x-425.(2)当x =800时,y ^=4×800-425=2 775.即当空气污染指数为800时,预测该企业当天造成的经济损失是2 775元.(3)R 2=0.9587,说明该企业每天空气污染造成经济损失的95.87%是由空气污染指数API 引起的,所以回归模型的拟合效果较好.B 级 能力提升1.某产品的广告费用x 与销售额y 的统计数据如下表所示:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析:x -=4+2+3+54=3.5,y -=49+26+39+544=42,因为数据的样本中心点(3.5,42)在线性回归直线上,回归方程y ^=b ^x +a ^=9.4x +a ^,所以42=a ^+9.4×3.5,所以a ^=9.1, 所以线性回归方程是y ^=9.4x +9.1,所以广告费用为6万元时销售额为9.4×6+9.1=65.5(万元). 答案:B2.已知方程y ^=0.85x -82.71是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm ,y ^的单位是kg ,那么针对某个体(160,53)的残差是________.解析:把x =160代入y ^=0.85x -82.71, 得y ^=0.85×160-82.71=53.29, 所以残差e ^=y -y ^=53-53.29=-0.29. 答案:-0.293.(2015·重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y (千亿元)567810(1)求y 关于t 的回归方程y =b t +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款.附:回归方程y ^=b ^t +a ^中,b ^=解:(1)由题设条件列表计算如下:it iy it 2it i y i12345123455678101491625512213250∑153655120这里n=5,t-=1n∑i=1nt i=155=3,y-=1n∑i=1ny i=365=7.2.从而b^=l tyl tt=1210=1.2,a^=y--b^t-=7.2-1.2×3=3.6,故所求回归方程为y^=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y^=1.2×6+3.6=10.8(千亿元).1.2 独立性检验的基本思想及其初步应用A级基础巩固一、选择题1.给出下列实际问题,其中不可以用独立性检验解决的是() A.喜欢参加体育锻炼与性别是否有关B.喝酒者得胃病的概率C.喜欢喝酒与性别是否有关D.青少年犯罪与上网成瘾是否有关解析:独立性检验主要是对两个分类变量是否有关进行检验,故不可用独立性检验解决的问题是B.答案:B2.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%解析:由等高条形图知:女生喜欢理科的比例为20%,男生不喜欢理科的比例为40%,因此,B、D不正确.从图形中,男生比女生喜欢理科的可能性大些.答案:C3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是()A.100个心脏病患者中至少有99人打鼾B.1个人患心脏病,则这个人有99%的概率打鼾C.100个心脏病患者中一定有打鼾的人D.100个心脏病患者中可能一个打鼾的人都没有解析:这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.答案:D4.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:以下说法正确的是()A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关解析:根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.答案:D5.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表3A.成绩B.视力C.智商D.阅读量解析:根据K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),代入题中数据计算得D选项K2最大.答案:D二、填空题6.独立性检验所采用的思路是:要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.解析:独立性检验的前提是假设两个分类变量无关系,然后通过随机变量K2的观测值来判断假设是否成立.答案:无关系不成立7.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如表:随机变量K2的观测值为k=50×(13×20-10×7)223×27×20×30≈4.844.因为k>3.841,所以确认“主修统计专业与性别有关系”,这种判断出现错误的可能性为________.解析:因为随机变量K2的观测值k>3.841,所以在犯错误的概率不超过0.05的前提下认为“主修统计专业与性别有关系”.故这种判断出现错误的可能性为5%.答案:5%8.对某校小学生进行心理障碍测试得到的列联表解析:由2×2列联表,代入计算k2的观测值k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=110×(700-200)230×80×20×90≈6.365 7.因为6.365 7>5.024,所以在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.答案:在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.三、解答题9.下表是某地区的一种传染病与饮用水的调查表:(1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水有关,并比较两种样本在反映总体时的差异.附表:解:(1)K2=830×(52×218-466×94)2518×312×146×684≈54.21.因为54.21>10.828,所以有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:把表中数据代入公式,得K2=86×(5×22-50×9)255×31×14×72≈5.785,因为5.785>3.841,所以我们有95%的把握认为该地区这种传染病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但可信度不同,(1)中有99.9%的把握肯定结论的正确性,(2)中有95%的把握肯定结论的正确性.10.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.(1)将2×2列联表补充完整.(2)生时间有关系?解:(1)列2×2列联表:(2)k =89×(24×26-31×8)255×34×32×57≈3.689>2.706.根据临界值表知P (K 2≥2.706)≈0.10.因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.B 级 能力提升1.通过随机询问100名性别不同的大学生是否爱好某项运动,得到如下的列联表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该运动与性别无关” 解析:由2×2列联表,得K 2的观测值k =100×(38×5-25×32)270×30×63×37≈7.601>6.635.又由P (K 2≥6.635)≈0.01,知选项C 正确. 答案:C2.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的效率为5%.解析:由独立性检验的思想方法,知①正确. 答案:①3.“开门大吉”是某电视台推出的游戏节目,选手面对1~8号8扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.在一次场外调查中,发现参赛选手多数分为两个年龄段:20~30;30~40(单位:岁).其猜对歌曲名称与否的人数如图所示.(1)写出2×2列联表;判断能否在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系,说明你的理由.(下面的临界值表供参考)(2)6名选手,求20~30岁与30~40岁各有几人.参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解析:(1)根据所给的二维条形图得到列联表:k =120×(10×70-10×30)220×100×40×80=3.因为3>2.706,所以在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系.(2)按照分层抽样方法可知,20~30岁年龄段抽取:6×40120=2(人);30~40岁年龄段抽取:6×80120=4(人).在上述抽取的6名选手中,年龄在20~30岁的有2人,年龄在30~40岁的有4人.。