人教版高中数学 独立性检验与回归分析__________________________________________________________________________________ __________________________________________________________________________________1.了解变量间的相关关系,能根据给出的线性回归方程系数建立线性回归方程.2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.3.了解回归分析的基本思想、方法及其简单应用.1.独立性检验(1)概念:用2χ统计量研究独立性问题的检验的方法称为独立性检验. (2)m ×n 列联表指有m 行n 列的列联表(3)必备公式2χ=2()()()()()n ad bc a c b d a b c d -++++2.2χ统计量中的四个临界值经过对2χ统计量分布的研究,已经得到了四个经常用到的临界值:2.706、3.841、6.635、10.828. 由2×2列联表计算出2χ,然后与相应的临界值进行比较,当2χ>2.706时,有90%的把握说事件A 与B 有关.当2χ>3.841时,有95%的把握说事件A 与B 有关.当2χ>6.635时,有99%的把握说事件A 与B 有关.当2χ>10.828时,有99.9%的把握说事件A 与B 有关.当2χ≤2.706时,认为事件A 与B 是无关的. 3.回归分析(1)线性回归模型是指方程y a bx ε=++,其中a bx +称为确定性函数,ε称为随机误差.(2)线性回归方程是指直线方程ˆˆˆya bx =+,其中回归截距ˆa 、回归系数ˆb 公式如下: ˆb=i=1221,()ni inii x y nx yxn x =--∑∑ˆa=ˆy bx -. (3)参数r 检验线性相关的程度,计算公式为r()()niix x yy --∑,即niix ynx y-∑化简后r =x yxy x yS S -,其中y S 表示数据i y (i =1,2,…,n )的标准差,这个r 称为y 与x 的样本相关系数,简称相关系数,其中-1≤r ≤1.若r >0,则x 与y 是正相关,若r <0,则x 与y 是负相关,若r =0,则x 与y 不相关,r =1或r =-1时,x 与y 为完全线性相关.类型一.独立性检验例1:为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:判断性别与是否喜欢数学课程有关吗?[解析] 假设0H :性别与是否喜欢数学课程无关,由卡方计算公式得22300(371438535) 4.514 3.841,72228122178χ⨯⨯-⨯=≈>⨯⨯⨯所以我们可以拒绝0.H 从而有95%的把握认为性别与是否喜欢数学课程有关系.用独立性检验方法判断父母吸烟对子女是否吸烟有影响.[解析] 提出假设0H :父母吸烟对子女是否吸烟没有影响,由列联表中的数据得到:221520(23752283678)32.5210.828.9156053201200χ⨯⨯-⨯=≈>⨯⨯⨯所以有99.9%的把握认为:父母吸烟对子女是否吸烟有影响. 类型二.变量间的相关关系及线性回归方程例2:下列关系中,是带有随机性相关关系的是______. ①正方形的边长与面积之间的关系; ②水稻产量与施肥量之间的关系; ③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系. [答案] ②④[解析] 两变量之间的关系有两种:函数关系与带有随机性的相关关系.①正方形的边长与面积之间的关系是函数关系.②水稻产量与施肥量之间不是严格的函数关系,但是具有相关性,因而是相关关系.③人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而他们不具有相关关系.④降雪量与交通事故的发生率之间具有相关关系.例3:某工业部门进行一项研究,分析该部门的产量与生产费用的关系,从这个工业部门内随机抽选了10个企业作样本,资料如下表:[解析] 777165777.7,165.7,1010x y ==== 1010102211170903,277119,132938,iii i i i i xy x y ======∑∑∑21329381077.7165.7709031077.7b -⨯⨯=-⨯0.398,≈165.70.39777.7a =-⨯134.8.≈ ∴回归直线方程为0.398134.8.y x =+练习1:下列两个变量之间的关系哪个不是函数关系( ) (A)角度和它的余弦值 (B)正方形边长和面积(C)正n 边形的边数和顶点角度之和 (D)人的年龄和身高 [答案] D[解析] 人的身高与年龄只具有相关性 类型三.相关检验与回归分析例3:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设线性回归方程为ˆˆˆ,ybx a =+求系数ˆˆ,.a b [解析] 由表可计算得:777165777.7,165.7,1010x y ==== 1010102211170903,277119,132938.ii i i i i i xy x y ======∑∑∑(1)10100.808.i ix y x yr -=≈∑(2)因为0.808>0.05r =0.632,所以认为x 与y 之间具有线性相关关系.(3)代入公式得ˆb≈ ˆ0.398,134.8.a≈ 练习1:某运动员训练次数与运动成绩之间的数据关系如下:[解析] (1)可求得88221139.25,40.875,12656,ii i i x y xy ======∑∑8=113731,13180,i i i x y =∑所以81821()()ˆ()iii ii x x y y bx x ==--==-∑∑81822i=18 1.0415,8()i ii ix y x yxx =-≈-∑∑ˆˆ0.00386,ay bx =-=- 所以回归直线方程为ˆ 1.04150.00386.yx =- (2)计算相关系数将上述数据代入88i i x y x yr -=∑得r ≈0.992704,查表可知0.05r =0.707,而0.05,r r >故y 与x 之间存在显著的线性相关关系.(3)作出预报:由上述分析可知,我们可用回归方程ˆy=1.0415x -0.00386作为该运动员成绩的预测值,将x =47和x =55分别代入该方程得ˆ49y≈和ˆ57.y ≈故预测该运动员训练47次和55次成绩分别为49和57.1.在调查中学生近视情况中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )A.期望与方差B.排列与组合C.独立性检验D.概率 [答案] C2.通过对2χ统计量的研究,得到了若干临界值,当2χ≤2.706时,我们认为事件A 与B ( ) A.有90%的把握认为A 与B 有关系 B.有95%的把握认为A 与B 有关系C.没有充分理由说明事件A 与B 有关系D.不能确定 [答案] C3.下列关于2χ的说法中正确的是( )A.2χ在任何相互独立问题中都可以用来检验有关还是无关 B.2χ的值越大,两个事件的相关性就越大C.2χ是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.2χ的观测值2χ的计算公式为2()()()()()n ad bc a b c d a c b d χ-=++++[答案] C4.下列两个变量之间的关系是相关关系的是( ) A.角度和它的余弦值 B.正方形边长和面积 C.正n 边形的边数和顶点数 D.人的年龄和身高 [答案] D5.由一组样本数据1122(,),(,),,(,n x y x y x )n y 得到的回归方程为ˆˆˆ,ybx a =+下面说法不正确的是( )A.直线ˆˆˆybx a =+必经过点(,)x y B.直线ˆˆˆybx a =+至少经过点1122(,),(,),,(,)n n x y x y x y 中的一个点C.直线ˆˆˆybx a =+的斜率为1221()ni ii nii x y nxyxn x ==--∑∑D.直线ˆˆˆybx a =+和各点1122(,),(,),,(,)n n x y x y x y 的偏差平方和21ˆˆ[()]ni ii y bx a =-+∑是该坐标平面上所有直线与这些点的偏差平方和中最小的直线[答案] B6.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”[答案] C7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.[答案] 5%8.某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.[答案] 185_________________________________________________________________________________ _________________________________________________________________________________基础巩固1.(2014重庆卷)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3 B.y^=2x-2.4C.y^=-2x+9.5 D.y^=-0.3x+4.4[答案] A2.(2014湖北卷)根据如下样本数据:得到的回归方程为y=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<0[答案] B3.(2014江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52()及格总计14 202032A.成绩B.视力C.智商D.阅读量[答案] D4.下列两个变量之间的关系是相关关系的是()A.正方体的棱长和体积B.角的弧度数和它的正弦值C.单产为常数时,土地面积和总产量D.日照时间与水稻的亩产量[答案] D5.(2015福建)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆybx a =+,其中ˆˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元[答案] B6.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆˆˆya bx =+中,ˆb ( ) A.在(-1,0)内 B.等于0C.在(0,1)内D.在[1,+∞)[答案] C7.线性回归方程ˆˆˆya bx =+中,回归系数ˆb 的含义是________________. [答案] x 每增加一个单位,y 相应地平均变化ˆb个单位 8.在一项打鼾与患心脏病是否有关的调查中,共调查了1978人,经过计算2χ=28.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”、“无关”)[答案] 有关能力提升1.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程y ^=3-5x ,变量x 增加1个单位时,y 平均增加5个单位;③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r |越接近于0,x 和y 之间的线性相关程度越强;④在一个2×2列联表中,由计算得K 2的值,则K 2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是( ) A.0B.1C.2D.3[答案] C2.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′[答案] C3.对相关系数r ,下列说法正确的是( ) A.||r 越大,相关程度越小B.||r 越小,相关程度越大C.||r 越大,相关程度越小,||r 越小,相关程度越大D.||r ≤1且||r 越接近1,相关程度越大,||r 越接近0,相关程度越小[答案] D4.若由资料知,y 对x 呈线性相关关系,试求: (1)线性回归方程;(2)估计设备的使用年限为10年时,维修费用约是多少?552114,5,90,112.3,i i i i i x y x x y ======∑∑5=1522215112.354512.3ˆ 1.23,9054105()iii ii x y x ybxx =--⨯⨯====-⨯-∑∑ˆˆ5 1.2340.08.ay bx =-=-⨯=所以线性回归方程是ˆy =1.23x +0.08. (2)当x =10时,ˆy=1.23×10+0.08=12.38(万元),即估计设备用10年时,维修费用约是12.38万元.5.若由资料可知y 对x 呈线性相关关系,试求:(1)线性回归直线方程;(2)根据回归直线方程,估计使用年限为12年时,维修费用是多少? [答案] (1)列表1 22 3ˆb=1.23,于是ˆa=5-1.23×4=0.08(2)当x=12时,ˆy=1.23×12+0.08=14.84(万元)6.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为思心脏病而住院的男性病人中有175人秃顶,利用独立性检验方法判断秃顶与患心脏病是否有关系?[假设秃顶与患心脏病无关.由于a=214,b=175,c=451,d=597,a+b=389,c+d=1048,a+c=665,b+d=772,n=1437.因此22()()()()()n ad bca b a c c d b dχ-=++++21437(214597175451)3891048665772.⨯⨯-⨯=⨯⨯⨯16.37310.828.≈>因而我们有99.9%的把握认为秃顶与患心脏病有关系.。