第五节 变量间的相关关系、统计案例1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 3.了解下列两种常用的统计方法,并能应用这些方法解决一些实际问题.(1)独立检验:了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. (2)回归分析:了解回归分析的基本思想、方法及其简单应用.知识梳理 1.散点图.(1)将变量所对应的点描出来,就组成了变量之间的一个图, 这种图为变量之间的________.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势可用一条光滑的曲线来近似,这种近似的过程称为曲线拟合.2.相关关系.(1)从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为________;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为________.(2)线性相关:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做________.(3)若两个变量x 和y 的散点图中,所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是__________的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.3.回归直线.(1)最小二乘法:如果有n 个点: (x 1,y 1),(x 2,y 2),…,(x n ,y n )可以用下面的表达式来刻画这些点与回归直线的接近程度: [y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2,使得上式达到最小值的y ^=b ^x +a ^就是我们要求的直线,这种方法称为最小二乘法.(2)在回归直线方程y ^=b ^x +a ^中,b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x ·y∑i =1nx 2i -n x 2,a ^=________,其中x =x 1+x 2+…+x n n ,y =y 1+y 2+…+y n n.b ^叫做回归直线方程的斜率,a ^是直线在y 轴上的截距.4.相关系数.,用它来衡量两个变量间的线性相关关系.(1)当r >0时,表明两个变量________; (2)当r <0时,表明两个变量________;(3)r 的绝对值越接近1,表明两个变量的线性相关性________;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.当|r |∈[0.3,0.75)时,相关性一般.当|r |∈[0,0.25]时,相关性较弱.5.残差分析.(1)线性回归模型:y =bx +a +e 中,a ,b 称为模型的未知参数;e 称为随机误差.(2)残差平方和:对于样本点(x i ,y i )(i =1,2,…,n ),Q =∑i =1n(y i -y )称为残差平方和,Q 值越小,说明线性回归模型的拟合效果越好.(3)相关指数:用相关指数R 2来刻画回归的效果,公式是R 2=1-∑i =1n(y i -y i )2∑i =1n(y i -y )2.R 2的值越大,说明残差平方和越小,也就是说模型拟合效果________. 6.独立性检验.(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量. (2)列出两个分类变量的频数表,称为列联表.(3)利用随机变量K 2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的________.2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a +b +c +d 独立性检验公式K 21.散点图2.(1)正相关 负相关 (2)回归直线 (3)非线性相关3.(2)\o(y,\s\up6(-))-b \o(x,\s\up6(-)),4.(1)正相关 (2)负相关 (3)越强5.(3)越好6.(3)独立性检验 \f(n (ad -bc )2,(a +b )(a +c )(b +d )(c +d )),基础自测 1.下列命题:①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求与该商品的价格是一种非确定性关系; ④根据散点图求得的回归直线方程可能是没有意义的; ⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究.其中正确的命题为( )A .①③④B .②④⑤C .③④⑤D .②③⑤ 答案:C 2.(2013·武昌调研)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还由算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”解析:因为K 2=110×(40×30-20×20)260×50×60×50≈7.8>6.635,所以有99%以上的把握认为“选择过马路的方式与性别有关”.答案:A3.(2012·新课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析:所有点均在直线上,则样本相关系数最大即为1. 答案:14.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析: 由题意得y ^2-y ^1=[0.254(x +1)+0.321]-[0.254x +0.321]=0.254,即家庭年收入每增加1万元,年饮食支出平均增加0.254万元.答案:0.2541.(2013·湖北卷)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2 347x -6 423;②y 与x 负相关且y ^=-3 476x +5 648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④解析:①回归方程中x 的系数为正,不是负相关;④方程中的x 的系数为负,不是正相关,所以①④一定不正确.答案:D2.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众年龄为20至40岁的概率. 解析:(1)有关.收看新闻节目多为年龄大的.(2)应抽取的人数为:5×2745=3(人).(3)由(2)知,抽取的5名观众中,有2名观众年龄处于20至40岁,3名观众的年龄大于40岁.记大于40岁的人为a 1,a 2,a 3,20至40岁的人为b 1,b 2,则从5人中抽取2人的基本事件有(a 1,a 2),(a 1,a 3),(a 2,a 3),(b 1,b 2),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),共10个,其中恰有1人为20至40岁的基本事件有(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),共6个,因此所求的概率P =610=35.1.(2013·梅州一模)在2014年1月15日当天,某物价部门对本市的5家商场的某商品由散点图可知,y ^=-3.2x +40,且m +n =20,则其中的n =____________.解析:x -=15(9+9.5+m +10.5+11)=15(40+m ),y -=15(11+n +8+6+5)=15(30+n )因为其线性回归直线方程是:y ^=-3.2x +40,所以15(30+n )=-3.2×15(40+m )+40,即30+n =-3.2(40+m )+200,又m +n =20, 解得m =n =10. 答案:102.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为( )A .3B .3.15C .3.5D .4.5解析:由y ^=0.7x +0.35得2.5+t +4+4.54=0.7×3+4+5+64+0.35⇒11+t 4=3.5⇒t =3,故选A.答案:A。