1.2 相关系数1.了解回归分析的概念和最小二乘法的求法及作用.2.理解相关系数的含义及求法.3.了解回归分析的基本思想.会建立回归模型,并能利用回归分析进行有效预测.1.变量间的关系往往会表现出某种不确定性,________就是研究这种变量之间的关系的一种方法,通过对变量之间关系的研究,从而发现蕴涵在事物或现象中的某些规律.【做一做1】下列两变量中具有相关关系的是( ).A.正方体的体积与边长B.人的身高与体重C .匀速行驶的车辆的行驶距离与时间D .球的半径与体积2.假设样本点为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),我们可用____________求变量之间的线性回归方程y =a +bx ,即求a ,b ,使这n 个点与直线y =a +bx 的“距离”平方之和最小,即使得Q (a ,b )=(y 1-a -bx 1)2+(y 2-a -bx 2)2+…+(y n -a -bx n )2达到最小.3.Q (a ,b )=l yy +n [y -(a +b x )]2+l xx ⎝ ⎛⎭⎪⎫b -l xy l xx 2-xxy xx l l 2.其中x =x 1+x 2+…+x n n=1n∑i =1nx i ,y =y 1+y 2+…+y n n=1n∑i =1ny i ,l xx =∑i =1n (x i -x )2=∑i =1nx 2i -n x2,l xy =∑i =1n(x i -x )(y i -y )=∑i =1nx i y i -n xy ,l yy =∑i =1n(y i -y )2=∑i =1ny 2i -n y2.当Q (a ,b )取最小值时,b =____________,a =________.y 对x 的线性回归方程为__________,此直线一定过点______.公式比较复杂难记,只需记住a,b的求值公式即可.做题要细心,不可遗漏数据,使用公式计算时,可通过列出表格,进行计算,表格如下:【做一做2-1】已知x与y之间的一组数据如下表,则y与x的线性回归方程y=bx +a必过点__________.【做一做2-2】已知三个样本点(3,10),(7,20),(11,24),求出其线性回归方程.4.判断两个变量之间的线性相关关系的方法有(1)________________________;(2)______________________.两个变量之间是否有线性相关关系,可以通过画散点图直观判断,但是在某些情况下,从散点图中不容易判断变量之间的线性相关关系,特别是当数据量较大时,画散点图比较麻烦,此时就可以通过计算,用线性相关系数r来作出判断,比较容易实施.5.假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(x n,y n),则变量间线性相关系数r的计算公式为r=__________________.线性相关系数|r|≤1,|r|越大,变量之间的线性相关程度越高,用直线拟合的效果就越好.线性相关系数r 的计算公式虽然比较复杂,但是可以分开计算.因为在求线性回归方程时,也要计算x ,y ,∑i =1nx i y i 和∑i =1nx 2i 等量,只需再把∑i =1ny 2i 计算出来即可.通常是通过列表格来完成上述各项的计算.【做一做3】 在建立两个变量y 与x 的线性回归模型中,分别选择了4个不同的模型,它们的相关系数r 如下,其中拟合得最好的模型是( ).A .模型1的相关系数r 为0.98B .模型2的相关系数r 为0.80C .模型3的相关系数r 为0.50D .模型4的相关系数r 为0.25答案:1.回归分析【做一做1】 B 选项A 中正方体的体积为边长的立方,有固定的函数关系;选项C 中匀速行驶的车辆的行驶距离与时间成正比,也有函数关系;选项D 中球的体积是43π与半径的立方相乘,有固定的函数关系.所以只有选项B 中人的身高与体重具有相关关系.2.最小二乘法3.l xy l xx=∑i =1nx i -x y i -y∑i =1nx i -x2=∑i =1nx i y i -n xy∑i =1nx 2i -n x2y -b x y =a +bx (x ,y )【做一做2-1】 ⎝ ⎛⎭⎪⎫32,4 线性回归方程一定过点(x ,y ),又x =14×(0+1+2+3)=32,y =14×(1+3+5+7)=4,∴线性回归方程必过点⎝ ⎛⎭⎪⎫32,4.【做一做2-2】 分析:样本点共有三个,可以直接计算.解:由所给数据可得:x =7,y =18,∑i =13x i y i =434,∑=312i ix=179,进而可以求得b=∑i =13x i y i -3xy∑i =13x 2i -3x2=434-3×7×18179-3×49=1.75,a =y -b x =18-1.75×7=5.75.∴线性回归方程为y =5.75+1.75x . 4.(1)画散点图 (2)计算线性相关系数5.∑i=1nx i y i-n x y∑i=1nx2i-n x2∑i=1ny2i-n y2【做一做3】A1.求线性回归方程的一般步骤剖析:(1)作散点图:对于样本点(x1,y1),(x2,y2),…,(x n,y n),在坐标系内作出散点图,并观察各样本点是否呈条状分布,是否都分布在一条直线的两侧.若是,则可设其线性回归方程为y=a +bx.(2)列表:对于所给出的数据x,y列成相应的表格.(3)计算:x=1n∑ni=1x i,y=1n∑ni=1y i,b=∑∑==--niiniiix nxyx nyx1221,a=y-b x.(4)写出回归方程:y=a+bx.2.样本的选取是否影响两个变量的线性回归方程剖析:会影响.这是因为我们所采集的样本只是两个变量之间的部分数据的关系,而且它们的散点图分布在某一条直线的附近,不一定就在直线上,所以不能用某个一次函数y=a+bx来准确地表达它们之间的关系,我们只能近似地看作两个变量之间满足线性关系,符合一个一次函数y=a+bx,而将x=x i代入时,得到y的值与所测得的y i之间存在着一定的误差,误差为y i-y=y i-(a+bx i)=y i-a-bx i(i=1,2,…,n),那么,我们要想用y=a +bx拟合得好一点,就要使误差小一点.但不能把这些误差直接相加,这是因为它们有正有负,相加可能抵消一部分,为了不使误差之和正负抵消,我们可设全部误差的平方和为Q(a,b),即Q(a,b)=∑ni=1(y i-a-bx i)2,用Q的大小来度量总的误差大小,Q是a,b的二元函数.当b=∑ni=1x i y i-n x y∑n i=1x2i-n x2时,Q(a,b)最小,此时a=y-b x.由此看来,所取的样本点不同,有可能得到的线性回归方程不同.题型一求线性回归方程【例题1】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验.测得的数据如下表所示:(1)求y对x的线性回归方程;(2)据此估计加工200个零件所用的时间是多少?反思:计算线性回归方程比较麻烦,对于样本点较少的情况可直接代入公式计算求值.实际问题中的数据都不好算,一般要借助计算器来完成.题型二计算线性相关系数【例题2】某工厂有一大型机器设备,其使用年限x(年)与所支出的维修费用y(万元)有如下的统计资料:请问维修费用y与使用年限x之间是否具有线性相关关系?如果具有,请求出线性回归方程.分析:本题为探索两个变量之间是否具有线性相关关系的题型,可通过计算线性相关系数来加以判断,因为数据比较多,可列表分项计算.反思:对于数量比较多的数据判断它们相应的变量是否线性相关,可通过计算线性相关系数来判断.题型三利用回归分析进行有效预测【例题3】为了了解某地母亲身高x与女儿身高y的相关关系,现随机测得10对母女的身高,所得数据如下表所示:(1)试对x与y进行线性回归分析,并预测当母亲身高为161 cm时,女儿的身高为多少?(2)求相关系数r,并分析模型的拟合效果.分析:通过观察两变量对应的数据,可判断x与y之间存在线性相关关系,通过列表计算,求出回归方程,并通过计算线性相关系数来判断两变量的线性相关程度.反思:一个模型拟合得好不好,可通过计算线性相关系数r来判断,|r|的值越接近于1,变量之间的线性相关程度越高,拟合得越好.答案:【例题1】解:(1)列出下表,并用科学计算器进行计算.设所求的回归直线方程为y=bx+a.同时,利用上表可得b=∑10i=1x i y i-10x y∑10 i=1x2i-10x2=55 950-10×55×91.738 500-10×552≈0.668,a=y-b x≈91.7-0.668×55=54.96,即所求的线性回归方程为y=0.668x+54.96.(2)这个线性回归方程的意义是当x增大1时,y的值约增加0.668,而54.96是y不随x增大而变化的部分.因此当x=200时,y的估计值为y=54.96+0.668×200=188.56≈189.故加工200个零件时所用的时间约为189分.【例题2】解:列表:由此可得:x =5,y ≈6.185 7,∑i =17x i y i =251.1,∑i =17x 2i =203,∑i =17y 2i =311.51.∴线性相关系数r =∑i =17x i y i -7x y∑i =17x 2i -7x2∑i =17y 2i -7y2≈251.1-7×5×6.185 7203-7×52×311.51-7×6.185 72≈0.989 5.∴维修费用与使用年限之间存在线性相关关系.b =∑i =17x i y i -7xy∑i =17x 2i -7x2≈251.1-7×5×6.185 7203-7×52≈1.235 7,a =y -b x ≈6.185 7-1.235 7×5=0.007 2,∴线性回归方程为y =0.007 2+1.235 7x . 【例题3】 解:列表:(1)由表可得x =158.8,y =159.1,∑i =110x 2i =252 222,∑i =110y 2i =253 185,∑i =110x i y i =252688,进而可以求得b =∑10i =1x i y i -10xy∑10i =1x 2i -10x2=252 688-10×158.8×159.1252 222-10×158.82≈0.78,a =y -b x =159.1-0.78×158.8≈35,∴线性回归方程为y =35+0.78x .当x =161 cm 时,y =160.58 cm ,即女儿的身高为160.58 cm.(2)r=∑10i=1x i y i-10x y∑10i=1x2i-10x2∑10i=1y2i-10y2=252 688-10×158.8×159.1252 222-10×158.82×253 185-10×159.12≈0.715,说明模型拟合得效果较好.1由一组数据(x1,y1),(x2,y2),…,(x n,y n)得到的线性回归方程为y=a+bx,则下列说法正确的是( ).A.直线y=a+bx必过点(x,y)B.直线y=a+bx至少经过点(x1,y1),(x2,y2),…,(x n,y n)中的一点C.直线y=a+bx是由(x1,y1),(x2,y2),…,(x n,y n)中的两点确定的D.(x1,y1),(x2,y2),…,(x n,y n)这n个点到直线y=a+bx的距离之和最小答案:A 正确理解线性回归方程的含义,所求的线性回归方程并不一定要经过这n个样本点中的某些点,而是这n个点到直线的距离的平方和最小,即用最小二乘法求出线性回归方程中a,b的值,由于a=x by-,即x bay+=,由此可以看出(x,y)适合线性回归方程y=a+bx,所以直线y=a+bx必过点(x,y).2对于线性相关系数r ,下列说法正确的是( ).A .r∈(-∞,+∞),r 越大,相关程度越强;反之,相关程度越弱B .|r|∈(0,+∞),|r|越大,相关程度越强;反之,相关程度越弱C .|r|≤1,且|r|越大,相关程度越强;反之,相关程度越弱D .以上说法都不正确答案:C 熟记关于线性相关系数r 的重要结论是解决此类问题的关键.3某工厂为预测某产品的回收率y ,需要研究它和原料的有效成分含量x 之间的相关关系,现取8对观察值,计算得∑-=8152i i x ,∑-=81228i i y ,∑-=8121478i x ,∑-=811849i i i y x ,则y 对x 的线性回归方程为( ).A .y =11.47+2.62xB .y =-11.47+2.62xC .y =2.62+11.47xD .y =11.47-2.62x答案:A 由已知条件,得x =6.5,y =28.5,代入,得b =∑∑==--8122818y8i ii i i xx x y x =25.684785.285.681849⨯-⨯⨯-≈2.62,a =y -b x ≈28.5-2.62×6.5=11.47,∴线性回归方程为y =11.47+2.62x .4(2012·太原一模)下表是某厂1~4月份用水量(单位:百吨)的一组数据:由其散点图,可知用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是________________________________________________________________________.答案:y =-0.7x +5.25 由已知,得x =2.5,y =3.5,∑=412i i x =30,∑=41i i i y x =31.5,所以b =∑∑==--4122414y4i ii i i xx x y x =-0.7.所以a =y -b x =5.25.所以线性回归方程是y =-0.7x +5.25.5某商店统计了最近6个月某商品的进价x 与售价y(单位:元)的对应数据如下表所示:求y 关于x 的线性回归方程,要使售价不超过16元,则进价应不超过多少? 解:由表中数据可得:x =6.5,y =8.327612=∑=i i x ,∑=61i i i y x =396,进而可以求得b =∑∑==--6122616y 6i i i i i xx x y x =25.6632785.66396⨯-⨯⨯-≈1.143,a =y -b x ≈8-1.143×6.5=0.570 5.∴所求的线性回归方程为y =0.570 5+1.143x . 由y ≤16,即0.570 5+1.143x ≤16. 解得x ≤13.5,所以进价应不超过13.5元.。