1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则b^,a^其中,b是回归方程的斜率,a是在y轴上的截距.4.样本相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.5.线性回归模型(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.(2)相关指数用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.规律(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.注意(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.考向一相关关系的判断例1.下列选项中,两个变量具有相关关系的是( )A.正方形的面积与周长B.匀速行驶车辆的行驶路程与时间C.人的身高与体重D.人的身高与视力答案:C例2.对变量x、y有观测数据(x i,y i)(i =1,2,…,10),得散点图1;对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由题图1可知,各点整体呈递减趋势,x与y负相关,由题图2可知,各点整体呈递增趋势,u与v正相关.例3.下面哪些变量是相关关系().A.出租车车费与行驶的里程B.房屋面积与房屋价格C.身高与体重D.铁块的大小与质量解析A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.答案 C例4.如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据的线性相关性最大.解析:因为A、B、C、E四点分布在一条直线附近且贴近某一直线,D点离得远.答案:D例5.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v 有观测数据(u i、v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断().A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.答案 C例6.下列关系属于线性负相关的是( )A.父母的身高与子女身高的关系B.球的体积与半径之间的关系C.汽车的重量与汽车每消耗1 L汽油所行驶的平均路程D.一个家庭的收入与支出解析:选C.A、D中的两个变量属于线性正相关,B中两个变量是函数关系.例7.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):(1)画出散点图;(2)判断是否具有相关关系.[审题视点] (1)用x轴表示化肥施用量,y轴表示棉花产量,逐一画点.(2)根据散点图,分析两个变量是否存在相关关系.解(1)散点图如图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.例8. 根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).解析从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.答案否考向二线性回归方程例9.对有线性相关关系的两个变量建立的回归直线方程y^=a+bx中,回归系数b( )A.不能小于0 B.不能大于0C.不能等于0 D.只能小于0解析:选C.∵b=0时,r=0,这时不具有线性相关关系,但b能大于0也能小于0.例10.已知回归方程y^=4.4x+838.19,则可估计x与y的增长速度之比约为________.解析:x与y的增长速度之比即为回归方程的斜率的倒数14.4=1044=522.答案:5 22例11.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是().A.y^=-10x+200 B.y^=10x+200 C.y^=-10x-200 D.y^=10x-200 解析因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.答案 A例12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[审题视点] (2)问利用公式求a ^、b ^,即可求出线性回归方程.(3)问将x =100代入回归直线方程即可. 解 (1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得: i =14x 2i =86, x =3+4+5+64= 4.5(吨),y =2.5+3+4+4.54=3.5(吨).已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y ∑i =14x 2i-4x 2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.例13.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x/cm 174176176176178儿子身高y/cm 175175176177177则y对x的线性回归方程为().A.y=x-1 B.y=x+1C.y=88+12x D.y=176解析由题意得x=174+176+176+176+1785=176(cm),y=175+175+176+177+1775=176(cm),由于(x,y)一定满足线性回归方程,经验证知选C.答案 C例14.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y^=bx+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:对预处理后的数据,容易算得,x=0,y=3.2,b=26040=6.5,a=y-b x=3.2.由上述计算结果,知所求回归直线方程为y -257=b(x-2 006)+a=6.5(x-2 006)+3.2,即y^=6.5(x-2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).例15.下列有关回归直线方程y^=bx+a 的叙述正确的是( )①反映y^与x之间的函数关系;②反映y与x之间的函数关系;③表示y^与x之间的不确定关系;④表示最接近y与x之间真实关系的一条直线.A.①② B.②③C.③④ D.①④解析:选D.y^=bx+a表示y^与x之间的函数关系,而不是y与x之间的函数关系;但它反映的关系最接近y与x之间的真实关系,故选D.例16.设有一个回归方程y^=3-5x,变量x增加一个单位时( )A.y平均增加3个单位B.y平均减少5个单位C.y平均增加5个单位D.y平均减少3个单位解析:选B.∵-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.例17.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不.正确的是( ) A.由样本数据得到的回归方程y^=b^x+a^必过样本中心(x,y)B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r =-0.9362,则变量y和x之间具有线性相关关系解析:选C.C中应为R2越大拟合效果越好.例18.已知回归方程y^=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )A .0.01B .0.02C .0.03D .0.04解析:选C.当x =2时,y ^=5, 当x =3时,y ^=7,当x =4时,y ^=9.∴e ^1=4.9-5=-0.1,e ^2=7.1-7=0.1, e ^3=9.1-9=0.1.∴ i =13e ^i 2=(-0.1)2+(0.1)2+(0.1)2=0.03.例19.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②回归方程y ^=bx +a 必过点(x ,y ); ③曲线上的点与该点的坐标之间具有相关关系;④在一个2×2列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是 90%.其中错误的是________.解析:①正确.由回归方程的定义及最小二乘法思想,知②正确.③④不正确.答案:③④例20.在2009年十一国庆8天黄金周期间,某市物价部门,对本市五个商场销售的某商品的一天销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:价格x 99.5110.511销售量y 11186 5通过分析,发现销售量对商品的价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为________.解析:由数据表可得x=10,y=8,离差x-x:-1,-0.5,0,0.5,1;离差y-y:3,2,0,-2,-3.∴b^=-1×3-0.5×2-0.5×2-1×3 1+0.25+0+0.25+1=-3.2,a^=y-b^x=40,∴回归直线方程为y^=-3.2x+40.答案:y^=-3.2x+40例21.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:身高(cm)14315615917216517117716116416体重(kg)41496179686974696854 根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.解:以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.12.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程y^=b^ x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P(A)=1-410=35.(2)由数据求得,x=12,y=27,由公式求得.b^=52,a^=y-b^x=-3.所以y关于x的线性回归方程为y^=5 2 x-3.(3)当x=10时,y^=52×10-3=22,|22-23|<2;当x=8时,y^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的.。