1.2 回归分析(一)明目标、知重点 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.1.回归直线方程在回归直线方程y ^=a ^+b ^x 中,b ^=∑ni =1x i -xy i -y∑n i =1x i -x 2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2,a ^=y-b ^x .其中x =1n ∑ni =1x i ,y =1n∑n i =1y i . (x ,y )称为样本点的中心,回归直线过样本点的中心. 2.相关系数(1)对于变量x 与y 随机抽到的n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),检测统计量是样本相关系数r =∑n i =1 x i -xy i -y∑n i =1x i -x2∑n i =1y i -y2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2∑ni =1y 2i -n y2.(2)相关系数r 的取值范围是[-1,1],|r |值越大,变量之间的线性相关程度越高;|r |值越接近0,变量之间的线性相关程度越低.当|r |>r 0.05时,表明有95%的把握认为两个变量之间有线性相关关系.[情境导学]“名师出高徒”这句谚语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关? 探究点一 回归直线方程思考1 两个变量之间的关系分几类? 答 分两类:①函数关系,②相关关系.函数关系是一种确定性关系,而相关关系是一种非确定性关系. 上面所提的“名师”与“高徒”之间的关系就是相关关系.思考2 什么叫回归分析?答 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. 思考3 对具有线性相关关系的两个变量进行回归分析有哪几个步骤? 答 基本步骤为画散点图,求回归直线方程,用回归直线方程进行预报. 例1 若从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg4857505464614359. 解 (1)画散点图选取身高为自变量x ,体重为因变量y ,画出散点图,展示两个变量之间的关系,并判断二者是否具有线性关系.由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用回归直线y =bx +a 来近似刻画它们之间的关系.(2)建立回归方程由计算器可得b ^=0.849,a ^=-85.712.于是得到回归直线方程为y ^=0.849x -85.712. (3)预报和决策当x =172时,y ^=0.849×172-85.712=60.316(kg). 即一名身高为172 cm 的女大学生的体重预报值为60.316 kg. 反思与感悟 在使用回归直线方程进行预报时要注意: (1)回归直线方程只适用于我们所研究的样本的总体; (2)我们所建立的回归直线方程一般都有时间性; (3)样本取值的范围会影响回归直线方程的适用范围;(4)不能期望回归直线方程得到的预报值就是预报变量的精确值.跟踪训练1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:x 6 8 10 12 y2356(1)请画出上表数据的散点图((2)请根据上表提供的数据,用最小二乘法求出y 关于x 的回归直线方程y ^=b ^x +a ^; (3)试根据求出的回归直线方程,预测记忆力为9的同学的判断力. 解 (1)如图:(2)∑ni =1x i y i =6×2+8×3+10×5+12×6=158, x =6+8+10+124=9,y =2+3+5+64=4, ∑ni =1x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中回归直线方程,当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.探究点二 相关性检验思考1 给出n 对数据,按照公式求出的回归直线方程,是否一定能反映这组成对数据的变化规律?答 如果数据散点图中的点都大致分布在这条直线附近,这条直线就能反映这组成对数据的变化规律,否则求出的方程没有实际意义. 思考2 怎样定量确定两个变量的相关关系?答 可以通过计算相关系数r 来确定,若|r |>r 0.05,可以有95%的把握认为两个变量具有线性相关关系;若|r |≤r 0.05,则没有理由认为两个变量具有线性相关关系,此时寻找回归直线方程毫无意义.例2 维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y 来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x (g/L)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据:甲醛浓度(g/L) 18 20 22 24 26 28 30 缩醛化度(克分子%) 26.8628.3528.7528.8729.7530.0030.36(1)画散点图; (2)求回归直线方程;(3)求相关系数r ,并进行相关性检验. 解 (1)散点图如下图:(2)可以看出,两变量之间有近似的线性相关关系,下面用列表的方法计算a ^,b ^.ix iy ix i 2x i y i1 18 26.86 324 483.482 20 28.35 400 5673 22 28.75 484 632.5 4 24 28.87 576 692.88 5 26 29.75 676 773.5 6 28 30.00 784 8407 30 30.36 900 910.80 ∑168202.944 1444 900.16x =1687=24,y =202.947, b ^ =∑7i =1x i y i -7x y ∑7i =1x i 2-7x 2=4 900.16-7×24×202.9474 144-7×242≈0.264 3, a ^=y -b ^x =202.947-0.264 3×24≈22.648, ∴回归直线方程为y ^=22.648+0.264 3x .(3)∑7i =1y i 2≈5 892,r =∑7i =1x i y i -7x y∑7i =1x i 2-7x2∑7i =1y i 2-7y2=4 900.16-7×24×202.9474 144-7×242×[5 892-7×⎝ ⎛⎭⎪⎫202.9472]≈0.96.∵r =0.96>r 0.05=0.754.∴有95%的把握认为“甲醛浓度与缩醛化度有关系”,求得的回归直线方程有意义. 反思与感悟 根据已知数据求得回归直线方程后,可以利用相关系数和临界值r 0.05比较,进行相关性检验.跟踪训练2 为了研究3月下旬的平均气温(x )与4月20日前棉花害虫化蛹高峰日(y )的关系,某地区观察了2007年至2012年的情况,得到了下面的数据:年份2007 2008 2009 2010 2011 2012 x (℃) 24.4 29.6 32.9 28.7 30.3 28.9 y (日)19611018(1)对变量x 、y 进行相关性检验;(2)据气象预测,该地区在2013年3月下旬平均气温为27℃,试估计2013年4月化蛹高峰日为哪天.解 由已知条件可得下表:i 1 2 3 4 5 6 x i 24.4 29.6 32.9 28.7 30.3 28.9 y i19611018x ≈29.13,y =7.5,∑i =16x i 2=5 130.92,∑i =16y i 2=563,∑i =16x i y i =1 222.6(1)r =∑i =16x i y i -6x y∑i =16x i 2-6x2∑i =16y i 2-6y2≈-0.934 1.查表知:r 0.05=0.811.由|r |>r 0.05,可知变量y 和x 存在线性相关关系.(2)b ^=1 222.6-6×29.13×7.55 130.92-6×29.132≈-2.23, a ^=y -b ^x ≈72.46.所以回归直线方程为y ^=-2.23x +72.46.当x =27时,y ^=-2.23×27+72.46≈12.据此,可估计该地区2013年4月12日为化蛹高峰日.1.下列各组变量之间具有线性相关关系的是( ) A.出租车费与行驶的里程 B.学习成绩与学生身高 C.身高与体重 D.铁的体积与质量 答案 C2.对变量y 和x 进行相关性检验,已知n 为数据的对数,r 是相关系数,且已知①n =3,r =0.995 0;②n =7,r =0.953 3;③n =15,r =0.301 2;④n =17,r =0.499 1.则变量y 和x 具有线性相关关系的是( )A.①和②B.①和③C.②和④D.③和④答案 C解析 ①n =3时,r 0.05=0.997,所以|r |<r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.②n =7时,r 0.05=0.754,所以|r |>r 0.05,表明有95%的把握认为x 与y 之间具有线性相关关系.③n =15时,r 0.05=0.514,所以|r |<r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.④n =17时,r 0.05=0.482,所以|r |>r 0.05,表明有95%的把握认为x 与y 之间具有线性相关关系.所以②和④满足题意.3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( )A.y ^=-10x +200B.y ^=10x +200C.y ^=-10x -200D.y ^=10x -200 答案 A解析 由于销售量y 与销售价格x 成负相关,故排除B 、D.又当x =10时,A 中y =100,而C 中y =-300,C 不符合题意,故选A.4.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加 万元. 答案 0.2540.254x+1+0.321-(0.254x+0.321)=0.254.解析由题意知[][呈重点、现规律]1.对具有相关关系的两个变量进行统计分析,可从散点图观察大致呈条状分布,可以求回归直线方程并进行预报.2.通过求相关系数并和临界值r0.05比较可以判断两个变量是否有线性相关关系,求得的回归直线方程是否有意义.。