当前位置:文档之家› 2016-2017学年高中数学 第三章 统计案例 3.1 第2课时 残差分析及回归模型的选择学案 新

2016-2017学年高中数学 第三章 统计案例 3.1 第2课时 残差分析及回归模型的选择学案 新

3.1 第二课时 残差分析及回归模型的选择一、课前准备 1.课时目标(1) 了解残差分析回归效果; (2) 了解相关指数2R 分析回归效果;(3) 了解常见的非线性回归转化为线性回归的方法. 2.基础预探1.在线性回归模型y bx a e =++中,a b 和为模型的未知参数,e y 是与y bx a =+之间的误差,通常e为随机变量,称为_______.它的均值E(e)=0,方差2()0D e σ=>.线性回归模型的完整表达形式为2()0,()y bx a eE e D e σ=++⎧⎨==⎩.在此模型中,随机误差r的方差2σ越小,通过回归直线y bx a =+预报真实值y的精度越高. 2.对于样本点1122(,),(,),,(,)n n x y x y x y 而言,相应于它们的随机误差为(1,2,,)i i i i e y y y bx a i n =-=--=,其估计值为(1,2,,)i i i i i e y y y bx a i n =-=--=,i e 称为相应于点(,)i i x y 的______.类比样本方差估计总体方差的思想,可以用21(,)2Q a b n σ=-(n>2)作为2σ的估计量,其中a b 和由公式给出,()Q a b ,称为残差平方和.可以用2σ衡量回归直线方程的预报精度.通常2σ越小,预报精度越高.3.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差12,,n e e e 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为_______.4.用相关指数2R 来刻画回归的效果,其计算公式是:22121()1()nii nii y y R y y ==-=--∑∑.显然2R 取值越大,意味着残差平方和_______,也就是说模型的拟合效果________. 二、学习引领1. 进行回归分析的步骤是什么?(1)确定研究对象,明确是哪两个变量之间的相关关系.(2)画出散点图,观察它们之间的关系是否存在线性关系,也可计算变量间的线性相关系数的值来精确判断它们之间是否存在相关关系.如果不存在线性相关关系,判断散点图是否存在非线性相关关系.(3)若存在相关关系,则由经验确定回归方程的类型:如观察到数据呈线性关系,则选用线性回归方程ˆy=bx+a ;否则可选择指数模型、对数模型或二次函数模型等. (4)利用残差图或者相关指数2R 对回归效果进行判断2.随机误差e的产生及估计的方法(1)在实际中,随机变量y除了受随机变量x的影响之外,还受其它变量的影响;(2)由于前面相关关系公式中的a b 和为截距和斜率的估计值,它们与真实值a b 和之间也存在误差.(3)因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机变量的均值为0,因此可以用方差2来衡量随机误差的大小. 3.如何利用2R 判断回归效果在线性回归模型中,2R 表示解释变量对于预报变量变化的贡献率. 2R 越接近于1,表示回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析.也可以通过比较几个2R ,选择其值大的模型.4.常见的可线性化的回归模型(1)幂函数曲线y=ax b(如图所示), 作变换u=lny ,v=lnx,c=lna,得线性函数u=c+bv.(2)指数函数y=ae bx(如图所示) 作变换u=lny, c= lna,得线性函数u=c+bx.(3)倒指数曲线y=a b xe (如图所示).(4)对数曲线y=a+blnx(如图所示)三、典例导析题型一相关系数的应用例1 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车r,由此判断交通事故数y与机动车辆数x是否线性相关.解析:将数据列成下表由此可知x=128.875 y=8.95,进而求得0.9927≈.因为|r|接近1 ,所以可得交通事故数y和机动车辆数x有较强的线性相关关系.规律总结:进行回归分析时,通常先进行相关性检验,若能确定两个变量具有线性相关关系,再去求其线性回归方程,否则所求的方程无意义.两个变量正(负)相关时,它们就有相同(反)的变化趋势,即当由小变大时,相应的有由小(大)变大(小)的趋势.变式训练:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系?从这个工完成下列要求:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验。

题型二 残差分析某城区为研究城镇居民月家庭人均生活费支出和月人均收人的相关关系.随机抽取10户进思路导析:列表计算出相关系数所需数据,代入公式即可求出相关系数r ,初步判断两个变量之间是否具备相关性,然后做出残差图判断选用的模型是否合适.解析:作出散点分布图,由图可知月人均生活费与人均收人之间具有线性相关关系.由题意可知:639,480.4x y ==,101010221114610300,2540526,3417560,ii i i i i i xy x y ======∑∑∑计算相关系数可得 r=0.99316,因为|r|接近1 ,所以可得两个变量有较强的线性相关关系.代入公式可知b =101102211010i ii ii x y xyxx ==--∑∑=0.6599 , a =y -b x =58.751.故回归直线方程为ˆy=0.6599x+58.751. 作残差如图所示,由图可知,残差点比较均匀地分布在水平的带状区域中,说明选用的模型比较合适.计算相关指数R2=0.986 3,说明城镇居民的月人均生活费的差异有98.63%是由人均收人引起的.由以上分析可知.我们可以利用回归方程ˆy=0.6599x-58.751来作月生活费的预报值.将x=1100代人得,ˆy=784.64(元);将x=1200代人得,ˆy=850.63(元).故预测月人均收人分别为1100元和l200元的两家庭的月人均生活费分别为784.64元和850.63元归律总结:如果作出的残差图中的残差点比较均匀地分布在水平的带状区域中,带状区域宽度越窄,说明模型拟合程度越高,回归方程的预报精度越高.若利用相关指数R2来刻画拟合效果的好坏,R2的取值越接近1,说明残差的平方和越小,即说明模型的拟合效果越好.变式训练:在一段时间内,某种商品的价格x(元)与需求量y(件)之间的数据为求出y对x的回归直线方程,并说明拟合效果的好坏.题型三:非线性回归分析例3现代经济学证明,工厂生产产品的成本与其产量有关,产量越大,其成本越低.某饰品工艺厂在生产某种民族特色艺术品时,得到了每件饰品的成本费y(元)与产量x(百件)之间检验每件饰品的成本费y与产量x之间是否具有线性相关关系,若有,求出y对x的回归方程;若没有,你能求出y与x的一个关系式吗?思路导析:通过散点图观察两个变量具备怎样的相关关系,根据相关关系的特征选择合适的模型,将非线性相关的关系通过置换变为线性相关关系,然后求出成本与产量之间的关系. 解析:画出x和y的散点图,如图.图中的点的分布不在一条直线附近,故每件饰品的成本费y 与产量x 间不具有线性相关关系,又图中的点的分布近似于反比例函数中的一支,故可把x1置换为u ,检验y 与u 之间的相关关系,则有u =x1,从而u 与y 的数据为经计算得r=0.9998,因为|r|接近于1,所以可以认为两个变量y 与u 之间具有较强线性相关关系;由公式得a =1.125, b =8.973,所以ˆy =1.125+8.973u , 最后回代u=x 1,可得8.973ˆ 1.125y x=+.答:y 对x 的回归方程为8.973ˆ 1.125y x=+.方法规律:非线性回归问题要先根据已知的数据画出散点图,并把散点图与已经学习过的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出跟这些散点拟合最好的函数,然后再采用变量的置换,把问题转化为线性回归分析问题解决.变式训练:在兰新化工厂生产某种化学药品的生产车间内,技术人员测得如下表所示的6组数据,其中x ()min 表示化学反应进行的时间,y ()mg 表示未转化物质的量.(1)设y 与x 之间具有关系xcd y =,试根据测量数据估计c 和d 的值.(2)估计化学反应进行到min 10时未转化的物质的量.四、随堂练习1.变量x 、y 的散点图如图所示,那么x 、y 之间的样本相关系数r 的最接近的值为( )A.1B.-0.5C.0D.0.52.为了考察两个变量x和y之间的线性相关性.甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方程,求得回归直线分别为12l l 和.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都为t,那么下列说法正确的是( )A. 12l l 与相交点为(s,t);B.12l l 与相交,相交点不一定是(s,t);C. 12l l 与必关于点(s,t)对称;D. 12l l 与必定重合. 3.对于相关系数r ,下列说法中正确的是( )A.||r 越大,相关程度越大B.||r 越小,相关程度越大C.||r 越大,相关程度越小;||r 越小,相关程度越大D.1||≤r 且||r 越接近1,相关程度越大;||r 越接近0,相关程度越小4.如图所示,有5组数据(x ,y),去掉_____组数据后,剩下的4组数据的线性相关系数最大.5. 已知回归直线的斜率的估计值是 1.23,样本点的中心为(4,5),则回归直线的方程是______。

6. 某产品的广告费用支出x与销售额y(单位:百万元)之间有如下统计数据:请对上述变量x、y进行相关性检验.五、课后作业1. 某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是 ( ) A. ^10200y x =-+ B. ^10200y x =+ C. ^10200y x =-- D. ^10200y x =- 2.对两个变量x 与y 进行回归分析,分别选择了4个不同模型,它们的相关系数r 如下,其中拟合效果最好的模型是( ) A .模型1的相关系数r 为0.98 B .模型2的相关系数r 为0.80 C .模型3的相关系数r 为0.50 D .模型4的相关系数r 为0.253.线性相关的四个样本点(,3.5),(2.5,6.2),(4.4,),(5.2,11.3)x y 的中心是(3.4,7.75),则___,___x y ==4.已知一系列样本点(,)(1,2,3,,)i i x y i n =的回归直线方程为ˆ23yx =-,若117ni i x ==∑,则1nii y==∑5.某矿脉中设有9个样本点,某种金属的含量y 与样本点到原点的距离x 有如下表的测量值:请按y a x=+建立y 对x 的回归方程,并预测当样本点到原点的距离20x =时,该种金属的含量.6.(1)求y与x之间的回归方程,对于基本苗数56.7预报有效穗. (2)计算各组残差,并计算残差平方和.(3)求2R ,并说明残差变量对有效穗的影响占百分之几?参考答案3.1 第二课时 选择回归模型2.基础预探1.随机误差2.残差3. 残差分析4. 越小 越好 三、典例导析 例1 变式训练解析:由题意可知:77.7,165.7x y ==,1010102211170903,277119,132938ii i i i i i xy x y ======∑∑∑.0.808≈.因为|r|接近1,所以可得两个变量有较强的线性相关关系. 例2 变式训练解析:由题意可知:18,45.4x y ==,552111600,3992,ii i i i xx y ====∑∑代入公式可知b =51522155i ii ii x y xyxx ==--∑∑=-2.35, a =y -b x =87.7 ,故所求回归直线方程为ˆy=-2.35x+87.7. 列出残差表为:所以,255211()8.3,()229.2,iii i i y y y y ==-=-=∑∑代入公式可知R 2=1-251521()()iii ii y y y y ==--∑∑≈0.964.因为0.964接近于1,所以该模型的拟合效果好. 例3 变式训练解析:(1)在xcd y =的两边取自然对数,可以得到d x c y ln ln ln +=.设z y =ln ,由公式计算得ˆ 3.926a≈,ˆ0.2244b ≈-, 线性回归方程为9055.3ˆ≈z x 2119.0-, 即9055.3ln ≈c ,2219.0ln -≈d ,所以675.49≈c ,8010.0≈d ,根据测量数据估计675.49=c ,8010.0=d .(2)由(1)知y 与x 之间的关系为ˆ49.6750.8010xy=⨯, 当10=x 时,ˆy=4.58010.0675.4910≈⨯.所以估计化学反应进行到min 10时未转化物质的量为mg 4.5.四、随堂练习 1. 答案:C解析:从散点图可以看出,x 与y 没有线性相关关系,因而r 的值接近于0. 2.答案:A解析:设回归直线方程为y bx a =+,则a y bx =-,即 a t bs =-,可得出t bs a =+.所以点(s,t)在回归直线上,所以直线12l l 与一定有公共点(s,t). 3.答案:D解析:由两个变量的相关系数公式可知,相关程度的强弱||r 与1的接近程度有关,||r 越接近1,相关程度越大;||r 越接近0,相关程度越小.4.答案:D解析:当各点分布在一条直线附近时,相关系数最大,由图中可知,A 、B 、C 、E 四点分布在一条直线附近,而D 点远离这条直线,故去掉D 点后,相关性最强,相关系数最大.5.ˆ 1.230.08yx =+ 解析:设回归直线方程为a x b y+=ˆˆ,依题意可知,23.1=b ,又样本点的中心(4,5)在直线上,即5 1.234a =⨯+即0.08a =,所以回归直线的方程为ˆ 1.230.08yx =+. 6.解:由题意可以列表如下:由上代入公式可得0.92r =≈,因为|r|接近于1,说明广告费用和销售额之间具有显著线性关系. 五、课后作业 1. 答案:A解:因为销量与价格负相关,由函数关系考虑为减函数可排除B 、D ,根据回归直线方程y a bx =+中b 的统计学意义知不能为负数,再排除C 选项,所以选A.2.答案:A解析:r 越接近于1,拟合效果越好。

相关主题