回归直线方程的三种推导方法 巴州二中母润萍回归直线方程是新课改新增内容之一,在必修数学3中对两个具有线性相关关系的变量利用回归分析的方法进行了研究,书中直接给出了回归直线方程系数的公式,在选修2-3中给出了回归直线方程的截距和斜率的最小二乘法估计公式的另一种形式的推导方法,根据所学知识,我总结了3种推导回归直线方程的方法:设x 与y 是具有线性相关关系的两个变量,且相应于样本的一组观测值的n 个点的坐标分别是:112233()()()()n n x y x y x y x y ,,,,,,,,,设所求的回归方程为i i y bx a =+,(123)i n =,,,,.显然,上面的各个偏差的符号有正、有负,如果将他们相加会相互抵消一部分,因此他们的和不能代表n 个点与回归直线的整体上的接近程度,因而采用n 个偏差的平方和Q 来表示n 个点与相应直线(回归直线)在整体上的接近程度,即Q =∑(y i −y i ̂)2ni=1=∑(y i −bx i −a )2ni=1求出当Q 取最小值时的a b ,的值,就求出了回归方程. 下面给出回归方程的推导方法一:一、先证明两个在变形中用到的公式公式(一)22211()nni ii i x x x nx ==-=-∑∑,其中12nx x x x n +++=证明:2222121()()()()ni n i x x x x x x x x =-=-+-++-∑∵22221212()2n n x x x x x x nxnxn+++=+++-+222222222212121()2()nnni i x x x nx nx x x x x nx==+++-+=+++=-∑22211()nni i i i x x x nx==-=-∑∑∴.公式(二)11()()nnii i i i i xx y y x y nx y==--=-∑∑证明:11221()()()()()()()()ni i n n i x x y y x x y y x x y y x x y y =--=--+--++--∑∵11221122()()n n n n x y x y x y x y y x x y y x x y y x nx y=+++-+++++++12121[()()]ni i n n i x y x x x y y y y x nx y==-++++++++∑12121()()n n n i i i x x x y y y x y n y x nx y n n=++++++⎡⎤=-++⎢⎥⎣⎦∑112nni i i i i i x y nxy nxy x y nxy===-+=-∑∑,11()()nni i i i i i x x y y x y nx y==--=-∑∑∴.二、推导:将Q 的表达式的各项先展开,再合并、变形 2222112233()()()()n n Q y bx a y bx a y bx a y bx a =--+--+--++--2222121122()[2()2()]n y y y y bx a y bx a =+++-+++展开222211111222n n nnni i i i ii i i i i i y b x y a y bxab x na ======--+++∑∑∑∑∑合并同类项22221111122nnii n n ni i i i i i i i i y x na na b b x b x y y nn =====⎛⎫ ⎪ ⎪=--+-+ ⎪ ⎪⎝⎭∑∑∑∑∑以a b ,的次数为标准整理22221112()2nn nii i i i i i na na y bx bxb x y y ====--+-+∑∑∑转化为平均数x y,22222111[()]()2nnnii i i i i i n a y bx n y bx bxb x y y ====----+-+∑∑∑配方法2222222111[()]22nnnii i i i i i n a y bx ny nbxy nb x bxb x y y ====---+-+-+∑∑∑展开222222111[()]()2()()nnni i i i i i i n a y bx b x nx b x y nxy y ny ====--+---++∑∑∑整理2222111[()]()2()()()nnnii i i i i i n a y bx bxx b x x y y y y ====--+----+-∑∑∑用公式(一)、(二)变形22212111()()[()]()()()ni i n ni i i nii i i x x y y n a y bx x x b y y x x ====⎡⎤--⎢⎥⎢⎥=--+--+-⎢⎥-⎢⎥⎣⎦∑∑∑∑配方22212212211111()()()()()()()()()nni i i i n n i i i i n ni i i i i x x y y x x y y n a y bx x x b y y x x x x ======⎡⎤⎡⎤----⎢⎥⎢⎥⎣⎦⎡⎤⎢⎥=--+---+-⎣⎦⎢⎥--⎢⎥⎣⎦∑∑∑∑∑∑配方法在上式中,共有四项,后两项与a b ,无关,为常数;前两项是两个非负数的和,因此要使得Q 取得最小值,当且仅当前两项的值都为0.所以 b =∑(x i −x̅)(y i −y ̅)n i=1∑(x i−x̅)2n i=1 a =y ̅−bx̅ 或1221ni ii n i i x ynxyb x nx==-=-∑∑用公式(一)、(二)变形得上述推导过程是围绕着待定参数a b ,进行的,只含有i i x y ,的部分是常数或系数,用到的方法有: ① 配方法,有两次配方,分别是a 的二次三项式和b 的二次三项式; ② 形时,用到公式(一)、(二)和整体思想; ③ 用平方的非负性求最小值.④ 实际计算时,通常是分步计算:先求出x y,,再分别计算1()()nii i xx y y =--∑,21()nii xx =-∑或1ni ii x ynx y=-∑,221nii xnx=-∑的值,最后就可以计算出a b ,的值.推导方法二:Q =∑(y i −y i ̂)2ni=1=∑(y i −bx i −a )2ni=1=∑[y i −bx i −(y ̅−bx̅)+(y ̅−bx̅)−a ]2ni=1=∑{[y i −bx i −(y ̅−bx̅)]2+2[y i −bx i −(y ̅−bx̅)]∗[(y ̅−bx̅)−a ]+[(y ̅−bx̅)−a ]2}ni=1=∑[y i −bx i −(y ̅−bx̅)]2+2∑[y i −bx i −(y ̅−bx̅)]∗[(y ̅−bx̅)−a ]ni=1+n (y ̅−bx̅−a )2ni=1注意到∑[y i −bx i −(y ̅−bx̅)]∗[(y ̅−bx̅)−a ]=(y ̅−bx̅−a )∑[y i −bx i −(y ̅−bx̅)]ni=1ni=1=(y ̅−bx̅−a )[∑y i −b ∑x i −n (y ̅−bx̅)ni=1n i=1]=(y ̅−bx̅−a )[ny ̅−nbx̅−n (y ̅−bx̅)]=0因此,Q =∑[y i −bx i −(y̅−bx̅)]2+n (y ̅−bx̅−a )2n i=1 =b 2∑(x i −x̅)2ni=1−2b ∑(x i −x̅)(y i −y ̅)+∑(y i −y ̅)2ni=1ni=1+n (y ̅−bx̅−a )2=n (y ̅−bx̅−a )2+∑(x i −x̅)2[b −∑(x i −x̅)(y i −y ̅)n i=1∑(x i −x̅)2n i=1]2ni=1−[∑(x i −x̅)(y i −y ̅)n i=1]2∑(x i −x̅)2n i=1+∑(y i −y ̅)2ni=1在上式中,后面两项和a,b 无关,前两项为非负数,因此,要使Q 达到最小值,当且仅当前两项均为0,即有b =∑(x i −x̅)(y i −y ̅)n i=1∑(x i −x̅)2n i=1a =y ̅−bx̅ 总结:这种方法难想到为什么要这样处理,并且计算量很大。
还有不足之处是它与必修三给出的公式形式上还是有所区别,还要对形式进行转化。
推导方法三:Q =∑(y i −y i ̂)2ni=1=∑(y i −bx i −a )2ni=1两边对a 求导得−2∑(y i −bx i −a )=−2[(y 1−bx i −a )+(y 2−bx 2−a )+⋯⋯+(y n −bx n −a )]ni=1=−2[(y 1+y 2+⋯⋯+y i )−b (x 1+x 2+⋯⋯+x n )−na ]=−2(ny ̅−bnx̅−na )令−2(ny ̅−bnx̅−na )=0得a =y ̅−bx̅(1)若两边对b 求导得−2∑(y i −bx i −a )x i ni=1=−2[(y 1−bx i −a )x 1+(y 2−bx 2−a )x 2+⋯⋯+(y n −bx n −a )x n ]=−2[(x 1y 1+x 2y 2+⋯⋯+x n y n )−b (x 12+x 22+⋯⋯+x n 2)−a (x 1+x 2+⋯⋯+x n )]=−2(∑x i ni=1y i −b ∑x i 2ni=1−anx̅)令−2(∑x i n i=1y i −b ∑x i 2n i=1−anx̅)=0 将(1)式带入上式得b =∑x i y i n i=1−nx̅y̅∑x i 2n i=1−nx̅总结:这种方法应该比以上两种方法都简单,学生在学习过导数及其利用导数求极值之后,度这个方法的推导能够理解。