当前位置:文档之家› 线性回归PPT优秀课件

线性回归PPT优秀课件


1.正方形面积S与边长x之间的关系: 确定关系 正方形边长x 面积S x 2 2.一块农田的水稻产量与施肥量之间的关系: 气候情况 施肥量 不确定关系 水稻产量
浇水
除虫
与函数关系不同,相关关系是一种非确定
性关系.对具有相关关系的两个变量进行统
计分析的方法叫做回归分析. 在现实生活中存在着大量的相关关系.人 的身高与年龄、产品的成本与生产数量、商品
的销售额与广告费、家庭的支出与收入等都是
相关关系.
问题1:正方形的面积y与正方形的边长x之间
的函数关系是 y = x2 确定性关系 问题2:某水田水稻产量y与施肥量x之间是 否有一个确定性的关系? (不确定关系) 例如:在7块并排、形状大小相同的试验田上进行 施肥量对水稻产量影响的试验,得到如下所示的一 组数据:
为了书写方便,我们先引进一个符号 “ ”.这个符号表示若干个数相加.
n
例如,可将x1+x2+……+xn记作 x i
i1
,即
表示从x1加到xn的和.这样,n个数的平均
1 n 数的公式可以写作 x x i .上面的③ n i 1 n 2 式可以写作Q= ( yi bxi a) .
因此所求的回归直线方程是 yˆ =4.75x+257. 根据这个回归直线方程,可以求出相应于x 的估计值.例如当x=28(kg)时,y的估计
值是

= 4.75×28+257=390(kg).
例1.一个工厂在某年里每月产品的总成本y
(万元)与该月产量x(万件)之间有如下一组
数据:
(l)画出散点图; (2)求月总成本y与月产量x之间的回归直线方
i 1
这个式子展开后,是一个关于a,b的二 次多项式.利用配方法,可以导出使Q取得 最小值的a,b的求值公式(详细推导过程 请见本小节后的阅读材料.P43页).
n n (xi x )( yi y ) xi yi nxy b i1 n i1 n 2 2 2 ( x x ) x nx i i i 1 i 1 a y bx
程.
解:(1)画出的散点图如图1-10所示.
1--9
(2)列出下表,并用科学计算器计算,
于是可得
1 2 1 8 .5 x y 1 2 xy 5 4 .2 4 31 2 2 .8 4 7 5 i i 1 1 2 b i 1 .2 1 5 1 2 1 8 .5 2 2 2 2 9 .8 0 8 1 2 ( ) x 1 2x i 1 2 i 1 1 8 .5 x 2 .8 4 7 51 .2 1 5 0 .9 7 4 a y b 1 2
施化肥量x 水稻产量y
15
20
25 365
30
35
40
45
330 345
405 445
450 455
当施肥量x一定时,水稻产量y的值带有一定的随机性
借助科学计算器,可以完成下表中的有关计 算.
于是
7 1 7 57 3 0 3 9 9 .3 8 b 4 .7 5 2 7 0 0 07 3 0 9 9 .34 .7 5 3 02 5 7 a3
施化肥量x 水稻产量y
15
20
25 365
30
35
40
45
330 345
405 445
450 455
当施肥量x一定时,水稻产量y的值带有一定的随机性
施化肥量x
15
20
25
30
35
40
45
水稻产量y
330 345 365
405 445

450 455
y
500 450 400 350 300 0
水稻产量
··
10 20
· · ·
30
· ·
散点图
施化肥量
40 50
x 发现:图中各点,大致分布在某条直线附近。
探索; 在这些点附近可画直线不止一条,哪条 直线最能代表x与y之间的关系呢?
一般地,设x与y是具有相关关系的两个 变量,且相应于n个观测值的n个点大致分布 在一条直线的附近,我们来求在整体上与这n
容易看到,上面各个偏差的符号可能有 正有负,如果将它们相加会造成相互抵消, 因此它们的和不能代表n个点与相应直线在 整体上的接近程度.为了解决这一问题, 我们采用n个偏差的平方和,即
Q=(y1-bx1-a)2+(y2-bx2-a)2+……+(yn -bxn-a)2 ③
来表示n个点与相应直线在整体上的接近 程度. 于是我们的问题是,如何求得系数a, b,使Q取得最小值.

这里,我们将所得到的方程叫做回归直
线方程,相应的直线叫做回归直线,而对
两个变量所进行的上述统计分析叫做线性
回归分析.我们看到,求出了这种具有两
个变量的回归直线后,就可以根据其部分
观测值,获得对这两个变量之间整体关系
的了解.
下面根据公式④,来求前面例子水稻产量与施肥 量中的回归直线方程.
例如:在7块并排、形状大小相同的试验田上进行 施肥量对水稻产量影响的试验,得到如下所示的一 组数据:
因此,所求的回归直线方程是

=1.215x+0.972.
个点最接近的一条直线.
设所求的直线的方程为
yˆ =bx+a,
(在一般统计书中,习惯用b表示一次项系
数,用a表示常数项,这正好与我们表示
一次函数的习惯相反)
其中a,b是待确定的参数.于是,当变 量x取一组数值xi(i=1,2,……,n)时, yˆ i+a(i=1,2,……,n) 相应地 =bx
于是得到各个偏差yi- yˆ i=yi-(bxi+a) (i= 1,2,……,n).
水果湖韩新
对于两个变量之间的关系,我们以前学
过.函数关系是一种确定性关系.例如正
方形的面积 S 与边长 x 之间的关系 S=x2
就是一种确定性关系,即对于自变量边长
的每一个确定的值,都有唯一确定的面积
的值与之对应.
两个变量之间的关系还有另外一种情 况.我们来看看一块农田的水稻产量与施 肥量之间的关系.在这个问题里,水稻产 量不仅受到施肥量的影响,还受到其他不 少因素(诸如气候情况、浇水、除虫等) 的影响.因此,当施肥量一定时,水稻产 量在取值上带有一定的随机性.像这种自 变量取值一定时,因变量的取值带有一定 随机性的两个变量之间的关系叫做相关关 系.
相关主题