当前位置:文档之家› 回归分析的基本思想及其初步应用

回归分析的基本思想及其初步应用

i=1
r>0正相关;r<0负相关.通常:
r∈[-1,-0.75]--负相关很强;
r∈[0.75,1]—正相关很强; 对r进行显 著性检验
r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般;
r∈[-0.25, 0.25]--相关性较弱;
下面我们用相关指数分析一下例1:
温度xoC 产卵数y/个
21 7
23 11
25 21
27 24
29 66
32 115
35 325
(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵 数目。 (2)你所建立的模型中温度在多大程度上解释了产卵数的变化?
方 法 一 : 一 元 函 数 模 型
选变量
350 300 250
相关系数的性质 (1)|r|≤1. (2)|r|越接近于1,相关程度越强;|r|越接近于0, 相关程度越弱. • 注:b 与 r 同号 • 问题:达到怎样程度,x、y线性相关呢?它们的相 关程度怎样呢?
相关系数
r
(x
i=1
n
i
- x)(yi - y)
n 2 2
(x
i=1
n
i
- x) ×(yi - y)
残差――与预测有关,残差大小可以衡量预测的准确 性。残差越大表示预测越不准确。残差与数据本身的
(2)我们可以用相关指数R2来刻画回归的效果,其计算公式是
R 1
2
2 ( y y ) i i 2 ( y y ) i i 1 i 1 n
n
残差平方和 1 。 总偏差平方和
解:选取气温为解释变量x,产卵数 为预报变量y。
画散点图200 150 1Fra bibliotek0选模型
50
0
0 3 6 9 12 15 18 21 24 27 30 33 36 39
估计参数
假设线性回归方程为 :ŷ=bx+a 由计算器得:线性回归方程为y=19.87x-463.73
分析和预测
相关指数R2=r2≈0.8642=0.7464
i 1 i 1 i 1
从上中可以看出,解析变量对总效应约贡献了64%,即 R2 0.64,可以叙述为“身高解析了64%的体重变化”,而随机误 差贡献了剩余的36%。 所以,身高对体重的效应比随机误差的效应大得多。
问题四:结合例1思考:用回归方程预报体重时应注意什么?
1.回归方程只适用于我们所研究的样本的总体。 2.我们建立的回归方程一般都有时间性。 3.样本取值的范围会影响回归方程的适用范围。 4.不能期望回归方程得到的预报值就是预报变量的精确值。 涉及到统计的一些思想: 模型适用的总体;模型的时间性; 样本的取值范围对模型的影响;模型预报结果的正确 理解。
由于所有的样本点不共线,而只是散布在某一直线的附近, 所以身高和体重的关系可以用线性回归模型来表示:
y bx a e
其中a和b为模型的未知参数,e称为随机 误差.
函数模型与“回归模型”的关系
函数模型:因变量y完全由自变量x确定
回归模型: 预报变量y完全由解释变量x和随机误差e确定
思考:产生随机误差项e的原
产卵数y/个 350 300
250 200 150
100 50
0 0 150 300 450 600 750
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。 在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。 R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的 线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值 来做出选择,即选取R2较大的模型作为这组数据的模型。
1.1回归分析的基本思想及其初步应用
我们知道,函数关系是一种确定性关系, 而相关关系是一种非确定性关系.回归分析 (regression analysis)是对具有相关关系的两个变量进 行统计分析的一种常用方法. 下面我们通过具体问题,进一步学习回归 分析的基本思想及其应用于
问题一:结合例1得出线性回归模型及随机误差。并且区分函数模型和回归模型。
因是什么?
注:e 产生的主要原因: (1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误
差,
它是一个不可观测的量,那么应如何研究随机误差呢? e=y-(bx+a)
残差:一般的对于样本点(x1 ,y1),(x2 ,y2 ),...,(xn ,yn ),它们的随机误差为 ei yi bxi a, i 1, 2,...n, 其估计值为 ei yi y i yi b xi a, i 1, 2,...n ei 称为相应于点(xi ,yi )的残差。
作散点图,并由计算器得: y 和 t 之间的线性回归方程为 y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802 将t=x2代入线性回归方程得: y=0.367x2 -202.54 当x=28时,y=0.367×282202.54≈85,且R2=0.802, 所以,二次函数模型中温度解 释了80.2%的产卵数变化。
1)计算 ei y b x a ( i i (i=1,2,...n) 残差分析( 2)画残差图 ( 1)查找异常样本数据 (3)分析残差图( 2)残差点分布在以O为中心的水平带状区域,并沿 水平方向散点的分布规律相同。
下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 身高 /cm 体重/kg 残差
1 165 48
-6.373
2 165 57
2.627
3 157 50
2.419
4 170 54
-4.618
5 175 64
1.137
6 165 61
6.627
7 155 43
-2.883
8 170 59
身 高 与 体 重 残 差 图
异 常 点
• 错误数据 • 模型问题
误差与残差,这两个概念在某程度上具有很大的相似 性, 都是衡量不确定性的指标,可是两者又存在区别。
误差与测量有关,误差大小可以衡量测量的准确性, 误差越大则表示测量越不准确。误差分为两类:系统 误差与 随机误差。其中,系统误差与测量方案有关,通过改 进测量方案可以避免系统误差。随机误差与观测者, 测量工具,被观测物体的性质有关,只能尽量减小, 却不能避免。
n 1 1 2 2 2 ˆ 为 ˆ ˆ ˆ ei Q(a , b )( n 2) 的估计量 n 2 i 1 n2 ˆ ) 称为残差平方和. ˆ,b Q( a
问题三:如何发现数据中的错误?如何衡量随机模型的拟合 效果?
(1)我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。
注:相关指数R2是度量模型拟合效果的一种指标。在线性模型中,它代表 自变量刻画预报变量的能力。
相关系数
r=
(x
i=1
n
i
- x)(yi - y)
2
(x
i=1
n
i
- x)
(y
i=1
n

i
x y
i1
n
i i
nxy
_ _
- y)
2
n 2 _ 2 n 2 _ 2 xi n x yi n y i1 i1
残差图的制作和作用:
制作:坐标纵轴为残差变量,横轴可以有不同的选择.
横轴为编号:可以考察残差与编号次序之间的关系, 常用于调查数据错误. 横轴为解释变量:可以考察残差与解释变量的关系, 常用于研究模型是否有改进的余地.
作用:判断模型的适用性若模型选择的正确,残差图中的 点应该分布在以横轴为中心的带形区域.

结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种 方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量 观测值中所包含的随机误差,这对我们查找样本数据中的错误和模型的评价 极为有用,因此在此我们引入残差概念。
随机误差 e y y
相应的随机误差为:
2.回归方程:
ˆ 0.849 x 85.172 y
身高172cm女大学生体重 ˆ = 0.849×172 - 85.712 = 60.316(kg) y
探究:身高为172cm的女大学生的体重一定是60.316kg吗? 如果不是,你能解析一下原因吗?
答:用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值, 只能给出她们平均体重的估计值。
(4)按一定规则估计回归方程中的参数(如最小二乘法)。 (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残 差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或 模型是否合适等。
问题六:若两个变量呈现非线性关系,如何解决? (分析例2)
例2 一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中:
方 法 二 , 二 元 函 数 模 型
问题2
问题3
400 300 200 100 0
气 温
0 10 20 30 40
-40
-30
-20
-10 -100
-200
平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a 就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a
温度 温度的平方t 产卵数y/个 21 441 7 23 529 11 25 625 21 27 729 24 29 841 66 32 1024 115 35 1225 325
相关主题