当前位置:文档之家› 第六章 相关与回归分析(修改版)

第六章 相关与回归分析(修改版)


答案:1.B
A
2.详见课本213
2 1
变差的分解
(x i ,y i )

据左图可对变差做如下分解:
y ˆy
y
x
ˆ0 + b ˆ1x yˆ b
{ { {
总平方 和 (SST) 回归平 方和 (SSR) 残差平 方和 (SSE)
y y
y y ˆ
y i y i
n
1
2

yˆi y + y i yˆ i i
相关系数
1. 相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统 计量。
2. 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 3. 若相关系数是根据样本数据计算的,则称为样本相关系数,记为r
4. 样本相关系数的计算公式
r
(x x )(y y ) (x x ) (y y )
回归系数检验
• 用于检验自变量x对因变量y的影响是否显著
线性关系检验具体步骤
1.提出假设H0:b1=0,线性关系不显著 2.计算检验统计量F。 3.作出决策:根据确定的显著性水平,分子自由度1及分母自由度n-2查 表找出临界值F 。若F>F ,拒绝H0;若F<F ,不拒绝H0。
回归系数检验具体步骤
答案:1.D
2.CLeabharlann 一元线性回归6.2 一元线性回归
6.2.1 一元线性回归模型
回归模型
• 描述因变量 y 如何依赖于自变量 x 和误差项 的方程称 为回归模型 一元线性回归模型
• 只涉及一个自变量的回归模型称为一元线性回归模型
• 模型表示为:y = b + b x + ,其中误差项 是随机变 量,b0 和 b1 称为模型的参数。
6.1.2 相关关系的描述与测度
相关分析及其假定 • 对两个变量之间线性关系的描述与度量就是相关分析 • 相关分析对总体的两个假定 ① 两个变量之间是线性关系 ② 两个变量都是随机变量 相关分析的描述与度量 • 散点图:由坐标及散点形成的二维数据图 • 相关系数:可准确度量两变量之间的关系强度
6.2 一元线性回归
6.2.1 一元线性回归模型
估计的回归方程
• 用样本数据求出的回归方程的估计,称为估计的回归方程
ˆ0 + b ˆ • 方程具体表示为:y ˆ b 1x
6.2 一元线性回归
6.2.2 参数的最小二乘估计
最小二乘估计
ˆ • 使因变量观察值与估计值之间离差平方和达到最小来求得b 0 ˆ 和b 的方法称为最小二乘法。 1
习题:
1.下面的陈述中错误的是() A.相关系数是度量两个变量之间线性关系强度的统计量 B.相关系数是一个随机变量 C.相关系数的绝对值不会大于1 D.相关系数不会取负值 2.如果相关系数r=0,则表明两个变量之间() A.相关程度很低 B.不存在任何关系 C.不存在线性相关关系 D.存在非线性相关关系
6.2 一元线性回归
6.2.3回归直线的拟合优度
♦估计标准误差 •均方残差(MSE)的平方根,称为估计量的标准差, 简称为标准误差。计算公式为:
•估计标准误差可以看作在排除了x对y的线性影响后,y随机波动大小的一
个估计量
6.2 一元线性回归
6.2.4 显著性检验
线性关系检验
• 用于检验自变量与因变量之间的线性关系是否显著
6.1 变量间关系的度量
6.1.3 相关关系的显著性检验
显著性检验就是用于考察样本相关系数可靠性的检验 显著性检验的方法是t分布检验 具体步骤如下:
1.提出假设:H0: H1: 0
t r 2.计算检验的统计量: n 2 ~ t(n 2) 2 1 r
3.进行决策:若t>t,拒绝H0 若t<t,不拒绝H0
n
2
n
2
1
1
SST = SSR + SSE
6.2 一元线性回归
6.2.3 回归直线的拟合优度
判定系数 • 回归平方和占总平方和的比例,称为判定系数,记为R2。 • 计算公式为: • 反映了回归直线对观测数据的拟合程度,取值范围为[0,1] R2 1,说明回归方程拟合的越好;R20,说明回归方程拟 合的越差。
习题:
1.在回归分析中,因变量的预测区间估计是指(),置信区间估计是指()。 A.对于自变量x的一个给定值 x0 ,求出因变量y的平均值的区间 B.对于自变量x的一个给定值 x0 ,求出因变量y的个别值的区间 C.对于因变量y的一个给定值 y0 ,求出自变量x的平均值的区间 D.对于因变量y的一个给定值 y0 ,求出自变量x的个别值的区间 ˆ 10 0.5x 。 2.根据一组数据建立的线性回归方程为 y ˆ 的意义。 (1)解释截距 b 0 ˆ 的意义。 (2)解释斜率 b 1 (3)计算当x=6时的E(y)。
♦点估计 •利用估计的回归方程,对于x的一个特定值x0 ,求出y的平均值 0 的一个估计值E(y),称为平均值的点估计。 •分类: 平均值的点估计 个别值的点估计
6.2 一元线性回归
6.2.5利用回归方程进行估计和预测
♦区间估计 •对于x的一个特定值x0 ,求出y的平均值的区间估计, 称为置信区间估计。 •分类: 置信区间估计 预测区间估计
1.提出假设H0:H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系)
2.计算检验统计量t。 3.作出决策:根据确定的显著性水平查表找出临界值t 。 t>t,拒绝 H0; t<t,不拒绝H0。
6.2 一元线性回归
6.2.5利用回归方程进行估计和预测
不同形态的散点图


非线性相关





完全正线性相关
完全负线性相关



负线性相关

不相关
正线性相关
散点图是描述变量间关系的一种直观方法,可大体看出变量间关系形态及强度
一元线性回归模型的几点基本假定
1.因变量y与自变量x之间具有线性关系。
2.在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。
3.误差项ε是一个期望值为0的随机变量,即E(ε)=0。
4.对于所有的 x 值,ε的方差σ2都相同 5.误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0 ,σ2 )
相关系数的性质
性质2:r具有对称性。即x与y之间的相关系数和y与x之间的相关系数 相等,即rxy= ryx
性质3:r数值大小与x和y的原点及尺度无关,即改变x和y的数据原点 及计量尺度,并不改变r数值大小 性质4:r仅仅是x与y之间线性关系的一个度量,它不能用于描述非线 性关系。 性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x 与y一定有因果关系。
2
r

2
n x x n y y
2 2 2
n xy x y
2
相关系数的性质
性质1:
• r 的取值范围是 [-1,1] • |r|=1,为完全相关 r =1, 为完全正相关 r =-1,为完全负相关 • r = 0,不存在线性相关关系 • • • -1r<0,为负相关 0<r1, 为正相关 |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱
6.2 一元线性回归
6.2.1 一元线性回归模型
回归方程
• 描述y的平均值或期望值如何依赖于x的方程称为回归方程。
一元线性回归方程 • 方程具体表示为:E( y ) = b0+ b1 x,其中,b0是回归直线 在y 轴上的截距,是x=0时y的期望值;b1是直线的斜率, 称为回归系数,表示当x每变动一个单位时,y的平均变动 值。
第六章 相关与回归分析
Xxx xxxx xxxx Xxx xxx https://
第六章 相关与回归分析
• 6.1 变量间关系的度量 • 6.2 一元线性回归
变量间关系的度量
6.1 变量间关系的度量
6.1.1 变量间的关系
函数关系
• 设有两个变量x和y ,变量y随变量x一起变化,并完全依赖 于x ,当变量x取某个数值时,y依确定的关系取相应的值, 则称y是x的函数,记为y = f (x),其中x称为自变量,y称 为因变量。
• 函数关系是一一对应的确定关系
• 各观测点落在一条线上
6.1 变量间关系的度量
6.1.1 变量间的关系
相关关系 • 变量间存在的不确定的数量关系 • 一个变量的取值不能由另一个变量唯一确定
• 当变量 x 取某个值时,变量 y 的取值可能有几个
• 各观测点分布在直线周围
6.1 变量间关系的度量
即使 i 1 的取值。
(y i yˆ)
2
n
2 ˆ ˆ ( y b b x ) i 0 1 i
n
i 1
ˆ ˆ 达到最小的 b 和b 1 0
6.2 一元线性回归
6.2.3 回归直线的拟合优度
变差 • 因变量y的取值是不同的,y取值的这种波动称为变差。变差 来源于两个方面: 1.由于自变量x的取值不同造成的。 2.除x以外的其他因素 (如x对y的非线性影响、测量误差等 ) 的影响。 • 对一个具体的观测值来说,变差的大小可以通过该实际观测 y y 来表示。而n次观察值的总变差可由 值与其均值之差 n 离差平方和 y ˆ i y 表示,记为SST。 i
相关主题