当前位置:文档之家› 第八章相关与回归分析Correlation and Regression Analysis

第八章相关与回归分析Correlation and Regression Analysis


n xt yt xt yt
83142 73 321
2 2 [8713 (73) ][8 14111 (321) ]
50
40
30
0.886
20
10
0 0 2 4 6 8 10 12 14
树干的直径, x
r = 0.886 → 表明 x 和 y 具有高度线 性相关关系。
Chap 08-12
2

假定3:误差项之间不存在序列相关关系,其协方差为零; 假定4:自变量是给定的变量,与随机误差项线性无关;

假定5:随机误差项服从正态分布;
Chap 08-22
最小二乘估计


在根据样本数据确定样本回归方程时,总是希望 y 的 估计值 尽可能地接近其实际观测值,即残差 et 的总 量越小越好。由于 et 有正有负,简单的代数和会相互 抵消,因此为了数学上便于处理,我们采用残差平方 和作为衡量总偏差的尺度。 所谓最小二乘法,就是根据这一思路,通过使残差平 方和最小来估计回归系数的方法。
Excel 输出结果
Excel 相关分析的输出结果 工具 / 数据分析 / 相关系数
树的高度 树的高度 树干的直径 1 0.886231 树干的直径 1
树的高度与树干的直径 的相关系数
Chap 08-13
相关系数的特点

r的取值在-1与1之间; 当r=0时,X与Y的样本观测值之间没有线性关系; 在大多数情况下,0<|r|<1,即X与Y的样本 观测值之间存在着一定的线性关系,当r>0时,X 与Y为正相关,当r<0时,X与Y为负相关。 如果|r|=1,则表明X与Y完全线性相关,当r =1时,称为完全正相关,而r=-1时,称为完全 负相关。 r是对变量之间线性相关关系的度量。r=0只是表 明两个变量之间不存在线性关系,但它并不意味着X 与Y之间不存在其他类型的关系。
(自由度为 n – 2 )
Chap 08-16
单相关系数的显著性检验
是否可以根据5%的显著性水平认为树的高 度与树干的直径之间存在一定程度的线性相 关关系?
H0: ρ = 0 H1: ρ ≠ 0 (无线性相关关系) (确实存在线性相关关系)
=0.05 , df = 8 - 2 = 6
t
r 1 r2 n2

从变量相关关系的表现形式看:线性相关和非线性相关 从变量相关关系变化的方向看:正相关和负相关 从变量相关的程度看:完全相关(函数关系)、不完全相 关、不相关
Chap 08-5
相关分析与回归分析

联系:有共同的研究对象,在具体应用时,常常
必须互相补充; 区别:研究目的和方法上有明显区别; 局限性:定性分析与定量分析相结合;


变量之间的函数关系和相关关系在一定条件下可以相互转化。 客观现象的函数关系可以用数学分析的方法去研究,而研究客观现 象的相关关系必须借助于统计学中的相关与回归分析方法。
Chap 08-4
相关关系的类型

从相关关系涉及的变量数量看:单相关和复相关

一个变量对另一变量的相关关系,称为单相关; 一个变量对两个以上变量的相关关系时,称为复相关;
X 和 Y 的关系用线性函数来描述 Y 的变化被认为是由于 X 的变化引起的
Chap 08-19
样本回归线和样本回归模型
样本回归直线是根据样本数据拟合的,是总体回归 线的一个估计。
估计的 (或拟 合的) y 值 回归截距的估 计值 回归斜率的估计 值 自变量
样本回归线 (样本回归方程)
ˆ ˆx ˆt y 1 2 t 样本回归函数 ˆ ˆ (样本回归模型) y x e


相关分析是用一个指标(相关系数r)来表明现象间依存 关系的密切程度。 回归分析是用数学模型近似表达变量间的平均变化关系。

Chap 08-6
相关分析与回归分析

相关分析可以不必确定变量中哪个是自变量,哪个是因
变量,其所涉及的变量都是随机变量。

回归分析必须事先确定具有相关关系的变量中哪个为自 变量,哪个为因变量。一般地说,回归分析中因变量是 随机的,而把自变量作为研究时给定的非随机变量。
ˆ y ˆx 1 2

以上就是总体回归系数的最小二乘估计量。
Chap 08-24
最小二乘估计量的性质

最小二乘估计量是随着样本的不同而不同的随机变量;

在满足标准假定的情况下,回归参数的最小二乘估计 量是无偏的,即
ˆ ˆ E , E 1 1 2 2


最小二乘估计量是因变量 Y 的线性组合; 数学上还可以证明,在所有的线性无偏估计中,回归 系数的最小二乘估计量的方差最小,同时随着样本容 量的增大,其方差会不断缩小; 综上所述,在标准的假定条件下,最小二乘估计量是 最佳线性无偏估计量和一致估计量。
第四节 相关分析和回归分析
客观世界是普遍联系的统一整体,事物之间存在着相 互依存、相互制约、相互影响的关系。市场活动中 的许多现象也不例外,也都有其产生的原因,都要 受一定因素的制约,都是一定原因的必然结果。通 过不同事物“量”的变化可以观察并测量出事物之 间的相互关系、密切程度、因果关系、交互效应等。 在市场调查中,量表分析应用模式主要指通过对不 同因子之间的发展变化而揭示出因子之间关系结果 的方式。量表分析主要包括以下几种分析:回归分 析、聚类分析、判别分析、因子分析、相关分析、 可靠性分析等。
其中: r = 样本相关系数 n = 样本容量
n x y x y t t t t
Chap 08-10
样本相关系数计算的例子
树的 高度 y 35 树干的 直径 x 8 xy 280 y2 1225 x2 64
49
27 33 60 21 45 51 y=321
9
7 6 13 7 11 12 x=73
Chap 08-27
回归系数的估计
n x x y ty t t t ˆ 2 2 2 n x x t t 10 5085975 17150 2865 0 .10977 2 10 30983750 17150
ˆ ˆx y 1 2
ˆ y 98.24833 0.10977 x t t
Chap 08-25

最小二乘估计量的解释

ˆ 1 是当 x 等于 0 时 y 的平均估计值;
ˆ 2 是 x 每变化一个单位,因变量 y 平均
变化的量。

Chap 08-26
一元线性回归模型的例子

一家房地产公司的经理想知道该公司住房的售价
和住房面积(单位:平方尺) 之间的关系。

为此他抽取了一个包含10套住房的随机样本。 因变量 (y) = 住房的售价 (单位:$1000) 自变量 (x) = 住房的面积 (单位:平方尺)
Chap -28
2865 10 0 . 10977 17150 10 98 . 248
Excel 输出结果
回归统计 Multiple R R Square Adjusted R Square 0.76211 0.58082 0.52842
Chap 08-14


相关系数的图示
y y y
x
r = -1
y
r = -0.6
y
x
x
r=0
r = +0.3
x
r = +1
x
Chap 08-15
单相关系数的显著性检验

假设 H0: ρ = 0 H1: ρ ≠ 0
检验统计量

(无线性相关关系) (确实存在线性相关关系)

t
r 1 r n2
2

4.68 2 1 0 .886 82
Chap 08-17
0.886
回归分析 Regression Analysis

回归分析

研究一个变量如何随着其他变量的变化而变化; 用一个称为回归模型的数学方程来描述因变量与自变量 之间的变化关系,再通过控制或给定自变量的数值来估 计或预测因变量可能的数值。
441
189 198 780 147 495 612 xy=3142
2401
729 1089 3600 441 2025 2601 y2=14111
81
49 36 169 49 121 144 x2=713
Chap 08-11
样本相关系数计算的例子
树的高度, y
70 60
r
2 2 [n( x ) ( x ) ][n( y ) ( y ) t t t t ] 2 2
Chap 08-2
1 相关与回归的基本概念
1.1 1.2 1.3 变量间的相互关系 相关关系的类型 相关分析与回归分析
Chap 08-3
变量间的相互关系

确定性的函数关系:当一个或者几个变量取一定的值时, 另一个变量有确定值与之相对应;例如销售收入与销售量 之间的关系、路程与速度之间的关系; 不确定性的相关关系:当一个或几个相互联系的变量取一 定数值时,与之相对应的另一个变量的值虽然不确定,但 它仍按照某种规律在一定的范围内变化;
被解释变量、因变量(Dependent variable):被视为 随着自变量而变化的变量,是我们想要加以解释的变 量。 解释变量、自变量(Independent variable):被视为主 动变化的变量 ,用于解释被解释变量。
Chap 08-18
一元(简单)线性回归模型

只有一个自变量, X
Chap 08-9
样本相关系数
样本相关系数:
( x x )( y y ) r [ ( x x ) ][ ( y y )]
相关主题