当前位置:
文档之家› 统计学第七章相关分析与回归分析.ppt
统计学第七章相关分析与回归分析.ppt
11 13092 637 202
r 0 . 9459 2 2 ( 11 41487 637 ) ( 11 4182 202 )
可见,广告费与销售收入间存在高度的相关关系。
第一节 相关分析
4. 样本相关系数(Pearson)显著异于0的T检验
在二维总体(X,Y)服从正态分布的前提下,Fisher给出了 检验简单相关系数(Pearson)显著异于0的 t 统计量如下:
第二步,计算检验的统计量
rn 2 0 . 945 11 2 t 8 . 746 2 2 1 r 1 0 . 945 第三步,统计决策。从下式中可以看出,相关系数显著。
t 8 . 746 t ( n 2 ) 2 . 262 / 2
第一节 相关分析
5. 剔除了一个变量Z的影响后,X、Y的偏相关系数
样本回归函数
ˆ 0 称为截距项,ˆ 1 称为趋势项,e i 是残差项。
ˆ ˆ ˆ Y X ( i 1 , 2 , , n ) i 0 1i
第二节 一元线性回归分析
样本回归函数是对总体回归函数的近似反映。回归分析 的主要任务就是采用适当的方法,充分利用样本提供的信息, 使得样本回归 函数尽可能地接近 于真实的总体回归 函数。
2 2 ( X ) 。 X 41487 , 405769
11 13092 637 202 15338 ˆ 从而有 0 . 3032 1 11 41487 405769 50588 202 637 ˆ 0 . 3032 0 . 8056 0 11 11 因此,样本回归方程为
销 售 收 入 ( 百 万 元 ) 35 30 25 20 15 10 30 40 50 60 70 80 90 100 广告费(万元)
第一节 相关分析
3. 相关系数及其计算方法
(1) 相关系数的定义
(2) 变量x与变量y之间的相关关系,可用数量指标来表示。 通常以字母
表示总体的相关系数,以 r 表示样本的相关
(1)建立二乘函数: n 2 n 2 min Q ( ,1 ) e ( Y X ) 0 i i 0 1 i
n
i 1
i 1
(2)基于极值定理对二乘函数求偏导数
2 [ ( Y X i 0 1 i) ] Q ( , ) 0 1 1 i 0 0 0
第二,考虑随机变量 u 的方差
i
u i 的方差可用残差值 e i 来表示:
ˆ S
2 u 2 e
e
2 i
2 2 S e2 是 u2 的无偏估计量,即 E (S ) e u 因此,ˆ 与 ˆ 的标准差估计值分别为:
0
1
n2
ˆ S ˆ ˆ
0 0
n ( n 2 ) x
第二节 一元线性回归分析
2. 一元线性回归模型与回归函数
总体回归模型
Y X u 0 1 i,
0 和 1 是未知参数,又叫回归系数;u i 是随机误差项。
总体回归函数 Y X i 0 1 i
3. 样本模型与样本函数 ˆ ˆX 样本回归模型 Y e i 0 1 i i
( X X )( Y Y ) ( X X )( Y Y )
i i 2 i i
系数。定义如下:
Cov (X ,Y ) , r Var (X ) Var ( Y )
2
式中, Cov (X ,Y ) 是变量X与变量Y的协方差。
第一节 相关分析
3. 相关系数及其计算方法
(2) 相关系数的特点
a. r的取值介于-1到1之间; b. 当r=0时,X与Y的样本观测值之间没有线性关系; c. 在大多数情况下, 0 r 1 。r>0,说明X与Y正相 关;r<0,说明X与Y负相关。r值越接近1,X与Y的 相关程度越高。 微弱相关:
0 r 0.3
低度相关: 0 .3 r 0 .5 显著相关: 0 .5 r 0 .8 高度相关: 0.8 r 1
偏相关系数显著异于0的 t 统计量如下:
t
r nk 2 1 r
2
,服从
t( n k 2 ) 分布
式中,n 是样本容量,k是剔除了的变量数,r 是偏相关 系数。
第二节 一元线性回归分析
1. 相关分析与回归分析的关系
(1) 相关分析通过计算相关系数来确定两个变量之间的 相关方向和密切程度,回归分析则是选择一个合适的数学 模型,对具有相关关系的两个或多个变量之间的具体数量 关系进行测定,以实现对因变量的估计或预测。 (2) 相关分析无需考虑变量作用顺序,回归分析则要考虑; (3)相关分析将变量都视为随机变量,回归分析则只将因 变量视为随机变量,自变量被认为是非随机的。
第七章 相关分析与回归分析
第一节:相关分析 第二节:一元线性回归分析 第三节:多元线性回归分析*
第一节 相关分析
1. 相关关系的种类
(1) 按相关程度划分 完全相关: Y的变化完全由X的变化确定; 不相关: Y与X不相互影响,各自独立变化; 不完全相关:Y与X之间有一定程度的相互影响。 (2) 按相关方向划分 正相关: 负相关: X与Y同时变大或变小; X变大,Y变小 或 X变小,Y变大。
i
2 t
e X 0 ,所以,自由度为 n-2 。 e 0 、
n2
S2 还可化简为:
S Y
2 ˆ ( Y Y ) i i
n 2
e Leabharlann 2 in 2第二节 一元线性回归分析
5. 回归参数的区间估计 第一,考虑 ˆ 0 、ˆ 1 的概率分布 由于 u i 服从正态分布,Y i 也服从正态分布。 ˆ 0 、ˆ 1 都是 Y i 的线性组合,因而也服从正态分布。
i i i i 2 i 2 i i i i i 0 i i 2 i 2 i 2 i
Y XY n XY X Y n X ( X) n X X X n X i
i i i i 2 i i i i i 1 2 i 2 i i
第二节 一元线性回归分析
2 [ ( Y X i 0 1 i) ] Q ( , ) 0 1 1 i 0 1 1
n
( Y X ) 0 i 0 1 i ( Y X ) X 0 i 0 1 i i
第一节 相关分析
2. 相关表和相关图
(1) 相关表
将某一变量按其数值的大小顺序排列,然后再将与 其相关的另一变量的对应值平行排列,便可得到相关表。
第一节 相关分析
2. 相关表和相关图
(2) 相关图
相关图又称散点图,是以直角坐标系的横轴代表变量x, 纵轴代表变量y,将两个变量相对应的成对数据用坐标点的 形式描绘出来,用于反映两变量之间的相关关系的图形。
1 r 式子中,n是样本容量,r是简单相关系数(Pearson)。
2
t
r n2
, 服从 t(n2 )分布
设定假设: H0: r=0, H1: r≠0 这是一个双尾检验问题。
第一节 相关分析
4. 样本相关系数(Pearson)显著异于0的T检验
【例7-3】根据表7-3资料计算的相关系数,检验该公司广告费 和年销售收入之间的相关系数是否显著(设定显著水平α=0.05)? 解:第一步,提出假设: H0: 0; H1: 0
ˆ ˆ ˆ Y X 0 . 8056 0 . 3032 X 0 1
第二节 一元线性回归分析
5. 如何利用样本残差估计总体方差
参数,那就是总体随机误差项的方差 2。
除了 0 和 1 外,一元线性回归模型中还包括另一个未知
在数学上已证明: ˆ
因约束条件
i
2
S
2
e
第一节 相关分析
3. 相关系数及其计算方法
(3) 相关系数的计算
具体计算相关系数时,通常利用以下公式:
r 2 2 2 2 [ n X ( X ) ][ n Y ( Y ) ] i i i i n X Y X Y i i i i
【例7-2】基于表7-1中的数据,求广告费与年销售收入间的 相关系数。
特例 Y X u i i i
XY X
2 i
i i
第二节 一元线性回归分析
4. 模型参数的点估计:最小二乘法OLS
【例7-4】我们利用例7-1的表7-3的数据计算该公司广告费对
年销售收入的回归方程(直线)。 解: 第一,观察原始数据的散点图;
销 售 收 入 ( 百 万 元 ) 35 30 25 20 15 10 30 40 50 60 70 80 90 100 广告费(万元)
化简后可得
第二节 一元线性回归分析
4. 模型参数的点估计:最小二乘法OLS n X Y 0 1 i i X X X Y
0 i 1 2 i ii
应用克莱姆法则解之得
Y X XY X X Y X XY n X ( X) n X X X
(3) 按相关形式划分
线性相关: Y与X的关系呈现出线性关系; 非线性相关:Y与X的关系呈现出非线性关系。
第一节 相关分析
1. 相关关系的种类
(4) 按变量多少划分
单相关: 指两个变量间的相关关系;
复相关: 指三个以上变量间的相关关系; 偏相关: 指多个变量情形下,固定其他变量,只考 虑其中两个变量间的相关关系。 (5) 按相关性质划分 真实相关: 两个变量确实存在内在的相关关系; 虚假相关: 两个变量只是表现为数量上相关,并不 存在内在的联系。