当前位置:文档之家› 第五章 多元线性回归PPT课件

第五章 多元线性回归PPT课件

1 0 1 1 2 2 i i k i k 0 1 1 2 2 i i k k
规范解读方式

(在其他变量不变的情况下,)xi平均变化 一个单位,y平均相应变化bi个单位
回归系数的意义
一元回归系数
多元回归系数 偏回归系数:除去方 程中其他因素对y的共 同影响后,某自变量 对y的边际影响
x及未包括进方程中 的其他与x有关的一 切因素对y的总影响
_ _ _ _
2
这种方法可以扩展到任意多的自变量的模 型。 计算机可以直接给出估计的系数。

三、回归方程的解释
在任何情况下, a 始终为当所有自变量为0时 的应变量值 (截距) 斜率系数 b1 到 bk 表示在其他变量不变的 情况下,相关的X增加一个单位,Y所对应 的变化。

对于方程:
志愿 男 快乐家庭 10 性别 女 10 总数 20
理想工作 增广见闻 总数
40 10 60
30 0 40
70 10 100
存在的问题: 1、Lambda系数以众值为预测准则,不理 会众值以外的次数分布,对数据利用率低。 2、因为上述计算方式,如果全部众值集中 在条件次数表的同一列或同一行中,则 Lambda系数会等于0,相关失去意义
m m M M (对称) 2n (M M ) (n M ) (n m ) m M E E (不对称) (n M ) nM E E (n M ) (n m ) m M E (不对称) (n M ) nM E

二、计算相关的思路
定距:数量上的“共变” 定类、定序:“连同发生”——隐含根据一 个变量去预测或估计另一个变量的意思


人们正是根据预测的准确程度来界定定类或 定序变量之间的关系的——消减误差比例
三、相关测量逻辑展示


(一)Lambda相关测量法 基本逻辑:以一个定类变项的值来预测另一个定类变项 的值时,如果以众值作为预测准则,可以减少多少误差 公式: ( )
Z (a, b1 , b2 ) ( X1 )(2)(Y a b X 1 b2 X 2 ) 0 1 b1
Z (a, b1 , b2 ) ( X 2 )(2)(Y a b X 1 b2 X 2 ) 0 1 b2

解方程:
a Y b1 X1 b2 X 2
ˆ b0 b1 x1 b2 x2 ... bk xk y
如果xi增加一个单位,即xi变为xi+1,而 其他自变量均保持不变,相应有
ˆ b b x b x y
1 0 1 1 2
2
... bi ( xi 1) ... bk xk
则y的变化幅度为
ˆ [b b x b x ... b ( x 1) ... b x ] ˆ y y [b b x b x ... b ( x 1) ... b x ] b
x y x y x y 1 2 y y y y 1 y y 1 2 x x y x 1 x y
y
y
练习:根据下表数据计算lambda
志愿 男
快乐家庭 理想工作 增广见闻 总数 10 40 10 60
性别 女
30 10 0 40
总数
40 50 10 100
E E (不对称) E (n M ) (n m ) (1) (n M )
ˆ b0 b1 x1 b2 x2 ... bk xk y
^
e=(Y - Y )
The sum of squared errors
SSE
ˆ) ( y y
2
我们通过对该项(残差)最小化方法求得 a and bi.
拟合优度 R

2
where
TSS ( y y )
2
2

首先看只有两个自变量的模型 :
ˆ a b1 x1 b2 x2 y

我们仍可以用最小二乘法,使得观测的Y值和预测 的Y值的差距的平方和最小。利用微积分,
Let Z(a, b1, b2)= Σ(Y-a-b1X1-b2X2)2

对三个未知参数a, b1, and b2 求导:
Z (a, b1 , b2 ) ( 1)(2)(Y i a b1 X i b2 X 2 ) 0 a
一、回归方程与线性回归方程 二、回归方程的建立与最小二乘法 三、回归方程的假定与检验
参见:卢叔华《社会统计学》,北京大学出版社1997 第十二章 回归与相关
一、回归方程与线性回归方程
两变量x与y 对于确定的xi,yi是随机变量,可计算其均 值——回归方程是研究自变量不同取值时, y的均值的变化 当因变量y的均值与自变量x呈线性规律时, 称线性回归方程 根据x个数不同,分为一元线性回归、多元 线性回归
第二章 多元线性回归 (multiple linear regression)
第一节 第二节 第三节 第四节 第五节 第六节 第七节 第八节 第九节 相关和回归 一元线性回归模型 多元线性回归模型 方程的解释能力 回归方程的检验和回归系数的推断统计 虚拟变量的应用 多重共线性及其解决方案 计算机应用 研究实例

关于模型
现实数据=模型+误差 没有误差的不是模型,是复制 复制很精确,但是往往太不简洁 设置模型一般而言是希望用简洁的方式表 述复杂信息,达到较好的精确度

二、回归方程的建立与最小二乘法
回归分析的目的:找出错误最小的方法来 预测因变量的数值 拟合思路:各点到待估直线铅直距离之和 为最小——最小二乘
R
2
二、调整的确定系数
R
2
偏高
<(1:10)
自变量个数 样本规模
三、多元相关系数R
因变量观测值和预测值之间的相关程度
四、方差分析
回归平方和
y的总变 差平方 和
第五节
回归方程的检验和回归系数的推断统计
检验
统计推断
( X X )(Y Y ) ( X b
1 1 1 _ 2 _ _ 2
_
_
_
X 2 ) ( X 2 X 2 )(Y Y ) ( X1 X1 )( X 2 X 2 )
2 _ 2 _ _ 2
_
_
_
_
_
( X1 X1 ) ( X 2 X 2 ) ( X1 X1 )( X 2 X 2 )
_ _ _ _ _
b2
2 ( X X )( Y Y ) ( X X ) 2 2 1 1 ( X1 X 1 )(Y Y ) ( X1 X1)( X 2 X 2 )
_
_
2 2 ( X X ) ( X X ) ( X X )( X X ) 1 1 2 2 1 1 2 2
a y bx
( x x)( y y ) b ( x x)
i i 2 i
回归系数的意义: b值的大小表示每增加一个单位的x值,y值 的变化有多大

三、回归方程的假定与检验
(一)基本假定 1、自变量x可以是随机变量,也可以是非随机 变量,其误差忽略不计 2、对于每一个x值,yi都是随机变量。Y的所 有子总体y1,y2…yn,方差相等 3、y的所有子总体,其均值都在一条直线上— —线性假定 4、随机变量yi是统计独立的 5、 y的所有子总体都满足正态分布
1 2 y 1 y y y
(100 50) [100 (40 30)] 50 30 0. 4 (100 50) 50 M m (2) nM
y y y
(40 30) 50 20 0.4 (100 50) 50
思考并运算:如果数据有如下变化, lambda值会发生什么变化呢?

方法论指导
理 论 思 路
1(多)个 定距(类)变量
线性关联
1个 定距变量
经 验 支 撑
注意

回归模型只是整个研究方案中的一环,它 必须依赖理论和经验的支撑,服从研究设 计的需要,在研究方法论的指导下展开
研究变量间的因果关系
估计
求解模型参数
评价模型拟合度
预测
是否吻合预先构想
第二节
一元线性回归

(二)检验 F检验

第三节 多元线性回归模型
一、多元的思路 二、回归方程的建立 三、回归方程的解释 四、标准化回归系数

一、多元的思路
关联性 Association 和因果性Causality 统计意义上的关联性很容易发现 , 难的是, 如何确立因果联系。 然而我们在研究中更加关心的是因果性的 解释。

原理: (1)散点图 (2)每个x值对应的y的均值,构成回归线 (曲折) (3)用最小平方法绘制回归直线 (各个样本个案的估计误差和为误差总数。 为避免正负抵消,改为将误差的平方值相 加。如果回归直线位置能够使此平方和最 小,即为最佳拟和直线)


线性回归方程式不但有简化资料的作用,而且可 以推广应用于预测或估计样本以外之个案的数值
一、确定系数 二、调整的确定系数 三、多元相关系数 四、方差分析
一、确定系数 R (0~1)
回归方程 解释的差 异与用y均 值解释的 差异之比
2
模型中所 有变量解 释y的变化 占总变化 的比例
受奇异值影响
散点图
预测与残差
y b0 b1 x1 b2 x2 ... bk xk e
四、标准化回归系数
问题
需要判别所考察的因素的 重要程度
解决
将回归系数标准化
相关主题