当前位置:文档之家› 调查数据分析二元Logistic回归

调查数据分析二元Logistic回归

1、发生概率p的大小取值范围[0,1],p与自变 量的关系难以用多元线性模型来描述。
2、当p接近0或者1时,p值的微小变化用普 通的方法难以发现和处理好。
总:能不能找到一个p的严格单调函数Q,就 会比较方便;同时要求Q对在p=0或p=1的 附近的微小变化很敏感。
11
回归建模——二元Logistic回归模型
根据线性回归模型,选择参数估计值,使得模型
的估计值与真值的离差平方和最小 。 ?极大似然估计( MLE ):
选择使得似然函数最大的参数估计值。
18
Logistic回归模型估计:极大似然估计
假设n个样本观测值y1y, 2,L , yn, 得到一个观察值的概率为
??????????????????????????P ?Y ?
1
分类变量分析通常采用对数线性模型 (Log-linear mod而el)因, 变量为二分变量时, 对数线性模型就变成Logisti回c 归模型.
logisti回c 归是一个概率型模型,因此 可以利用它预测某事件发生的概率。例如 在可以根据消费者的一些特征,判断购买 某项产品概率有多大。
2
目的:作出以多个自变量估计因变量的 logisti回c 归方程。属于概率型非线性回归。
许多社会科学的观察都只分类而不是连续 的.比如,政治学中经常研究的是否选举某 候选人;经济学研究中所涉及的是否销售或 购买某种商品、是否签订一个合同等等.这 种选择量度通常分为两类,即“是'与 “否”. 在社会学和人口研究中,人们的社 会行为与事件的发生如犯罪、逃学、迁移、 结婚、离婚、患病等等都可以按照二分类变 量来测量。
(取值范围0~1)
9
线性回归模型的基本假定: (1)随机误差项具有0均值: (2)随机误差项具有同方差: (3)随机误差项在不同样本点之间是独立的, 不存
在序列相关: (4)随机误差项与解释变量(自变量)之间不相关
: (5)随机误差项服从0均值、同方差的正态分布
10
回归建模——二元Logistic回归模型
资料:1. 因变量为反映某现象发生与不发 生的二值变量;2. 自变量宜全部或大部 分为分类变量,可有少数数值变量。分 类变量要数量化。
用途:研究哪些变量影响因变量,影响程 度方向、大小等。
3
Logisti回c 归模型
?一.模型的引进 ?二.Logisti回c 归模型估计 ?三. Logisti回c 归模型的评价 ?四. Logisti回c 归系数的统计推断 ?五. Logisti回c 归诊断
Q ? ln p 1? p
p????Logit变换???Q ?取值范围为??? , ?? ??
12
回归建模——二元Logistic回归模型
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
Logiyt(P)
4
13
回归建模——二元Logistic回归模型
? 建立logi(t p)与X的多元线性回归模型:
log it( p ) ? ln( p ) 1? p
6
回归建模——二元Logistic回归模型
自变量(解释变量): X1:年龄,取值从18到58; X2:月收入(元),取值850、950、 1000、 1200、1300、 1500、 1800、 2100; X3:性别,取值为1,表示男性;取值 为0,表示女性。
7
回归建模——二元Logistic回归模型
16
Logistic回归模型估计:极大似然估计
多元回归采用最小二乘估计,使因变量的 真实值和预测值差异值的平方和最小化; Logisti变c 换的非线性特征使得在估计模型的 时候采用极大似然估计的迭代方法,找到 系数的“最可能”的估计,在计算整个模型 拟合度时,采用似然值。
17
Logistic回归模型估计:极大似然估计 ?最小二乘估计( OLS):
yi ??
p yi i
?1?
? p 1? yi i
其中yi取值为0或者1
由于各项观测相互独立,其联合分布为:
? ? ? ? ? ? L
?
n
p yi i
1? pi
1? yi
i?1
19
Logistic回归模型估计:极大似然估计
?求似然函数的极大值
? ln L(θ ) ?
ln ????
n i?1
p
yi i
4
回归建模——二元Logistic回归模型
当虚拟变量作为因变量,虚拟变量有 两个取值,可使用二元Logisti回c 归。
例:在一次有关公共交通的调查中, 一个调查项目为“是乘坐公交车上下班, 还是骑自行车上下班”。因变量有两个取 值,当取值为1,乘坐公交车上下班;取值 为0,骑自行车上下班。
5
回归建模——二元Logistic回归模型
优势比 (odds) 机会比 (odds)
?? ? ? ln( p(Y ? 1 | X ) ) ?? 1 ? p(Y ? 1 | X )
0
11X ? 2 X2 ? 3 X3
(取值范围-∞~+∞)
14
logistic回归模型
? Logisti回c 归模型:
? ? ? ? logit(p)= 0+ 1X1+ 2 X2 ? ? ? k Xk
?0 ? ?1X1+?2 X2+? +?k Xk
p ? 1ek
p ? 1 ? e 1 ?(?0 ? ?1X1+?2 X2+? +?k Xk)
15
Logistic回归模型估计:极大似然估计
Logistic回归模型估计的假设条件与 OLS的不同 (1)logisti回c 归的因变量是二分类变量 (2)logisti回c 归的因变量与自变量之间的关系是非线 性的 (3)logisti回c 归中无相同分布的假设 (4)logisti回c 归没有关于自变量“分布”的假设(离 散,连续,虚拟)
(
1
?
pi )1? yi ????
? ?
ln ????
n i?1
研究目的:X1,X2,X3等因素对因变量 (使用什么交通方式)有无影响?
建立Y与X的多元线性回归模型?
? ? ? ? Y? ? 0 ? 1 X1 ? 2 X2 ? 3 X3
(取值0和1)
8
回归建模——二元Logistic回归模型
建立p(Y=1|X)与X的多元线性回归模型?
? ? ? ? p(YX? 1| ) ? 0 ? 1X1 ? 2 X2 ? 3 X3
相关主题