当前位置：文档之家› 第九讲定类或定序因变量回归分析课件

第九讲定类或定序因变量回归分析课件

第九讲定类或定序因变量回归分析
• 从统计理论上看，在进行最小二乘法的参数估计时，我们仅仅关注残差项ε的分布，很少对因变量Y所服从的分布予以关注，实际上,我们拥有Y的信息要远远大于拥有残差项ε的信息。
• 因变量Y服从正态分布的推断来源于残差项服从正态分布，因为Y 是残差项的线性函数。事实上，社会经济现象往往有不同于正态分布的其他分布，例如：
第九讲定类或定序因变量回归分析
2、发生比
• 发生比是事件的发生频数与不发生频数之间的比，即： • Odds=(事件发生频数)/（事件不发生频数）
oddsk[pk/(1pk)]
• • 当比值大于1时，表明事件更有可能发生。比如一个
事件发生的概率为0.6，事件不发生的概率为0.4，发生比等于0.6/0.4=1.5。事件发生的可能性是不发生的1.5倍。
•
有0和在1给两定个自值变，量误x差条项件下要，么等是于y的预0测0值与E(实y际/x*值)的，离或差者。由1 于1y仅E(仅y/x*)
很明显，该误差项不是正态分布。
• 3）无意义的解释
•
从解释力上看，由于概率的值是有边界的，在0与1之间。但林楠方程
很有可能要超过该限制，因变量的估计值可能是负数，也可能大于1，因
第九讲定类或定序因变量回归分析
• 2) 似然函数
• 当已知N 和，求s发生的可能性有多大，所建立的函数，称为概率函数。而当已知N 和s，求发生的可能性有多大，所建立的函数，称为似然函数。
• （1）二项分布（binomial distribution）
y
N
y(1 )(Ny)
y!(Ny)!
• （2）泊松分布（Poisson）
y
e y
y!
第九讲定类或定序因变量回归分析
二、线性概率模型
• 1、模型建立
• 以最小二乘法为基础的线性回归方程是估测因变量的平均值，而二分变量的均值有一个特定的意义，即概率。用普通线性回归方程估测概率，就是所谓的线性概率回归。用公式表示为：
此模型的结果是无意义的。例如，运用林楠方程，我们发现如果年龄为
100岁，受教育程度超过10年，则入党的概率约等于1。
• 4）非线性关系
第九讲定类或定序因变量回归分析
三、简单对数比率回归
1、模型建立
•
既然用线性概率回归存在以上两个方面的局限性，我们能否用比率做
因变量呢？
•
比如用男女比率作因变量，用成功与不成功之比做因变量。用比率做
第九讲定类或定序因变量回归分析
• 四、极大似然估计的基本思想
• 1) 概率问题
•
例1、假定我们要估计一样本中男性的发生概率。以s表示样本中男性的
数量；N是样本规模；π是总体中男性的概率（ =0.5 ）。
• 根据贝努利公式： Pr(s/,N ) N ! s(1)N s
s!(Ns)!
• 其中k!=k(k-1)…2.1
第九讲定类或定序因变量回归分析
第九讲定类或定序因变量回归分析
一、问题的提出
• 线性回归模型在定量分析中广为流行，然而ቤተ መጻሕፍቲ ባይዱ因变量是一个定类
变量而不是一个连续变量时，很难应用线性回归模型。 • 如政治学中研究是否选举某候选人，经济学研究中涉及的是否销售或购买某种商品，如在社会学和人口学研究中所涉及的如犯罪、逃学、迁移、结婚、离婚、生育、患病等等都可以按照二分类变量或多分类来测量。 • 又如在研究态度与偏好等心理现象时也经常按几个类型进行测量的，如“强烈反对”、“反对”、“中立”、“支持”、和“强烈支持”。 • 另外，有时对一些连续变量也要转换成类型变量，如在分析升学考试的影响因素时，将考生分为录取线以上和录取线以下，只要选定一个分界点，连续变量便可以被转换成定类变量。
log( P )a
1P
iXi
•
第九讲定类或定序因变量回归分析
表1 概率、比率和对数比率
概率 0.01 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 0.99 比率 0.01 0.11 0.25 0.43 0.67 1.00 1.50 2.33 4.00 9.00 99 对数 -4.60 -2.20 -1.39 -0.85 -0.41 0.00 0.41 0.85 1.39 2.20 4.60 比率
因变量可以建立估计方程，但存在的问题是，比率是非对称的.
•
一个简单的解决办法就是取对数，结果就是所谓对数比率（logit)。
若用P代表某事件的概率，则对数比率函数的定义为
• g（P）= log （P/1-P）
•
以对数比率为因变量对自变量X1，X2，X3……做回归称为对数比率回
归（logistic regression），其方程式为：
第九讲定类或定序因变量回归分析
exp(
pi
1exp(
K
k0
kxik)
K k0
kxik)
(
i)
该模型即为logit回归模型。logit回归模型实际上是普通多元线性回归模型的推广，但它的误差项服从二项分布而非正态分布，因此，需要采用极大似然估计方法进行参数估计，参数称为logit 回归系数，表示当其他自变量取值保持不变时，该自变量取值增加一个单位引起的发生比自然对数值的变化量。
• 10个样本中有P 3r ( 个s 男3 性/的 0 概.5 , 率N 为 1 ：0 ) 3 ! ( 1 1 0 0 !3 ) ! 0 .5 3 ( 1 0 .5 ) 1 0 3 0 .1 1 7
• • 如果我们已知样本中s、N及其概率分布的信息，需要估计总体特征，则
需要借助极大似然估计法来完成。极大似然估计ML就是估计这样一个参数值，由于该参数的存在可以使得被观察的事件最有可能发生。
• P = a + ∑βiXi + ε
• 对二项分布线性概率模型的结果解释：
• 在其他变量不变的情形下，x每增加一个单位，事件发生概率的期望将变动β个单位。
•
例如，林楠和谢文（1988）曾用线性概率模型估测入党（政治资
本）的概率，模型为：
• P = -0.39 +0.01A +0.04E +0.03U
• 其中：P—党员概率， A—年龄， E—受教育年限， U—单位身份
• 第九讲定类或定序因变量回归分析
2、线性概率模型存在的问题
• 1）异方差性
•
普通最小二乘法假设残差项的方差是相同的，但二项分布的方差为
p（1-p），这意味着方差是中间大，两边小，所以方程中残差项的方差
不可能恒定。
• 2）非正态性

e商务文档

第九讲定类或定序因变量回归分析课件

相关文档推荐：