当前位置:文档之家› 第四讲 多层模型

第四讲 多层模型


• 局限
– 分析较复杂 – 难以处理两个关系:一是变量之间间接的影响关系;二是复杂的 实测变量和潜在变量之间的关系
横向数据的类型
• 单个时点数据,一个对象只有一个观察值
• 因其包含的信息不同,分为两个或多个层次数据
学生 1010101
1010102 1010201 1010202 1010203
年龄 10
11 12 12 11
单层次数据示例 性别 标准成绩 姊妹数量 父母教育
0
1 1 1 0
370
360 339 332 351
– 群体资料可能会掩盖群体内个体之间的差异
• 生态谬误≠简化论/还原论:“以偏概全” (个体-->群体) vs. 群体-->个体
MLM的技术优势与局限
• 优势:与普通模型相比,MLM(Guo andZhao 2000):
– 纠正参数估计误差 – 改善置信区间(confidence intervals)和显著性检验 (significance tests);降低犯I类错误的可能性(Teachman and Crowder 2002) – 系统地区分不同层次自变量对因变量影响的大小
– 家庭编码 = 省份编码×1000 + 社区原始码×100 + 家 庭户原始码
– 社区编码 = 省份编码×100 + 社区原始码
多个层次的横向数据
学校 1班
学生 1010101 学生 1010102 学生 1010201 第三层
2班
学生 1010202 学生 1010203
第二层
第一层
ID由三个变量构成:学校编码×10000 + 班级代码×100
• 随机系数模型(random coefficient models)
• 随机效果模型(random effects models) • 变异成分模型(variance component models) • 情境效果模型(contextual effects models)
多层模型与生态谬误(Ecological Fallacy)
• 多层模型解决社会科学研究领域的生态谬误
• 生态谬误、生态学谬误、层次谬误、区群谬误 • Robinson(1950)利用1930年美国人口普查数据,分析 48个州的识字率与新移民人口比例的关系
– 当以州为分析单位时,二者之间的相关系数为0.53 – 当以个体资料为分析单位时,二者的相关系数仅为-0.11
班级 1 1 2 2 2
多个层次数据
学生
1010101 1010102
年龄 性别
10 11 0 1
标准 成绩 370
360
姊妹 父母 数量 教育 0 16
1 16
班级
1 1
学校
101 101
1010201
1010202
12
12
1
1
339
332
3
2
9
12
2
2
101
101
1010203
11
0
351
2
12
• 一元线性回归模型,描述因变量y如何依赖于自变量x和误 差项e而异。在该模型中,y是x的线性函数 0 1x 加上误 差项e •
0 1x 0、1 :模型的未知参数,分别为回归常数、系数;
反映了由于x的变化而引起的y的变化,即边际变化(当变 量x变化一个单位时,变量y改变的数量) • e是误差项的随机变量,代表因主观和客观原因而不可观测 的随机误差,反映了除x和y之间的线性关系之外的随机因 素对y的影响,是不能由x和y的线性关系揭示的变异性
2
101
• “中国健康与营养调查”(China Health and Nutrition Survey,简称 CHNS)有四个层次数据: 省区、社区、家庭、个体,后三个层次的编码规 律分别是:
– 个人编码 = 省份编码×10000 + 社区原始码×1000 + 家 庭户原始码×100 + 个人行号
• 等方差,即对于所有的x值,e的方差σ2都相同 • 误差项服从正态分布,且相互独立,即 ~ N (0, 2 )
对于一个特定的 x 值, 它所对应的 与其他 x 值对应的 不相关 对于一个特定的 x 值, 它所对应的 y 与其他 x 对应的 y 不相关
为什么使用MLM
• 社会科学数据的多层结构
第四讲 多层模型 (Multilevel modeling)
主要内容
• 数据的结构
• 介绍多层模型在社会科学领域中的应用 • 通过实例和比较多层模型的分析结果与传统线性模型的分 析结果,加深对多层模型的了解 – 回顾多层结构数据及统计学的几个最基本的假定,并 解释违反了基本假定可能给数据分析结果带来的偏差
1010101
1010102
350
332
355
343
360
350
366
351
369
351
370
360
1010201
1010202
360
321
356
322
355
320
350
325
340
324
339
332
1010203
360
380
400
420
430
351
纵向数据结构:多个观察值
序 号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1010101 1010101 1010101 1010101 1010101 1010101 1010102 1010102 1010102 1010102 1010102 1010102 1010201 1010201 1010201 一年级 二年级 三年级 四年级 五年级 六年级 一年级 二年级 三年级 四年级 五年级 六年级 一年级 二年级 三年级 2003 2004 2005 2006 2007 2008 2003 2004 2005 2006 2007 2008 2003 2004 2005 学生 年级 年份 标准 成绩 350 355 360 366 369 370 332 343 350 351 351 360 360 356 355 序 号 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1010201 1010201 1010201 1010202 1010202 1010202 1010202 1010202 1010202 1010203 1010203 1010203 1010203 1010203 1010203 四年级 五年级 六年级 一年级 二年级 三年级 四年级 五年级 六年级 一年级 二年级 三年级 四年级 五年级 六年级 2006 2007 2008 2003 2004 2005 2006 2007 2008 2003 2004 2005 2006 2007 2008 学生 年级 年份 标准 成绩 350 340 339 321 322 320 325 324 332 360 380 400 420 430 351
• 追踪数据与时序数据的差异
– 追踪数据:大截面(即大N),但调查时点少(即小T) – TSCS数据:多调查时点,但每个时点的对象却较少
• 纵向数据也是多层结构数据中的一种
• 人口普查数据是横向数据还是纵向数据?
纵向数据结构:单个观察值
1-6年级的标准成绩
学生 一年级 (2003) 二年级 (2004) 三年级 (2005) 四年级 (2006) 五年级 (2007) 六年级 (2008)
学校
1班级 班级
第四层
第三层
学生
1010203
一年级特点
学生
1010101
一年级特点
学生
1010102
一年级特点
学生
1010201
一年级特点
学生
1010202
一年级特点
第二层
第一层
二年级特点
二年级特点 1010102 三年级特点 1010102 四年级特点 1010102 五年级特点 1010102 六年级特点 1010102
• 时间序列数据:time-series data • 配对数据:matching or pairing data
横向数据的特点
• 定义
– 在某一时点、多个(或单个)空间收集的多个调查对 象的静态数据
– 横断面的、平行关系的、并列关系的数据,是一种单 维结构的数据集合(one-dimensional data set)
– 介绍多层模型的优势与适应性
– 讲解多层线性和非线性模型的基本原理 – 利用Stata软件,通过对数据的分析,演示模型的应用
数据结构的类型
• 横向数据:横截面数据、截面数据;crosssectional data;合并横截面数据(pooled crosssectional data) • 纵向数据:面板数据;panel data; longitudinal data
三年级特点
四年级特点
五年级特点
五年级特点 1010203
六年级特点 1010203
六年级特点
多层模型Βιβλιοθήκη • 介绍多层模型(MLM)在包括人口学在内的社会 科学领域的应用
– 为什么使用多层模型 – 模型的技术优势
– 应用原理
– 使用方法 – 应用举例
• 比较MLM和常规的分析结果
线性回归的理论模型
y 0 1x
–若一个调查在不同时间追踪同一对象、询问类似信息, 则该调查所获得的数据属于纵向数据
• 特点 –动态性:同一对象的同一特点在不同时间的变化趋势 –相关性:群内关联;个体自相关 (静态性和离散性)
相关主题