当前位置:
文档之家› 回归分析之分类变量的编码方法
回归分析之分类变量的编码方法
b
k kYk 2
kk
其他编码方式:虚无编码
•“control” or “comparison” group coded 0 •“treatment” or “target” group coded 1
“conceptually”...
Group dc1 dc2
1
1
0
2
0
1
3*
0
0
* = comparison group
k
模型A:
=76.68+8.33Xi1+5.0Xi2
回归系数与预测值的解释。
模型检验
相对照的模型:
模型C: Ŷi = β0 模型A: Ŷi = β0 + β1Xi1 + β2Xi2
检验的虚无假设:
H0: β1 = β2 = 0 (Model comparison approach)
编码值
1
2
3
λ 1k
m-1 -1
-1
λ 2k
0
m-2 -1
λ3k
0
0
m-3
… m-2
m-1
m
… -1
-1
-1
… -1
-1
-1
… -1
-1
-1
λ6k
0
0
0
…2
-1
-1
λ7k
0
0
0
…0
1
-1
回归系数的解释
截距是两个组均值的简单平均数:
b1
Y1
Y2 2
b0
Y1
Y2 2
斜率是两组均值之差的平均:
整合上述结果
变异来源分析表
来源
组间 Xi1 Xi2
组内
总变异
b
SS
3733.3 8.33 3333.3 5.00 400.0
1800.0
5533.3
df
MS F
PRE
2 1866.7 21.778 .675 1 3333.3 38.895 .650 1 400.0 4.667 .182 21 85.7
“conceptually”...
Group ec1 ec2
1
1
0
2
0
1
3*
-1 -1
* = comparison group
For several participants...
Case group ec1 ec2
1
1
1
0
2
1
1
0
3
2
0
1
4
2
0
1
5
3
-1
-1
6
3
-1
-1
如果一侧变量存在2个以上的水平?
某研究者想考察心理表象对记忆的影响。他考察了两种实 验条件下三组被试对词语的正确回忆的同时呈现图片 控制组:直接记忆这两个词
任务:狗,自行车
实验组1
请想象一条狗骑 着自行车
实验组2
正确回忆率
控制组 60 70 70 40 60 50 70 60 60
For several participants...
Case group dc1 dc2
1
1
1
0
2
1
1
0
3
2
0
1
4
2
0
1
5
3
0
0
6
3
0
0
其他编码方式:效应编码
• “control” or “comparison” group coded -1 •“treatment” or “target” group coded 1
SPSS结果
Source Source Source (SPSS) (ANOVA)
SSR Regression Between
SSE(A) Residual Within
SSE(C) Total
Total
SS df MS
3733.33 2 1866.67 1800.00 21 85.71 5533.33 23
REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT willing /METHOD=ENTER x1 x2 .
F
Sig.
21.78 .000
更细节性的检验每一对照编码
To test contrast 1:
模型C: Ŷi = β0 + β2Xi2 模型A: Ŷi = β0 + β1Xi1 + β2Xi2
Null Hypothesis:
H0: β1 = 0
or
H0 : μ1 = (μ2 + μ3)/2
SSR
(( k k kk2Y/
k)2 nk)
SSRC1 (( k k kk2Y/ kn)k) 2 8(.-32*3630+80+90)^2/(6/8)=3333.3 SSRC2 (( k k kk2Y/ kn)k) 2 1(.9000-80)^2/(2/8)=400
回归分析之九
回顾:对比性编码
分类变量作为预测变量时一个重要的问题是如何解释结 果,为此需要编码。
对比性编码是众多编码方式中比较简单的一种,更为关 键的是这个编码可以比较灵活地回答我们的研究问题。
对比性编码要满足两个条件: 对于经过对比编码后的预测变量,其所有取值之和 为零; 如果存在两个以上经过编码的变量,这些变量相互 正交。
如何知道各编码变量相互正交
12kk Code 1: λ11= -2; λ12= +1; λ13= +1 Code 2: λ21= 0; λ22= -1; λ13= +1
Code 1和Code 2直观含义?
系列1 系列2
控制组
-2 0
-1 0
联想组
1 -1
0 -1
图片组
1 1
1 1
1k 2k 0
or
H0 : μ1 = μ2 = μ3 (ANOVA approach)
SPSS程序
RECODE feedback (1=-2) (ELSE=1) INTO x1 . VARIABLE LABELS x1 'contrast coding 1'. EXECUTE .
RECODE feedback (1=0) (2=-1) (3=1) INTO x2 . VARIABLE LABELS x2 'contrast coding 2'. EXECUTE .
联想组 80 70 70 90 80 70 100 80 80
图片组 90 85 85 100 90 85 90 95 90
对比编码问题
这时不能只用一个预测变量,因为结果无从解释。
对于分类变量,应当有(m-1)个对比编码
回忆对比编码的两个条件 同一编码的所有取值的和为零; 各个编码之间相互正交