当前位置:文档之家› 第14讲 关联分析

第14讲 关联分析


根据上述资料计算
白领购买者 160166 132.8 200
白领非买者 160 34 27.2 200
蓝领购买者 40166 33.2 200
蓝领非买者 40 34 6.8 200
例题中的 X2卡方值
X2
n
i 1
观察频率值 预测频率值 预测频率值
X2 152132.82 8 27.22 14 33.22 26 6.82
x 2
2
nx
y2
2
ny
举例说明皮尔逊积矩相关的作用
浙江省城市居民人均收入与人均消费
检验
Correlations
相关 系数
均消费支 人均收入
均 消 费 支 Pear son Cor relation. (2-tailed)
,
,000
N
12
12
人 均 收 入 Pear son Cor relation
非单调关联——指一个变量的存在
(或不存在)与另一个变量的存在 (或不存在)系统上关联
单调关联——具有显著方向的关联。
包括单调增和单调减
线性关联——指两个变量之间存在
线性关系,可用方程 y a bx 表达。
曲线关联——指可用曲线表达的关联。
刻画两个变量之间的关联
关联根据其类型可用三种方式来刻画 ——存在 ——方向 ——关联的强度
0<|r|<1不同程度线性相关(0~0.3 微弱;0.3~0.5 低度;
0.5~0.8 显著;0.8~1 高度) 符号:r>0 正相关;r<0 负相关
H0 : p=0, H1 : p≠0
相关系数的检验(t检验)
检验统计量 t | r |
n2 1 r2
相关系数大小的差别准则
相关系数范围 ±0.81 ±1.00 ±0.61 ±0.80 ±0.41 ±0.60 ±0.21 ±0.40 ±0.00 ±0.20
相关系数与协方差
相关系数——是一个指数数据。它被定
义在-1至+1之间,表达了两个变量之间关联的 强度和方向性。也即关联系数显示了两个变量 的之间的共变的度。而共变定义为一个变量随 着另一个系统相关的变量变化而变化。
不管绝对数值如何,没有统计显 著性的相关系数一点意义也没有。
相关分析
概念
种类
线性相关
操作命令序列: STATISTICS
-CORRELATE
-BIVAREATE
勾上
SPEARMAN 选项
相关分析的结论(1)
定性度量——提供一个对象的信息
较少,而比率度量提供最多的信息。 标度信息的数量直接影响由适当的检 验输出的信息量。对两个名义度量变 量进行卡方分析所得的信息多。同样, 关联类型也受信息差异的影响。
1 3 2.8
2 7.2
3 3.2
6.8
X2 81.64
卡方分布
分布 1.定义:相互独立且服从N(0,1)分布的随机变量,则称随机变
量所服从的分布是自由度为n的分布,且记。它的概率密度函数为
其中,是仅与n有关的常数。f(x,n)的图形随n的不同而不同。 2. 分布的随机变量的期望与方差为:
3. 查表:对于给定的α,0<α<1,可在分布表中查得,即
相关分析的结论(2)
卡方——描述的是非单调型关系,
皮尔逊法描述的是线性相关,序值 关联是介于这两者之间的非单调型 关系。
相关分析的结论(3)
零假设——贯穿于各种统计检验描
述过程中。零假设是两个名义度量的 变量之间没有关联,相关分析的零假 设是不相关。
本章提要
存在四种可能的关联,即非单调关联、 单调关联、线性关联和曲线关联 相关可由存在、方向和强度来描述
36
高露洁
1
6
-5
25
阿默
6
3
3
9
麦可洁
3
5
-2
4
德罗波斯
4
7
-3
9
条纹
8
2
6
36
百事沙
7
1
6
36
例题中的斯皮尔曼序值相关
6
n
d
2 i
rs 1
i1
n n 2 1
rs
1
6156 8 82 1
rs
1
936 863
1
936 504
11.86 0.86
在视窗SPSS下如何获得斯皮尔 曼序值相关和肯德尔T排序相关
观察频率(observed frequencies)—
—是交叉表中的单元数据值。与预测频 率相对应的是预测频率。
预测频率(expected frequencies )—
—是以假设两变量之间无关联推导出来的 值。
卡方 X2 的计算
计算步骤: 第一步——计算预测频率值 第二步——计算 X2 值。 第三步——卡方是预测频率值和观 测频率值差异的一个真实、综合的 反映。
交叉表
交叉表(cross-tabulation table)的形
式——用行与列的形式对比表示数
据交叉表的制作——利用SPSS可直接
生成
交叉表的作用——交叉表和相关的
卡方值常用来评估两个名义量度变 量之间是否存在非单调型关系
米切罗伯淡啤酒——原数据
购买 不买 总计
白领 152
8
160
职业 状况
蓝领
r
(x
x)(
y
y)
n x y
r
n xy x y n x2 ( x)2 n y2 ( y)2
相 式 已分组:r
n x y fxy ( x fx)( y fy )

[n x2 fx ( x fx)2][n y2 fy ( y fy )2]
系 数
|r|=0 不存在线性关系; |r|=1 完全线性相关 值:
职业 状况
白领
92% 24% 80% (152) (8) (160)
蓝领
8% 76% 20% (14) (26) (40)
合计
100% 100% 100% (166) (34) (200)
米切罗伯淡啤酒——原表行频率表
购买 不买 总计
职业 状况
白领
85% 15% 100% (152) (8) (160)
关联的强度 强
中等 弱
非常弱 没有
皮尔逊积矩相关
皮尔逊积矩相关——度量用分布
图描绘的两个区间型和/或比率型变量 之间的线性关系。皮尔逊积矩相关系 数可以表明是否存在相关,共变方向 和相关程度。
相关系数r的计算
r cov(x, y) var(x) var(y)
r
(x x)(y y) (x x) 2 (y y) 2
卡方分布的特征
卡方分布——向右倾斜,其拒绝
区域总是在分布的右尾部。卡方分布 的形状由自由度的数值确定。自由度 的数值越大,曲线的尾巴越向右拉。
自由度的计算公式为: 自由度=(r-1)*(c-10) 式中,r是行数,c是列数
如何解释卡方结果
卡方分析——只是一个确定两变量 之间是否存在非单调关联的方法。 它不能显示关联的本质,而只能根 据其大小,粗略地显示关联的强度。
线性相关程序的特殊考虑
解释皮尔逊积矩相关要理解里面的 三个假设
相关系数只考虑了两个变量之间的关系
相关系数假设较少考虑原因 皮尔逊积矩相关只解释线性关系
序值相关系数
序值相关系数——常用来确
定用排序(次序)度量的变量之 间的非单调关系。
斯皮尔曼序值相关(Spearman rank order correlation)——是指对
变量之间关系 相关关系 函数关系
因果关系 互为因果关系 共变关系 确定性依存关系
随机性 依存关 系
正相关 负相关
y
y
种类
一元相关 多元相关
y
线性相关 曲线相关
y
正 相 关 x 负 相 关 x 曲线相关 x 不 相 关 x
测定两变量是否线性相关? 定义式:r xy
线性相关
计 算 公
x y
未分组:
14
26
40
合计 166 34 200
米切罗伯淡啤酒——原表频率
购买 不买 总计
职业 状况
白领
76% 4% (152) (8)
80% (160)
蓝领
7% 13% 20% (14) (26) (40)
合计
83% 17% 100% (166) (34) (200)
米切罗伯淡啤酒——列频率表
购买 不买 总计
蓝领
35% 65% 100% (14) (26) (40)
合计
83% 17% (166) (34)
200
卡方分析
卡方分析 (SHI-SQUARE ANALYSIS)是检测交叉表中的 两个名义变量的频率以确定两个 变量之间是否存在非单调型关系
卡方分析常常以两个名义变 量之间不存在关联起始假设
观察频率与预测频率
顺序排列的变量进行分析时所用的分析 方法
斯皮尔曼序值相关的计算公式
rs
1
6 n
n
di2
i1
n 2 1
式中,rs为斯皮尔曼序值相关,di2为
配对的序值之差的平方;n为排序的 数目。
根据抗腐蚀能力和洁白牙 齿能力对牙膏品牌的排序
品种
洁白能力 抗腐蚀能
排序
力排序
d
d2
佳洁士
5
4
1
1
格理
2
8
-6
如果不存在关联的零假设被拒绝,营销调研 者就要分析单元百分率,以识别关联的模式, 在区间或比率标度假设的两个问题上,用皮 尔逊积矩相关系数确定线性相关是合适的, 序值相关系数用于分析序值变量
相关主题