当前位置:
文档之家› 第9章事物间的相关关系相关分析
第9章事物间的相关关系相关分析
在5%的显著性水平下,两变量的 相关关系显著。tau-y相关系数说 明:户口状况作为因变量时,即用
房屋产权去预测户口状况可消减 8.5%的误差;而用户口状况去预 测房屋产权可消减3.4%的误差。
19
对于定序变量,排列顺序也 可传达有用的信息。
对定序变量之间关联强度的 测量叫“等级相关”
Nc——同序对:定序变量x 和定序变量y有相同的变化 方向;
例:根据数据“住房状况调查.sav”,分析户口状况与房屋产 权之间是否存在显著的相关关系?关联程度有多强? 判断定类变量之间的关联性(独立性)先进行卡方检验。
当样本量n≥40,且只 有20%以下的单元格 的期望频数1≤ fe <5 时,用对数似然比计 算的卡方。
本例中两变量属于非 对称关系,因此选择 适用于消减误差比例 的相关系数。
第9章
9.1 相关分析概述 9.2 定类变量的相关 9.3 定序变量的相关 9.4 定距变量的相关 9.5 偏相关分析
3
寻找变量间的关系是科学研究的首要目的。变量间的关系 最简单的划分即:有关与无关。
在统计学上,我们通常这样判断变量之间是否有关:如果 一个变量的取值发生变化,另外一个变量的取值也相应发 生变化,则这两个变量有关。如果一个变量的变化不引起 另一个变量的变化则二者无关。
Tau-y系数:针对两个变量具有不对称关系给出的相关系数, 具有消减误差比例的意义。Tau-y系数比Lambda系数更敏感。
不确定系数(Uncertainty Coefficient):取值在0~1之间。 值越大,说明自变量对预测的因变量帮助越大。如果它为1, 说明自变量可向因变量提供最多的信息;如果它为0,说明自 变量对预测因变量没有用。
这种影响程度有多强呢?这就要计算其中的关联强度。 关联强度是指两个不独立的变量之间的关系有多紧密。 卡方检验从定性的角度分析是否存在相关,各种关联指标
从定量的角度分析相关的程度如何。
用于测量 定类变量
变量间是否具有对称关系:
对于两个变量X和Y,如果我们认为X会影响Y,而Y不会影 响X,就称X和Y具有不对称关系;
Kendall’s tau-b系数:适用于行列数相等的情况; Kendall’s tau-c系数:适用于行列数不等的情况。
适用于对称关系的相关系数:
Spearman等级相关系数:适用于两个变量是定序变量且 呈线性关系。
当两个变量是定距变量,变量之间呈线性关系,但不满足 积差相关系数所要求的条件(如不满足正态性要求),可 采用Spearman等级相关系数。
Nd——逆序对:定序变量x 和定序变量y有相反的变化 方向;
T——同分对:定序变量x 和定序变量y都不变动。
用于测量 定序变量
适用于对称关系的相关系数:
Gamma系数:用于测量定序变量等级相关的测量指标, 取值在-1≤ Gamma ≤1;
当Gamma=0时,表示两个定序变量没有关联; 当0<Gamma<1,表明两个变量等级正相关; 当-1<Gamma<0,表明两个变量等级负相关; 当Gamma=1,表明两个变量完全正相关; 当Gamma=-1,表明两个变量完全负相关。
适用于对称关系的相关系数:
Phi系数:最简单的基于卡方的测量指标。对于大于2×2的列 联表,其值可能大于1,故该系数主要用于2×2的列联表。
C系数(Contingency Coefficient):对Phi系数进行了一定 的修正,其值介于0~1之间。但随着列联表行列的增加,C系 数会不断地接近1,但不可能等于1。故即使两个变量间有最强 的关联强度,从C系数中也得不到反映,所以C系数对格数太 少的列来说并不是好的测量指标,它会低估关联强度。
存在负的线性相关关系; r =0表示两变量无线性相关关系; r =1表示两变量完全正相关;r =-1表示两变量完全负相关; | r | >0.8表示两变量之间具有较强的线性关系;| r |<
0.3表示两变量之间的线性相关关系较弱。
10
当卡方检验的结果是显著的,则可知两个变量之间是不独 立的,即一个变量对另一个变量有影响。
CV系数(Cramer’s V):也是对Phi系数的一种修正,同时 相对于C系数,解决了对列联表单元格数目限制的问题,其值 介于0~1之间,也可以等于0或1。
适用于消减误差比例的相关系数(非对称关系):
Lambda系数:取值在0~1之间,这个值越大,说明自变量对 预测的因变量的帮助越大。如果它为1,说明自变量有良好的 预测因变量的能力;如果它为0,说明自变量信息对预测因变 量没有任何用处。
对相关关系的测量:
散点图 相关系数
散点图是考察两个变量之间 相关关系的最直观的图形, 以点的分布反映两变量之间 的关系。
Graphs——Legacy Dialogs——Scatter/Dot
省级卫视竞争分化情况
例:数据“收视率前15.sav”包含了2010年国内电视频道全 天收视率及收视份额前15名的数据。试作散点图考察电视频 道收视率与收视份额的关系。
Spearman等级相关系数要求是定序变量。
适用于非对称关系的相关系数:
Somers’d系数:考虑变量X和变量Y具有不对称的关系。
选入标志 观测量的 变量
勾选显示 观测量的 标志
添加回归 趋势线
虽然散点图能够直观地展现变量之间的统计关系,但并不 精确。相关系数以数值的方式精应采用不同的相关系数指标,但其取值 范围和含义都是相同的:
相关系数 r 的取值在[-1,1]之间; r >0表示两变量存在正的线性相关关系;r <0表示两变量
反之,如果我们不确定或不区分X影响Y,还是Y影响X, 就称X和Y是对称关系。
相关系数是否具有消减误差比例的意义:
如果Y与X有关系,那么利用X的信息来预测Y时,就会比 不知道X的值来预测Y避免一定的盲目性,从而减少若干误 差。
X和Y的关系越密切,减少的误差会越多。 预测时能够减少多少误差,可以反映X和Y之间关系的强弱。