当前位置:文档之家› 相关性分析

相关性分析


典型相关重要统计量的含义(续)
注意:
典型权重和典型因子载荷都是说明典型变量与 本组观测变量间关系的指标,但两者不大相同。 典型权重表示的是观测变量对典型变量的直接 影响,而典型因子载荷表示的是观测变量对典 型变量的总影响,也就是直接影响和间接影响 之和。大多数情况下,两者是一致的,但当本 组观测变量间存在高度共线性时,会出现典型 权重很小甚至接近0而典型因子载荷却很大的不 一致情况。
典型相关一些重要统计量的含义
典型相关系数(Canonical R)
典型相关系数就是两组中对应的两个典型变 量之间的简单相关系数,根据计算的规则, 典型相关系数的序号越靠前,系数的绝对值 就越大,两组观测变量整体间的相关性就越 高。由于第一个典型相关系数最大,能解释 观测变量的最大变异程度,有时也将其称为 两组变量间的典型相关系数。典型相关系数 的个数与两组观测变量中变量数较小者相同。
典型相关分析(Canonical )
什么是典型相关分析及基本思想 通常情况下,为了研究两组变量
( x1 , x2 , , xp ) ( y1 , y2 , , yq )
的相关关系,可以用最原始的方法,分别计 算两组变量之间的全部相关系数,一共有 pq 个简单相关系数,这样又烦琐又不能抓住问 题的本质。如果能够采用类似于主成分的思 想,分别找出两组变量的各自的某个线性组 合,讨论线性组合之间的相关关系,则更简 捷。
时间上的相关:协整分析
案例:中国股市与国债价格协整关系研究 (略,课下自行阅读分析)
变量个数简化,又可以达到分析相关性的目的。
典型相关分析的思想: 首先分别在每组变量中找出第一对线性组 合,使其具有最大相关性,
⎧ u 1 = a 1 1 x1 + a 2 1 x 2 + ⎪ ⎨ ⎪ v 1 = b1 1 y 1 + b 2 1 y 2 + ⎩ + a p1 x p
典型相关方程 1 2 3 典型相关系数 0.558 0.048 0.033 典型相关系数平方 0.311 0.002 0.001 提取方差 75.6% 100% p值 0.000 0.024 0.124 冗余度 15.33% 15.64%
变量名称 自相关系数 典型相关系数平方 顾客满意 顾客忠诚 50.0% 49.2% 0.31 0.31
典型权重就是构造典型变量时观测变量的系 数,它代表各个观测变量对典型变量的相对 作用大小,它的绝对值越大,表明该观测变 量对典型变量的影响就越大。典型权重类似 于回归分析中的回归系数,它可以代表观测 变量与典型变量间的偏相关系数;又可以与 因子分析中的因子得分系数做类比。总之, 它表示的是观测变量对本组典型变量的直接 贡献。
结果小结
代理人服务 -0.242 服务便利性 -0.033 0.558 单据及时性 -0.124 价值感知 -0.583 U1 V1 0.138 转向竞争对手 的可能 -0.453 -0.685 继续购买可能 推荐亲友可能
抱怨的处理 -0.301 U10解释顾客满意信息的49.2% V10解释顾客忠诚信息的50%
数学原理(主成份分析后再详述)
案例:保险业客户满意与忠诚关系 的典型相关分析
变量构成
客户满意变量 代理人的服务(X6) 服务便利性(X7) 单据及时性(X8) 所交保费是否值得(X9) 公司对本人抱怨的处理(X10) 顾客忠诚变量 继续购买公司产品的可能性(Y1) 向亲友推荐的可能性(Y2) 转而选择竞争对手的可能性(Y3)
然后再在每组变量中找出第二对线性组 合,使其分别与本组内的第一线性组合不相 关,第二对本身具有次大的相关性。
⎧u2 = a12 x1 + a22 x2 + ⎪ ⎨ ⎪v2 = b12 y1 + b22 y2 + ⎩ + ap2 xp + bq 2 yq
u2和v2与u1和v1相互独立,但u2和v2相关。如 此继续下去,直至进行到r步,两组变量的相关性 被提取完为止。r≤min(p,q),可以得到r组变量。
Brand Mapping = Correspondence Analysis (usually)
相关性分析图
一种非常有用的市场研究工具,可以表述一个市 场的侧面(市场细分,品牌定位等)
可以在2维空间内同时表达多维的属性 可以更好的理解品牌和属性之间的关系
帮助客户/市场决策者
为实施市场战略而去发现市场的空隙和优化产 品的定位(对于新品牌或新产品的开发/延伸) 发现市场上决定性的或显著的属性,例如对于 选择不同品牌的重要和有显著区别的属性
典型相关重要统计量的含义(续)
特征根(Eigenvalues)
根据计算规则,特征根就是典型相关系数的 平方,它也是随着序号的增大而减小。由于 典型变量都是经过标准化的,方差均为1,所 以特征根又可看作是一对典型变量间的共享 方差(shared variance)。
典型相关重要统计量的含义(续)
典型权重(Canonical weights)
由于用样本推断总体是有偏误的,所以在使用典型相关 系数前要检验他们的显著性,一般用巴特莱特(Bartlett) 提出的大样本检验。从最大的典型相关系数开始,检验 所有的相关系数(lambda)是否为0,只有统计上显著 不为0的系数才被认为可以反映两组变量间的关系,被 留下来用于分析解释变量间关系。检验时,首先假设所 有的相关系数均为0,如果拒绝原假设就说明至少有一 个典型相关系数不为0,因为第一个典型相关系数最 大,异于0的可能性也就最大,所以拒绝原假设就说明 第一个典型相关系数是显著的;然后去除第一个典型相 关系数,检验剩余的相关系数是否为0,如果拒绝原假 设就说明第二个典型相关系数是显著的;依此类推,可 以检验出所有相关系数的显著性。最终只用通过了显著 性检验的相关系数来分析解释变量间关系。
顾客满意与顾客忠诚的 第一典型变量系数表
顾客满意原始变量 代理人的服务(X1) 服务便利性(X2) 单据及时性(X3) 所交保费是否值得 (X4) 公司对本人抱怨的 处理(X5) 权重1 -0.242 -0.033 -0.124 -0.583 -0.301 顾客忠诚原始变量 继续购买公司产品的 可能性(Y1) 向亲友推荐的可能性 (Y2) 转而选择竞争对手的 可能性(Y3) 权重2 -0.453 -0.685 0.138
在解决实际问题中,这种方法有广泛的应 用。如,在工厂里常常要研究产品的q个质量指 标 ( y1 , y2 , , yq ) 和P个原材料的指标 ( x1 , x2 , , x p ) 之间的相关关系;也可以是采用典型相关分析 来解决的问题。如果能够采用类似于主成分的 思想,分别找出两组变量的线性组合既可以使
数学原理(主成份分析后再详述)
对典型相关系数需要进行检验
在实际应用中,总体的协方差矩阵常常是 未知的,类似于其他的统计分析方法,需 要从总体中抽出一个样本,根据样本对总 体的协方差或相关系数矩阵进行估计,然 后利用估计得到的协方差或相关系数矩阵 进行分析。由于估计中抽样误差的存在, 所以估计以后还需要进行有关的假设检验。
反应变量与解释变量
反应变量(response variable):度量研究 结果的变量;
也称为应变量(dependent variable); 如每万辆车的死亡人数,平均死亡年龄
解释变量(explanatory variable) :解释 或影响反应变量的变量;
也称自变量(independent variable); 车辆的轻重,是否抽烟
相关性分析 Correspondence Analysis
两变量相关的情况
保险公司发现,较重的车每万辆车死亡人 数比较轻的车少。
车辆的轻重与每万辆车死亡人数相关。
医学研究发现,抽烟的人平均死亡年龄比 不抽烟的人低。
抽烟与死亡年龄是否相关?
相关性探讨的是两变量间相关情况的的大 致趋势,当然,不排除不符合趋势的特 例。
相关性与因果关系
相关不是因果
生活中的误区
酒精对身体影响的研究
不同剂量的酒精(解释变量)对老鼠体温(反应变量)的影 响。
两变量数据相关检验的步骤
图示两变量数据以及各个统计数字; 查看整体状态及数据的离散情况 如果有较稳定的关系,就用简单的数学模 式描述该关系。
相关性分析的应用?
市场分析中经常也称作 Brand Mapping 或 CORAN Mapping
典型相关重要统计量的含义(续)
冗余度(Redundancy) 冗余度是提取的方差与特征根(典型相关系 数的平方)的乘积。提取的方差表示的是典 型变量与本组观测变量的共享方差,特征根 表示的是两个典型变量间的共享方差,所以 两者的乘积表示的就是一组典型变量与另一 组观测变量间的共享方差,也就是一组典型 变量对另一组观测变量平均解释能力。它是 说明由典型变量代表的某些观测变量与另一 组观测变量整体间相互关系的重要指标。
典型相关重要统计量的含义(续)
典型因子载荷(Factor structure or canonical factor loadings)
典型因子载荷是典型变量与本组观测变量间 的简单相关系数,又被称为因子结构,其作 用类似于因子分析中的因子载荷,可以用来 识别典型变量的意义。典型因子载荷的绝对 值越大,表明观测变量与典型变量间的相关 性越强,典型变量对该观测变量的代表性就 越好。它说明的是观测变量对本组典型变量 的总影响。
典型相关重要统计量的含义(续)
提取的方差(Variance extracted)
提取的方差是典型因子载荷的平方。它表示典型 变量对本组观测变量变异性的解释程度。由于不 同对典型变量之间是独立不相关的,所以它们的 方差可以直接累加。某一典型变量与本组所有观 测变量间的提取的方差的平均数就是这个典型变 量对本组观测变量的提取的方差,将所有典型变 量对本组观测变量的提取的方差相加就得到典型 变量总的提取的方差。由于典型变量的对数与两 组观测变量中变量个数较少的相同,所以典型变 量对观测变量较少组的提取的方差就是100%,对 另一组的提取的方差也必小于100%。
相关主题