多元统计分析
z
0. 241
0. 160
0. 080
3 2 0. 000 -3 1 -2 0 -1 x -1 0 1 -2 2 3 -3 y
轮廓图
横坐标取p个点,表示p个变量; 对于某一样品,纵坐标表示每个变量的取值, 将p个点用直线连起来; 依次画n个样品的图。
轮廓图
100 90 80 70 60 50 40 30 20 政治 语文 英语 数学 物理 1 2 3 4 5 6 7 8 9 10 11 12
(3)
k
k
1
i
1 k i k i 1 max(i ) 1
1 i k
1 i k
( 4) min(i ) k
(5)
1 k ( i1 ) 1 k i 1
典型相关系数的检验
t
r n2 1 r
2
t (n 2)
p
1 2 ˆ Qk [n k ( p q 1)] ln(1 i ) 2 i k
闪电图
类似于轮廓图旋转90度 直观上便于各样品之间的比较 柱形图vs条形图
地铁公交服务优劣比较
1
购票不方便
2
3
4
5
购票方便
准时 等待时间短 舒适 物有所值 方便 安全可靠性高 配套设施齐全 座位宽敞 有空调
不准时
等待时间长 不舒适
物非所值
不方便 安全可靠性低 配套设施不齐全 座位拥挤 无空调
分类 顺序 数值
三种数据的变化
升级变化 手段:编码 后果:
计算高级化 信息可能扭曲
降级变化 手段:分组 后果:
计算低级化 信息可能减少
一个降级的例子
学生成绩原本是数值数据:0~100分 分组后成顺序数据:优,良,中,及格,差 后果: 无法进行加减计算了。
多元统计学的应用——文学
《红楼梦》作者研究(文本挖掘) 选定数十个与情节无关的虚词,把《红楼梦》 120回作为120个样品,统计每一回选定的 这些虚词出现的频数作为变量 方法:聚类分析 李贤平, “红楼梦成书新说”, 《复旦学 报》社会科学版,1987年第5期
多元统计学的应用——营销
多元统计分析
中国人民大学统计学院 杜子芳
课程介绍
课程内容:
介绍各种多元分析方法 讨论各种方法的联系,优缺点……
考核方式:期末小论文 公共邮箱:rucdy2009@(密码 ruc2009) 助教:刘亚文 liuyawen1985@
推荐参考书目
张尧庭,方开泰,《多元统计分析引论》,北京: 科学出版社,1982。 高惠璇,《应用多元统计分析》,北京:北京大学 出版社,2005。 陈峰,《医用多元统计分析方法》,北京:中国统 计出版社,2000。 [美]Richard A. Johnson, Dean W. Wichern著, 陆璇 叶俊译,《实用多元统计分析》(第6版), 北京:清华大学出版社,2008。
变量i越大,变量k越大,则协方差为正数;变量i越 大,变量k越小,则协方差为负数;若两个变量关 系不大,则协方差接近0 2 当i=k时 s s s
ik kk k
多元的描述统计量——方差和协方差矩阵
s11 s 21 S s p1
s12 s22 sp2
s1 p s2 p s pp
多元的描述统计量——相关系数矩阵
1 r 21 R r p1
r12 1 rp 2
r1 p r2 p 1
图形
散点矩阵图——多个变量之间的关系 三维曲面图——两个变量的联合分布 轮廓图 n很小,p比较大 闪电图 可以很直观进行样品间 雷达图 的比较,并且可以用于 调和曲线图 样品的初步分组和验证 聚类分析的结果 切尔谢夫脸谱图
变量的分类
性质
分类 定性(qualitative) 顺序 数值——定量(quantitative)
功能
自变量 因变量
三类变量
三类变量的举例
分类:姓名,性别,民族,籍贯 顺序:学历,“成份”,职称 数值:身高,收入,年龄
变量对应的数据容许的最高计算等级
( p k 1)(q k 1)
2
广义相关系数的性质
所有广义相关系数除满足对称性外还具有以 下性质: 0 时,代表U和V不相关,从而任一与任 一中的随机变量都不相关 1 时,代表U和V可以相互线性表出 p q 1 时,等于Pearson相关系数的平方 p q 1 时,等于复相关系数的平方或决定 系数。
x1 x2 x xp
多元的描述统计量——方差和协方差矩阵
方差表示变量离散程度,协方差变量间的协同关系 n 1 变量k的方差 sk 2 ( x jk xk )2 k 1, 2, , p n j 1 变量i和变量k的协方差 1 n sik ( x ji xi )( x jk xk ) i 1, 2, , p, k 1, 2, , p n j 1
数值变量的数字特征
集中性趋势:平均值 分散性趋势:标准差
多元的描述统计量——均值向量
集中趋势,平均水平 1 n 第一个变量的平均值 x1 x j1 n j 1
1 n 第k个变量的平均值 xk x jk n j 1 k 1, 2, ,p
p个变量的均值向量
注:红线代表地铁,蓝线代表公交车。
投资方案
国家标准
生均占 地面积 生均建 筑面积
推荐方案
70㎡ 生均占
地面积
50㎡ 15㎡
60㎡
16.5㎡ 10台
18㎡ 生均建
筑面积
百生均计 5台 算机数 生均设 备价值 师生比
15台 百生均计
算机数
4500元 1:25
5000元 1:20
5500元
生均设 备价值 师生比
Horsepower
Engine ...
Miles per Gallon
Vehicle Weight (l,a1=a2=1
z
0. 159
0. 106
0. 053
3 2 0. 000 -3 1 -2 0 -1 x -1 0 1 -2 2 3 -3 y
相关系数=0.75, a1=a2=1
散点图矩阵——多个变量间的关系
p=2时,可以用散点图表示两个变量之间的 关系 p>2时,对p个变量两两配对生成散点图矩 阵
散点图矩阵——多个变量间的关系
Vehicle Weight ...
Miles per Gallon Horsepower Engine Displacement (cu. inches)
数学
英语
调和曲线图
Andrews,1972提出 用二维空间的一条曲线表示多维空间的点
x1 f X (t ) x2 sin t x3 cos t x4 sin 2t x5 cos 2t 2 ( t )
各变量数值悬殊时,要先标准化 同类的曲线拧在一起,不同类拧成不同的束
1:16
生均图 70册,30元/册 书册数
80册,35元/册
80册,40元/册 生均图
书册数
雷达图
作一圆,将圆周p等分; 连接圆心和各分点,这p条半径即为p个坐标 轴; 将每一个样品的p个变量取值分别标注在p个 坐标轴上,用直线连接成p边形; n个样品即有n个p边形。
政治 100 90 80 物理 70 60 语文 1 2 3 4 5 6
典型相关分析的思想
两组随机变量的相关系数我们并未接触,以 前接触的是
一对一的:分类之间,顺序之间,数值之间 一对多的:数值对分类(方差),数值对数值(回归) 多对多的:数值对数值
如何反映多对多的相关呢?
多元统计分析最重要的框架
分类 分类 数值
2
数值
系列 系列
系列
Pearson 相关系数
信息减少,95与100分的差异不见了。
课程框架
自变量之间的关系
聚类分析 主成分分析 因子分析
自变量与因变量之间的关系
因变量 分类型 自变量 分类型 数值型 数值型
列联分析、对应分析 方差分析、联合分析 判别分析、Logistic 回归分析、结构方程模型 回归分析
多元分析的描述统计
切尔诺夫脸谱图
每个样品用一个脸谱表示 用脸部特征如脸的长度、高度、眼睛大小、 发型等表示各变量的值 可以根据脸的相似程度,将样品分组 无法在同一框架下进行比较 Chernoff, H. “Using Faces to Represent Points in K-Dimensional Space Graphically.”(1973)
多元的描述统计量——相关系数矩阵
第i个和第k个变量的相关系数为
rik sik sii skk
(x
j 1
n
ji
xi )( x jk xk )
(x
j 1
n
ji
xi ) 2
(x
j 1
n
i 1, 2,
jk
, p, k 1, 2,
,p
xk ) 2
相关系数是协方差的标准化形式; 相关系数的取值在-1到+1之间; 相关系数衡量的是变量间线性关系的强度
典型相关分析的思想
每组变量都进行线性组合,生成代表性变量; 计算不同组任意两个代表性变量的相关系数; 找到相关系数最大对应的两个代表性变量作 为一对“典型”,将“典型”之间的相关系 数用来代表两组变量的线性相关程度,乘为 典型相关系数,又称广义相关系数。