多元统计分析建模
模糊交集与模糊并集 设x=(x1,x2,…xn),y=(y1,y2,…,yn),xi,yi[0,1] 爱因斯坦积:
zi xi y i 2 xi y i xi y i xi y i 1 xi y i
爱因斯坦和:
wi
注意:zi,wi仍然[0,1],且有
zi<xi<wi,zi<yi<wi
多元统计分析建模方法
李柏年 刘德志
统计与应用数学学院
STATISTICS & APPLIED MATHEMATICS
一
数据处理方法
二
聚类分析 主成分分析 典型相关分析 历史建模试题
目
录
三 四 五
一
数据处理方法
Box-Cox变换是统计建模中常用的一种 数据变换,用于连续的响应变量不满足正态 分布的情况。比如在使用线性回归的时候, 由于残差不符合正态分布而不满足建模的条 件,这时候要对响应变量进行变换,把数据 变成正态的。 1. boxcox变换
从图上可以看出散点并不聚集在直线上,因此流 域成灾面积(原始数据)不服从正态分布,这一 点也可以通过jbtest检验来证实.但是通过变换以后 的图形如图2所示,显然数据服从正态分布.
图2 流域成灾面积(变换后数据)qq图
表1. 1991各地区居民月人均消费数据
X1 8.35 9.25 8.19 7.73 9.42 9.16 10.06 9.09 9.41 8.7 6.93 8.67 9.98 6.77 8.14 7.67 7.9 7.18 8.82 6.25 10.6 7.27 13.45 10.85 7.21 7.68 7.78 X2 23.53 23.75 30.5 29.2 27.9 27.98 28.64 28.12 28.2 28.12 29.85 36.05 37.69 38.69 37.75 35.71 39.77 40.91 33.7 35.02 52.41 52.65 55.85 44.68 45.79 50.37 48.44 X3 7.51 6.61 4.72 5.42 8.2 9.01 10.52 7.4 5.77 7.21 4.54 7.31 7.01 6.01 9.61 8.04 8.49 7.32 7.59 4.72 7.7 3.84 5.5 7.32 7.66 11.35 8 X4 8.62 9.19 9.78 9.43 8.14 9.32 10.05 9.62 10.8 10.53 9.49 7.75 8.94 8.82 8.49 8.31 12.94 8.94 10.98 6.28 9.98 9.16 7.45 14.51 10.36 13.3 20.51 X5 17.42 17.77 16.28 19.29 16.17 15.99 16.18 17.26 16.36 19.45 16.62 16.67 16.15 14.79 13.15 15.13 19.27 17.6 18.82 10.03 12.53 13.03 9.55 17.13 16.56 19.25 22.12 X6 10 10.48 7.6 8.49 9.42 9.1 8.39 11.12 11.56 13.3 10.65 11.68 11.08 11.44 9.76 7.76 11.05 12.75 14.73 7.15 11.7 15.26 9.52 12.08 12.86 14.59 15.73 X7 1.04 1.72 2.52 2.52 1.55 1.82 1.96 2.49 1.53 1.66 1.88 2.38 0.83 1.74 1.28 1.41 2.04 1.14 1.78 1.93 2.31 1.98 2.21 1.26 2.25 2.75 1.15 X8 11.21 10.51 10.32 10 9.76 11.35 10.81 12.65 12.17 11.96 13.61 12.88 11.67 13.23 11.28 13.25 13.29 14.8 10.1 10.39 14.69 14.57 16.3 11.57 11.69 14.87 16.61
解:Matlab中计算的程序如下 b=[39.63,…] ; % 输入数据作为一个矩阵
[center,U,fcn] = fcm(b,3); %模糊C均值聚类
得到输出的结果为:
center =
746.0614 237.5902 141.0734 769.5504 653.4250 36.2240 281.0558 104.4092 75.5785 287.9557 230.5676 13.9213 118.7043 41.0517 19.6115 107.8278 83.1635 6.7159
plot(a(:,3),'+'),hold on,plot(a(:,1),'or'),legend('x3','x1')
25 20 15 10 5 0 x3 x1
0
5
10
15
20
25
30
图3 x1,x3的散点图
[y3,t3]=boxcox(a(:,3));[y1,t1]=boxcox(a(:,1)); plot(y3,'+'),hold on, plot(y1,'or'),legend('y3','y1')
二
聚类方法
1. 模糊C均值聚类 定义目标函数为
J (U ,V ) (uik ) m (dik ) 2
k 1 i 1
n
c
显然 J(U,V)表示了各类中样本到聚类中心的加权距 离平方和,权重是样本xk对第i类隶属度的m次方,聚 类准则取为求的极小值:(min){J(U,V)}。 其中聚类中心为:
1.6 1.4 1.2 1 0.8 y3 y1
0
5
10
15
20
25
30
图4 变换后散点图
练习:对1991年人均消费数据练习boxcox变 换与正态分布检验
2. 其他变换公式 标准化:设有数据x=(x1,x2,…,xn)
xi x yi , si si
1 n 1
2 ( x x ) i1 i n
例3. 2007年安徽省各地市工业企业效益指标如下 表所示,请利用模糊C 均值聚类方法分为三类。
表3. 安徽工业企业数据
地 区 合肥市 淮北市 亳州市 宿州市 蚌埠市 阜阳市 淮南市 滁州市 六安市 马鞍山 巢湖市 芜湖市 宣城市 铜陵市 池州市 安庆市 黄山市 工业总产值 1099.82 239.27 116.23 109.06 218.38 192.03 300.09 248.43 136.24 687.38 172.28 674.33 160.92 513.95 28.01 363.26 32.74 工业增加值 356.03 112.42 44.71 40.64 82.22 66.00 141.61 87.17 57.88 260.28 52.75 166.80 40.79 151.69 11.26 76.71 8.80 实收资本 191.24 79.80 14.41 14.18 58.42 33.02 120.09 47.61 17.81 180.80 36.31 100.15 22.72 63.52 8.21 57.50 9.22 业务收入 1020.77 266.74 65.81 112.34 202.28 183.78 310.51 230.67 128.50 761.63 166.52 648.34 151.54 651.15 25.21 372.97 31.41 业务成本 823.45 202.25 49.17 97.32 150.35 133.81 239.83 185.71 94.26 653.17 114.58 566.83 126.44 571.00 19.14 327.61 25.67 利润总额 43.72 4.07 3.34 -1.10 12.39 18.04 19.36 16.26 10.15 35.29 12.78 36.52 9.89 27.90 3.68 15.90 2.22
vi (uik )m xk / (uik )m (i 1,2,, c),(1 m)
k 1
n
n
其中 u 1/ ik
d
j 1
2
k 1
ik
/ d jk
2 m 1
d ik xk vi
在Matlab中(m=2),我们只要直接调用如下程序即可:
[center,U,fcn] = fcm(data,cluster_n)
此时, center 的每一行就是每一类最终的中心坐标, 由效益型指标可知:第一行表示效益最好的一类,第 三行表示效益最差的一类,第二行则介于两者之间。
U=
0.8082 0.1154 0.0764 0.0041 0.9479 0.0480 0.0022 0.0248 0.9730 0.0003 0.0047 0.9950 0.0122 0.5827 0.4051 0.0103 0.3144 0.6753 0.0071 0.9579 0.0351 0.0080 0.8523 0.1396 0.0010 0.0161 0.9829
( x 1) / y log( x)
0 0
(x>0)
其中x为原始数据,y为变换后的数据.
在MATLAB中,上述变换的命令如下: [t,l]=boxcox(x) 其中 x是原始数据(列向量),t是变换以后的数据,l 是变换公式中参数的数值 例1. 1949—1991淮河流域成灾面积说明如何利用上述 的变换使得数据从不具备正态分布到符合正态分布.
[h,p]=jbtest(x1) [y,t]=boxcox(x1'); [h,p]=jbtest(y)
表2. 正态检验 数Байду номын сангаас类型 原始数据