当前位置：文档之家› 多元统计分析建模

多元统计分析建模

模糊交集与模糊并集设x=(x1,x2,…xn),y=(y1,y2,…,yn),xi,yi[0,1] 爱因斯坦积：
zi xi y i 2 xi y i xi y i xi y i 1 xi y i
爱因斯坦和：
wi
注意：zi,wi仍然[0,1]，且有
zi<xi<wi，zi<yi<wi
多元统计分析建模方法
李柏年刘德志
统计与应用数学学院
STATISTICS & APPLIED MATHEMATICS
一
数据处理方法
二
聚类分析主成分分析典型相关分析历史建模试题
目
录
三四五
一
数据处理方法
Box-Cox变换是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。比如在使用线性回归的时候，由于残差不符合正态分布而不满足建模的条件，这时候要对响应变量进行变换，把数据变成正态的。 1. boxcox变换
从图上可以看出散点并不聚集在直线上，因此流域成灾面积（原始数据）不服从正态分布，这一点也可以通过jbtest检验来证实.但是通过变换以后的图形如图2所示，显然数据服从正态分布.
图2 流域成灾面积（变换后数据）qq图
表1. 1991各地区居民月人均消费数据
X1 8.35 9.25 8.19 7.73 9.42 9.16 10.06 9.09 9.41 8.7 6.93 8.67 9.98 6.77 8.14 7.67 7.9 7.18 8.82 6.25 10.6 7.27 13.45 10.85 7.21 7.68 7.78 X2 23.53 23.75 30.5 29.2 27.9 27.98 28.64 28.12 28.2 28.12 29.85 36.05 37.69 38.69 37.75 35.71 39.77 40.91 33.7 35.02 52.41 52.65 55.85 44.68 45.79 50.37 48.44 X3 7.51 6.61 4.72 5.42 8.2 9.01 10.52 7.4 5.77 7.21 4.54 7.31 7.01 6.01 9.61 8.04 8.49 7.32 7.59 4.72 7.7 3.84 5.5 7.32 7.66 11.35 8 X4 8.62 9.19 9.78 9.43 8.14 9.32 10.05 9.62 10.8 10.53 9.49 7.75 8.94 8.82 8.49 8.31 12.94 8.94 10.98 6.28 9.98 9.16 7.45 14.51 10.36 13.3 20.51 X5 17.42 17.77 16.28 19.29 16.17 15.99 16.18 17.26 16.36 19.45 16.62 16.67 16.15 14.79 13.15 15.13 19.27 17.6 18.82 10.03 12.53 13.03 9.55 17.13 16.56 19.25 22.12 X6 10 10.48 7.6 8.49 9.42 9.1 8.39 11.12 11.56 13.3 10.65 11.68 11.08 11.44 9.76 7.76 11.05 12.75 14.73 7.15 11.7 15.26 9.52 12.08 12.86 14.59 15.73 X7 1.04 1.72 2.52 2.52 1.55 1.82 1.96 2.49 1.53 1.66 1.88 2.38 0.83 1.74 1.28 1.41 2.04 1.14 1.78 1.93 2.31 1.98 2.21 1.26 2.25 2.75 1.15 X8 11.21 10.51 10.32 10 9.76 11.35 10.81 12.65 12.17 11.96 13.61 12.88 11.67 13.23 11.28 13.25 13.29 14.8 10.1 10.39 14.69 14.57 16.3 11.57 11.69 14.87 16.61
解：Matlab中计算的程序如下 b=[39.63,…] ; % 输入数据作为一个矩阵
[center,U,fcn] = fcm(b,3)； %模糊C均值聚类
得到输出的结果为：
center =
746.0614 237.5902 141.0734 769.5504 653.4250 36.2240 281.0558 104.4092 75.5785 287.9557 230.5676 13.9213 118.7043 41.0517 19.6115 107.8278 83.1635 6.7159
plot(a(:,3),'+'),hold on,plot(a(:,1),'or'),legend('x3','x1')
25 20 15 10 5 0 x3 x1
0
5
10
15
20
25
30
图3 x1,x3的散点图
[y3,t3]=boxcox(a(:,3));[y1,t1]=boxcox(a(:,1)); plot(y3,'+'),hold on, plot(y1,'or'),legend('y3','y1')
二
聚类方法
1. 模糊C均值聚类定义目标函数为
J (U ,V ) (uik ) m (dik ) 2
k 1 i 1
n
c
显然 J(U,V)表示了各类中样本到聚类中心的加权距离平方和，权重是样本xk对第i类隶属度的m次方，聚类准则取为求的极小值：(min)｛J(U,V)｝。其中聚类中心为：
1.6 1.4 1.2 1 0.8 y3 y1
0
5
10
15
20
25
30
图4 变换后散点图
练习：对1991年人均消费数据练习boxcox变换与正态分布检验
2. 其他变换公式标准化：设有数据x=(x1,x2,…,xn)
xi x yi , si si
1 n 1
2 ( x x ) i1 i n
例3. 2007年安徽省各地市工业企业效益指标如下表所示，请利用模糊C 均值聚类方法分为三类。
表3. 安徽工业企业数据
地区合肥市淮北市亳州市宿州市蚌埠市阜阳市淮南市滁州市六安市马鞍山巢湖市芜湖市宣城市铜陵市池州市安庆市黄山市工业总产值 1099.82 239.27 116.23 109.06 218.38 192.03 300.09 248.43 136.24 687.38 172.28 674.33 160.92 513.95 28.01 363.26 32.74 工业增加值 356.03 112.42 44.71 40.64 82.22 66.00 141.61 87.17 57.88 260.28 52.75 166.80 40.79 151.69 11.26 76.71 8.80 实收资本 191.24 79.80 14.41 14.18 58.42 33.02 120.09 47.61 17.81 180.80 36.31 100.15 22.72 63.52 8.21 57.50 9.22 业务收入 1020.77 266.74 65.81 112.34 202.28 183.78 310.51 230.67 128.50 761.63 166.52 648.34 151.54 651.15 25.21 372.97 31.41 业务成本 823.45 202.25 49.17 97.32 150.35 133.81 239.83 185.71 94.26 653.17 114.58 566.83 126.44 571.00 19.14 327.61 25.67 利润总额 43.72 4.07 3.34 -1.10 12.39 18.04 19.36 16.26 10.15 35.29 12.78 36.52 9.89 27.90 3.68 15.90 2.22
vi (uik )m xk / (uik )m (i 1,2,, c),(1 m)
k 1
n
n
其中 u 1/ ik
d
j 1
2
k 1
ik
/ d jk
2 m 1
d ik xk vi
在Matlab中(m=2)，我们只要直接调用如下程序即可：
[center,U,fcn] = fcm(data,cluster_n)
此时， center 的每一行就是每一类最终的中心坐标，由效益型指标可知：第一行表示效益最好的一类，第三行表示效益最差的一类，第二行则介于两者之间。
U=
0.8082 0.1154 0.0764 0.0041 0.9479 0.0480 0.0022 0.0248 0.9730 0.0003 0.0047 0.9950 0.0122 0.5827 0.4051 0.0103 0.3144 0.6753 0.0071 0.9579 0.0351 0.0080 0.8523 0.1396 0.0010 0.0161 0.9829
( x 1) / y log( x)
0 0
(x>0)
其中x为原始数据，y为变换后的数据.
在MATLAB中，上述变换的命令如下： [t,l]=boxcox(x) 其中 x是原始数据(列向量)，t是变换以后的数据，l 是变换公式中参数的数值例1. 1949—1991淮河流域成灾面积说明如何利用上述的变换使得数据从不具备正态分布到符合正态分布.
[h,p]=jbtest(x1) [y,t]=boxcox(x1'); [h,p]=jbtest(y)
表2. 正态检验数Байду номын сангаас类型原始数据

e商务文档

多元统计分析建模

相关文档推荐：