当前位置:文档之家› 数据描述性分析

数据描述性分析

899.40 34.00 685.90 61.20
1142.70 30.80 448.50 334.20
503.10 21.80 332.30 188.50
405.90 11.30 236.40 5.80
450.60 15.70 224.60 20.10
529.50 73.70 195.90 308.80
《数据分析》实验报告
实验名称:数据描述性分析使用软件名称:Matlab




1.熟练掌握Matlab软件进行距离判别与Bayes判别的方法与步骤
2.掌握判别分析的回代误判率与交叉误判率的编程
3.掌握Bayes判别的平均误判率的计算以及灵敏度分析




.
根据下面的数据,解决以下问题:
①判别两类总体的协方差矩阵是否相等,然后用马氏距离判别未知地区的类别,并计算回代误判率与交叉误判率;若两类总体服从正态分布,第一类与第二类的先验概率分别为13/27,14/27,利用Bayes判别未知地区的类别
141.30 43.30 58.20 82.30
250.40 11.20 154.40 15.20
337.40 23.60 114.10 3.80
254.00 8.60 80.90 1.10
28.90 1.80 32.50 0.10
49.40 3.50 30.30 2.10
348.80 10.10 134.00 3.90
fori=1:n2
B1=[A2(1:i-1,:);A2(i+1:n2,:)];
mb1=mean(B1);b1=mean(A1);
sb1=cov(B1);
l1=n2-1;l2=n1;p=4;
T1=((l1-1)*sb1+(l2-1)*s1)/(l1+l2-2);
Q1=(l1-1)*(log(det(T1))-log(det(sb1))-p+trace(inv(T1)*sb1));
Q02=(n2-1)*(log(det(s))-log(det(s2))-p+trace(inv(s)*s2));
P=1-chi2cdf([Q01,Q02],p*(p+1)/2)
%%%以上计算可得两总体的协方差距阵相等
m1=mean(A1);m2=mean(A2);
fori=1:4
d(i)=(X(i,:)-m1)*inv(s)*(X(i,:)-m1)'-(X(i,:)-m2)*inv(s)*(X(i,:)-m2)'%未知样本到两类总体的马氏距离之差函数
688.00 66.20 371.60 132.30
433.20 82.30 215.50 330.50
405.90 54.00 226.10 104.30
658.30 27.10 352.60 134.80
665.70 51.90 480.30 85.20
817.90 56.80 423.20 390.10
P11=1-chi2cdf(Q11,p*(p+1)/2);
P12=1-chi2cdf(Q12,p*(p+1)/2);
ifP11>0.05 && P12>0.05
d12(j)=(A1(j,:)-mb2)*inv(T2)*(A1(j,:)-mb2)'-(A1(j,:)-b2)*inv(T2)*(A1(j,:)-b2)';
mp=(m1-m2)*inv(s)*X'-0.5*m1*inv(s)*m1'+0.5*m2*inv(s)*m2'
p12=exp(-mp)%两个先验概率的比值
%%计算平均误判率
P1=13/27;
P2=14/27;
d0=log(P2/P1);
r=(m1-m2)*inv(s)*(m1-m2)';
pjwu=P1*normcdf((d0-r/2)/sqrt(r))+P2*(1-normcdf((d0+r/2)/sqrt(r)))
(2)如果先验概率有了变化,就会影响到最后判别的结果,由
其中,
对于题中给出的四个未知样本,我们计算出临界值:
表1先验概率的临界值
未知地区
X1
X2
X3
X4
P1/P2
0.5403
0.0930
0.0872
7.6816
若 ,则未知地区X1从第一类 第二类
若 ,则未知地区X2从第一类 第二类
若 ,则未知地区X3从第一类 第二类
439.90 39.40 292.30 101.20
769.90 50.90 605.00 41.00
];%已知样本
X=[431.30 47.20 210.60 14.40
1401.30 47.20 654.70 350.70
1331.60 57.00 693.80 20.40
279.90 15.10 118.50 5.10
6.00
1
43
2
141.30
43.30
58.20
82.30
1
405.90
54.00
226.10
104.30
2
250.40
11.20
154.40
15.20
1
658.30
27.10
352.60
134.80
2
337.40
23.60
114.10
3.80
1
665.70
51.90
480.30
85.20
2
254.00
8.60
80.90
1.10
1
817.90
56.80
423.20
390.10
2
28.90
1.80
32.50
0.10
1
439.90
39.40
292.30
101.20
2
49.40
3.50
30.30
2.10
1
769.90
50.90
605.00
41.00
2
348.80
10.10
];%未知样本
A2=A(1:14,:);%第二类数据
A1=A(15:26,:);%第一类数据
n1=12;n2=14;p=4;
s1=cov(A1);s2=cov(A2);
s=((n1-1)*s1+(n2-1)*s2)/(n1+n2-2);
Q01=(n1-1)*(log(det(s))-log(det(s1))-p+trace(inv(s)*s1));
134.00
3.90
x
431.30
47.20
210.60
14.40
2
899.40
34.00
685.90
61.20
x
1401.30
47.20
654.70
350.70
2
1142.70
30.80
448.50
334.20
x
1331.60
57.00
693.80
20.40
1
503.10
21.80
332.30
188.50
end
%计算第一类误判为第二类的个数a1
a1=0;
fori=1:n1
d1=(A1(i,:)-m1)*inv(s)*(A1(i,:)-m1)'-(A1(i,:)-m2)*inv(s)*(A1(i,:)-m2)';
ifd1>0
a1=a1+1;
elsea1=a1;
end
end
%计算第二类误判为第一类的个数a2
2
86.70
1.50
60.80
20.60
1
450.60
15.70
224.60
20.10
2
95.50
3.50
88.40
40.10
1
529.50
73.70
195.90
308.80
2
191.30
12.30
96.30
1.70
1
688.00
66.20
371.60
132.30
2
307.60
26.10
216.20
else
d11(i)=mahal(A2(i,:),B1)-mahal(A2(i,:),A1);
end
end
a12=0;
forj=1:n1
B2=[A1(1:j-1,:);A1(j+1:n1,:)];
mb2=mean(B2);b2=mean(A2);
sb2=cov(B2);
l11=n1-1;l12=n2;p=4;
T2=((l11-1)*sb2+(l12-1)*s2)/(l11+l12-2);
Q11=(l11-1)*(log(det(T2))-log(det(sb2))-p+trace(inv(T2)*sb2));
Q12=(l12-1)*(log(det(T2))-log(det(s2))-p+trace(inv(T2)*s2));
②先验概率=多少时,距离判别与Bayes判别相同,调整先验概率对判别结果的影响是什么?
③对第一类与第二类的先验概率分别为13/27,14/27,计算误判概率
表6.4.1各地区农、林、牧、渔各业数据
类别




类别




2
89.70
9.50
105.20
相关主题