当前位置:文档之家› 模式识别作业--两类贝叶斯分类

模式识别作业--两类贝叶斯分类

深圳大学研究生课程:模式识别理论与方法课程作业实验报告实验名称:Bayes Classifier实验编号:proj02-01姓名:汪长泉学号:2100130303规定提交日期:2010年10月20日实际提交日期:2010年10月20日摘要:在深入掌握多维高斯分布性质,贝叶斯分类的基础上,用计算机编程实现一个分类两类模式样本的贝叶斯分类器。

用matlab编程,并分析了实验结果,得出贝叶斯分类的一般结论。

1. 贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

1.1 两类情况两类情况是多类情况的基础,多类情况往往是用多个两类情况解决的。

① 用i ω,i =1, 2表示样本x (一般用列向量表示)所属的类别。

② 假设先验概率()P ω1,()P ω2已知。

(这个假设是合理的,因为如果先验概率未知,可以从训练特征向量中估算出来,即如果N 是训练样本总数,其中有,N N 12个样本分别属于2,1ωω,则相应的先验概率:()/P N N ω≈11,2()/P N N ω≈2)③ 假设(类)条件概率密度函数(|),i p ωx i =1,2已知,用来描述每一类中特征向量的分布情况。

如果类条件概率密度函数未知,则可以从可用的训练数据中估计出来。

1.2贝叶斯判别方法贝叶斯分类规则描述为:如果2(|)(|)P ωP ω>1x x ,则x ∈1ω如果2(|)(|)P ωP ω<1x x ,则x ∈2ω (2-1-1) 贝叶斯分类规则就是看x ∈ω1的可能性大,还是x ∈2ω的可能性大。

(|)i P ωx ,i =1,2解释为当样本x 出现时,后验概率(|)P ω1x 和(|)P ω2x 的大小从而判别为属于1ω或属于2ω类。

1.3三种概率的关系――――贝叶斯公式()()(|)=()i i i p |P P p ωωωx x x (2-1-3)其中,()p x 是x 的概率密度函数(全概率密度),它等于所有可能的类概率密度函数乘以相应的先验概率之和。

()(|)()i i i p p P ωω==∑21x x因为()p x 对于所有的类都是一样的,可视为常数因子,它并不影响结果,不考虑。

故可采用下面的写法比较后验概率的大小:1122(|)()(|)()p P p P ωωωω><x x则有 12x ωω⎧∈⎨⎩ (2-1-4)1.4多类的情况① ,,...,12m ωωω表示样本x 所属的m 个类别。

② 先验概率()i P ω, i =1,2,…, m ③ 假设类条件概率密度函数(|)i p ωx ,i =1,2,…,m 已知,计算后验概率后,若:(|)i P ωx >(|)j P ωx ∀j ≠i则x ∈i ω类。

这样的决策可使分类错误率最小。

因此叫做基于最小错误率的贝叶斯决策。

R 1和R 3的分界点是11(/)()p P ωωx =33(/)()p P ωωx 的交点。

R 2和R 3的分界点是22(/)()p P ωωx =33(/)()p P ωωx 的交点。

图2-1-1图2-1-22.实验过程(a)每个模式类各生成50个随机样本,并在二维图上画出这些样本。

m1 =Columns 1 through 50.5426 -0.0190 1.3513 -1.2277 -0.92662.98403.4340 1.9042 3.9946 3.1342……Columns 46 through 501.6222 1.1615 1.3431 -0.2037 -0.15631.1755 3.3840 0.5198 3.6479 3.4207m2 =Columns 1 through 92.9272 2.0057 2.2526 2.96923.98842.4034 1.1650 4.2931 0.7725 2.0623……Columns 46 through 504.4548 2.4898 2.9933 2.4745 3.71772.2946 2.4581 0.7505 0.9102 0.4889-3-2-1012345-3-2-10123456xy2个模式的样本分布图1 两个模式的样本二维分布图(b )用模式的第一个特征分量作为分类特征,对(a )中的100个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错误的样本。

图2 用模式的第一个特征分量作为分类特征-3-2-1012345xy黑色代表正确分类,红色代表错误分类统计得正确分类j=79,正确分类百分比为79%。

(c )用模式的第二个特征分量作为分类特征,对(a )中的100个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错误的样本。

-3-2-10123456xy黑色代表正确分类,红色代表错误分类图3 用模式的第二个特征分量作为分类特征统计得正确分类j=75,正确分类百分比为75%。

(d )用模式的两个特征分量作为分类特征,对(a )中的100个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错误的样本。

-3-2-1012345-3-2-10123456xy黑色代表正确分类,红色代表错误分类图3 用模式的两个特征分量作为分类特征统计得正确分类j=88,正确分类百分比为88% (e )对上述实验结果进行分析说明由上述实验看见,选用两个特征分量作为分类特征,得到的正确率比用一个特征分量作为分类特征的正确率要高。

因此在运用贝叶斯分类器进行分类时,尽可能的选用多个分类特征进行同时判别。

2. 附录(a )m1=mvnrnd([1 3],[1.5 0;0 1.5],50),m2=mvnrnd([3 1],[1 0.5;0.5 2],50);%产生样本 m1=m1',m2=m2';plot(m1([1],:),m1([2],:),'.y',m2([1],:),m2([2],:),'.m'); xlabel('x'),ylabel('y'); title('2个模式的样本分布');(b)j=0,k=0;for i=1:1:50p1=((3*pi)^(-1/2))*exp((-1/2)*(((m1(1,i)-1)^(2))/1.5));%模式类1的第一维特征分量概率分布p2=((2*pi)^(-1/2))*exp((-1/2)*(((m1(1,i)-3)^(2))/1));%模式类2的第一维特征分量概率分布if p1>p2plot(m1(1,i),m1(2,i),'.k'),hold on;j=j+1;elseplot(m1(1,i),m1(2,i),'.r'),hold on;k=k+1;endendfor i=1:1:50p1=((3*pi)^(-1/2))*exp((-1/2)*(((m2(1,i)-1)^(2))/1.5));%模式类1的第一维特征分量概率分布p2=((2*pi)^(-1/2))*exp((-1/2)*(((m2(1,i)-3)^(2))/1));%模式类2的第一维特征分量概率分布if p1<p2plot(m2(1,i),m2(2,i),'.k'),hold on;j=j+1;elseplot(m2(1,i),m2(2,i),'.r'),hold on;k=k+1;endendxlabel('x'),ylabel('y');title('黑色代表正确分类,红色代表错误分类');disp(j/100);(c)j=0,k=0;for i=1:1:50p1=((2*pi)^(-1/2))*exp((-1/2)*(((m1(2,i)-3)^(2))/1));%模式类1的第二维特征分量概率分布p2=((4*pi)^(-1/2))*exp((-1/2)*(((m1(2,i)-1)^(2))/2));%模式类2的第二维特征分量概率分布if p1>p2plot(m1(1,i),m1(2,i),'.k'),hold on;j=j+1; %计算正确的分类样本总数elseplot(m1(1,i),m1(2,i),'.r'),hold on;k=k+1; %计算错误的分类样本总数endendfor i=1:1:50p1=((2*pi)^(-1/2))*exp((-1/2)*(((m2(2,i)-3)^(2))/1));%模式类1的第二维特征分量概率分布p2=((4*pi)^(-1/2))*exp((-1/2)*(((m2(2,i)-1)^(2))/2));%模式类2的第二维特征分量概率分布if p1<p2plot(m2(1,i),m2(2,i),'.k'),hold on;j=j+1;elseplot(m2(1,i),m2(2,i),'.r'),hold on;k=k+1;endendxlabel('x'),ylabel('y');title('黑色代表正确分类,红色代表错误分类');(d)j=0,k=0;m1=(m1)';m2=(m2)';for i=1:1:50p1=generating2(m1([i],:),[1 3],[1.5 0;0 1]);%模式类1的第二维特征分量概率分布p2=generating2(m1([i],:),[3 1],[1 0.5;0.5 2]);%模式类2的第二维特征分量概率分布if p1>p2plot(m1(i,1),m1(i,2),'.k'),hold on;j=j+1; %计算正确的分类样本总数elseplot(m1(i,1),m1(i,2),'.r'),hold on;k=k+1; %计算错误的分类样本总数end深圳大学研究生课程“模式识别理论与方法”实验指导书(2nd Endition 裴继红编)endfor i=1:1:50p1=generating2(m2([i],:),[1 3],[1.5 0;0 1]);%模式类1的第二维特征分量概率分布, generating2的定义参见实验一p2=generating2(m2([i],:),[3 1],[1 0.5;0.5 2]);%模式类2的第二维特征分量概率分布if p1<p2plot(m2(i,1),m2(i,2),'.k'),hold on;j=j+1;elseplot(m2(i,1),m2(i,2),'.r'),hold on;k=k+1;endendxlabel('x'),ylabel('y');title('黑色代表正确分类,红色代表错误分类');11。

相关主题