模式识别大作业
一.K均值聚类(必做,40分)
1.K均值聚类的基本思想以及K均值聚类过程的流程图;
2.利用K均值聚类对Iris数据进行分类,已知类别总数为3。
给出具体的C语言代码,
并加注释。
例如,对于每一个子函数,标注其主要作用,及其所用参数的意义,对程序中定义的一些主要变量,标注其意义;
3.给出函数调用关系图,并分析算法的时间复杂度;
4.给出程序运行结果,包括分类结果(只要给出相对应的数据的编号即可)以及循环
迭代的次数;
5.分析K均值聚类的优缺点。
二.贝叶斯分类(必做,40分)
1.什么是贝叶斯分类器,其分类的基本思想是什么;
2.两类情况下,贝叶斯分类器的判别函数是什么,如何计算得到其判别函数;
3.在Matlab下,利用mvnrnd()函数随机生成60个二维样本,分别属于两个类别(一
类30个样本点),将这些样本描绘在二维坐标系下,注意特征值取值控制在(-5,5)范围以内;
4.用样本的第一个特征作为分类依据将这60个样本进行分类,统计正确分类的百分
比,并在二维坐标系下将正确分类的样本点与错误分类的样本点用不同标志(正确分类的样本点用“O”,错误分类的样本点用“X”)画出来;
5.用样本的第二个特征作为分类依据将这60个样本再进行分类,统计正确分类的百分
比,并在二维坐标系下将正确分类的样本点与错误分类的样本点用不同标志画出来;
6.用样本的两个特征作为分类依据将这60个样本进行分类,统计正确分类的百分比,
并在二维坐标系下将正确分类的样本点与错误分类的样本点用不同标志画出来;
7.分析上述实验的结果。
8.60个随即样本是如何产生的的;给出上述三种情况下的两类均值、方差、协方差矩
阵以及判别函数;
三.特征选择(选作,15分)
1.经过K均值聚类后,Iris数据被分作3类。
从这三类中各选择10个样本点;
2.通过特征选择将选出的30个样本点从4维降低为3维,并将它们在三维的坐标系中
画出(用Excell);
3.在三维的特征空间下,利用这30个样本点设计贝叶斯分类器,然后对这30个样本
点利用贝叶斯分类器进行判别分类,给出分类的正确率,分析实验结果,并说明特征选择的依据;。