未来若干次作业需要用到的数据文件:
●FAMALE.TXT 50个女生的身高、体重数据
●MALE.TXT 50个男生的身高、体重数据
----- 训练样本集
●test1.txt 35个同学的身高、体重、性别数据(15个女生、20个男生)
●test2.txt 300个同学的身高、体重、性别数据(50个女生、250个男生)
----- 测试样本集
作业. 用身高和/或体重数据进行性别分类的实验(一)
基本要求:
用FAMALE.TXT和MALE.TXT的数据作为训练样本集,建立Bayes分类器,用测试样本数据对该分类器进行测试。
调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。
具体做法:
1.应用单个特征进行实验:以(a)身高或者(b)体重数据作为特征,在正态分布假设下利用最大似然法或者贝叶斯估计法估计分布密度参数,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到测试样本,考察测试错误情况。
在分类器设计时可以考察采用不同先验概率(如0.5对
0.5, 0.75对0.25, 0.9对0.1等)进行实验,考察对决策规则和错误率的影响。
2.应用两个特征进行实验:同时采用身高和体重数据作为特征,分别假设二者相关或不相关,在正态分布假设下估计概率密度,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。
比较相关假设和不相关假设下结果的差异。
在分类器设计时可以考察采用不同先验概率(如0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1等)进行
实验,考察对决策和错误率的影响。
3.自行给出一个决策表,采用最小风险的Bayes决策重复上面的某个或全部实验。
作业要求:
1、报告内容:
i.姓名、学号、班级、题目
ii.原理简述及程序框图(手算者也需要画)
iii.实验结果及分析总结
iv.体会。