中国科学院自动化研究所2014年招收攻读博士学位研究生入学统一考试试卷科目名称:模式识别考生须知:1. 本试卷满分为100分,全部考试时间总计180分钟。
2. 所有答案必须写在答题纸上,写在试题纸上或草稿纸上一律无效。
1. (16分) 关于统计学习与支持向量机,请回答如下问题:(1) 给出机器学习问题的形式化表示 (4分);(2) 解释学习机器的推广能力 (4分);(3) 从几何的角度阐述线性支持向量机的原理 (4分);(4) 基于两类支持向量机,设计一个c 类(c > 2)分类训练策略 (4分)。
2. (10分) (1) 请描述径向基函数网络的结构和功能 (4分);(2) 指出径向基函数网络的参数,分析在训练一个径向基函数网络时如何调节这些参数 (6分)。
3. (10分) (1) 简述Fisher 线性判别分析的原理 (4分);(2) 针对两类分类问题,试证明在正态等方差条件下,Fisher 线性判别等价于贝叶斯判别 (6分)。
4. (10分) 假设在某个局部地区细胞识别中正常 (1ω)和异常(2ω)两类的先验分别为1()0.85P ω=和2()0.15P ω=。
现有一待识别细胞,其观察值为x ,从类条件概率密度分布曲线上查得1(|)0.2=P x ω,2(|)0.4=P x ω,请对该细胞x 进行分类,并给出计算过程。
5. (10分) 现有七个位于二维空间的样本:1(1,0)=T x ,2(0,1)=T x ,3(0,1)=-T x ,4(0,0)=T x ,5(0,2)=T x ,6(0,2)=-T x ,7(2,0)=-T x ,其中上标T 表示向量的转置。
假定前三个样本属于第一类,后四个样本属于第二类,请画出最近邻法决策面。
6. (16分) 在一个模式识别问题中,有下列8个样本: 1(1,1)T =-x ,2(1,1)T =--x ,3(0,1)T =x ,4(0,1)T =-x ,5(2,1)T =x ,6(2,1)T =-x ,7(3,1)T =x ,8(3,1)T =-x ,其中上标T 表示向量的转置。
请回答如下问题:(1) 如果不知道这8个样本的类别标签,请采用K-L 变换,计算其特征值和特征向量(10分);(2) 对上述8个样本,假设前4个样本属于第一类,后4个样本属于第二类,请给出一种特征选择方法,并写出相应的计算过程 (6分)。
7. (16分) (1) 给定m 维空间中的n 个样本,请给出C -均值聚类算法的计算步骤(包含算法输入和输出) (8分);(2) 针对C -均值聚类算法,指出影响聚类结果的因素,并给出相应的改进措施 (8分)。
8. (12分) 某单位有n 位职员,现从每位职员采集到m (m >10)张正面人脸图像(可能因姿态、表情、光照条件的略微不同而不同)。
每张人脸图像为200(高度) ⨯160(宽度)像素大小的灰度图像。
现在拟设计一个人脸识别系统,请回答如下问题:(1) 描述拟采用的特征提取方法及计算步骤 (4分);(2) 描述拟采用的分类器构造方法及计算步骤 (4分);(3) 请从特征提取和分类器构造两方面对你所采用的方法进行评价(即解释采用它们的原因) (4分)。
科目名称:模式识别 第1页 共1页中国科学院自动化研究所2015年招收攻读博士学位研究生入学统一考试试卷科目名称:模式识别考生须知:1. 本试卷满分为100分,全部考试时间总计180分钟。
2. 所有答案必须写在答题纸上,写在试题纸上或草稿纸上一律无效。
1. (5分) 关于ROC 曲线。
(1)“ROC ”代表三个英文单词的首字母,请顺序写出这三个单词的全称 (3分);(2)针对两类分类问题,请描述“ROC ”曲线的绘制步骤 (2分)。
2. (15分) 关于线性分类器。
(1)请给出Fisher 线性判别分析的主要计算步骤和分类决策规则(10分);(2)请给出线性不可分情形下支持向量机学习模型 (5分)。
3. (8 分) 关于Boosting 方法。
假定有n 个m 维空间中的训练样本12{,,,}m n x x x R ,进一步假定这些样本属于两个不同的类别。
(1) 基于这些样本,请简述采用Boosting 方法学习一个两类分类器的步骤,并指出其中拟采用的弱分类器 (4分);(2) 基于两类Boosting 方法,请设计一个针对多类分类问题的分类器学习框架 (4分)。
4. (8分) 关于聚类。
(1) 请给出ISODATA 方法的主要计算步骤 (4分);(2)请指出ISODATA 方法和C 均值算法的不同点 (4分)。
5. (8分) 关于主成分分析。
(1)请简述主成分分析方法的原理 (4分);(2)采用核技巧,可以将主成分分析方法发展为核主成分分析方法,请结合核主成分分析方法解释核技巧的工作原理 (4分)。
6. (14分) 关于神经网络。
(1)针对多层前馈神经网络,请给出反向传播算法的工作原理和训练步骤 (10分);(2)请分析“在前馈神经网络中,隐含层数越多对分类预测可能产生的影响” (4分)。
(未完待续) 科目名称:模式识别 第1页 共2页7. (10分) 关于特征选择。
给定n 个m 维空间中的训练样本12{,,,}m n x x x R ⊂,且每个样本的类别标签是已知的。
请用迹比值判据4()()b w tr S J tr S =设计一个完整的特征选择算法,其中()tr ⋅表示矩阵求迹运算,b S 表示类间散度矩阵,w S 表示总类内散度矩阵。
8. (10分) 现有一个二维空间中的两类分类问题。
记两个类分别为1ω和2ω。
假定1ω和2ω出现的先验概率均相等,且1ω和2ω的类条件概率密度均为正态分布。
其中,1ω的类条件概率密度的均值为1[1,0]Tμ=-,协方差矩阵为110.50.51⎛⎫∑= ⎪⎝⎭;2ω的类条件概率密度的均值为2[1,0]T μ=,协方差矩阵为210.50.51-⎛⎫∑=⎪-⎝⎭,其中上标T 表示向量转置。
请写出负对数似然比决策规则。
9. (14分) 现有9个训练样本,分别属于三个不同的类别。
第一类的样本点集为{[1, 0]T , [2,0]T , [1, 1]T },第二类的样本点集为{[0, 1]T , [−1, 0]T , [−1, 1]T },第三类的样本点集为{[0,−1]T , [−1,−1]T , [0,−2]T },其中上标T 表示向量转置。
假定类先验概率均相等,请计算类间散度矩阵和总类内散度矩阵。
10. (8分) 关于非线性特征提取。
(1)请描述IsoMap (isometric feature mapping)方法的主要计算步骤 (3分);(2)现有一个房间,其四周墙壁均为白色,且室内光照明亮均匀。
在该房间的一张白色的桌子上平放着一把彩色茶壶,茶壶所有表面均绘有不同的花纹。
另外,室内有一个照相机可沿一个圆移动,该圆所在的平面与桌面平行。
茶壶的质心与该圆的圆心重叠。
在照相机运动的过程中,照相机的焦距等成像参数保持不变,但其拍摄方向始终对准茶壶,且能将茶壶定位于图像中央,并使整个茶壶大致占满整个图像。
假定照相机沿该圆均速运动一周一共连续拍摄到400张不同的图像。
现将IsoMap 方法应用于这些图像数据,并假定最终输出一个二维特征提取结果。
如果将这400个二维特征点在二维笛卡尔坐标系统中进行绘制,请分析可能呈现出的形状,并给出理由 (5分)。
科目名称:模式识别 第2页 共2页中国科学院自动化研究所2016年招收攻读博士学位研究生入学统一考试试卷科目名称:模式识别考生须知:1. 本试卷满分为100分,全部考试时间总计180分钟。
2. 所有答案必须写在答题纸上,写在试题纸上或草稿纸上一律无效。
1. (10分). 请写出如下十个在模式识别领域中的英文简写的全称(比如,PR 的全称为Pattern Recognition ):SVM 、KPCA 、MLP 、K-NN 、LDA 、SOM 、LLE 、ANN 、CNN 、RBF 。
2. (10分). 有四个二维空间中的样本,它们分别属于两个不同的类别,其中第一类的两个样本为(1,4) T 和(2,6) T ,第二类的两个样本为(1,2) T 和(2,2)T 。
这里,上标T 表示向量转置。
若采用规范化增广样本表示形式,并假设初始的权向量a =(0,1,0) T ,其中向量a 的第三维对应于样本的齐次坐标。
同时,假定梯度更新步长ρt 固定为1。
试利用感知器算法求解线性判别函数g (y )=a T y 的权向量a 。
(注:“规范化增广样本表示”是指对齐次坐标表示的样本进行规范化处理)。
3. (15分). 现有五个四维空间中的样本:x 1 = (1, 3, 2, 1)T 、x 2 = (2, 3, 1, 2)T 、x 3 = (2, 2, 1, 2)T 、x 4 = (5, 5, 1, 1)T 和x 5 = (5, 3, 2, 1)T 。
这里,上标T 表示向量转置。
请按最小距离准则对上述五个样本进行分级聚类,并画出聚类系统树图。
4. (15分). 设有n 个d 维空间的训练样本12,,...,n x x x ,它们分别属于两个不同的类别,其类别标签分别为12,,...,{1,1}n y y y ∈+−。
现有如下线性支持向量机学习模型:1,...,1,11max 2..0,0,1,2,...,n n nTi i j i j i j i i j n ii i i y y s t y C i nααααααα==−=≤≤=∑∑∑x x(1)请将上述模型扩展为核支持向量机学习模型 (6分);(2)写出核支持向量机分类决策函数 (4分);(3)给出两种不同的核函数,并描述一种基于训练数据的核函数参数选择方法 (5分)。
(未完待续) 科目名称:模式识别 第1页 共2页5. (12分). (1)设有一维窗函数()exp(||)u u ϕ=−,并假定有n 个一维空间中的样本12,,...,n x x x 。
现采用宽度为h n 的窗函数,请写出概率密度函数p (x )的Parzen 窗估计p n (x ) (8分);(2)给定一维空间三个样本点{-2,0,2},请写出概率密度函数p (x )的最近邻(1-NN )估计并画出概率密度函数曲线图(4分)。
6. (14分). (1)给出最小误差平方和聚类准则的目标函数(6分);(2)给出C 均值聚类算法的计算步骤,并指出至少两个能够影响C 均值聚类结果的因素(8分)。
7. (12分). (1)设有n 个d 维空间的样本12,,...,n x x x ,它们分别来自于c 个不同的类别。
假定要设计一个多层前向神经网络,将该网络训练之后可用于对新样本进行分类。