当前位置：文档之家› 厦门大学机器学习考试题

厦门大学机器学习考试题

P Y 1 x, w1, w2
g
w1x1
w2
x2
1
exp
1
( w1 x1
w2
x2
)
为了简化，不采用偏差w0,训练数据可以被完全分开（训练误差为0，如图1(b)所示的L1）。
o
o
o ooo
o o
L3
o
o
o ooo
L4
o o
L2
+ +
+ ++
+
+ +
+ ++
+
L1
图1(a) 二维训练数据
图1(b) 可能的决策面：L1,L2,L3,L4
yi ))
，
fH arg min ( f ), fz arg min ( f ), 请问：
f H
f H
[1] (2 分) ( fz ) ( fH ) 随着 N 增大而增大吗为什么
[2] (3 分) ( fz ) ( fH ) 随着 H 增大而增大吗为什么
2. (5 分) 比较感知机、逻辑斯蒂回归模型、AdaBoost 和 SVM 的损失函数。
[1]
N
（8分）考虑一个正则化的方法，即最大化 log P
i 1
yi xi , w1, w2
C 2
w22
,注意只
有被惩罚。则当C 很大时，如图1(b)所示的4 个决策边界中，哪条线可能是由该正则
方法得到的L2、L3 和L4 可以通过正则得到吗简要说明理由。
[2] （7分）如果我们将正则项给出L1 范式，即最大化
第八题 AdaBoost （15 分）考虑如下图 2 所示的训练样本，其中’X’和’O’分别表示正样本和负样本。采用
AdaBoost 算法对上述样本进行分类。在 Boosting 的每次迭代中，选择加权错误率最小的弱分类器。假设采用的弱分类器为平行两个坐标轴的线性分类器。
6
-1
5.5
+1
5
4.5
第二题统计学习方法的三要素（10 分）
1.
(5 分) H
是一个函数空间，
p(x, y) 是 X
Y
上一个概率测度， D {
xi , yi
}n i 1
是
X
Y
的一个子集（采样）， ( f ) L(x, y, f (x, y)dp ， ( f ) 1
X Y
n
n i 1
L(
xi
,
yi ,
f
( xi ,
第三题产生式模型和判别式模型（10 分） [1] （5 分）解释产生式模型和判别式模型，并分析二者的不同点；
[2] 列出三种判别式模型（3 分）和两种产生式模型（2 分）
第四题 EM and Naive Bayes （15 分） [1] （5 分）概述 EM 算法的用途及其主要思想； [2] （10 分）EM 算法可以用到朴素贝叶斯法的非监督学习，写出其算法。
第五题 HMM （10 分）
考虑盒子和球模型
，状态集合
，观测集合
，
0.5 0.2 0.3
0.5 0.5
A 0.3 0.5 0.2 ， B 0.4 0.6 ，
0.2 0.3 0.5
0.7 0.3
设 T=3，O=(红、白、红)，试用前向算法计算
.
第六题 SVM（15 分）
考虑利用线性支持向量机对如下两类可分数据进行分类： +1：(1,1), (2,2), (2,0) -1：(0,0), (1,0), (0,1)
4
3.5
3
2.5
2
1.5
1
0.5
0
0
1
23456图2 训练数据
[1] （4 分）在图 2 中标出第一次迭代选择的弱分类器（L1），并给出决策面的‘+’ 和‘-’面。
[2] （4 分）在图 2 中用圆圈标出在第一次迭代后权重最大的样本，其权重是多少 [3] （4 分）第一次迭代后权重最大的样本在经过第二次迭代后权重变为多少 [4] （3 分）强分类器为弱分类器的加权组合。则在这些点中，存在被经过第二次迭代后的强分类器错分的样本吗给出简短理由。
第一题判断题（10 分，每小题 1 分）
[1] 逻辑斯蒂回归模型可以用来做分类，但是 SVM 不能用来做回归。（） [2] 训练数据较少时更容易发生过拟合。（） [3] 如果回归函数 A 比 B 简单，则 A 一定会比 B 在测试集上表现更好。（） [4] 在核回归中，最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。（） [5] 在 AdaBoost 算法中，所有被错分的样本的权重更新比例相同。（） [6] Boosting 的一个优点是不会过拟合。（） [7] 梯度下降有时会陷于局部极小值，但 EM 算法不会。（） [8] SVM 对噪声（如来自其他分布的噪声样本）鲁棒。（） [9] 经验风险最小化在一定条件下与极大似然估计是等价的。（） [10] 在回归分析中，最佳子集选择可以做特征选择；Lasso 模型也可以实现特征选择。（）
N log P yi xi , w1, w2
i 1
C 2
w1 w2
,则随着 C 增大，下面哪种情形可能出现（单选）
注：简要说明理由
(A) 将变成 0，然后也将变成 0。 (B) 将变成 0，然后也将变成 0。
(C) 小为 0。
和将同时变成 0。
(D)两个权重都不会变成 0，只是随着 C 的增大而减
[1] （4分）在图中做出这6个训练点，构造具有最优超平面和最优间隔的权重向量； [2] （3分）哪些是支撑向量
[3] （8分）通过寻找拉格朗日乘子i 来构造在对偶空间的解，并将它与[1]中的结果比较。
第七题 Logistic 回归模型（15 分）
如图1(a)所示，数据采用简化的线性logistic回归模型进行两类分类，即，
精心搜集整理，只为你的需要

e商务文档

厦门大学机器学习考试题

相关文档推荐：