当前位置：文档之家› 中科院研究生院机器学习课程习题

中科院研究生院机器学习课程习题

1、考虑回归一个正则化回归问题。

在下图中给出了惩罚函数为二次正则函数，当正则化参数C 取不同值时，在训练集和测试集上的log 似然（mean log-probability ）。

（10分）
（1）说法“随着C 的增加，图2中训练集上的log 似然永远不会增加”是否正确，并说明理由。

（2）解释当C 取较大值时，图2中测试集上的log 似然下降的原因。

2、考虑线性回归模型：()201~, y N w w x σ+，训练数据如下图所示。

（10分）（1）用极大似然估计参数，并在图（a ）中画出模型。

（3分）
（2）用正则化的极大似然估计参数，即在log 似然目标函数中加入正则惩罚函数()212
C w -
，并在图（b ）中画出当参数C 取很大值时的模型。

（3分）
（3）在正则化后，高斯分布的方差2σ是变大了、变小了还是不变？（4分）
图(a) 图(b)
2. 考虑二维输入空间点()12,T x x =x 上的回归问题，其中[]1,1,1,2j x j ∈-=在单位正方形内。

训练样本和测试样本在单位正方形中均匀分布，输出模型为
()352121212~10753, 1y N x x x x x x -++-，我们用1-10阶多项式特征，采用线性回归模型来
学习x 与y 之间的关系（高阶特征模型包含所有低阶特征），损失函数取平方误差损失。

(1) 现在20N =个样本上，训练1阶、2阶、8阶和10阶特征的模型，然后在一个大规模的独立的测试集上测试，则在下3列中选择合适的模型（可能有多个选项），并解释第3列中你选择的模型为什么测试误差小。

（10分）
(2) 现在610N =个样本上，训练1阶、2阶、8阶和10阶特征的模型，然后在一个大规模的独
立的测试集上测试，则在下3列中选择合适的模型（可能有多个选项），并解释第3列中你选择的模型为什么测试误差小。

（10分）
(3)
多项式回归模型的预测误差与训练样本的数目有关。

(T)
3、我们对下图(a)所示的数据采用简化的线性logistic 回归模型进行两类分类，即
()()()
121122112211|,,1exp Y w w g w x w x w x w x ==+=
+--x 。

（为了简化，我们不采用偏差0w 。

）训练数据可以被完全分开（训练误差为0，如图1(b)所示的L 1）。

(1) 考虑一个正则化的方法，即最大化
()21221log
|,,2
N i i i C y w w w =-∑x 。

注意只有2w 被惩罚。

则当C 很大时，如图1(b)所示的4个决策边界中， L 2、L 3和L 4 可以
(a) 2维训练数据。

(b) 数据点可以被L 1（实线）完全分开。

L 2、L 3和L 4是另外几个可能的决策边界。

通过正则2w 得到吗？
答：L2不可以。

当正则w2时，决策边界对x2的依赖越少，因此决策边界变得更垂直。

而图中的L2看起来不正则的结果更水平，因此不可能为惩罚w2得到；
L3可以。

w2^2相对w1^2更小（表现为斜率更大），虽然该决策对训练数据的log 概率变小（有被错分的样本）；
L4不可以。

当C 足够大时，我们会得到完成垂直的决策边界（线 x 1 = 0 或x 2轴）。

L4跑到了x 2轴的另一边使得其结果比其对边的结果更差。

当中等程度的正则时，我们会得到最佳结果（w2较小）。

图中的L4不是最佳结果因此不可能为惩罚w2得到；
(2)如果正则项为L1范式，即最大化
()()12121log
|,,2
N i i i C y w w w w =-+∑x 。

则随着C 增大，下面哪种情形可能出现（单选）？
(a) 1w 将变成0，然后2w 也将变成0。

(T)
(b) 1w 和2w 将同时变成0。

(d) 两个权重都不会变成0，只是随着C 的增大而减小0。

该数据可以被完全正确分类（训练误差为0），且仅看x 2的值（w 1 = 0）就可以得到。

虽然最佳分类器w 1可能非0，但随着正则量增大w1会很快接近0。

L1正则会使得w 1完全为0。

随着C 的增大，最终w 2 会变成0。

4、LDA
现有100个标注好的训练样本（共有两个类），我们训练以下模型：
GaussI : 每类一个高斯分布，两个类的方差矩阵均设为单位矩阵I ；
GaussX : 每类一个高斯分布，但协方差矩阵不做任何约束；
LinLog : 线性logistic 回归模型（特征的线性组合）；
QuadLog : 二次logistic 回归模型（所以特征的一次和二次组合）。

训练后，我们用训练集上的平均log 似然作为模型性能的度量，并用等式或不等式表示模型间的性能关系，如“model 1 <= model 2” 或 “model 1 = model 2”
GaussI <= LinLog (both have logistic postiriors, and LinLog is the logistic model maximizing the average log probabilities)
GaussX <= QuadLog (both have logistic postiriors with quadratic features, and QuadLog is the model of this class maximizing the average log probabilities)
LinLog <= QuadLog (logistic regression models with linear features are a subclass of logistic regression models with quadratic functions— the maximum from the superclass is at least as high as the maximum from the subclass)
GaussI <= QuadLog (follows from above inequalities)
(GaussX will have higher average log joint probabilities of examples and labels, then will GaussI. But have higher average log joint probabilities does not necessarily translate to higher average log conditional probabilities)
一、交叉验证
1、4. 给定如下数据集，其中X为输入变量，Y为输出变量。

假设考虑采用k-NN算法
对x对应的y进行预测，其中距离度量采用不加权的欧氏距离。

（12分）
（1）算法1-NN的训练误差的是多少？（用分类错误的样本数目表示即可，下同）
（2）算法3-NN的训练误差是多少？
（3）算法1-NN的LOOCV（留一交叉验证）估计误差是多少？
（4）算法3-NN的LOOCV（留一交叉验证）估计误差是多少？。

e商务文档

中科院研究生院机器学习课程习题

相关文档推荐：