当前位置：文档之家› (含答案)机器学习第一阶段练习题

(含答案)机器学习第一阶段练习题

冷启动
在新用户对少的物品产生行为后，不能立即对他进行个性化推荐，因为用户相似度是离线计算的新物品上线后一段时间，一旦有用户对物品产生行为，就可以将新物品推荐给其他用户
新用户只要对一个物品产生行为，就能推荐相关物品给他，但无法在不离线更新物品相似度表的情况下将新物品推荐给用户
推荐理很难提供由
1. 请写出通过条件概率公式和全概率公式推出贝叶斯公式的过程
分析：条件概率：
P( A | B )
P( AB ) ，P( B | A )
P( AB )
P( B )
P( A )
全概率： P( A )
P( A | Bi ) P( Bi )
i
贝叶斯公式： P( Bi | A )
P( A| Bi )P( Bi )
P( A | Bj )P( B j )
j
2. 请写出正态分布的概率密度函数、期望、以及方差
分析：概率密度函数： f ( x )
( x μ)2
1 e 2σ2 ,σ 0 ；期望： E( x ) μ；方差： D ( x ) σ2 2πσ
三、简答题
1. 求函数 f ( x ) x x ,x R 的最小值
分析：令 t
C. 梯度下降法比牛顿法收敛速度快
D. 拟牛顿法不需要计算 Hesse 矩阵分析：牛顿法需要二阶求导，梯度下降法只需一阶，因此牛顿法比梯度下降法更快收敛 4. 一般， k-NN 最近邻方法在（ B）的情况下效果较好
A. 样本较多但典型性不好 B. 样本较少但典型性好
C. 样本呈团状分布
D. 样本呈链状分布
σX σY
q( x )
4. 若要对以下图案进行聚类分析需要采用哪种聚类方法，简述理由和该方法步骤
分析：该图案为非凸状的，因此不能使用基于距离的聚类算法（
k-means、k-medoids 等），
可选择密度聚类（ DBSCAN等）、网格聚类（ STING）等非距离的方法。
5. 简述 UserCF 和 ItemCF 算法的相同点与不同点
可以根据用户历史行为归纳推荐理由
分析：项目 UserCF
ItemCF
性能
适用于用户较少的场合，如果用户过多，计算用户相似度矩阵的代价交大
适用于物品数明显小于用户数的场合，如果物品很多，计算物品相似度矩阵的代价交大
领域
实效性要求高，用户个性化兴趣要求不高
实时性用户有新行为，不一定需要推荐结果立即变化
长尾物品丰富，用户个性化需求强烈用户有新行为，一定会导致推荐结果的实时变化
一、选择题
机器学习第一阶段练习题
1. 以下三阶泰勒展开式错误的一项是（ B）
A. ex 1 x 1 x2 1 x3 2! 3!
B. ln( 1 x ) x 1 x2 1 x3 23
C. sin x x 1 x3 3!
1
D.
1 x x2 x3
1- x
分析： ln( 1 x ) x - 1 x 2 1 x3 23
x x , 两边取对数： lnt
1 x ln x, 两边对 t 求导： * t'
ln x
t
1
令 t ’ =0： lnx 1 0,那么： x e 1，则 t e e 即为 f(x) 最小值。
1 x* ,
x
2. 欠拟合和过拟合的原因分别有哪些？如何避免？
分析：
欠拟合的原因：模型复杂度过低，不能很好的拟合所有的数据，训练误差大；
n
| xi
i1
n
yi | ；欧氏距离： d( x, y ) ( | xi
i1
1
yi |p ) p ；
Jaccard 系数： J ( A ,B ) Nhomakorabea|A
B|
；余弦相似度：
cosθ
aT b
；
|A B|
| a| |b|
皮尔森系数： ρXY
COV ( X ,Y )
p( x )
；相对熵（ K-L 距离）： D( p || q ) E p( x ) log
避免欠拟合：增加模型复杂度，如采用高阶模型（预测）或者引入更多特征（分类）等。
过拟合的原因：模型复杂度过高，训练数据过少，训练误差小，测试误差大；
避免过拟合：降低模型复杂度，如加上正则惩罚项，如
L1， L2 ，增加训练数据等。
3. 列举聚类算法有哪些相似性度量准则及公式（至少四个）
分析：曼哈顿距离： d( x, y )
分析： k 近邻算法对较多且典型不好的，团状，链状的样本不具有太大的优势
5. 机器学习中 L1 正则化和 L2 正则化的区别是？（ A ）
A. 使用 L1 可以得到稀疏的权值，使用 L2 可以得到平滑的权值 B. 使用 L1 可以得到平滑的权值，使用 L2 可以得到平滑的权值
C 使用 L1 可以得到平滑的权值，使用 L2 可以得到稀疏的权值
D.使用 L1 可以得到稀疏的权值，使用 L2 可以得到稀疏的权值
分析： L1 正则化偏向于稀疏，它会自动进行特征选择，去掉一些没用的特征，也就是将这些特征对应的权重置为 0。L2 主要功能是为了防止过拟合，当要求参数越小时，说明模型越简单，而模型越简单则，越趋向于平滑，从而防止过拟合。
二、公式推理题
2. 以下不属于凸函数一项的是（ D ）
A. y=-log x
B. y=x log x
C. y=||x|| p
分析： a 应该限定取值范围： a≥ 1 或 a≤0
D. y=e ax
3. 以下说法错误的一项是（ C）
A. 负梯度方向是使函数值下降最快的方向
B. 当目标函数是凸函数时，梯度下降法的解是全局最优解

e商务文档

(含答案)机器学习第一阶段练习题

相关文档推荐：