当前位置：文档之家› 机器学习测试题_深圳光环大数据培训

机器学习测试题_深圳光环大数据培训

gamma 值（图 1,2,3 从左向右，gamma 值分别为 g1、g2、g3）？
g1 > g2 > g3 g1 = g2 = g3 g1 < g2 < g3 g1 >= g2 >= g3 g1 <= g2 <= g3
答案: C
随着 gamma 的增大，存在对于测试集分类效果差而对训练分类效果好的情况，并且容易泛化误差出现过拟合，因此 C 选项正确。
光环大数据
Hale Waihona Puke 光环大数据--大数据培训&人工智能培训
领域具有多年经验的讲师，提高教学的整体质量与教学水准。讲师团及时掌握时
在构建一个基于决策树模型时，使用信息增益 information gain 作为决策树节点属性选择的标准，以下图片中哪一个属性具信息增益最大：
A. Outlook B. Humidity C. Windy D. Temperature 答案：A 信息增益是划分前样本数据集的不纯程度(熵)和划分后数据集的不纯程度(熵)的差值，计算各信息增益即可。
逻辑回归与多元回归分析有哪些不同？逻辑回归预测某事件发生的概率 B. 逻辑回归有较高的拟合效果 C. 逻辑回归回归系数的评估
光环大数据
D. 以上全选
光环大数据--大数据培训&人工智能培训
答案：D
逻辑回归是用于分类问题，我们能计算出一个事件/样本的概率；一般
17.解决线性不可分情况下的支持向量分类机的最优化模型问题时，以下可以保证结果模型线性可分的是
C=1 C=0 C 无限制
D.以上均不正确
答案: C
训练一个支持向量机，除去不支持的向量后仍能分类真的假的答案: A 只有支持向量会影响边界下列哪种算法可以用神经网络构建?
光环大数据
D. 以上都正确
答案：D
较大的 K 意味着更小的偏差（因为训练 folds 的大小接近整个 dataset）和更多的运行时间（极限情况是：留一交叉验证）。当选取 K 值的时候，我们需要考虑到 k-folds 准确度的方差。
一个回归模型存在多重共线问题。在不损失过多信息的情况下，你该怎么做：
A. 移除共线的两个变量 B. 移除共线的两个变量其中一个 C. 我们可以计算方差膨胀因子（variance inflation factor)来检查存在的多重共线性并采取相应的措施 D. 移除相关变量可能会导致信息的丢失，为了保留这些变量，我们可以使用岭回归(ridge)或 lasso 等回归方法对模型进行惩罚答案：B C D 为了检查多重共线性，我们可以创建相关系数矩阵来辨别和移除相关系数大于 75%的变量(阈值根据情况设定),除此之外，我们可以使用 VIF 方法来检查当前存在的共线变量。VIF<=4 表明没有多种共线，VIF>=10 表明有着严重的多重共线性。当然，我们也可以使用公差(tolerance)作为评估指标。
下列可以用隐马尔可夫模型来分析的是？基因序列数据电影评论数据股价数据以上三种
答案: D
三种都是时间序列数据，可以应用隐马尔可夫模型
为什么大家选择光环大数据！大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请大数据
一个 SVM 存在欠拟合问题，下面怎么做能提高模型的性能: A. 增大惩罚参数 C B. 减小惩罚参数 C C. 减小核函数系数(gamma 值) 答案： A C >0 称为惩罚参数，是调和二者的系数，C 值大时对误差分类的惩罚增大，C 值小时对误差分类的惩罚减小。当 C 越大，趋近无穷的时候，表示不允许分类误差的存在，margin 越小，容易过拟合；当 C 趋于 0 时，表示我们不再关注分类是否正确，只要求 margin 越大，容易欠拟合
光环大数据

光环大数据--大数据培训&人工智能培训
在决策树中，用作分裂节点的 information gain 说法正确的是 A. 较小不纯度的节点需要更多的信息来区分总体 B. 信息增益可以使用熵得到 C. 信息增益更加倾向于选择有较多取值的属性答案 B C 使用信息增益作为决策树节点属性选择的标准，由于信息增益在类别值多的属性上计算结果大于类别值少的属性上计算结果，这将导致决策树算法偏向选择具有较多分枝的属性。
1.以下哪一种方法最适合在 n（n>1）维空间中做异常点检测。
A 正态分布图 B 盒图 C 马氏距离 D 散点图答案：C 马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法，以卡方分布为基础，表示数据的协方差距离。与欧氏距离不同的是它考虑到各种特性之间的联系(例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是关联的)。因此马氏距离常用于多元异常值检测。
光环大数据

光环大数据--大数据培训&人工智能培训
但是,移除相关变量可能导致信息的丢失，为了保留这些变量，我们可
以使用带惩罚的回归方法。我们也可以在相关变量之间随机加入噪音，使得变量
之间存在差异。但增加噪音可能影响准确度，因此这种方法应该小心使用。
1 2 1 and 3 2 and 4
光环大数据
None of the above
光环大数据--大数据培训&人工智能培训
答案: C 实际为“正”实际为“反”预测为“正”TPFP 预测为“反”FNTN
召回率=TP/TP+FN
1 1 and 3 1 and 2 2
光环大数据
答案: A
光环大数据--大数据培训&人工智能培训
一般情况增加层数能让模型在训练集和测试集中都表现出更好的效果，但有研究表明层数多的神经网络相对于层数较少的神经网络可能呈现更大的训练误差，所以问题不能下定论，答案应该选择 A
光环大数据--大数据培训&人工智能培训
答案: C
如果决策树的其他参数固定不变，那么：增加树的深度使得所有节点将延伸直到所有叶节点都是纯的，因此会消耗更多时间；学习率在此问题中不是有效参数；决策树模型只建立一个树
下列有关神经网络的问题正确的有？
1..增加层数可能扩大测试误差 2. 减少层数一定缩小测试误差 3..增加层数一定减少训练误差
11.支持向量机模型，选择 RBF 函数作为 kernel 后，对 gamma（函数自带参数）画散点图，如果忘记在图上标记 gamma 值，以下哪一个选项可以解释下图的
光环大数据

光环大数据--大数据培训&人工智能培训
图片是训练数据集（样本非常少）的快照（属性 x、y 分别用“+”和“o” 表示），设定 kNN 的 k=1，那么留一法交叉验证的误差是
0% 100% 0 到 100% 以上均不正确
答案: B
留一交叉验证法中，如果有 N 个样本数据。将每个样本单独作为测试集，其余 N-1 个样本作为训练集，这样得到了 N 个模型，用这 N 个模型的分类准确率的平均数作为此分类器的性能指标。因此每一个模型都是用几乎所有的样本来训练得到最接近样本，这样评估所得的结果没有随机因素，所以答案选择 B
查准率=TP/TP+FP
所以当概率阈值增加时，TP、FP 减少或者持平， TP+FN 不变，所以召回率不会增加，一般情况，用不同的阀值，统计出一组不同阀值下的精确率和召回率，如右图，所以答案选择 C。
13.点击率的预测是一个数据比例不平衡问题（比如训练集中样本呈阴性的比例为 99%，阳性的比例是 1%），如果我们用这种数据建立模型并使得训练集的准确率高达 99%。我们可以得出结论是：
下面哪一项用决策树法训练大量数据集最节约时间? 增加树的深度
光环大数据
2. 增加学习率 3. 减少数的深度 4..减少树的个数 2 1 and 2 3 3 and 4 2 and 3 2, 3 and 4
7.评估模型之后，得出模型存在偏差，下列哪种方法可能解决这一问题： A. 减少模型中特征的数量 B. 向模型中增加更多的特征 C. 增加更多的数据 D. B 和 C E. 以上全是答案：B 高偏差意味这模型不够复杂(欠拟合)，为了模型更加的强大，我们需要向特征空间中增加特征。增加样本能够降低方差
4.”过拟合是有监督学习的挑战，而不是无监督学习”以上说法是否正确： A. 正确 B. 错误答案：B 我们可以评估无监督学习方法通过无监督学习的指标，如：我们可以评估聚类模型通过调整兰德系数
光环大数据

做一个二分类预测问题，先设定阈值为 0.5，概率大于等于 0.5 的样本归入正例类（即 1），小于 0.5 的样本归入反例类（即 0）。然后，用阈值 n（n>0.5）重新划分样本到正例类和反例类，下面哪一种说法正确是（）
1.增加阈值不会提高召回率 2..增加阈值会提高召回率 3..增加阈值不会降低查准率 4.增加阈值会降低查准率
A.模型的准确率非常高，我们不需要进一步探索 B.模型不好，我们应建一个更好的模型 C.无法评价模型 D.以上都不正确
光环大数据
答案: B
光环大数据--大数据培训&人工智能培训
对于失衡数据，模型的准确率不能作为衡量模型效果的标准。因为我们需要探索的是少数 1%的数据，为更好的评估模型效果，可以用灵敏度、特异度、F measure 来判断，如果样本数少的类别表现非常弱，我们会采取更多措施。所以答案选 B。
光环大数据--大数据培训&人工智能培训
5.下列表述中，在 k-fold 交叉验证中关于选择 K 说法正确的是：
A. 较大的 K 并不总是好的，选择较大的 K 可能需要较长的时间来评估你的
结果
B. 相对于期望误差来说，选择较大的 K 会导致低偏差（因为训练 folds 会

e商务文档

机器学习测试题_深圳光环大数据培训

相关文档推荐：