当前位置:文档之家› CPDA考试真题与答案

CPDA考试真题与答案

判断题(题数: 15,共 15.0 分)1. 定量属性可以是整数值或者是连续值。

()正确答案:V2. 分类模型的误差大致分为两种:训练误差(training error )和泛化误差(generalization error )。

()正确答案:V3. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

()正确答案:x4. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

()正确答案:x5. 聚类分析可以看作是一种非监督的分类。

()正确答案:V6. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。

()正确答案:V7. 允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。

()正确答案:V8. 召回率反映的是预测为正中的样本中正例的概率。

()正确答案:x9. 支持度表示前项与后项在一个数据集中同时出现的频率。

()正确答案:V10. 最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。

()正确答案:V11. 波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。

()(1.0 分)1.0 分正确答案:X12. 异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。

()正确答案:X13. 数据可视化可以便于人们对数据的理解。

()正确答案:V14. 大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。

()正确答案:V15. 资金本身具有时间价值。

()正确答案:X二、单选题(题数:30,共 45.0 分)1. 某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题?()A、聚类分析B关联规则C分类分析D自然语言处理正确答案: B2. 以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。

(b)描述有多少比例的杀人犯给警察抓了的标准。

A、Precision, RecallB、Recall, PrecisionC、Precision, ROCD、Recall, ROC正确答案: A3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A、数据获取B分类和预测C数据预处理D数据可视化正确答案: C4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A、分类B聚类C关联分析D主成分分析正确答案: B5. 下面哪种不属于数据预处理的方法?()A、变量代换B离散化C聚集D估计遗漏值正确答案: D6. 假设 12个销售价格记录组已经排序如下: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用等宽划分(宽度为50)方法将它们划分成四个箱,求15 在哪个箱子里?()A、第一个B第二个C第三个D第四个正确答案: A7. 以下哪些算法是分类算法?()A、DBSCANB、C4.5D、K-medoids正确答案: B8. 以下哪些分类方法可以较好地避免样本的不平衡问题?()A、KNNB、SVMC、BayesD神经网络正确答案: A9. 关于K均值和DBSCA的比较,以下说法不正确的是()。

A K均值丢弃被它识别为噪声的对象,而DBSCA一般聚类所有对象B K均值使用簇的基于原型的概念,而DBSCA使用基于密度的概念C K均值很难处理非球形的簇和不同大小的簇,DBSCAI可以处理不同大小和不同形状的簇D K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAI会合并有重叠的簇正确答案: A10. 下列不属于关联分析的关键要素的是()A、支持度B置信度C满意度D提升度正确答案: C11. 因子分析的主要作用有()A、对变量进行降维B对变量进行判别C对变量进行聚类D以上都不对正确答案: A12. R0C曲线凸向哪个角,代表模型越理想?()B左下角C右上角D右下角正确答案: A13. SQL 语句中删除表的命令是()A、DROP TABLEB、DELETE TABLEC、ERASE TABLED、DELETE DBF正确答案: A14. 在多元回归模型的检验中,目的是检验每一个自变量与因变量在指定显著性水平上是否存在线性相关关系的检验是()A、r 检验B、t 检验C、f 检验D DW检验正确答案: B15. ()提供的支撑技术,有效解决了大数据分析、研发的问题,比如虚拟化技术、并行计算、海量存储和海量管理等。

A、点计算B线计算C云计算D面计算正确答案: C16. 智能健康手环的应用开发,体现了()的数据采集技术的应用。

A、统计报表B网络爬虫C、 API 接口D传感器正确答案: D17. 下列关于数据重组的说法中,错误的是(A、数据重组是数据的重新生产和重新采集B数据重组能够使数据焕发新的光芒C数据重组实现的关键在于多源数据融合和数据集成D数据重组有利于实现新颖的数据模式创新正确答案: A18. 美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。

这体现了大数据分析理念中的()A、在数据基础上倾向于全体数据而不是抽样数据B在分析方法上更注重相关分析而不是因果分析C在分析效果上更追究效率而不是绝对精确D在数据规模上强调相对数据而不是绝对数据正确答案: B19. 当前国内社会中,最为突出的大数据环境是()A、互联网B物联网C综合国力D自然资源正确答案: A20. 下列关于聚类挖掘技术的说法中,错误的是()A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B要求同类数据的内容相似度尽可能小C要求不同类数据的内容相似度尽可能小D与分类挖掘技术相似的是,都是要对数据进行分类处理正确答案: B21. 下列关于大数据的分析理念的说法中,错误的是()A、在数据基础上倾向于全体数据而不是抽样数据B在分析方法上更注重相关分析而不是因果分析C在分析效果上更追究效率而不是绝对精确D在数据规模上强调相对数据而不是绝对数据正确答案: D22. 对于企业来说,数据使用的关键是()A、数据收集B数据存储C数据分析D数据再利用正确答案: D23. 数据仓库的最终目的是()A、收集业务需求B建立数据仓库逻辑模型C开发数据仓库的应用分析D为用户和业务部门提供决策支持正确答案: D24. 大数据背景下,数据支撑业务的目的是()A、建立数据科学B完成数据应用C配备数据硬件D吸纳数据人才正确答案: B25. 在SQL中,创建数据库用的命令是()A、CREATE SCHEMAB、CREATE TABLEC、CREATE VIEWD、CREATE DATABASE正确答案: D26. 下列四项中,不属于数据库特点的是()A、数据共享B数据完整性C数据冗余很高D数据独立性高正确答案: C27. 资金的时间价值是()A、同一资金在同一时点上价值量的差额B同一资金在不同时点上价值量的差额C不同资金在同一时点上价值量的差额D不同资金在不同时点上价值量的差额正确答案: B28. 下列选项中属于现金流入的项目是()A、所得税B建设投资C经营成本D营业收入正确答案: D29. 下列关于计算机存储容量单位的说法中,错误的是()A、 1KB<1MB<1GBB 基本单位是字节(Byte)C一个汉字需要一个字节的存储空间D—个字节能够容纳一个英文字符正确答案: C30. 按数据的结构程度来划分,分为()A、结构化数据半结构化数据非结构化数据B强结构化数据弱结构化数据C截面数据面板数据D —级数据二级数据三级数据正确答案: A三、多选题(题数: 20,共 40.0 分)1. 以下属于数据预处理的是(A、缺失值填充B噪声数据剔除C异常值识别D数据可视化正确答案: ABC2. 缺失值的处理方法有哪些?()A、用平均值填充B忽略缺失记录C以任意数据填充D用默认值填充正确答案: ABD3. 以下属于数据规约方法的是()A、数据离散化B数据标准化C噪声数据识别D数据压缩正确答案: AD4. 数据挖掘的预测建模任务主要包括哪几大类问题?()A、分类B回归C模式发现D模式匹配正确答案: AB5. 以下说法正确的有哪些 ?()A、大数据仅仅是讲数据的体量大B大数据对传统行业有帮助C大数据会带来机器智能D大数据是一种思维方式6. 关于大数据的来源,以下理解正确的是(A、大数据是数据量变积累达到质变的结果B数据的产生需要经历很长时间C我们每个人都是数据的制造者D当今的世界,基本上一切都可以用数字表达,所以叫数字化的世界正确答案: ACD7. 大数据在今天这个时间点上爆发的原因有哪些?()A、各种传感器无时无刻不在为我们提供大量的数据B各种监控设备无时无刻不在为我们提供大量的数据C各种智能设备无时无刻不在为我们提供大量的数据D互联网的收集和积累正确答案: ABCD8. ()这些数据特性都是对聚类分析具有很强影响的。

A、高维性B规模C稀疏性D噪声和离群点正确答案: ABCD9. 以下哪个分布是右偏分布?()A、均匀分布B卡方分布C、 F 分布D对数正态分布正确答案: BCD10. 以下哪些变量使用 RFM方法构造出来的?()A、最近3期境外消费金额B最近6期网银消费交易笔数C信用额度D距最近一次逾期的月数11. 如下表 student 中, 如何筛选 type 为包含数学或语文的记录 ?( )A 、select * from student where type=B 、select * from student where type=C 、select * from student where type in (D 、select * from student where type in (正确答案: BC12. 主成分分析计算选择相关系数计算法时,确定主成分个数的大致原则包括(A 、特征根值大于1B 特征根值大于 0.8C 累积特征根值加总占总特征根值的80%以上 D 累积特征根值加总占总特征根值的90%以上 正确答案: AC1 3.在客户关系管理中,客户的生命周期都包括()阶段。

A 、潜在客户B 响应客户C 即得客户D 流失客户正确答案: ABCD1 4.分箱方法有哪些?( )(2.0 分)0.0 分A 、等深分箱B 等宽分箱C 数据标准化D 自定义区间法正确答案: ABD15. 利用 Apriori 算法计算频繁项集可以有效降低计算频繁集的时间复杂度。

相关主题