当前位置:文档之家› CPDA考试真题与答案完美

CPDA考试真题与答案完美

单选题1. “大数据”是指规模超过 1000TB 的数据集。

正确答案:X2. 概率为 0 的事件是不可能事件,概率为 1 的事件是必然事件。

正确答案:X3. 将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。

正确答案:V4. 统计图中的散点图主要用来观察变量之间的相关关系。

正确答案:V5. 抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。

正确答案:X6. Datahoop1.2 版中 K-means 聚类分析要求输入的数据必须是数值型数据。

正确答案:V7. 如果事件 A,B 互斥,且 P(A)>0,P(B)>0, 则 A, B 独立。

正确答案:X8. SQL中删除表的命令是“ DELETE TABL”正确答案:X9. 聚类分析中,各变量的取值在数量级上不能有过大的差异。

正确答案:V10. 如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。

正确答案:11. 需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。

12. 使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。

正确答案:V13. 线性回归模型的拟合优度可采用可决系数进行评判。

可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。

正确答案:X14. 一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。

正确答案:X15. 决策树中包含根结点、叶结点、内部结点和外部结点。

正确答案:X二、单选题1. 检查异常值常用的统计图形是()A、柱状图B箱线图C帕累托图D气泡图正确答案: B2. 什么是 KDD?()A、数据挖掘与知识发现B领域知识发现C文档知识发现D动态知识发现正确答案: A3. 东北人养了一只鸡和一头猪。

一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。

"鸡听了撒丫子就跑。

猪说:"你跑什么?"鸡叫道:“ 有本事主人买粉条的时候你小子别跑!"以上对话体现了数据分析方法中的()A、关联B聚类C分类D自然语言处理4. 假设检验中显著性水平•是()A、推断时犯取伪错误的概率B推断时取伪弃真的概率C正确推断的概率D是推断的可信度正确答案:B5. 矩估计的基本原理是()A、用样本矩估计总体矩B使得似然函数达到最大C使得似然函数达到最小D小概率事件在一次试验中是不可能发生的正确答案:A6. SQL查询语句中 HAVING子句的作用是()A、指出分组查询的范围B指出分组查询的值C指出分组查询的条件D指出分组查询的内容正确答案:C7. 以下哪项关于决策树的说法是错误的()A、冗余属性不会对决策树的准确率造成不利的影响B子树可能在决策树中重复多次C决策树算法对于噪声的干扰非常敏感D寻找最佳决策树是 NP完全问题正确答案:C8. 以下哪种方法不属于于监督学习模型()A、决策树B线性回归C关联分析D判别分析正确答案:C9 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3, 4},{2,3,5},{3,4,5}假定数据集中只有 5个项,若采用合并策略,则由候选产生过程得到 4- 项集不包含()A、1,2,3,4C、1,2,4,5D、1,3,4,5正确答案: C10. 下列不属于原始数据来源的是(A、行政记录B统计调查C统计年鉴D实验正确答案: C11. 下列不属于分类算法的是()A、 C4.5 算法B逻辑回归C KNN算法D、 TF-TDF 算法正确答案: D12. 相关分析与回归分析的一个重要区别是()A、前者研究变量之间关系的密切程度,后者研究变量间的变动关系,并用方程式表示B前者研究变量之间的变动关系,后者研究变量间关系的密切程度C两者都研究变量间的变动关系D两者都不研究变量间的变动关系正确答案: A13. 数据仓库是随着时间变化的 , 下面的描述不正确的是()A、数据仓库随时间的变化不断增加新的数据内容B捕捉到的新数据会覆盖原来的快照C数据仓库随时间变化不断删去旧的数据内容D数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合正确答案: C14. 资金的时间价值是()A、同一资金在同一时点上价值量的差额B同一资金在不同时点上价值量的差额C不同资金在同一时点上价值量的差额 D不同资金在不同时点上价值量的差额15. 描述一组对称(或正态)分布数据的离散程度时,最适宜选择的指标是()A、极差B标准差C均值D变异系数正确答案: B16. 下列有关 Apriori 算法的说法中不正确的是()A、 Apriori 算法是关联分析中最常用的算法之一。

B应用Apriori算法时,需要先设定模型的最小支持度、最小置信度等阈值。

C应用Apriori算法时,输入的数据可以是连续型数据也可以是离散型数据。

D、 Apriori 算法扫描数据库的次数依赖于最大频繁项集中项的数量。

正确答案: C17. 当置信水平一定时,置信区间的宽度()A、随着样本量的增大而减小B随着样本量的增大而增大C与样本量的大小无关D先随着样本量的增大而减小,到一定程度后会随着样本量的增大而增大。

正确答案: A18. 一种商品价格变动与由此引起另外一种商品需求量相对变动的比率称为()A、需求价格弹性B供给价格弹性C需求交叉弹性D供给交叉弹性正确答案: C19. 分类器效果检验中的准确率是指()A、预测正确的数据在总数据中的比例B预测为正的数据在总数据中的比例C预测为正的数据中实际为正的数据所占比例D实际为正的数据中被预测为正的数据所占比例正确答案: C20. 给出下列结论:(1)在回归分析中,可用指数系数R 方的值判断模型的拟合效果, R 方越大,模型的拟合效果越好;(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数r 的值判断模型的拟合效果, r 越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越宽,说明模型的拟合精度越高.以上结论中,正确的有()个.A、1B、2C、3D、4正确答案: A21. 维度规约是在以下哪个步骤的任务?()A、频繁模式挖掘B降维C数据预处理D数据流挖掘正确答案: C22. 假设属性 income 的最大最小值分别是 12000 元和 98000 元。

利用最大 - 最小规范化的方法将属性的值映射到 0 至 1 的范围内。

对属性 income 的 73600 元将被转化为()A、0.751B、0.163C、0.457D、0.716正确答案: D23. 假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13, 15, 16,16,19,20, 20, 21 , 22, 22, 25, 25, 25, 30, 33, 33, 35, 35, 36, 40, 45, 46,52, 70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

第二个箱子值为()A、15.7B、18.3C、19.7D以上都不对正确答案: B24. EXCEL 中,求标准差的函数是()A、AVERAGEB、MEDIANC、MODED、STDEV25. 人们购买制冷用空调主要是为了在夏天获得凉爽空气,这属于空调产品整体概念中的()A、有形产品B直接产品C核心产品D主要产品正确答案: C)进行决策的一种方法。

26. 贝叶斯决策是根据(A、极大似然概率B先验概率C边际概率D后验概率正确答案: D27. 某人欲为子女筹措 250000 元的留学经费,预计在 8 年内的每年年初在银行存入一笔款项,如银行存款年利率为8%,每年应存入金额为()A、 23502.87B、 23505.20C、 12698.6D、 21762.67正确答案: D28. 指数平滑法可以用以下哪种指标来反映对时间序列资料的修正程度()A、平滑常数B指数平滑数初始值C跨越期D季节指数正确答案: A29. 某牙膏厂原来生产两面针药物牙膏,现在又增加牙刷生产,这属于()A、同心多元化B水平多元化C集团多元化D相关多元化正确答案: B30. 净现值、内部收益率、获利指数指标之间的数量关系是()A、当 NPV>0时,IRR>i,PI<1B 当 NPV>0时,IRR>i,PI>1C 当 NPV<0时,IRR>i,PI<1D 当 NPV<0时,IRR>i , Pl>1正确答案: B三、多选题1. 以下关于皮尔森相关分析叙述正确的是()A、两变量独立,两者的皮尔森相关系数必然等于0B两变量皮尔森相关系数不等于0,两者必然不独立C皮尔森相关系数是否等于零,不能指明两变量是否独立D两变量不独立,两者的皮尔森相关系数必然不等于0正确答案: AB2. 在实际数据中,元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法有:()A、直接删除B使用属性的平均值填充空缺值C使用一个全局常量填充空缺值D使用与给定元组属同一类的所有样本的平均值正确答案: ABCD3. 描述变量离期望值大小的指标是()A、方差B变异系数C标准差D期望正确答案: ABC4. 以下属于分类器评价或比较尺度的有()A、预测准确度B召回率C模型描述的简洁度D、F1-Score正确答案: ABD5. 以下关于逻辑回归的说法正确的是()A、应用逻辑回归时,异常值会对模型造成很大的干扰。

B逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理。

C逻辑回归对模型中自变量的多重共线性较为敏感。

D逻辑回归属于分类算法。

6. 下列项目中,其变动可以改变盈亏平衡点位置的因素有(A、单价B单位变动成本C销量D固定成本正确答案: ABCD7. 关于基准收益率的表述,正确的是()A、基准收益率越高越好B基准收益率越低越好,但不能低于银行贷款利率C可以采用项目加权平均资金成本为基础确定基准收益率D可以采用国家有关部门或行业统一发布的行业基准收益率正确答案: CD8. 数据离散化是指为了数据分析的需要,将连续数据转换为离散型数据的过程。

数据离散化的方法有()A、随机取值B等距离散法C数值规约D等频离散法正确答案: BD9. 根据分析内容和侧重面不同,风险分析的方法有()A、敏感性分析B概率分析C经济效益分析D盈亏平衡分析正确答案: ABD10. 以下说法正确的有()A、评价预测精度是通过测量与分析预测误差进行的B绝对误差是实际观测值与预测值的离差C相对误差反映实际观测值与预测值之间差异的相对程度D平均误差反映实际观测值与预测值之间的平均差异正确答案: ABCD11. 下列公式正确的是()A、流动资金=流动资产-流动负债B流动资产=应收账款+存货C流动负债=应付账款+预收账款D流动资金本年增加额=本年流动资金-上年流动资金12. 如下哪些不是基于规则的分类器的特点()A、规则集的表达能力远不如决策树好B基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分C无法被用来产生更易于解释的描述性模型D非常适合处理类分布不平衡的数据集正确答案: AC13. 以下有关随机森林算法的说法正确的是()A、随机森林算法的分类精度不会随着决策树数量的增加而提高。

相关主题