第一章1、2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和()能力的数据集。
A:计算B:访问C:应用D:分析答案: 分析2、用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和()。
A:VarietyB:VainlyC:VagaryD:Valley答案: Variety3、大数据分析四个方面的工作主要是:数据分类、()、关联规则挖掘和时间序列预测。
A:数据统计B:数据计算C:数据聚类D:数据清洗答案: 数据聚类4、新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。
A:对B:错答案: 错5、目前的大数据处理技术只能处理结构化数据。
A:对B:错答案: 错第二章1、我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是()。
A:mdfB:mdbC:dbfD:xls: mdb 答案、大多数日志文件的后缀名是(。
)2A:txtB:csvC:xmlD:log: log 答案。
weka3、本课程重点介绍的软件的专有文件格式是()A:MongoDBB:ARFFC:valueD:key map4、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和()。
A:专业性B:排他性C:一致性D:共享性答案: 一致性5、八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个()来作为采集的目标。
A:电话号码B:关键词C:网页地址D:用户名答案: 网页地址6、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是()。
A:otdB:jpgC:pngD:gif答案: otd可以通过“数据有效性”按钮操作来规范数据输入的范围。
Excel、7.A:对B:错8、Excel不能导入txt或csv格式的文件。
A:对B:错答案: 错9、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
A:对B:错答案: 错10、八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
A:对B:错答案: 对第三章1、使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2,minPoints参数设置为5,忽略class属性,那么将形成()个簇。
A: 1B: 2C: 3D: 4答案: 32、使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,()是错误的。
A: 模型的最大似然估计值是-7.18B: 这组数据用算法迭代15次C: 第四个簇的先验概率是0.14D: 第四个簇的实例数为4答案: 第四个簇的实例数为43、使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。
选择play属性为忽略属性,从结果中可知,下列选项中,()是错误。
A: 这组数据用算法迭代四次B: 产生了三个中心点C: 聚合为3个簇,分别有7,3,4个实例D: 平方和误差为8.928答案: 这组数据用算法迭代四次4、使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知()。
A: LinearRegression的标准误差比M5P的标准误差小B: LinearRegression的平均绝对误差比M5P的平均绝对误差小C: LinearRegression的相对误差比M5P的相对误差小D: LinearRegression的平均方根误差比M5P的平均方根误差大答案: LinearRegression的平均方根误差比M5P的平均方根误差大分类器构建方案,在结果中,到达M5P属性后,使用CACH数据文件中的cpu.arff、删去5.LM2的实例数有()个。
A: 165B: 21C: 23D: 30答案: 216、根据J48分类器训练weather.nominal.arff所生产的决策树,当outlook=sunny;temperature=cool;humidity =high;windy=TRUE时,分类的结果是()。
A: YesB: NoC: 没有结果D: 无法分类答案: No7、根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2时,分类的结果是()。
A: Iris-setosaB: Iris-versicolorC: Iris-virginicaD: 无法分类答案: Iris-setosa8、关于Weka离散化说明正确的是()。
A: 离散化是将数值属性转换为字符串型属性B: 有监督离散化有两种等宽和等频方法C: 等宽离散化是使实例分布均匀的D: 离散化包括无监督离散化和有监督离散化答案: 离散化包括无监督离散化和有监督离散化9、以下()不是Weka的数据类型。
A: numericB: nominalC: stringD: decimal答案: decimal10、关于Weka的文件类型描述错误的是()。
A: Weka可以打开文件格式有.arff、.csv、.xlsxB: Weka处理的数据集类似于关系数据库横行实例,竖行属性C: arff是ASCII文件,可以用Word等文本编辑器打开查看D: @relation 定义数据集名称,@data之后呈现实例,每一行就是一个实例答案: Weka可以打开文件格式有.arff、.csv、.xlsx11、以下属于关联分析的是()。
A: CPU性能预测B: 购物篮分析C: 自动判断鸢尾花类别D: 股票趋势建模答案: 购物篮分析12、大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注)算重数据中的相关关系,而不是因果关系。
其中,数据之间的相关关系可以通过以下(.法直接挖掘。
A: K-meansB: Bayes NetworkC: C4.5D: Apriori答案: Apriori13、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的()问题。
A: 关联规则发现B: 聚类C: 分类D: 自然语言处理答案: 关联规则发现14、在进行自动选择属性时,必须设立两个对象,其中确定使用什么方法为每个属性子集分配一个评估值的对象是下面的()。
A: 搜索方法B: 属性评估器C: 元分类器D: 规则挖掘答案: 属性评估器15、以下属于属性空间的搜索方法的是()。
A: GainRatioAttributeEvalB: BestFirstC: PrincipalComponentsD: SymmetricalUncertAttributeEval答案: BestFirst16、在weka软件探索者界面中,利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下()按钮,所有更改才会生效。
A: Select AttributeB: SubSampleC: UpdateD: Fast scrolling答案: Update17、给定关联规则AB,意味着:若A发生,B也会发生。
A:对B:错答案: 错18、支持度是衡量关联规则重要性的一个指标。
A:对B:错答案: 对19、Ranker方法既可以用于单个属性评估器,又可以用于属性子集评估器。
A:对B:错答案: 错如果类别属性用户可以选择类别属性对数据点着色,软件进行数据可视化时,weka利用、20.是标称型,则显示为彩色条。
A:对B:错答案: 错第四章1、贝叶斯网络中的节点代表()。
A:变量B:随机过程C:随机变量D:随机函数答案: 随机变量2、贝叶斯网络中,节点需给出概率分布描述,对于离散型随机变量而言,可以用()的形式表示。
A:条件概率密度函数B:正态分布C:条件概率表均匀分布D:条件概率表答案:)。
3、贝叶斯网络中节点之间的边代表(随机关系A:B:概率因果组合关系C:随机结果D:答案: 随机关系4、贝叶斯网络保存的文件格式是( )。
A:XML BIFB:DOCXC: TXTD:XLS答案: XML BIF5、下面()不是反向传播神经网络的结构。
A:输入层B:隐含层C:计算层D:输出层答案: 计算层6、神经网络中的节点代表()。
A:激励变量B:激励函数C:随机变量D:随机函数答案: 激励函数7、下列()不是常见的激励函数。
A:线性函数函数B:SigmoidC:阈值函数D:正弦函数答案: 正弦函数8、在贝叶斯网络编辑界面时,如果节点的名称没法完全显示,需要从()菜单项进行调整。
A:Tools|SetDataB:View|Zoom OutC:View|Zoom InD:Tools|Layout答案: Tools|Layout9、WEKA中选择神经网络分类器操作时,应该选择()。
A:rules条目下的PARTB:functions条目下的SGD分类器C:functions条目下的MultilayerPerceptron分类器D:默认的分类器答案: functions条目下的MultilayerPerceptron分类器10、下面关于Package Manager安装后的目录说明不正确的是()。
API文档A:doc子目录存放子目录存放包所需要的说明文件B:libC:sample-data子目录存放数据集文件D:src子目录存放源代码文件答案: lib子目录存放包所需要的说明文件第五章.1、Tableau是一款定位于数据可视化敏捷开发和实现()展现工具。
Tableau 连续第 6 年在Gartner 分析和商业智能魔力象限中蝉联领导者殊荣。
A:商务智能B:商业行为C:商务计算D:商业统计答案: 商务智能2、以下()不是Tableau的数据类型?A:BooleanB:DateC:StringD:Decimal答案: Decimal3、Tableau可以用来实现交互的、()的分析和仪表板应用,从而帮助我们快速地认识和理解数据。
A:连续性B:离散性C:智能化D:可视化答案: 可视化4、下列说法错误的是()。
A:Tableau通过内存数据引擎,可以直接查询外部数据库同时动态的从数据仓库抽取实时数据,极大的提高了数据访问和查询效率B:用户仅需要通过轻点鼠标和简单拖放就可以迅速创建出智能、精美、直观和具有强交互性的报表和仪表盘C:Tableau允许从多个数据源访问数据,包括带分隔符的文本文件、Excel文件、SQL数据库、Oracle数据库和多维数据库等D:Tableau不提供应用编程接口答案:5、度量往往是()字段,度量是我们的指标。