一、单项选择题Df.read_csv()的header=None表示源文件没有索引,read_csv会自动加上列索引1、影响数据质量问题的因素有哪些 ( D )A、准确性、完整性、一致性B、相关性、时效性C、可信性、可解释性D、以上都是2、以下说法错误的是( B )A、数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约。
B、数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。
C、冗余数据的删除既是一种数据清理形式,也是一种数据归约。
D、整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。
3、处理噪声的方法一般有( D )A、分箱B、回归。
C、聚类D、以上都是4、数据集成的过程中需要处理的问题有( D )A、实体识别B、冗余与相关性分析。
C、数据冲突和检测D、以上都是5、影响数据质量问题的因素有哪些( D )A、准确性、完整性、一致性B、相关性、时效性C、可信性、可解释性D、以上都是6、数据归约的方法有( D )A、维归约B、数量归约C、数据压缩D、以上都是7、以下说法错误的是( C )A、主成分分析、属性子集选择为维归约方法.B、直方图、聚类、抽样和数据立方体聚集为数量归约方法。
C、用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。
D、数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。
8、影响数据质量问题的因素有哪些( D )A、准确性、完整性、一致性B、相关性、时效性C、可信性、可解释性D、以上都是9、下列关于为什么要做数据清理描述错误的是( D )A、数据有重复B、数据有错误C、数据有缺失D、数据量太大10、下列关于数据清理描述错误的是( A )A、数据清理能完全解决数据质量差的问题B、数据清理在数据分析过程中是不可或缺的一个环节C、数据清理的目的是提高数据质量D、可以借助Kettle来完成大量的数据清理工作11、下列关于使用参照表清洗数据说法错误的是( B )A、有些数据无法从内部发现错误,需要结合外部的数据进行参照B、只要方法得当,数据内部是可以发现错误的,不需要借助参照表C、使用参数表可以校验数据的准确性D、使用参照表可以处理数据的一致性12、下列说法错误的是( A )A、数据仓库就是数据库。
B、业务键通常来源于业务系统C、事实表加载前,先加载维表D、星型模型的各个维表之间没有依赖关系13、以下说法错误的是( C )A、雪花模型有多个相互依赖的维表,加载时要注意先后顺序B、雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,根据维度的层级拆分成颗粒度不同的多张表C、事实表和维表之间通过业务键关联D、雪花模型的主维表和非维表之间是N对1的关系14、以下说法错误的是( C )A、时间、日期维属于生成维B、混合维较少用,实现比缓慢变化维中的类型1、类型2、类型3三种类型复杂。
C、杂项维的属性通常可以分为特定的几个分类D、类型2缓慢变化维,不会直接覆盖以前的版本,每次更新会生成新的记录15、假定属性income的最小与最大值分别为25000和3000,根据最小—最大规范化方法将income 10000映射到[0,1]范围内,值为( A )A、0.318B、0.3C、1.68D、3.4316、转换创建并保存后的文件后缀名是( A )A、ktrB、kjbC、kbjD、krt17、数据库通常可分为两大类型,一类是基于SQL的型数据库,另一类被称为NoSQL,属于型数据库( C )A、非关系、非关系B、非关系、关系C、关系、非关系D、关系、关系二、填空题1、在下表中,用同类样本属性的中心度量方法填充空缺值,空缺值应为。
3、数列为[3,5,10,15,10,13],使用z-score方法映射后为[ -1.649 , -1.178 , 0 , 1.178 , 0 , 0.707 ](注,均值为10,标准差为:4.243)4、Kettle是一个程序。
5、转换是ETL解决方案中最主要的部分,它负责处理、、各阶段对数据行的各种操作。
6、转换里的步骤通过来连接。
7、跳定义了一个,允许数据从一个步骤向另一个步骤流动。
8、在Kettle里,数据的单位是,数据流就是数据行从一个步骤到另一个步骤的移动。
9、数据流的另一个同义词就是。
10、是转换里的基本组成部分。
它是一个图形化的组件,可以通过配置步骤的参数,使得它完成相应的功能。
11、步骤可以从指定的数据库中读取指定关系表的数据。
12、步骤需要有一个性的名字。
13、一个跳,相对于输出数据的步骤而言,为跳;相对于输入数据的步骤而言,为跳。
14、一个步骤的数据发送可以被设置为和。
15、是将数据行依次发给每一个输出跳,是将全部数据行发送给所有输出跳。
16、在运行转换时,一个线程运行一个步骤,所有步骤的线程几乎运行。
17、从程序执行的角度看,实际上是两个步骤线程之间进行数据行传输的缓存。
这个缓存被称为。
18、Kettle使用图形化的方式定义复杂的ETL程序和工作流,所以被归类为编程语言。
19、Kettle的参数配置分为和两类。
20、环境变量具有性质,配置后的环境变量对所有转换、作业都可用、有效;命名参数具有性质,仅对当前转换、作业有效。
21、文本文件主要分为和两大类。
22、CSV文件是一种用分割的文本文件。
23、Excel的数据可分为的表格数据和的表格数据。
24、Kettle提供了和步骤从Web上获取数据。
25、查询类的步骤,需要一个类的步骤来激活。
26、基本上CDC可以分为两种,一种是的,另一种是的。
27、基于源数据的CDC要求源数据中相关的属性列。
最常见的两种属性列是和。
28、当INSERT、UPDATE、DELETE等SQL进行执行时,可以触发数据库自有的,并执行某些动作。
29、Kettle里的步骤就可以用来比较两个表的差异。
30、基于的具有侵入性的CDC操作,可以实时监测到源数据的变化。
31、基于的CDC操作是非侵入性的。
32、基于源数据的CDC操作,不能捕获删除的数据,可以捕获删除的数据。
33、基于源数据的CDC不适用于实时数据捕获,适用于操作。
34、XML文件不是普通的文本文件,而是一种遵循规范的的文本文件。
35、对于JSON文件,Kettle可以用和步骤完成文件的读取与输出。
36、重复数据分为哪两类:、。
37、Kettle目前的版本中提供了三个关于字符串清洗的步骤,分别是步骤、步骤和字符串剪切步骤。
38、Kettle提供的字符串替换步骤的功能非常强大,主要是因为该步骤支持。
39、需要将一个行记录拆分成多行记录时,可以选择步骤;需要将一个字段拆分成多个字段时,可以选择步骤。
40、在Kettle中,提供了两个可以比较相似度的步骤,它们分别是、。
41、作业有作业项、跳、注释组成。
42、作业创建并保存后的文件后缀名是kjb。
43、作业执行顺序由作业项之间的跳和每个作业项的执行结果来决定。
44、作业的跳是作业之间的连接线,它定义了作业的执行路径。
45、跳的两种状态分别是可用/Enabled与不可用/Disabled。
46、kettle使用一种回溯算法来执行作业里的所有作业项。
47、会速算法的两个特征是:作业运行结果不是唯一的、运行结果保存在内存里。
48、作业的并行执行是指:两组作业项几乎同时启动,且每组作业项独立运行在两个线程中,互不影响。
49、START作业项是一个作业的起点。
它的作用是设置作业的定时调度。
50、如果定义了变量“hostname”,那么在程序中引用的格式是${hostname}/%%hostname%%。
51、作业的监控有2种:日志和邮件。
52、pandas提供了两种主要的数据结构:Series和DataFrame。
53、Series是一种类似于数组的一维数据结构,包含了一系列的元素以及元素对应的标签。
54、Series对象没有指定index时,默认创建的index是从 0到N-1的整数值,其中N是Series对象的元素个数。
55、获取Series对象s的index值的写法是s.index,获取元素值的写法是s.values。
56、s2 = Series([3, 8, -5, 1], index=['d', 'b', 'a', 'c']), s2[3]返回的是1,s2[‘a’]返回的值是-5,s2>0返回的元素是bool类型。
57、DataFrame是一种带标签的二维数据结构,其中各列可以存储不同的数据类型。
58、pandas提供了read_csv函数,用于导入csv文件,并得到一个DataFrame对象。
59、read_csv函数中参数names=['a', 'b', 'c', 'd'],表示指定DataFrame 对象的列名依次为a,b,c,d。
60、使用pandas.isnull()函数判断DataFrame对象中的空缺值。
61、pandas的导出csv文件的函数是to_csv,其中指定分隔符的参数名是sep,不希望输出索引是,可设置参数index = False。
62、json模块的load函数能够导入JSON数据,返回值是一个字典对象。
63、pandas通过ExcelFile类提供了对Excel文件的基本支持。
这个类在内部使用xlrd和openpyxl包来操作Excel文件,因此需要首先安装这两个包。
三、判断题1、Kettle不是开源软件。
(X )2、Kettle使用Java编写的非可视化工具。
(X )3、Kettle中的步骤是顺序执行的。
(X )4、Kettle中的步骤是并行执行的。
(√ )5、步骤的名称具有唯一性。
(√ )6、在“数据库连接”窗口中,在一个作业或转换范围内连接名称不能重复。
(√ )7、查询类的步骤不需要激活,可以直接运行。
(X )8、触发器的CDC的可以实时监测到数据的所有变化。
(√ )9、在Kettle中,不存在单一的清洗步骤,清洗工作往往需要结合多个步骤才能组合完成。
(√ )10、在使用表输入步骤进行数据抽取时,应尽量避免使用复杂的SQL语句进行数据筛选。
(√ )11、由于大部分的数据都是准确无误的,存在问题的数据只占极少部分,只要数据分析的方式正确,是不需要进行数据清理的。
(X )(√ )12、 Kettle中,参照数据流到流查询步骤对应的跳上会出现一个“i"标识。
13、 Kettle提供了大量的数据清洗步骤,没有必要再使用脚本组件来做数据清理。