当前位置:文档之家› 第7章 大数据采集与预处理技术-大数据技术基础-宋旭东-清华大学出版社

第7章 大数据采集与预处理技术-大数据技术基础-宋旭东-清华大学出版社

Connectivity,开放数据库连接)的方式建立数据库链接——如SQL Server和Oracle之间。如果不能建立数据库链接,可以有两种方式完成, 一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统 文件导入到ODS(Operational Data Store,操作数据存储)中。另外一 种方法是通过程序接口来完成。
7.1 数据抽取转换加载技术
3)对于文件类型数据源(.txt,.xls),可以培训业务人员利用数据库 工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取。 或者还可以借助工具实现。
4)增量更新的问题 对于数据量大的系统,必须考虑增量抽取。一般情况下,业务系
统会记录业务发生的时间,我们可以用来做增量的标志,每次抽取之前 首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大 于这个时间所有的记录。
数据抽工抽取还是给予工具抽取)
表示抽取过程 进程的时间窗 口
决定如何处理 无法抽取的输 入记录
确认数据的源 系统及结构
确定数据抽 取的频率
决定抽取任务 的顺序
7.1 数据抽取转换加载技术
源系统的数据是以两种方式来存放的:当前值和周期性的状态
1)源系统中的大多数数据都是当前值类型,这里存储的属性值代表的 是当前时刻的属性值,但这个值是暂时的,当事物发生时,这个值就会发 生变化。
数据的转换。数据转换(数据的合并、汇总、过滤、转换等)、重新格 式化和计算数据、重新构建关键数据以及总结与定位数据。
数据的装载。将数据跨网络、操作平台装载到目标数据库中。
7.1 数据抽取转换加载技术
ETL的实现有多种方法,常用的有三种。
一种是借助ETL工具(如Oracle的OWB、SQL Server 2000的DTS、 SQL Server2005的SSIS服务、Informatic等)实现,一种是SQL方式实现 ,另外一种是ETL工具和SQL相结合。
2)周期性的状态指的是属性值存储的是每次发生变化时的状态。对于 这个类型的操作型数据,进行数据抽取工作会相对容易很多,因为其变化 的历史存储在源系统本身当中。
7.1 数据抽取转换加载技术
从源操作系统中抽取的数据主要有两种类型:静态数据和周期性数据。
1)静态数据是在一个给定时刻捕获的数据,就像是相关源数据在某个 特定时刻的快照。对于当前数据或者暂时的数据来说,这个捕获过程包括 所有需要的暂时数据。
2)对于周期性数据来说,这一数据捕获包括每一个源操作型系统中可 以获得的每个时间点的每一个状态或者事件。修正数据也称为追加的数据 捕获,是最后一次捕获数据后的修正。修正数据可以是立刻进行的,也可 以是延缓的。在立即型的数据捕获中,有三种数据抽取的方法:通过交易 日志捕获、从数据库触发器中捕获或者从源应用程序中捕获。延缓的数据 抽取有两种方法:基于日期和时间标记的捕获和通过文件的比较来捕获。
7.1.2 数据抽取
数据抽取就是一个从数据源中抽取数据的过程。具体来说,就是搜索整 个数据源,使用某些标准选择合乎要求的数据,并把这些数据传送到目标 文件中。
对于数据仓库来说,必须根据增量装载工作和初始完成装载的变化来抽取数据。对于 操作型系统来说,则需要一次性抽取和数据转换,这两个因素增加了数据抽取工作的复 杂性。我们在内部编写代码和脚本的基础上,使用第三方数据抽取工具。使用第三方工 具往往会比内部编程更快实现需求,但是它们记录了自己的元数据,另一方面,内部编 程增加了维护的成本,当源系统变化时,也很难维护。而第三方的工具则提供内在的灵 活性,只需要改变它的输入参数就可以了。
2020
大数据技术基础
07 大数据采集与预处理
目录 CONTENT
7.1 数据抽取转换加载技术 7.2数据爬虫技术 7.3 数据预处理技术
7.1 数据抽取转换加载技术
数据抽取转换加载(ETL),是英 文 Extract-Transform-Load的缩写,用 来描述将数据从来源端经过抽取 (extract)、转换(transform)、加 载(load)至目的端的过程。
ETL是构建数据仓库的重要一环,用 户从数据源抽取出所需的数据,经过数 据清洗,最终按照预先定义好的数据模 型,将数据加载。
7.1 数据抽取转换加载技术
7.1.1 ETL概述
ETL是用来实现异构多数据源的数据集成的工具
其主要的功能包括:
数据的抽取。将数据从不同的网络、不同的操作平台、不同的数据库及 数据格式、不同的应用中抽取出来。
7.1 数据抽取转换加载技术
具体实现方法:
1)处理相同的数据源处理方法。 这一类数据源在设计上比较容易。一般情况下,DBMS(SQLServer、 Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间 建立直接的链接关系就可以写Select 语句直接访问。
2)处理不同的数据源的处理方法。 对于这一类数据源,一般情况下也可以通过ODBC(Open Database
7.1 数据抽取转换加载技术
7.1.3 数据转换
数据转换的一个重要任务就是提高数据质量,包括补充已抽取数据中的 缺失值,去除脏数据,修正错误格式等。
1. 数据清洗 数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业
务主管部门,确认是否过滤掉,还是由业务单位修正之后再进行抽取。
不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三 大类。
7.1 数据抽取转换加载技术
2. 数据转换 数据转换的功能包含一些基本的任务:选择、分离/合并、转化、汇总
和丰富。转换功能要完成格式修正、字段的解码、计算值和导出值、单个 字段的分离、信息的合并、特征集合转化、度量单位的转化、日期/时间转 化、汇总、键的重新构造等工作。
优缺点比较:
前两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程,屏 蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。SQL 的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较 高。第三种是综合了前面二种的优点,会极大地提高ETL的开发速度和效 率。
7.1 数据抽取转换加载技术
相关主题