当前位置:文档之家› 大数据工程平台实验操作手册3

大数据工程平台实验操作手册3

lab6:云化ETL系统平台配置
以组为单位,通过阅读数据集成服务系统操作文档,理解ETL概念,了解数据集成服务系统功能及其应用。

ETL:Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。

ETL 负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

数据集成服务系统:一个提供企业级数据集成项目所必须的工具与服务的ETL 系统存储库:以元数据形式存储源和目标,存储映射、转换器、任务节点、数据流和工作流等的存储平台;
数据流:实际数据处理的流程,由映射连接物理数据,生成数据流;
映射:数据处理的流程设计;
迁移映射:数据只做迁移的映射
转换:数据流中的一个数据转换器;
工作流:任务执行流程;
组件:一个任务容器,设置后是工作流中的一个任务节点;
任务节点:工作流下的一个任务
并发管理:任务执行并发控制管理
实验简明流程:
1.创建数据流,建立相应映射,建立源数据和目标数据的关联关系
2.创建工作流
3.目标数据入库
实验具体操作步骤:
登陆客户端,选择数据流登陆进入数据流编辑器,用户名:administrator 密码:bonc
点击创建映射,本例共创建两个映射。

编辑映射,根据不同组对映射命名,如第一组命名为:上网数据预处理01。

点击确定创建完成,此时事实表下映射目录下出现创建的映射。

进入创建的映射进行编辑,将“事实表-源-XD_GN”,“事实表-目标-XD_GN_HOST”和“表达式转换”拖入工作区,如图。

“表达式转换”工具位置在工具栏中如图:
右击“表达式转换”进行编辑。

添加三个端口,主要信息见下表:
长度表达式


A1 50 A1
A20 1000 A20
A36 2000 SUBSTRING(A36,INDEXOF(A36,'/',1,2)+1,INDEXOF(A36,'/',1,3)-(INDEXOF(A36,'/',1,2)+1))
“汇总器“工具位置在工具栏中如图:
端口长度表达式
A1 50 A1
A20 1000 SUM(A20)
A36 2000 A36
如图连线
完成后点击“版本控制-保存”
2 上网数据汇总
源表:XD_GN_HOST , DIM_HOST
目标表:XD_GN_HOST_TOTAL
连接器转换:
端口
端口名称数据类型长度M(是否主表字段)USER_ID 字符串50 是
HOST 字符串4000 是
FLOW 整数22 是
HOST#1 字符串1000 否
HOST_NAME 字符串1000 否
HOST_TYPE 字符串1000 否
条件
主运算符详细信息
HOST = HOST#1
汇总器转换:
端口
端口名称数据类型长度表达式分组
HOST_NAME 字符串1000 HOST_NAME是
HOST_TYPE 字符串1000 HOST_TYPE是
FLOW 整数22 SUM(FLOW) 否
USER_NUMB 整数18 COUNT(HOST_NAME) 否配置完成后,左侧目录下依此出现两个映射。

进入元数据平台进行工作流的操作:
在菜单栏上点击数据集成,单击工作流右键,如图所示点击添加子目录;
如图所示:
其中名称(按照自己的组号)以及顺序自己拟定,是否为叶子节点选择“是”,点击确定;
在新建的子目录下,单击右键选择添加工作流;
名称(按照自己的组号)自己拟定,点击保存;
保存新建的工作流后,出现如下界面:
单击左键将数据流拖拽出来,点击映射,选中自己已经建立好的映射,点击确定,如下图所示:
出现如下图所示界面,点击确定即可;
点击左侧连线,之后将数据流连接起来,点击签入即可;
在保存工作流后,单击已建好的工作流右键出现如下图所示界面:
点击“是”,即可启动工作流;
点击所建立的工作流右侧的运行实例出现如下图所示,其中红色框上表示刷新,可查看最新进程;
点击工作流右侧的历史实例,能够观察到历史运行记录,如下图表示流程运行成功;
工作流执行成功后,整个数据加工过程结束,目标表中已被灌入目标数据,可在BI-MARKET上进行各种形式的分析报表展示。

相关主题