北明数据融合与治理平台V1.0操作手册项目名称:北明数据融合与治理平台V1.0承建单位:北明软件有限公司目录前言 (3)关于本手册 (3)预期读者 (3)前提和假设 (3)定义 (4)系统概述 (5)系统权限 (5)2.1.1用户权限 (5)2.1.2菜单权限 (5)2.1.3数据权限 (5)系统登录 (5)平台操作说明 (7)数据采集平台操作说明 (7)3.1.1数据源管理 (7)3.1.2结构化数据采集工具 (10)3.1.3大数据采集工具 (22)3.1.4爬虫数据采集工具 (29)3.1.5数据采集自动化服务工具 (37)数据处理平台操作说明 (39)3.2.1调度管理 (39)3.2.2引擎管理 (43)3.2.3数据清洗转换 (45)3.2.4数据脱敏处理 (47)3.2.5服务器管理 (49)资源目录管理系统操作说明 (51)3.2.1元数据管理 (51)3.2.2基础管理 (56)3.2.3目录管理 (61)3.2.4资源服务注册 (77)数据共享交换平台操作说明 (79)3.3.1交换节点管理 (81)3.3.2交换任务管理 (87)3.3.3交换监控 (88)数据治理平台操作说明 (89)3.4.1数据标准管理 (89)3.4.2治理指标管理 (90)3.4.3数据资产管理 (91)3.4.4数据治理规则应用 (92)3.4.5治理调度配置工具 (93)3.4.6治理分析统计 (94)3.4.7治理知识管理 (95)前言关于本手册本手册将本系统实施步骤一步步进行详细阐述,由浅入深讲述系统实施时所有注意事项,并对本系统的主要功能及操作方法作以全面介绍,使您在使用过程中遇到问题时,能通过查阅本用户手册而得到轻松解决,深入浅出地了解该系统,并能灵活、有效地应用该系统,提升管理。
本手册主要包括以下内容:1.系统功能概述和特点;2.系统运行的软硬件环境3.如何使用本系统页面中的各个功能;4.如何对本系统进行设置;5.常见问题及处理;6.本系统的操作流程讲解。
还要提醒您注意的是,本手册中的页面图片只是列举的实例,可能与您在实际操作时略有不同,但并无大碍,相信您能够灵活地应用本系统解决实际问题。
预期读者本手册的主要对象是具体的实施操作人员,为他们提供实施操作方面的指引,帮助实施人员熟练操作本系统的各项功能,来完成日常的业务工作。
本手册以新办业务作为实例,讲解了系统的通用的操作流程和方式,其它业务与新办业务的操作方式基本一致,可以参照操作。
前提和假设假设您具有基本的计算机操作经验和知识,并假设您对本系统涉及的业务领域有整体的了解。
如果您没有使用过本系统,我们建议您接受一次或者更多的本系统的培训课程。
定义无系统概述系统权限2.1.1 用户权限在部门下创建用户名,由统一权限系统控制,不同部门的用户可以分配不同的权限。
2.1.2 菜单权限系统的菜单权限由统一权限系统控制,不同权限用户登录该系统展示不用的菜单列表。
2.1.3 数据权限本次所有功能菜单根据是否需要权限控制;具体数据权限规则:受统一权限控制中心用户的关联部门相关系统登录1. 在浏览器的地址栏中输入:http://h:p/portal,进入单点登陆系统,统一身份认证管理系统的如下登录页面:2. 输入用户账号与密码和验证码,点击【登录】按钮,进入系统的如下主界面(不同的用户登录根据不同的权限设置,显示的菜单会不同):平台操作说明数据采集平台操作说明数据采集是针对不同的数据源,配置发布不同的数据采集任务。
3.1.1 数据源管理该模块对各种数据库进行统一管理储存,包括关系型数据库和非关系型数据库,提供查看、新建、编辑、删除和库表管理功能。
1.界面按钮1)新增:新增数据库配置信息,ip地址和所属部门是完成前两步之后得来的。
如果数据库类型选择的是phoenix,则需要选择是否通过安全认证选择了安全认证填写其他配置信息和上传认证文件。
2)编辑数据库配置信息3)库表管理①查看表字段4)查看将数据库名作为超链接可查看数据库连接基本信息5)查询查询条件:所属部门、数据库名模糊查询,可重置6)删除:删除数据库配置信息3.1.2 结构化数据采集工具结构化数据数据采集任务模块可以新建,编辑,删除,发布,监视一个采集任务。
配置结构化数据数据采集任务可以将关数据库数据采集到传统其他关系数据库、文件、以及大数据平台。
1.结构化数据数据采集界面:包括查询条件以及采集任务列表2.界面按钮:1)查询:根据所选查询条件查询证照2)重置:将查询条件均置为默认值3)新增:会跳出一个数据库采集任务的配置流程,配置流程主要包括:基本属性、采集配置、数据存储/传输、数据加工四个步骤,如下基本属性:填写服务的基本信息,描述这个服务的作用,选择对应的部署结点。
配置交换频率,可选择周期执行、定时执行、手工执行;配置是否启用日志记录;配置是否启用数据质量检查。
这里第一步骤填写完整点击下一步,如果没有弹出报错提示,则数据已经存储到数据库,可以在界面查看、编辑。
采集配置:这里对采集数据源进行指定,配置抽取方式(触发器、Oracle CDC、全表对比、增量字段、全量抽取),以及选择相应的扩展属性。
示例选择【增量字段】,点击数据源下拉选择数据库,点击【数据库表】选择对应的数据表,选择了数据库表后就可以下拉增量字段、主键字段选择相应的表字段,点击【扩展属性】、【文本路径字段处理】弹出其他设置,点击【数据集采集处理后置事件】弹出填写框,点击【记录采集处理后置事件】弹出填写框,点击【上一步】可以返回上一步修改设置。
图选择数据库表图采集数据集处理后置事件图采集记录处理后置事件数据存储/ 传输:这里配置数据从关系数据库采集后存储的目的地,存储/ 传输方式就是选择输出数据库。
可选关系数据库、文件服务器、消息服务器、HBase、Hadoop HDFS、Hive。
可配置相应的高级属性。
示例选择关系数据库,下拉选择数据源:点击【选择表】选择对应的存储表;选择入库方式(增量入库、历史表入库);选择失败处理方式(记录异常日志、数据回滚);点击【数据集处理后置事件】填写弹出框,点击【记录处理后置事件】填写弹出框,点击【主键策略】弹出其他设置填写,点击【文本路径字段处理】弹出是否启用文件路径字段处理。
图高级属性-主键策略图高级属性-文本路径字段处理数据加工:这里配置传统数据库字段对应相应的大数据平台数据库字段,关系数据库,文件等字段的一一映射关系,同时支持字段处理(脱敏/转换/加解密)。
示例选择mysql数据库到mysql数据库。
首先选择采集字段、映射字段,保存之后就可以对字段进行转换、脱敏、加解密、编辑按钮是可以重新选择采集字段、映射字段、删除就是删除这个映射关系。
这个过程可以对字段进行简单的脱敏处理。
图选择采集字段及映射字段图转换-数据字典映射图转换-默认值转换图脱敏-字段脱敏-常用脱敏器图脱敏-掩码替换图加解密图加解密-Digest图第四步骤编辑、删除4)发布/取消发布:数据采集设置四个步骤配置完整即可以发布任务,如果没有配置完整会弹出“请完善数据服务设置!”,如果设置完整则会弹出是否确认发布任务提示框,点击【确定】发布任务,任务发布后不可以再编辑任务设置,只能查看,任务发布后【发布】按钮会变成【取消发布】按钮,可以取消发布。
图发布-请完善服务设置图发布-是否发布确认5)删除:删除这个采集任务设置。
6)监视:打开新页面:这个服务编号的监控页面。
7)服务编号:服务编号超链接到数据采集日志。
8)编辑:会跳出一个数据库采集任务的配置更新流程,配置流程主要包括:基本属性、采集配置、数据存储/传输、数据加工四个步骤,页面与新增相同,如果原来已经新增过数据则会加载出来,没有就需要重新编辑保存。
9)查看:同【编辑】,区别就是没有修改配置的功能。
3.1.3 大数据采集工具大数据采集任务模块可以新建,编辑,删除,发布,监视一个采集任务。
配置大数据采集任务可以将大数据库数据采集到传统其他关系数据库、文件、以及大数据平台。
1.大数据采集界面:包括查询条件以及采集任务列表2.界面按钮:1)查询:根据所选查询条件查询证照2)重置:将查询条件均置为默认值3)新增:会跳出一个数据库采集任务的配置流程,配置流程主要包括:基本属性、采集配置、数据存储/传输、数据加工四个步骤,如下基本属性:填写服务的基本信息,描述这个服务的作用,选择对应的部署结点。
配置交换频率,可选择周期执行、定时执行、手工执行;配置是否启用日志记录;配置是否启用数据质量检查。
这里第一步骤填写完整点击下一步,如果没有弹出报错提示,则数据已经存储到数据库,可以在界面查看、编辑。
采集配置:这里对采集数据源进行指定,配置抽取条件;点击【上一步】可以返回上一步修改设置。
数据存储/ 传输:这里配置数据从大数据库采集后存储的目的地,存储/ 传输方式就是选择输出数据库。
可选关系数据库、大数据酷酷等。
示例选择关系数据库,下拉选择数据源:点击【选择表】选择对应的存储表;数据加工:这里配置传统数据库字段对应相应的大数据平台数据库字段,关系数据库,文件等字段的一一映射关系,同时支持字段处理(脱敏/转换/加解密)。
示例选择mysql数据库到mysql数据库。
首先选择采集字段、映射字段,保存之后就可以对字段进行转换、脱敏、加解密、编辑按钮是可以重新选择采集字段、映射字段、删除就是删除这个映射关系。
这个过程可以对字段进行简单的脱敏处理。
图选择采集字段及映射字段图转换-数据字典映射图转换-默认值转换图脱敏-字段脱敏-常用脱敏器图脱敏-掩码替换图加解密图加解密-Digest图第四步骤编辑、删除4)发布/取消发布:数据采集设置四个步骤配置完整即可以发布任务,如果没有配置完整会弹出“请完善数据服务设置!”,如果设置完整则会弹出是否确认发布任务提示框,点击【确定】发布任务,任务发布后不可以再编辑任务设置,只能查看,任务发布后【发布】按钮会变成【取消发布】按钮,可以取消发布。
图发布-请完善服务设置图发布-是否发布确认6)监视:打开新页面:这个服务编号的监控页面。
7)服务编号:服务编号超链接到数据采集日志。
8)编辑:会跳出一个数据库采集任务的配置更新流程,配置流程主要包括:基本属性、采集配置、数据存储/传输、数据加工四个步骤,页面与新增相同,如果原来已经新增过数据则会加载出来,没有就需要重新编辑保存。
9)查看:同【编辑】,区别就是没有修改配置的功能。
3.1.4 爬虫数据采集工具爬虫数据采集任务模块可以新建,编辑,删除,发布,监视一个采集任务。
配置爬虫数据采集任务可以将数据采集到传统其他关系数据库、文件、以及大数据平台。
1.爬虫数据采集界面:包括查询条件以及采集任务列表2.界面按钮:1)查询:根据所选查询条件查询证照2)重置:将查询条件均置为默认值3)新增:会跳出一个数据库采集任务的配置流程,配置流程主要包括:基本属性、采集配置、数据存储/传输、数据加工四个步骤,如下基本属性:填写服务的基本信息,描述这个服务的作用,选择对应的部署结点。