T ongT ech®TI-ETL v2产品白皮书北京东方通科技公司2015年目录1 前言 (1)2 为什么要用ETL (1)2.1 业务需求 (1)2.2 IT需求 (2)2.3 IT与业务一致性要求 (2)3 TI-ETL v2简介 (3)3.1 产品组成结构 (3)3.1.1 集成开发工具 (4)3.1.2 服务器 (5)3.1.3 资源库 (5)3.1.4 统一管理平台 (6)3.2 产品结构关系 (7)3.3 转换流程和任务流程 (8)3.3.1 转换流程 (8)3.3.2 任务流程 (9)4 主要功能和特点 (10)4.1 大数据适配 (10)4.2 强健的ETL引擎 (10)4.3 丰富的系统适配 (11)4.4 资源统一存储 (11)4.5 丰富的处理组件 (11)4.6 多种数据抽取模式 (11)4.7 图形化操作/调试/预览能力 (11)4.8 高效数据处理 (12)4.9 异常恢复和数据一致性 (12)4.10 强大的监控管理功能 (12)4.11 插件式组件管理和可扩展性 (12)4.12 国产环境支持 (13)5 成功案例 (13)1前言随着IT应用建设的发展,数据成为了最重要的资源,无论是接地气的业务系统、应用软件、数据中心或是高大上的云/物/移/大/智,均是以数据资源为核心,依托发挥数据价值而存在和发展。
目前,虽然各行业IT发展成熟度不一致,但基本已经度过了大批量业务系统建设阶段,业务系统也经过了几年的运转,积累了不同量级的数据资源。
但因早起IT业务系统的很少跨部门、跨单位、跨层级的统一规划和建设,导致业务系统处于分散、独立的状况,业务间数据资源不仅处于烟囱状态,数据资源的一致性和互用性较差,数据资源的价值无法充分发挥。
此外,各行业自身业务也在逐渐多元化和复杂化,业务产生和所需使用的数据也就具有不确定和频繁变动性,导致一旦应用发生变化、新增系统或物理数据变动,一旦无法借助某些手段适应变化,整个应用和数据体系均有较大可能不得不随之修改。
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,通过应用间的数据有效流通和流通的管理从而达到集成,主要解决数据的分布性、异构性、有效性和及时性的问题。
此外,数据集成是个长期不断持续的过程,需要有易用的工具、长期可靠的运行环境、全面有效的监控管理共同支撑,而非仅通过工具可以一次性解决的。
ETL是数据集成领域的落地技术,区别与传统数据交换,ETL在可完成基本数据交换(抽取、传输、装载)的前提下,对数据的转换(即数据的按需加工处理)提供更易用和更强大的支持,使数据在不同业务之间流动的同时,各业务获取到的数据确实是可有准确、及时、有效应用的。
TI-ETL是从传统数据交换产品继续发展的产物,有着多年的数据集成领域产品研制的积淀,已在大交通(海/陆/空)、大政府、国防工业、企业等行业核心系统中成功应用,辅助众多行业和用户逐渐发挥出了数据的价值,提升了IT支撑业务的有效性。
2为什么要用ETL2.1业务需求IT建设随业务发展,业务过程以数据贯穿,即业务有效性的基础是数据,且有效性又包含可获得性、及时性、准确性和一致性。
在信息化早起,因信息系统较少、业务关系复杂度较低,对数据关注度也较低。
随着各单位自身的发展,内部组织机构、多级组织机构建设愈发全面,业务关系也愈发复杂,各内部组织以及跨不同单位之间均会因为业务关联产生数据有效关联、互用的需求。
例如单位内人力作为人资管理的职能部门,新人入职、人员在部门间调动、人员岗位晋升等人员变动情况会影响向财务、档案、信息管理等多个部门的业务,包括工资涨降、档案归档、固定资产关联等等,即人资信息发生变化时需要其它同样存储了该信息的业务部门也能够自动完成信息变更。
例如部委需要从各下级委办局汇总数据,各委办局业务系统可能是分别由不同厂商建设,虽然是处理同样的业务,但业务系统存储数据的格式和方式不同。
以数据项“部门名称”为例,有的业务系统存储是的汉字,也的存储的可能是数字编码,此时虽然数据都能汇总到一起,但数据却无法合并,即使汇总后也可能无法支撑业务。
2.2IT需求数据大多以数据库、文件为存储载体,数据库和文件又存在多个品牌和版本,所以业务数据往往是分散在不同品牌、版本的数据库和文件中,业务系统间能够按需的互用数据则需要通过IT手段实现对不同数据源的按需适配、按需采集、按需处理、按需装载以及通过图形化界面操作定义数据间的关系和处理逻辑,实现一次定义长期有效执行,同时提供全局的可视化监控管理,能够随时掌握业务间数据交互的有效性。
2.3IT与业务一致性要求“按需”是业务诉求,对应IT则包括了采集、加工处理、装载、监控、运维、管理等技术要求,以满足业务层面对可获得性、及时性、准确性、一致性的需求,多以ETL产品和技术实现IT支撑:(1)ETL提供多种数据源适配组件,可与多种主流数据库、文件、通信协议进行对接,保障采集的全面适配,提供高可获得性。
(2)ETL提供触发器、时间、CDC等多种数据采集模式,可根据业务对及时性的定义以及业务数据存储的现状选择不同模式,并且提供并行等高效处理机制,提供高及时性。
(3)ETL提供丰富的数据加工处理组件达到100+,且可根据业务规则灵活拼接处理流程,提供高准确性和高一致性。
(4)ETL提供基于Web的监控管理中心,在满足核心业务需求的同时提供易用、可视的运维、监控、管理、监视的统一管理能力。
3TI-ETL v2简介东方通数据集成产品TI-ETL,提供对企业数据的集成处理功能。
通过TI-ETL产品,用户可以从不同结构的数据源中抽取数据(Extract),对数据进行复杂的加工处理(Transform),最后将数据加载到各种存储结构中(Load)。
例如实现从多个异构的数据源(不同数据库、结构化文件等)抽取数据,并加工成统一的数据格式,最后加载到数据仓库中,供商业智能(Business Intelligent,BI)等应用使用。
TI-ETL提供一个简单易用的开发、管理工具,提供覆盖从数据集成逻辑的设计、开发、调试、部署,到运行、管理、监控各个生命周期不同阶段的集成开发工具。
通过TI-ETL可以实现对数据集成流程的开发和部署;通过监控和日志功能,可以实现对数据集成的运行过程进行实时监视,对集成流程历史数据进行分析。
TI-ETL提供了一个强健、高效的数据处理引擎,支撑各种复杂的数据转换流程、任务调度流程的高效运行。
引擎采取异步并行处理的技术,实现流程中的每个组件多线程并行高效处理;支持集群部署方式,允许将转换或转换中的比较耗时的数据处理组件部署在多台服务器上并发执行,从而将转换的工作分摊到多台服务器上,从而提高TIETL的数据处理效率。
TI-ETL基于Java技术和标准数据库接口(JDBC、ODBC等),支持部署在各种主流操作系统和国产操作系统上,支持与各种主流数据库、开源数据库、国产数据库的接入,支持对各种结构化/非结构化格式文件的读写,以及通过多种协议与其他应用系统的交互。
TI-ETL提供大量的任务组件和转换组件,如多源的数据合并、数据的路由、数据行列转换、字典表查询、定时重启、循环调度、流程告警等,用户可以通过拖拽方式快速完成各种复杂的数据集成需求和集成的调度控制,无需人工编码,快速构建数据集成应用。
TI-ETL提供Web形式的统一管理平台,用于将分布式网络环境中部署的TI-ETL服务器运行实例及运行在TI-ETL服务内的任务流程集中统一管理监控。
提供功能级和数据集的权限管理,可定义的错误告警机制,自定义面板等。
同时管理平台提供丰富的管理Rest API接口和方便的管理扩展机制,方便客户集成统一管理平台并扩展自己的插件集成到平台中。
3.1产品组成结构TI-ETL产品架构由集成开发工具TI-ETL Studio、TI-ETL服务器、资源库、统一管理平台四大核心部分组成,如下图所示。
图:TI-ETL v2产品组成结构3.1.1集成开发工具TI-ETL Studio集成开发工具是一个集开发、调试、配置、部署、执行、监控、日志、管理等功能于一体的平台。
通过该平台实现从数据集成需求到实现的快速转化,并实现对整个生命周期的管理。
➢开发/调试TI-ETL Studio提供大量的任务组件和转化组件,通过这些组件,以图形化的方式,实现数据集成流程的快速编排。
TI-ETL Studio还提供了功能强大的调试预览功能,可以在开发过程中实现数据行级别的调试和预览,跟踪和观察每一行数据经过数据集成流程中每一个转化组件进行加工处理的结果。
通过集成开发工具开发调试完成的数据集成流程保存到资源库中统一存储管理。
➢远程管理TI-ETL Studio通过ETL服务器的远程接口,实现对服务器的管理。
包括数据集成流程的分布式部署、远程执行、对执行状态的实时监控、对执行日志进行查看和分析。
TI-ETL Studio的监控管理功能可以对运行中的流程执行暂停、开始、停止、解部署等控制,同时还可以对数据处理状态进行实时监控,包括每个组件处理的记录数、过滤的记录数,并且可以得到每个组件处理数据的性能指标和整个集成流程的性能指标。
3.1.2服务器TI-ETL服务器是一个TI-ETL的逻辑节点,包含对数据集成流程的执行能力,并通过HTTP 协议对外开放对服务器的管理接口。
➢E TL引擎TI-ETL服务器包含两个执行引擎:任务引擎和转换引擎,分别实现对任务调度管理的任务流程和完成对实际数据抽取、加工处理、加载的转换流程的执行。
在TI-ETL服务器启动时,可以检查部署在该节点上的数据集成流程,并执行配置为“自动重启动”的流程,其他非自动重启动的流程需要手工启动。
在TI-ETL数据流程中,数据是以行为单位进行处理,如下图所示,TI-ETL通过两个对象描述一个数据行:数据对象和元信息对象。
数据对象实际的行数据,由一个或多个数据列(字段)组成;元信息对象用于描述数据对象,包括数据对象中每个列(字段)的类型、长度、格式等。
➢监控管理接口TI-ETL服务器还提供了对运行时的监控和管理功能,这些功能通过Java、HTTP、REST等多种封装形式对外开放。
通过这些接口,第三方应用可以将监控管理功能集成到自己的管理控制台中进行统一监控管理,实现对TI-ETL的远程管理,如流程部署、流程控制、转换监控、日志查看等功能。
➢认证授权TI-ETL服务器提供了完善的认证授权机制,只有通过认证和授权的用户,才可以通过监控管理接口实现对服务器的管理和监控。
3.1.3资源库TI-ETL资源库用于持久化存储TI-ETL的元数据,包括ETL服务器的配置信息、任务流程信息、转换流程信息、基础资源信息(如数据库连接)等。