ETL工具优缺点对比分析
--kettle和Informatica 目前业内比较主流的ETL工具有很多,本文主要对开源kettle和Informatica这两款工具,从各方面进行对比分析。
一、数据捕获能力
1、如果要对数据库进行实时监控,kettle通常会采用CDC的方式,Informatica会采取PWX的方式。
优点:可以准确的识别变化数据,包括上游系统被删除的数据。
缺点:CDC和PWX都需要部署在核心数据库服务器,会对核心数据库造成一定压力。
2、如果不采用实时监控,采用其他方式抽取,(比如时间戳)。
优点:不需要在核心服务器部署,对核心服务器基本不会造成压力。
缺点:被删除的记录,以及手工修改但是没有修改时间戳的记录无法在下游数据库识别。
二、整体性能对比
1、Informatica处理数据能力比kettle强。
2、Informatica属于收费软件,出现困难问题,可以找厂商解决。
3、kettle比较容易上手,Informatica需要充足的学习准备。
4、kettle部署相对简单。
三、数据处理能力
ETL工具在处理数据的时候,要目标库日志空间,表空间足够。
日志需要定期清理,表空间自动扩展就好。
kettle:可以高效处理千万级别以下数据。
Informatica:可处理上亿量级的数据。
四、实时监控对核心数据库压力
CDC:部署在核心数据库,读取核心数据库的归档日志,会在核心数据库生成实体表(每次数据变化,都会生成条记录,可以清理)。
PWX:部署在核心数据库,对核心压力较小,但是如果异常中断,重新启动的时候,会占用较大服务器资源。