当前位置:文档之家› Kettle4.4配置使用文档说明

Kettle4.4配置使用文档说明

Kettle配置使用文档说明一、安装配置Kettle系统环境1.安装前准备JAVA安装文件下载地址:/technetwork/java/javase/downloads/java-archive-downloa ds-javase6-419409.html1.Windows下安装JDK1.6,并配置环境变量##下载Jdk1.6.exe直接执行安装程序2.Linux下配置JDK1.6,并配置环境变量###下载JDK1.6到目录/usr/java/###更改JDK可执行权限chmod +755 jdk1.6.xx.bin###执行安装./jdk1.6.xx.bin###配置JAVA环境变量vi /etc/profile# java 1.6 setupJAVA_HOME=/usr/java/jdk1.6.0_43PATH=$JAVA_HOME/bin:$PATHCLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/libexport JAVA_HOME PATH CLASSPATH###应用环境变量source /etc/profile###查看JAVA版本信息java -version2.Kettle下载解压到指定目录,下载kettle标准版工具包:/project/pentaho/Data%20Integration/4.4.0-stable/p di-ce-4.4.0-stable.zip解压到目录: D:\data-integration (目录可根据实际情况自定义)二、Kettle基本操作过程数据库操作说明:生产数据库: 10.176.0.221 DB : e2tms4 用户名: e2tms4 密码:1234567本地文本文件: D:\Db_file\outfile.txtKettle数据仓库: 10.176.0.221 DB : kettledb用户名: kettle 密码:12345671.启动Kettlet应用程序,打开D:\data-integration\下面的Kettle.exe或Spoon.bat,出现Kettle的欢迎界面之后出现用户登录界面,先不加载配置,点击”没有资源库”,打开程序主界面,2.kettle界面显示3.Kettle配置说明新建transformation文件,双击左边转换将创建一个新的transformation(也可以通过菜单里面的文件-新建-转换方式新建文件),点击另存为,保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation,文件保存后后缀名为ktr。

4.创建数据库连接池.在transformation页面下,点击左边的”主对象树”,右键”DB连接”选择”新建”,配置数据库连接,配置写成后点击”Test”查看数据库连接情况,如下提示表示正常,点击OK确认保存配置.使用以上方式,创建以下数据连接池.生产数据库master-data1: 10.176.0.221 DB : data1 用户名: data1 密码:1234567 生产数据库master-data2: 10.176.0.221 DB : data2 用户名: data2 密码:1234567 Kettle数据仓库kettledb: 10.176.0.221 DB : kettledb用户名: kettle 密码:1234567 配置完成后显示以下列表:5.导入测试数据,(现实数据库中不需要以下操作)生产数据库1: 10.176.0.221 DB : data1 用户名: data1 密码:1234567USE data1;CREATE TABLE userInfo (id int(11) NOT NULL,name varchar(20) DEFAULT NULL,age int(11) NOT NULL,address varchar(20) DEFAULT NULL,PRIMARY KEY (`id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;INSERT INTO userInfo(id,NAME,age,address) VALUES(1,'aaa',22,'成都市二环路'); INSERT INTO userInfo(id,NAME,age,address) VALUES(2,'东方红',25,'中国北京'); INSERT INTO userInfo(id,NAME,age,address) VALUES(3,'123',19,'广州白云区');生产数据库2: 10.176.0.221 DB : data2 用户名: data2 密码:1234567 Use data2;CREATE TABLE `login` (`id` int(11) NOT NULL,`realname` varchar(20) DEFAULT NULL,`username` varchar(20) DEFAULT NULL,`password` varchar(20) NOT NULL,`active` int(11) DEFAULT '0',PRIMARY KEY (`id`),UNIQUE KEY `realname` (`realname`),UNIQUE KEY `username` (`username`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;insert into login values(1,'aaa','admin','admin',0);insert into login values(2,'东方红','test','test',1);insert into login values(3,'123','xxx123','123456',1);本地文本文件: D:\Db_file\dbfile.txt 文件内容:sid; sname; teacher34; 123;徐老师78;aaa ;李老师152; 东方红;Mr Wu三、使用Kettle抽取、转换、装载数据1.表输入:在EtltestTrans页面下,点击左侧的【核心对象】,点击【输入】,选中【表输入】,拖动到主窗口释放鼠标。

双击工作区中【表输入】图标,数据库连接选择刚刚创建好的连接名为Oracle的数据库连接,在主窗口写入对应的查询语句:SELECT ID, NAME, AGE, ADDRESSFROM `userInfo`ORDER BY NAME同上所述,将master-data2生产数据库2也加入到表输入界面中.SELECT Id, realname, username, password, activeFROM loginORDER BY realname2.表连接查询在EtltestTrans页面下,点击左侧的【核心对象】,点击【连接】,选中【Merge Join】,拖动到主窗口释放鼠标:点击表输入,按住shift键,再拖动鼠标到Merge Join,这时就实现了在两个组建之间的连线。

如图:3.第一次连接查询双击工作区中的Merge Join,在出现的窗口里:步骤名称命名为:表连接查询第一个步骤选择:master-data1表输入第二个步骤选择:master-data1表输入连接类型选择:FULL OUTER在连接字段里,第一个步骤写:NAME,第二个步骤写:realname(或者自动获得连接字段后将多余字段删除)4.文本文件输入数据在EtltestTrans页面下,点击左侧的【核心对象】,点击【输入】,选中【文本文件输入】,拖动到主窗口释放鼠标。

双击这个图标,进入编辑窗口:在文件或目录中选择输入的文件,点击增加.打开字段选项,点击获取字段,显示出文本文件中所有字段信息,删除多余空白字段,点击预览记录,显示文本文件中取数据条数信息后显示出文本文件数据内容.5.第二次连接查询再次拖入一个表连接查询图标,将上次的查询结果与文本文件相连,再进行一次表连接查询。

6.插入/更新在EtltestTrans页面下,点击左侧的【核心对象】,点击【输出】,选中【插入/更新】,拖动到主窗口释放鼠标。

将它与第三次表连接查询进行连线。

7.将数据导入指定kettledb数据仓库双击”插入/更新”图标,进入编辑窗口。

数据库连接选择数据仓库的kettledb数据库,目标表选择对应的datatable表,在查询关键字里,表字段写name(表示仓库表里的字段),流里的字段1里写入NAME(即上一个步骤输入的内容里的NAME)。

比较符用”=”号。

第一次向数据仓库导入数据时,点击SQL选项,查看创建表语句结构,点击Execute执行创建..8.执行工作流,进行数据导出导入.点击运行,测试创建的transformation是否成功。

点击这个按钮,就会执行ETL过程,这时我们可以查看数据仓库的表,如果有数据,并符合我们的要求,那么说明我们的transformation成功了。

四、创建job工作流过程,Job就是把一个或多个transformation按照一定的顺序组合起来,形成一个流程。

1.创建job文件,通过菜单里的“文件-新建-作业”就可以创建一个job文件,点击另存为D:\etltest\jobtest.kjb。

2.创建工作作业流程拖入图标并连线,在EtlscriptJob页面,点击【核心对象】,点击【通用】,选中【START】拖动到主窗口释放鼠标,再选中一个【Transformation】,拖动到主窗口释放鼠标,建立【START】与【Transformation】之间的连接。

3. 编辑”开始”流程双击”START”图标,就进入编辑窗口,可根据实际需求更改定时时间操作。

4. 编辑transformation流程双击”transformation”图标,就进入编辑窗口。

输入job名称:如Etl-testpro,点击转换文件名后面的按钮,浏览我们我们要转换的文件,并选中。

其他的选项可以根据实际需要再进行配置。

点击确定按钮,退出编辑窗口。

图中各选项,根据实际情况进行选择使用.5.运行JOB工作流点击按钮,就可以运行这个job,运行情况会在界面下显示,job跟上面的转换其实是完成了同样的工作,job可以把多个transformation放在一起组成一个流程,什么时候用job 或transformation,是根据需要来定的,比如只有一个transformation时,就可以直接用transformation,但如果这个转换需要定时,那么就必须用job了。

相关主题