1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。
如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。
针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。
Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。
DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。
其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。
其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
2、【第二章】datastage安装配置EE 版在AIX unix 安装先决条件建立dsadm 用户使用如下命令:useradd -d /home/dsadm dsadm准备好必备文件*.tar.z解压缩文件先使用命令:gzip -d *.Z将*.Z 的文件解压缩为*.tar 的文件在使用命令:tar -xvf *.tar将*.tar 的文件解压缩为含有install.sh 的一组文件开始安装运行命令./install.sh进入图1 所示画面:图1 提示安装程序检测是否是新安装DataStage, 输入y,继续安装过程,进入图2 所示画面: 图2 所示画面提示是root 安装还是non-root 安装,输入y 进入图3 所示画面:图3 所示画面提示版权信息,输入n 进入图4 所示画面: 图4 所示画面提示版本信息,输入n 进入图5 所示画面图5 所示画面提示License Agreement, 输入y 进入图6 所示画面图6 所示画面提示选择安装文件中压缩包解压缩的临时路径,目标文件夹必须要有600M 以上的空间,默认unpack,改变输入c,输入n 则进入图7 所示画面:图7 所示画面输入DataStage licence,包括序列号,CPU 个数,有效日期,授权码等信息。
输入完成后按面:图8 所示画面提示输入RTI,SAS,IMS 相关授权码,此项为可选项,视情况输入,也可不输直接按n 进入图图9 所示画面提示输入DataStage 的安装路径,按c 可进行改动,按n 则进入图10 所示画面:图10 所示画面提示选择安装语言的种类,默认为英语,我们需要将其变换为简体中文。
输入c,然后选择5图11 所示,确认选中简体中文后,按n 进入图12 所示画面:图12 提示需要安装的插件,若安装全部,输入a,如图13 所示:在图13 所示画面上,按n, 并输入新建立的工程的名称,SGMEDWPRITP,如图14 所示画面: 在图14 所示画面上,按回车键进入图15 所示画面:在图15 所示画面上,选择新建立工程的存放路径,选择默认路径直接回车进入图16 所示画面:图16 所示画面提示建立的Project 是否是保护的,输入U 则不保护。
进入图17 所示画面:结束新建,直接输入回车,进入图18 所示画面:在图18 所示画面上,输入n 进入图19 所示画面:在图19 所示画面上提示PXEngine 的安装路径,选择默认路径,按n 进入图20 所示画面:在图20 所示画面上提示输入ORACLE 的安装路径,按n 进入图21 所示画面:在图21 所示画面上提示输入SAS 的安装路径,按n 进入图22 所示画面:在图22 所示画面上提示输入DB2 的安装路径,按n 进入图23 所示画面:在图23 所示画面上提示DataStage 的安装路径和相关信息,按n 进入图24所示画面:(系统自动安装ge 安装过程中陆续出现的。
当图35 所示画面出现时,表示DataStage 安装结束。
3、【第三章】DatastageEE版ForAIX 的基础操作前边章节已经做过相应的阐述,在aix 上安装使用的用户是 dsadm用户。
Datastage 默认安装的目录在/home/dsadm/Ascential下边 linux/unix 系统中进行datastage Server 端的所有维护基本上在用户dsadm 下边进行。
下边将会列举一下常用的维护命令在了解一些基本命令前先清除一下安装后的几个目录和文件的含义/home/dsadm/Ascential/DataStage/DSEngine/bin 是datastage 的常用维护命令和系统运行所需的一些命令/home/dsadm/Ascential/DataStage/DSEngine 存放着user 和系统注册的一些信息/home/dsadm/Ascential/DataStage/projects 系统默认创建注册的开发工程几个Datastage 重要文件含义1.Dsenv :datastage 运行的环境配置下边给出一个dsenv 的例子其中含有配置连接 Oracle db2,sap 部分使用su – dsadm 可以切换到该用户下边进行一些维护调试工作。
Uv – admin start 是启动ee 服务Uv – admin stop 停止服务4、【第四章】我的第一个Server Job工程DataStage Designer 是整个的开发环境其中按照新建的JOB 不同。
内置Stage 组件也不同Job 类型分为a) New Job Sequence :Job工作序b) New MainFrame job:主应用 Jobc) New Parallel Job 并行执行jobd) New Parallel Shared Container 并行共享容器e) New Server Job 标准server Jobf) New Server Shared Container server 共享容器从ODBC Stage 名字上来看。
顾名思义就是使用odbc 数据管道为数据源的stage 只要是存在odbc 驱动的数据源以及aim 都可以进行连接给出一个最简单的例子看一下soruce 跟aim 源是如何设置设置好后可以进行字段的导入了转换到outputs 页上GeneralColumnsSelectionView SqlTransaction Handing首先设置General 作为数据源的表名字如果在字段列表中没有使用到的字段列表需要通过下列方式导出红线标出的即时导出要使用的表使用Load 功能把字段导入近来,注意:此处一个小技巧。
在进行多 job 开发式时如果只是使用Load 功能把字段连接上,但是在前边设置的数据源连接可能出现问题。
最好的方式使用view Data 功能显示一下数据。
在建立了多个job 后如果出现设置错误问题。
可能出现莫名其妙的问题。
这样方便调试最后一页的设置方法是同样的:主要是事物的设置,在多Job工作在同一个数据源上或者似乎table 上时必须选择目标stage 也是使用同样的设置方式设置完成后进行对交换的字段进行设置上图体现的部分就DSink21 是数据源的字段列表DSLink22 是目标的字段列表如果源字段与目标字段相同就可以直接使用自动匹配连接,反之使用手工连接连接好以后直接确定,确定后就基本上完成了,可以进行编译脚本文件。
如果编译没有错误。
如下图所示可以运行至此察看日志,这个job 基本运行完毕5、【第五章】DataStage 程序介绍安装完毕datastage,会在系统注册三个系统进程服务,可以在控制面板中看到一组控制服务datastage Control panel 管理器。
也可以在我电脑右键管理中,系统服务看到这三个服务1. datastage Engine Resourece Sever2. Datastage Telnet Service3. DSRPC ServiceDataStage Administrator用来执行管理任务,如建立DataStage 用户、建立和删除工程并且建立清洗标准。
注意:在Host system 中填写datastage server 安装的计算机。
如果是本地请使用localhost,如果使用127.0.0.1 需要在datastage 安装目录配置文件+影射关系连接datastage 版本7.5ee版以下的datastage Administrator 说明以7.5ee 版进行输入用户名密码后登陆的界面如下在该tab 上有三页:1。
General :进行版本NLS、Inactivity timeout do not timeout 三个选项的设置2. projects :第二页是工程部分的设置。
此部分是重点,跟该工程相关所有设置都在此处进行3.Licensing5.2【第五章第二节】DataStage Director这个是 datastage directory 的登陆界面Datastage directory 是一个job 的管理、调试log 追踪的综合管理工具上图是dat astagedirectory 的管理登陆界面上图看到的是登陆以后的情况。
显而易见左边是datastage directory 的综合工程目录层次显示。
右边是该详细的显示一些job 的运行时信息其中用的最多的是菜单中的job 和tool 2 个菜单中的内容Datastage director 的详细使用会在后变项目中做详细介绍5.3【第五章第三节】DataStage DesignerDataStage Stage 介绍DataStage Design 环境介绍(Server Job 部分)DataStage Designer 是整个的开发环境其中按照新建的JOB 不同。