当前位置:文档之家› 数据仓库的基本原理

数据仓库的基本原理

在ETL开发的初期可以每天向业务单位发送过滤数据的 邮件,促使他们尽快地修正错误,同时也可以做为将来 验证数据的依据。
数据转化
不同的数据库厂商,提供的数据类型可能不同。
例子:
不同的时间表达方式
2000-2-3 2/3/2000
2000/2/3
不同的坐标系统
WGS84 西安80’3 度带 北京54’3度带
账务数据库
客户服务数据 库
市场信息数据 库
面向主题分析
收益数据
客户数据
市场数据
计费数据库


业 务
客户服务数据库


账务数据库
市场信息数据库
面向主题的数据仓库
为了解决上述问题,数据仓库把上述数据集中。
客户基本信息表
客户呼叫记录表
客户标识号
客户标识号
客户姓名
客户呼叫时间
客户年龄
客户呼叫地点
客户地址
用来在多维商业模型和前端工具之间建立映射的, 叫做决策支持系统元数据。具体包括数据仓库中信 息的种类、存储位置、存储格式;信息之间的关系、 信息和业务的关系、数据使用的业务规则;数据模 型;数据模型和数据仓库的关系。
元数据
系统
数据
系统
数据
元数据
数据集市
数据仓库中的信息按照不同的主题来组织。 举例:市场发展趋势的分析主题,由市场部门的人使 用。 为避免在全部的巨量数组中检索,把某主题的数据逻 辑上或物理上分离出来,可称为数据集市。
W.H.Inmon把数据仓库定义为
“用于管理决策支持的面向主题、 集成、稳定、随时间变化的数据 集合”。
面向主题、集成、稳定、随时间 变化是4个最重要特征。
面向主题 业务系统一般是以优化事务处理的方式构造数据结构
的,因此某个主题数据常常分布在不同的业务数据 库中,对于决策支持不利。
业务系统
计费数据库
services
OGC WMS
OGC WFS
数据仓库存储 多维数据库 关系型数据库 两者的结合
数据 数据仓库中的原始数据是由业务系统提取的或外部数 据源导入,经过清洗、转化而来。
为了完成OLAP分析和数据挖掘,必需在原始数据基 础上增加冗余信息与预运算。
元数据 数据仓库的元数据是主要包含两类数据: 为了从操作型环境向数据仓库环境转换而建立的元 数据,包含所有源数据项的名称、属性及其转化。
外部数据源
从系统外部获取的,与分析主题相关的数据。
例子:超市采购部门确定采购货单 既要了解超市内部产品的销售情况,还要了解市场上 的信息,后者即为外部数据源。
外部数据源越来越多地采用服务的技术
ArcGis rest 服务 /ArcGIS/rest/
数据的一致性和完整性 数据库设计、应用的开发、系统的维护方面共同努力。
操作型数据的特点 细节的 在存取的瞬间是准确的 可更新 操作需求通常事先可知 生命周期符合SDLC 对性能(如操作时延)要求高 一个时刻操作一个数据单元 事务驱动 面向应用 一次操作数据量小 支持日常操作需求
分析型数据的特点 综合的、经过提炼的 代表过去的数据 不更新 分析需求通常不知道 生命周期不同于SDLC 对性能要求较宽 一个时刻操作一个数据集合 分析驱动 面向分析 一次操作数据量很大 支持管理需求
数据仓库系统的功能和构成
企业决策层
多维查询 OLAP 数据挖掘 预测
数据存储 提取、清洗、转换








业务数据库
数据挖掘分析系统/数据展现系统
数据 市场
数据 市场
数据 市场
数据 市场
数据仓库存储 数据
元数据
外部系 统
数据清洗/转换 数据提取
提取仓库
业务操作 型系统
数据提取 业务数据库中并不是所有的数据都是决策支持所必需 的。所以要把必需的那部分提取出来。
数据格式:比如电话号码在不同数据库中采用 char(10)、varchar(50)、integer格式,没有统 一。
测量单位:不同的数据库中对于统一属性的测量 单位可能不同,比如时间使用微妙、秒、分钟、 小时
例子:某超市确定以分析客户的购买行为为主题建立 数据仓库。 需要提取的数据:与客户购买行为相关的 关于员工的数据没有必要提取。
数据清洗 数据不完整性 数据中的错误 数据的不同步
按缺失的内容分别写入不同Excel文件向客户提交,要 求在规定的时间内补全。补全后才写入数据仓库。
错误产生的原因是业务系统不够健全,在接收输入后没 有进行判断直接写入后台数据库造成的,可用SQL语句 进行查找和改进
例子:
客户基本信息表
客户咨询信息

客户号:100
客户号:100
姓名:张山
姓名:张三
年龄:23
咨询问题:…
两个表中,客户姓名不同。这是常见的错误
客户基本信息表
客户号:100 姓名:张山
年龄:23 手机服务状态:正常
客户业务变更信息表 客户号:100 姓名:张山 业务变更:停机
由于不同数据库之间的数据刷新不是实时的,所以 数据不同步。
数据集市面向某个部门。
数据集市
数据仓库
数据的安全性
本地数据的安全性:数据加密、访问权限设置。 网络访问数据库:网络安全机制、网络传输中的数据 加密和鉴权、防止监听和口令泄漏。
数据处理的并发性 加锁解锁实现同步与互斥 多线程,多进程技术,磁盘的存储优化,合适的索引 提高并发访问的效率。
事务处理的可靠性 原子操作不能分开执行,如果某步骤失败,系统必须 返回并更改操作。
客户呼叫号码
呼叫时长

客户话费表 客户标示号
呼叫费率 …
客户咨询表
客户本月总话费
客户标识号
本月通话费
客户咨询内容
本月短信费咨询答案……数据在数据仓库中还 是以数据表的形式 存储,但数据的组 织方式和建模方法 有大的变化
现有业务数据库系统中的数据是分散的。而决策支持 需要集成的数据。
实际上,要对分散的数据进行集成,首先要完成对数 据的清洗和转化。而数据转化会遇到如下问题:
提取仓库 正是因为业务数据库系统中的数据和数据格式存在不 一致的问题。将数据放进数据仓库前要先放进提取仓 库,等待清洗和转换。
数据提取
清洗 转换
提取日志 记录了仓库中数据的来源,数据的转化过程。便于保 证和验证数据的质量
数据管理员 不同于数据库管理员或系统管理员。 在数据导入时负责管理数据质量的专业人员。 查阅提取日志,发现数据提取中出现的错误 有时还要检测源于业务系统的错误。
相关主题