当前位置:文档之家› IBM大数据实时处理与精准分析 数据质量解决方案

IBM大数据实时处理与精准分析 数据质量解决方案

满足业务与治理目标
常见数据质量问题
数据不完整
关键ID 缺少,或者明 显位数不符;
部分辅助信息的代码不 规范很多是文本描述;
历史数据保留期限不一 致。
数据 不完整
数据 不一致
数据质量表现
数据不一致
相关联业务系统数 据不同步;
不同系统之间描述 同一业务问题的数据 定义存在差异。
数据逻辑错误 违反业务规则 违反业务代码定义
8
Information Analyzer 功能?
• 源系统分析
Table & Primary KeyTaAbnlaely&sPisrimary Key Analysis
• Column analysis
Column Analysis
• Table analysis
Source 2
• Primary Key analysis • Foreign Key analysis
标准化 & 清洗
•InfoSphere QualityStage •InfoSphere MDM
监控 & 管理
•InfoSphere Information Analyzer •InfoSphere Meta Data Workbench
数据质量剖析:InfoSphere Information Analyzer
Information Server – Data Quality
清洗数据,监控数据质量,将数据资产变为可信赖的信息
分析数据,清洗数据并控制数据质量
分析
利用源数据分析了解您的问题 自动发现关键数据和隐藏的数据关系
清洗
分析,标准化,匹配,存留数据 最广泛以及定制化的解决方案
控制和监控数据质量
在任意位置跨系统的访问和监控你的数据质 量(数据库或数据流) 通过独一无二的功能优化数据质量指标,以
•Current-to-Prior Comparison •Content & Structural Variation
基于业务规则的数据质量分析
Exames below 0.
Director Metadata Workbench
元数据管理
大数据质量
BigInsights BigQuality
Blueprint Director Discovery Information Analyzer QualityStage Information Services
Data Profiling: Cross Table Analysis
•Foreign Key Relationships •Referential Integrity •Cross-Domain Relationships •Data Redundancy
Data Profiling: Baseline Analysis
未能及时发现问题将花费 10 到 100 倍成本解决上游遗留下来问题
数据质量管理
剖析和定义
•InfoSphere Discovery •InfoSphere Data Architect •InfoSphere Business Glossary •InfoSphere Information Analyzer
IBM 数据质量解决方案
何应龙
大数据整合及大数据质量管理
主要组成部分
大数据整合
BigInsights BigIntegrate
Blueprint Director Discovery Data Architect FastTrack Data Click DataStage Change Data Delivery Information Services
What is it? 用于企业数据源的数据剖析、分析和监控工具
• 数据剖析 • 数据质量监控
What does it do? 分析数据源,揭示信息的结构、内容和质量
• 发现缺失、不准确和不一致的数据 •贯穿生命周期监控数据质量 Who uses it? 商业和数据分析员、数据质量专员、数据架构师和数据管理员、 数据集成项目领导和实施人员。
Source 1
• Duplicate analysis
• 规则分析
• 建立和执行多种层面的规则 (通过规则、记录和模式)
Foreign Key & Duplicate Analysis
Foreign Key & Duplicate Analysis
• 运行调度机制
• 产生各种类分析报告
Information Analyzer 自动剖析
数据逻 辑错误
数据 有错误
数据有错误 重复数据记录 冗余数据 非法键值
痛苦之处 – 脏数据带来的代价
83% 数据整合项目不能按时 完成或失败
调整和重做增加 成本
使用人缺乏信心
不准确或不完整数据是导致BI 和CRM项目失败的主要原因
25% 时间浪费 在对“坏”数据作
澄清处理
失去商机
数据质量较差导致公司每年 花费 $6110 亿
•Domain Values & Validation •Data Classification •Data Properties •Formats
Data Profiling: Table Analysis
•Primary Keys (single or multicolumn) •Key Duplicates
数据源分析 - 多功能数据档案轮廓内容 分析:
定义& 元数据术语 对分析结果或分析行动作
注释说明 数据结构属性评估 从域、格式和重要识别对
数据冗余作评估
- 交付分析结果:
报告 可共享元数据 发布分析结果
•关键分析数据的完整图形 支持和显示
•潜在问题进行了标记,便 于识别
•识别和分类数据的算法
Data Profiling: Column Analysis
Director Metadata Workbench
Information Governance Catalog
Blueprint Director Discovery Data Architect Information Services
Director Metadata Workbench
相关主题