大数据时代的数据集成
转换和交付数据到任何系统,提升时间价值
按照各种不同需求在不同的源和目标 之间整合与转换数据…
以最强的运行扩展性满足最复 杂的转换需求 转换和汇聚任意数据量 数百种内置转换控件和函数 基于元数据驱动的产品,促进团 队协作 通过基于Web浏览器的仪表盘来 快速监控管理运行环境 管理你的数据转换需求以满足业 务要求
提升业务价值
Application Efficiency Single View Security & Compliance
可信赖的信息
InfoSphere
信息整合 数据质量 主数据管理 数据生命 周期管理 隐私&安全
元数据和信息治理策略
不确定数据
Transactions Applications
Content
warehouse
BigIntegrate & BigQuality HDFS
BigIntegrate
(& BigQuality)
HDFS
增强的360º视图
通过整合关 联新数据源 与构建数据 综合视图来 增强关键业 务的洞察力, 例如客户信 息
For business use cases, see backup
大数据时代的数据集成
何应龙 资深信息集成专家
大数据市场和信息整合,数据治理需求旺盛
前所未有的数据数量,多样性,速度,超越了之前任何一个时代!
大数据带来了新机会,新视野,同时也面临新的数据精确性挑战!
Volume Velocity
terabytes
Variety
12
of Tweets create daily
运用内置独一无二的,可追溯的方法论构建项目
技术
通过发现数据结构,理解数据世袭来满足合规要求
独一无二发现业务目标的能力
丰富的大数据源接口
• 高速,并行读写HDFS – 新一代File Connector Stage – BigData File Stage Common JDBC Connector
billion
meter readings per annum
Predict power consumption
500
million
80%
of
data growth
call detail records per day
Prevent customer churn
is images, video, documents
Turning Uncertain data into trusted information improved business value
Retain important Identify risk & Deliver costclients effective compliance fraud Effectively launch new products Application Consolidation & Retirement
满足业务与治理目标
Information Governance Catalog
理解你的信息,把信息转换为企业资产
理解和治理的三个维度
业务
从业务角度获取和管理信息,并与IT系统保持一致
领先的技术,面向业务的访问和预定义的术语 高效的关键行业数据仓库模型
流程
以最佳实践指导项目,以达到降低风险的目标
探索性分析
MDM
BigIntegrate & BigQuality HDFS
以更敏捷和 迭代方式, 更快的探索 和发现新的 洞察
BigIntegrate & BigQuality HDFS
InfoSphere 数据整合和治理平台
Increase revenue with analytics Big Data, Data Warehousing, & Analytics Reduce data costs
trade events per second
Identify potential fraud
5
million
100’s
of
video feeds
from surveillance cameras
Monitor events of interest
Analyze product sentiment
350
Social Media
Machine Data
Mobile
统一数据集成平台
数据整合 数据 质量 广泛链接 高可扩展架构
统一设计环境
一套设计套件 统一元数据存储 统一管理中心
使用模式 分布式交易 平衡优化器
元数据支持
企业应用包
工业标注
业务规则
数据屏蔽
Information Server – Data Integration
Information Server – Data Quality
清洗数据,监控数据质量,将数据资产变为可信赖的信息
分析数据,清洗数据并控制数据质量
分析
利用源数据分析了解您的问题 自动发现关键数据和隐藏的数据关系
清洗
分析,标准化,匹配,存留数据 最广泛以及定制化的解决方案
控制和监控数据质量
在任意位置跨系统的访问和监控你的数据质 量(数据库或数据流) 通过独一无二的功能优化数据质量指标,以
– – Apache Derby IBM BigInsights SQL Drivers
•
•
其他大数据和NoSQL 数据源
– – – – InfoSphere Streams Connector ODBC for Hive Java Integration Stage: Hbase, MongoDB, Cassandra, Apach Avro, Jaql…etc. Sample: https:///developerworks/communit y/files/app?lang=en#/folder/4645e12a-7bdb40ed-a103-f1160b707758
Improve customer satisfaction
Veracity: 我们可以信赖看到的数据吗?
典型大数据应用场景
Data Reservoir和逻辑数据仓库
现代数据仓 库架构通过 Data Reservoir 提升效率及 TCO,扩展 分析范围
warehouse
数据仓库卸数
通过卸载 “dark data” 或数据沙箱 改善现有数 据仓库的投 资效率