当前位置:文档之家› 大数据技术的创新与实践

大数据技术的创新与实践


星环科技 公司成立
式SQL引擎(Inceptor)能 稳定处理100TB,支持分布 式事务和存储过程,Spark
2013
技术已经领先于国外同行
Gartner发布数据
Hortonworks 成立,MapR 成立
Greenplum发布 Hadoop版本 Pivotal HD
2014
Spark成为 Apache顶级
Context Independent Data Warehouse 上下文无关联数据仓库
2020/5/4
数据源不断增多,访问和数据同步变得复杂;开 始包括非结构化和半结构化数据;上层业务和使 用部门增多,资源管理和安全控制变得困难。
Logical Data Warehouse 逻辑数据仓库
数据量增大、应用不断增加, 运行沉重缓慢,不堪重负 Scalable Traditional Data Warehouse 可伸缩的云计算架构数据仓库
7
今日议程
1
大数据发展趋势
2 大数据业务创新
3
大数据技术实践
2020/5/4
8
传统数据仓库技术面临的挑战
数据处理延时长,无法看到实时运营状况 Operational Data Warehouse 实时数据仓库
企业 数据仓库
原先的逻辑数据模型,不能有效支撑数 据快速分析和价值发现;需要新的方法 发掘数据的统计相关性、因果关系、关 联关系等规律。
仓库与数据管理解 决方案魔力象限, 首次将Hadoop厂 商作为远见者进行 评判
2011
2013
项目,所有 Hadoop发行 版厂商宣布支
持Spark
2016
HADOOP timeline
2006
Google发表 BigTable论文 Apache Hadoop 项目正式成立
2020/5/4
Cloudera 作为第 一个Hadoop发行 版公司成立
9
Hadoop大数据平台应具备的能力
实时数据
CRM

ERP

业 务
HR

统 Finance
……
Kafka
实时接收
ETL 调度
T+0 ~ T+1
非/半结构化数据
社交网络 宏观政策/
经济 其他信息
Flume …
实时推荐 精准营销 实时风控
实时运维预警
审计业务 用户画像 数据仓库
小微贷款 产品差异化定价 担保链分析
智慧银行
将数据资产 转化为业务价值
智能化、认知技术
① 数字化->信息可视化->智能化 ② 嵌入式BI->敏捷BI ③ 全员探索 ④ 报表->数理统计->自我学习 ⑤ 认知技术
移动互联
① 移动App ② O2O线上线下融合
云平台、云计算、区块链
① Iaas/Pass/Saas,公有云/私有云
② 虚拟化VS容器技术
ACRM
大数据技术的创新与实践
2020/5/4
1
今日议程
1
大数据发展趋势
2 大数据业务创新
3
大数据技术实践
2020/5/4
2
未来有哪些可以巧借的创新技术?
大数据
① 关系型->MPP->Hadoop ② 数据湖、信息水库、数据资产 ③ 数权法、数据交易所
物联网、VR虚拟技术
① 2020年25亿设备联网 ② 自动驾驶 ③ 虚拟技术
2008
雅虎贡献Hadoop 源码 Hadoop成为 Apache顶级项目
2011
Hadoop2.0 发布,引入资 源管理YARN
2013
Spark发布
2015
Spark的流行将 逐渐让 MapReduce、 Tez走进博物馆
Cloudera创始人将 Impala作为交互式SQL 引擎,其他Hadoop组件 迁移到Spark上来
Cloudera公布继 HBase以后的第一个 Hadoop原生存储替 代方案——Kudu
5
大数据在金融行业的能力进阶
大数据相关技术 给企业带来更强的数据处理和计算能力,使得
较难实现的需求快速突破了原有技术瓶颈。


• 无监督深度学习
• 事件触发式自动推理引擎
• 自适应进化演算
• 自然语言理解与虚拟机器人
Google发表GFS 论文,第二年发表 MapReduce论文
2004
2003
Hadoop第一 个版本发布
2007
Doung加入 雅虎并开始 部署Hadoop
2006-2008
星环科技核心研发 团队同步开始 Hadoop平台研发
HBase发布
2008
Facebook 开源HIVE
2009
星环科技基于Spark的交互
Data Engineers 数据分析师
数据、统计软件、统计模型等方面的专家,充分 理解计算机处理“陷阱”或误区。
Business Analyst 业务分析师
利用在线分析处理和多维工具,创建新的业务模型, 部分人员熟悉计算机语言和计算机处理技术。
Casual User 普通用户
定期使用门户和预置接口,较少有设计多维分析 的能力。

• 作业数据直接存储


统计分析 数据存储与联机查询
• 客户细分统计分析、客户户画像
• 支持历史数据在线查询 • 支持明细查询、关键字查询及全文索引
2020/5/4
6
大数据技术的人才储备战略
2020/5/4
Data Scientist 数据科学家
统计学、抽象数学、编程、业务流程等方面的专 家。负责沟通与领导。
real-time
大数据技术的高速发展
interactive
batch
RDBMS
数据处理的软件栈在过去十年中从底向上几乎全部被重写 2020/5/4
EB PB TB
集中式计算 -> 分布式计算
4
Hadoop技术发展与现状
Doung Cutting创 立Nutch搜索项目, 并基于Google论 文实现 DFS / MapReduce
自主学习
• 产品差异化定价 • 信用风险、催收分析、关联风险

决策支持
• 流动性风险实时预警 • 反欺诈(在线欺诈、欺诈网络、索赔欺诈…)
实 时
• 业务数据探索 • 模型测试验证
数据探索与业务预测
• 业务趋势预测 • 客户行为预测(流失预测、精准营销)
• 业务统计报表 • 自助报表分析

线
• 生产数据实时与T+1复制
③ 区块链
2020革
新技术在四个维度上快速增加处理能力
大数据量 Volume
高速 Velocity
多样 Variety
准确价值 Veracity
可处理的数据量从TB、PB增加到EB
从离线处理进步到实时数据处理
记录、文本、图片、音频、视频等多种数 据类型 从基于历史的统计,发展到数据挖掘和预 测性分析
相关主题