当前位置:文档之家› 用户行为大数据分析过程踩过的坑及解决方案最新PPT

用户行为大数据分析过程踩过的坑及解决方案最新PPT


平 台 改 进
建立主数据仓库,数据准确性提高 深度应用yarn,提高资源利用率 引入Kafka,spark streaming ,具有实时数据接入与处理能力 引入azkaban任务调度,调度稳定,可视化,日志可查 引入Monitor,实时任务监控 引入presto,内部应用 Hive执行引擎优化, Tez替换原生MR 对外提供轻量 OLAP服务和Data API服务 平台稳定性, HDFS HA,YARN HA, HBASE HA , Spark HA 平台稳定性,优化日志接受服务 平台稳定性, mysql 主从备份,redis 主从备份
分享要点
01 平台发展历程 02 2015-初步尝试 03 2016-快速成长
04 2017-初步成型
2016-快速成长
业务数据 业务数据 业务数据
Informatica
主数据仓库
授权
实名
客户
用户
加密锁
数据集市 授权 客户 用户
数据服务
Kafka集群
HIVE
Spark Spark SQL
IO OLAP
TEZ
Compute Engine
IO API
HDP集群
日志数据
1日志接受服务HTTP
日志接受服务TCP
Apollo RabbitMQ
实时清洗
Presto
Monitor
CASE-01 HBASE 数据迁移
Hbase数据迁移失败 处理流程:
? h照b方ase式使对用需快要 迁移的表进行
备份
数据备份
数据拷贝
? 按业务指标 聚合
行为数据
挂接主数据
? 分析计算
优点
先聚合后关联,数据量大幅减低 减少需要shuffle的数据 行为数据能获取最新的主数据
CASE-02 Hbase 数据载入
背景: 每天增量行为数据入Hbase,前端分析查询
处理流程:
? Hive sql 计算结 果存储Hive外部 表
跑批处理
读取计算结果

YARN
日志数据
日志接 受服务
ETL程序 (python)
CASE-01 行为数据分析算法
背景: 没有建立主数据仓库,导致主数据的处理和行为数据交叉处理,计算 量大,逻辑复杂,难以排错。
处理流程:
? 主数据入 HIVE仓库
主数据处理
行为数据处理
? 行为数据 入HIVE 仓库
? HIVE仓库挂 接主数据
外挂主数据
业务指标计算
? 分析计算
CASE-01 行为数据分析算法
面 大数据量join,大量数据跨节点交换 临 计算时间超长 问 主数据和行为数据耦合度太高 题 Hive数据变更困难
CASE-01 行为数据分析算法
优化方案:
? 建立主数据 仓库
? 单独处理
主数据处理
行为数据处理
? 行为数据入 HIVE仓库
平台架构缺点:
? 资源利用不充分 ? 计算任务耗时长 ? 无实时处理能力 ? 单点问题 ? 监控问题 ? 平台优化,稳定性问题
2015-初步尝试
工部部 会员中心
ETL程序 (python)
ETL清
数据

仓库
1
2
CDH集群

业 调 度
JOIN
清过 合 输 洗滤 并 出
Hbase


数据

HIVE
集市
CASE-02 Hbase 数据载入
优化方案:
Map01 Map02 Map03
reduce01 reduce02
Hfile
bulkload
Hbase
优点
MR分布式生成 Hfile,并行 ,提高效率
bulkload, 一次性导入 ,Hbase压力小
Bulkload 大批量数据写入 适用场景
一次写入,频繁读取
Azkaban
Kafka01 Kafka02
清过 合输 洗滤 并出
Spark Streaming HBASE
Kafka03
TEZ
Compute Engine
IO API
HDP集群
日志数据
日志接受服务HTTP 日志接受服务TCP
Monitor
Apollo RabbitMQ
Presto
2016-快速成长
2015-初步尝试
工部部 会员中心
ETL程序 (python)
ETL清
数据

仓库
CDH集群 作

调 度
JOIN








HBASE
HIVE YARN
日志数据
日志接 受服务
ETL程序 (python)
业务数据流 行为数据流



数据

集市

2015-架构特点
平台架构特点:
? 计算逻辑全 sql化,简单易于维护
? Python 程序读 取据hive外部表数
? Python 调用 api ? 逐批写入 ? 10000条每批
写入HBASE
CASE-02 Hbase 数据载入
面 临 问 题
Python 读取hive结果,需拉取结果至本地 单节点写入,性能差 数据量大,逐批写入耗时长 Hbase压力问题(hbase 无预分区)
? 通过网络将数 据导入到新集 群内
?使用快照对 表进行恢复
数据恢复
问题
?移h后ba无se法数查据询迁
CASE-01 HBASE 数据迁移
主数据仓库
数据集市
业务数据 业务数据
Informatica
授权 客户
实名 用户
授权 客户
数据服务
业务数据
加密锁
用户
3
2
Kafka集群
HIVE
Spark Spark SQL
IO OLAP
Azkaban
Kafka01 Kafka02
清过 合 输 洗滤 并 出
Spark Streaming HBASE
Kafka03
2016 CDH -> HDP 数据规范制定 与造价 BG合作 接入造价数据 建立相关数据仓库 接入 CRM 、授权等
2017 集群扩容 规范推广 权限管理 深化数据应用体系 国际化数据接入 施工数据接入 ……
分享要点
01 平台发展历程 02 2015-初步尝试 03 2016-快速成长
04 2017-初步成型
用户行为分析大数据平台 演进与经验分享
分享要点
01 平台发展历程 02 2015-初步尝试 03 2016-快速成长
04 2017-初步成型
分享要点
01 平台发展历程 02 2015-初步尝试 03 2016-快速成长
04 2017-初步成型
平台发展历程
2015 集群搭建 CDH 集群 与工信部合作 工信部行为分析
2016-快速成长
平 台 不 足
Kafka集群和 HDP集群共享,耦合度高 Hbase 集群和 HDP集群共享,耦合度高 ES 集群和HDP集群共享,耦合度高 实时检索日志,受条件限制 平台响应外部需求慢
无法对外提供平台即席查询
平台缺乏权限及配额管理,无法对外开放平台资源
2016- 快速成长 -成长的烦恼
相关主题