当前位置:文档之家› 大数据实战:仿天猫用户行为分析

大数据实战:仿天猫用户行为分析

1
FLUME NG
3
2
KAFKA STREAM
REALTIME PROCESS
5
应用程序
LOG
4
FLUME NG
HDFS
1 2
bin/flume-ng agent -c ./conf/ -f ./conf/log-kafka.properties -n agent
java -cp kafkastream.jar com.atguigu.kafkastream.Application master01:9092, slave01: 9092,slave02:9092 master01:2181,slave01:2181,slave02:2181 log process 3 bin/spark-submit --class com.atguigu.sparkstreaming.Application --master local[3] ~/hadoop/logStreaming/logStreaming.jar master01:9092,slave01:9092,slave02:9092 process realtime 4 bin/flume-ng agent -c ./conf/ -f ./conf/kafka-hdfs.properties -n agent
Sqoop
数据源
数据 采集
数据 存储
数据 计算
数据 应用
离线计算?流式计算
Part
2
整体架构介绍
平台技术架构
Stream
Streaming Exec
Batch Dispatcher
RDD
Flume-日志采集组件
Kafka-数据队列与缓冲组件
Topic A(水管) Topic B(水管) Topic C(水管)
WEB SOCKET
FLUME NG
KAFKA STREAM
REALTIME PROCESS HDFS
SPARK CORE + SQL
MQ 可视化
LOG
FLUME NG
MySQL
Flume- log to kafka
log Kafka
核心配置文件: source: sink:
数据处理流程架构
Spring
仿天猫用户行为分析
武玉飞
目录 Contents
01 02 03 04
大数据概述 整体架构介绍 数据处理流程介绍 软件体系架构介绍 平台分阶段讲解 操作与实践
05 06
Part
1
大数据概述
日志数据处理的必要性?
提高 服务
消费
行为
优化 运营 数据 处理
日志 数据
我们要做什么
……
非结构化 数据
数据生命周期
Kafka – kafka Stream
Topic A(水管) Topic Log(水管) Topic Process(水管)
Kafka stream
核心代码:
数据处理流程架构
Spring
WEB SOCKET
FLUME NG
KAFKA STREAM
REALTIME PROCESS HDFS
SPARK CORE + SQL
核心代码:
数据处理流程架构
Spring
WEB SOCKET
FLUME NG
KAFKA STREAM
REALTIME PROCESS HDFS
SPARK CORE + SQL
MQ 可视化
LOG
FLUME NG
MySQL
Part
6
操作与实践
基础环境部署与启动
Log 数据源 Flume Agent Zookeeper Apache Kafka Hadoop Master Spark master Zookeeper Apache Kafka Hadoop Slave Spark worker Zookeeper
MySQL
Spark – Spark SQL
HDFS
SQL
核心代码:
数据处理流程架构
Spring
WEB SOCKET
FLUME NG
KAFKA STREAM
REALTIME PROCESS HDFS
SPARK CORE + SQL
MQ 可视化
LOG
FLUME NG
MySQL
Spring – Rest(Spring MVC)
MQ 可视化
LOG
FLUME NG
MySQL
328862,637637,662,3828,1446,07,28,0,6,0,山东省,117.17,38.62 2017-06-20 01:07:57,236 INFO ---[main] com.atguigu.loggenerate.LogGenerate(line:72): >>> 328862,637637,662,3828,1446,07,28,0,6,0,山东省,117.17,38.62
SPARK CORE + SQL
MQ 可视化
LOG
FLUME NG
MySQL
[117.17,38.62] 328862,637637,662,3828,1446,07,28,0,6,0,山东省,117.17,38.62
Spring – kafka - activemq
Topic Realtime(水管)
抽水送水服务
加工调度
查询数据库
Stream
Streaming Exec
Batch Dispatcher
RDD
平台技术架构(回顾)
Stream
Streaming Exec
Batch Dispatcher
RDD
Part
5
平台分阶段讲解
日志是啥?有啥?
访问时间
访问的网页
把哪个商品加入了购物车
购买了哪个商品 用户的ID是啥
REALTIME PROCESS HDFS
SPARK CORE + SQL
MQ 可视化
LOG
FLUME NG
MySQL
Part
4
软件体系结构介绍
软件平台架构
Spring MVC
realtime
Spring Integration Kafka Service Realtime Service Batch Service Spring Data JPA
WEB SOCKET
FLUME NG
KAFKA STREAM
REALTIME PROCESS HDFS
SPARK CORE + SQL
MQ 可视化
LOG
FLUME NG
MySQL
2017-06-20 01:07:57,236 INFO ---[main] com.atguigu.loggenerate.LogGenerate(line:72): >>> 328862,637637,662,3828,1446,07,28,0,6,0,山东省,117.17,38.62
Kafka stream
Hadoop-数据存储与计算组件
HDFS:存储
MapReduce:离线计算
Spark-数据内存计算组件
离线计算 Spark Core Spark SQL Spark Mlib Spark R
在线计算 Spark Streaming
大功率 高科技
软件平台开发技术
Java的开发框架,制作软件的服务端。 关系型数据库,用于保存软件平台的 数据。 小型kafka,软件开发中主要做异步通 信。 图表开发框架,用它可以做出好看的 图表界面。
用户的IP地址是多少(地理位置)
。。。。
数据需求分析
1. 2. 3. 4. 数据实时展示。 用户定位信息。 Spark Streaming WebSocket
数据需求分析
1. 2. 3. 4. 5. 数据批处理准实时展示。 用户数据留存 Spark批处理 批调度 结果通知
数据处理流程架构
Spring
平台技术架构
Stream
Streaming Exec
Batch Dispatcher
RDD
平台技术架构
Stream
Streaming Exec
Batch Dispatcher
RDD
Part
3
数据处理流程介绍
数据处理流程架构
Spring
WEB SOCKET
FLUME NG
KAFKA STREAM
3、尚硅谷保证代码的原创性。
Spark – Spark Streaming
Topic A(水管) Topic Process(水管) Topic Realtime(水管) Spark Streaming
核心代码:
数据处理流程架构
Spring
WEB SOCKET
FLUME NG
KAFKA STREAM
REALTIME PROCESS HDFS
……
……
Mahout Storm Flink Spark MapReduce
……
业务应用
Tableau BI分析 可视化 Echarts D3
图片视频
ETL工具
Scribe
Oracle
GreenPlum
半结构化 数据
日志数据
Flume Kafka
Cassandra HBase HDFS
结构化 数据
关系数据
Apache Kafka
Hadoop Slave
应用程序
数据库
相关主题