当前位置:
文档之家› 大数据平台架构技术选型与应用场景
大数据平台架构技术选型与应用场景
可修改可删除
数据源的数据有些可能会修改或删除,尤其是许多维表经常需要变动。要 对这样的数据进行分析处理,最简单的办法就是采用直连形式。如果要进 行数据采集,就要考虑同步问题。
大数据量
lambda架构
一个典型的数据加载架构
数据存储的技术选型
取决于数据源的类型与数据的采集方式 取决于采集后数据的格式与规模 取决于分析数据的应用场景
HDFS MapReduce HBase Parquet SQL
统计分析 场景
实时流数据
Kafka
Streaming
查询检索场景
ElasticSearch
Cube
OLAP场景
数据源不同,采集方式也不一样。日志数据通过发送Kafka事件,而线上数 据则通过Sqoop同步。数据存储选择HDFS集群,然后通过Presto对Hive表 执行即席查询。S3是一个独立的存储系统。
数据处理理的分类
业务 角度 查询检索 数据挖掘 统计分析 深度分析
技术 角度
Batch MapReduce
场景一:舆情分析
kafka kafka ⺴⻚ kafka Spark Streaming 语音分析服务器流Biblioteka 理集群语义分析内部数据
HADOOP集群
维表 HIVE 规则 引擎 规则 实施 ElasticSearch HDFS
BI集群
增量 计算 通知 预警
报表呈现
场景二:商业智能产品
BI产品主要针对数据集进行的数据分析以聚合运算为主。我们既要满足大数 据量的水平可伸缩,又要满足高性能的聚合运算。选择Parquet列式存储, 可以同时满足这两个需求。
大大数据平台架构技术选型 与场景运用用
张逸 大眼科技联合创始人 CTO
监控
云端
部署
数据库
数据采集
数据存储
数据处理
文文件
WEB
资源
其他
数据源
数据源的特点
来源 结构 可变性 数据量量
内 部 数 据
外 部 数 据
非 结 构 化
结 构 化
不 变 可 添 加
修 改 删 除
大
小
数据源的特点决定了 数据采集与数据存储的技术选型
大大数据平台 特征
相同的业务数据会以多种不同的表现形 式,存储在不同类型的数据库中,形成 一种poly-db的数据冗余生态。
场景一:舆情分析
针对某手机品牌的舆情分析。客户提出的需求是能够对舆情数据进行全文本 搜索。舆情数据最高可能达到70亿条,而全文本搜索的性能指标要求响应时 间控制在10s以内。
内部数据
来自企业内部系统,可以采用主动写入技术(push),从而保证变更数据及 时被采集。
CRM
外部数据
api调用
⺴络爬虫
非结构化数据
结构化数据
不变可添加
如果数据源的数据是不变的,或者只允许添加(通常,数据分析的事实表, 例如银行交易记录等),则采集会变得非常容易,同步时只需要考虑最简 单的增量同步策略,维持数据的一致性也相对变得容易。
场景三:Airbnb的大数据平台
Airflow Scheduling(调度和监控平台)
Event Logs
Kafka
Gold Hive Cluster
Sqoop
Replication
Silver Hive Cluster HDFS
Spark Cluster
MySQL dumps
HDFS
S3
Airpal Presto Cluster Panoramix Tableau
SQL
Streaming
Machine Learning
Deep Learning
编程 模型
离线 编程模型
内存 编程模型
实时 编程模型
离线模型 内存模型
深度分析场景
R Mahout MLLib
流模型
结构化数据 半结构化数据 非结构化数据 Sqoop Flume Java NIO
Alluxio
Spark