大数据工作流程
分布式文件系统
数据预处理 数据采集
数据相互转移
数据抽取、转换、装载过程
一、大数据处理流程简析
分布式并行处理运算MapReduce
数据采集
数据预处理
数据存储
数据分析挖掘
结果展现
常 用 工 具
chukwa
Sqoop
HDFS HBASE
HIVE maout
PowerView
二、、分布式并行处理技术MapReduce
HDFS
三、各处理流程相关技术简析
数据展现
聚类算法结果展示
数据源
提取 数据
转换 数据 格式
map/ reduce
存储 数据
目标数据 存储区
Chukwa数据采集原理
三、各处理流程相关技术简析
数据预处理
SQL与HBASE、HIVE之间进行内容传递时,需要一个数据转移工具,如 Sqoop。其工作过程如下:
SQL
Sqoop
Sqoop
Sqoop
Sqoop
Map
Map
Map
HDFS/HIVE/HBas e
三、各处理流程相关技术简析
数据存储
HDFS结构
三、各处理流程相关技术简析t挖掘 数据价值
数据分析挖掘
机器学习、数据挖掘、语义搜索……
MapReduce
HIVE查询统 计用户行为 数据
HIVE数据仓库
MapReduce
大数据处理流程及 相关工具介绍
目录
1
大数据处理流程简析
2
分布式并行处理技术MapReduce
3
各处理流程相关技术简析
(基础常识、工作原理、常用工具)
一、大数据处理流程简析
结果展现 数据分析挖掘 数据存储
PowerView 动态图表
机器学习、数据挖掘、语义搜索
海量结构化存储系统
海量非结构化存储系统
MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段, 可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。
单词技术问题
原文本
分割文本
生成新的文本
结果归拢排序
MapReduce工作流程
三、各处理流程相关技术简析
数据采集
数据采集是数据分析、挖掘的基础,常用的海量数据采集工具有Hadoop的 Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架 构,能满足每秒数百MB的日志数据采集和传输需求。