当前位置:文档之家› 【最新整理】大数据采集的技术方法.ppt

【最新整理】大数据采集的技术方法.ppt


Hadhoop的Chukwa
主要部件
(1)代理:负责采集最原始的数据, 并发送给收集器。 (2)适配器:直接采集数据的接口和 工具。 (3)收集器:负责收集代理收送来的 数据,并定时写入集群中。 (4)MapReduce分析 (5)多路分配器:负责对数据的分类、 排序和去重。
2.网络数据采集方法
3.其他数据采集方法对于源自业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过 与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
THANK YOU
(2)数据采集和处理的基本步骤
①将需要抓取数据 网站的URL信息写
入URL队列
②爬虫从URL队列 中获取需要抓取数 据网站的Site URL
信息
③爬虫从Internet 抓取对应网页内容, 并抽取其特定属性
的内容值
④爬虫将从网页中 抽取出的数据写入
数据库
⑤Dp读取Spider Data(数据), 并进行处理; ⑥Dp将处理后的 数据写入数据库
2.3大数据采集 的技术方法
1
2
3
4
1.系统日志 采集方法
2.网络数据 采集方法
3.其他数据 采集方法
Your Text
1.系统日志采集方法
很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如以下三种。这些系统均采 用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
Facebook的Scribe
Hadhoop的Chukwa
Cloudra的Flume
Facebook的Scribe
Scribe是facebook开源的日志收集系统,在facebook内部 已经得到大量的应用。它能够从各种日志源上收集日志, 存储到一个中央存储系统 (可以是NFS,分布式文件系统 等)上,以便于进行集中统计分析处理。它为日志的“分 布式收集,统一处理”提供了一个可扩展的,高容错的方 案。
Scribe架构
(1)Scribe agent scribe agent实际上是一个thrift client。 向scribe发送数据的 唯一方法是使用thrift client,scribe内部定义了一个thrift接口, 用户使用该接口将数据发送给server。 (2)scribe scribe接收到thrift client发送过来的数据,根据配置文件,将 不同主题的数据发送给不同的对象。 (3)存储系统 存储系统实际上就是scribe中的store。
(1)四个主要模块及功能
网络爬虫
从Internet上抓取网页内容, 并抽取出需要的属性内容。
URL队列
为爬虫提供需要抓取数 据网络的URL
数据处理
对爬虫抓取的内容进行处理
数据
① Site Url, 需要抓取数据 网站的 Url 信息; ② Spider Data, 爬虫从网页中抽取出 来的数据; ③ Dp Data, 经过 dp 处理之后的数据
相关主题