当前位置:
文档之家› 大数据导论-思维、技术与应用 第2章 大数据采集
大数据导论-思维、技术与应用 第2章 大数据采集
社交网络 交互数据
移动互联 网数据
数据结构
结构化 半结构化 非结构化
大数据分类
在大数据体系中,将传统数据分类为业务数据,而将传统数据体系中没 有考虑过的新数据源分为线下行为数据、线上行为数据和内容数据三大 类。
业务数据
消费者数据、客户关系数据、库存数据、账目数据等;
行业数据
车流量数据、能耗数据、PM2.5数据等;
PART 02 系统日志采集方法
许多公司的平台每天都会产生大量的日志,并且一般为流 式数据,比如搜索引擎的pv和查询等。处理这些日志需要 特定的日志系统。目前使用最广泛的用于系统日志采集的 海量数据采集工具有Hadoop的Chukwa,Apache Flume, Facebook的Scribe和LinkedIn的Kafka等
2 系统日志采集
系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供进行离线和在线的大 数据分析系统使用。高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。 系统日志采集工具均采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求。
大数据采集方法分类
3 网络数据采集
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。网 络爬虫会从一个或若干初始网页的URL开始,获得各个网页上的内容,并且在抓取网页的 过程中,不断从当前页面上抽取新的URL放入队列,直到满足设置的停止条件为止。这样 可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。
大数据采集方法分类
4 感知设备数据采集
感知设备数据采集是通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获 取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能 化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。主要关键技术 包括针对大数据源的智能识别、感知、适配、传输、接入等。
日志系统特征
许多公司的平台每天都会产生大量的日志,并且一般为流式数据,比如 搜索引擎的pv和查询等。处理这些日志需要特定的日志系统,这些系 统需要具有以下特征:
1 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;
2
支持近实时的在线分析系统和分布式并发的离线分析系统;
3
具有高可扩展性,也就是说,当数据量增加时,可以通过增加节点进行水
内容数据
应用日志、电子文档、机器数据、语音数据、社交媒体数据等;
线上行为数据 页面数据、交互数据、表单数据、会话数据、反馈数据等;
线下行为数据 车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。
大数据主要来源
大数据的主要来源有:
1 企业系统:客户关系管理系统、企业资源计划系统、
数据源
数据类型
库存系统、销售系统等; 2 机器系统:智能仪表、工业设备传感器、智能设备、
3
平扩展。
系统日志采集方法
目前使用最广泛的用于系统日志采集的海量数据采集工具有Hadoop 的Chukwa,Apache Flume,Facebook的Scribe和LinkedIn的 Kafka等
Hadoop的 Chukwa
Apache Flume
Facebook的 Scribe
Apache Flห้องสมุดไป่ตู้me的基本概念
大数据采集概述
大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、 社交网络和互联网平台等获取数据的过程。 数据包括RFID射频数据、传感器数据、用户行为数据、社交网络交互 数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的 海量数据。
数据包括
RFID射 频数据
用户行 为数据
传感器 数据
大数据采集方法分类
1 数据库采集
传统企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。随着大数据时代的 到来,HBase、Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。通过在采 集端部署大量数据库,并在这些数据库之间进行负载均衡和分片来完成大数据采集工作。
大数据采集方法分类
Flume是一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。 Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供 对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、HBase等)的 能力。
Flume的核心是把数据从数据源(Source)
Source
视频监控系统等; 3 互联网系统:电商系统、服务行业业务系统、政府
监管系统等;
4 社交系统:微信、QQ、微博、博客、新闻网站、朋
企业系统 机器系统 互联网系统 社交系统
行业数据
业务数据
内容数据
线上行为 数据
线下行为 数据
友圈等。
数据源与数据类型的关系图
大数据采集方法分类
数据的采集是指利用多个数据库或存储系统来接收发自客户端(Web、App或者传 感器形式等)的数据。比如,电商会使用传统的关系型数据库MySQL和Oracle等 来存储每一笔事务数据,在大数据时代,Redis和MongoDB和HBase等NoSQL数 据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千 上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在 峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。 根据数据源的不同,大数据采集方法也不相同。但是为了能够满足大数据采集的需 要,大数据采集方法都使用了大数据的处理模式:MapReduce分布式并行处理模 式或者基于内存的流式处理方式。
Sink
收集过来,再将收集到的数据送到指定的
目的地(Sink)。为了保证输送的过程一 Web
定成功,在送到目的地之前,会先缓存数
大数据导论
第二章
CONTENTS 目录
PART 01 大数据采集概述 PART 02 系统日志采集方法 PART 03 网络数据采集方法 PART 04 习题
PART 01 大数据采集概念
采集是大数据处理流程的第一步。数据是大数据处理的基 础,数据的完整性和质量直接影响着大数据处理的结果。 采集是大数据处理流程的第一步。数据是大数据处理的基 础,数据的完整性和质量直接影响着大数据处理的结果。