当前位置:文档之家› 大数据导论-思维、技术与应用 第2章 大数据采集

大数据导论-思维、技术与应用 第2章 大数据采集


社交网络 交互数据
移动互联 网数据
数据结构
结构化 半结构化 非结构化
大数据分类
在大数据体系中,将传统数据分类为业务数据,而将传统数据体系中没 有考虑过的新数据源分为线下行为数据、线上行为数据和内容数据三大 类。
业务数据
消费者数据、客户关系数据、库存数据、账目数据等;
行业数据
车流量数据、能耗数据、PM2.5数据等;
PART 02 系统日志采集方法
许多公司的平台每天都会产生大量的日志,并且一般为流 式数据,比如搜索引擎的pv和查询等。处理这些日志需要 特定的日志系统。目前使用最广泛的用于系统日志采集的 海量数据采集工具有Hadoop的Chukwa,Apache Flume, Facebook的Scribe和LinkedIn的Kafka等
2 系统日志采集
系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供进行离线和在线的大 数据分析系统使用。高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。 系统日志采集工具均采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求。
大数据采集方法分类
3 网络数据采集
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。网 络爬虫会从一个或若干初始网页的URL开始,获得各个网页上的内容,并且在抓取网页的 过程中,不断从当前页面上抽取新的URL放入队列,直到满足设置的停止条件为止。这样 可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。
大数据采集方法分类
4 感知设备数据采集
感知设备数据采集是通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获 取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能 化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。主要关键技术 包括针对大数据源的智能识别、感知、适配、传输、接入等。
日志系统特征
许多公司的平台每天都会产生大量的日志,并且一般为流式数据,比如 搜索引擎的pv和查询等。处理这些日志需要特定的日志系统,这些系 统需要具有以下特征:
1 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;
2
支持近实时的在线分析系统和分布式并发的离线分析系统;
3
具有高可扩展性,也就是说,当数据量增加时,可以通过增加节点进行水
内容数据
应用日志、电子文档、机器数据、语音数据、社交媒体数据等;
线上行为数据 页面数据、交互数据、表单数据、会话数据、反馈数据等;
线下行为数据 车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。
大数据主要来源
大数据的主要来源有:
1 企业系统:客户关系管理系统、企业资源计划系统、
数据源
数据类型
库存系统、销售系统等; 2 机器系统:智能仪表、工业设备传感器、智能设备、
3
平扩展。
系统日志采集方法
目前使用最广泛的用于系统日志采集的海量数据采集工具有Hadoop 的Chukwa,Apache Flume,Facebook的Scribe和LinkedIn的 Kafka等
Hadoop的 Chukwa
Apache Flume
Facebook的 Scribe
Apache Flห้องสมุดไป่ตู้me的基本概念
大数据采集概述
大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、 社交网络和互联网平台等获取数据的过程。 数据包括RFID射频数据、传感器数据、用户行为数据、社交网络交互 数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的 海量数据。
数据包括
RFID射 频数据
用户行 为数据
传感器 数据
大数据采集方法分类
1 数据库采集
传统企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。随着大数据时代的 到来,HBase、Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。通过在采 集端部署大量数据库,并在这些数据库之间进行负载均衡和分片来完成大数据采集工作。
大数据采集方法分类
Flume是一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。 Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供 对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、HBase等)的 能力。
Flume的核心是把数据从数据源(Source)
Source
视频监控系统等; 3 互联网系统:电商系统、服务行业业务系统、政府
监管系统等;
4 社交系统:微信、QQ、微博、博客、新闻网站、朋
企业系统 机器系统 互联网系统 社交系统
行业数据
业务数据
内容数据
线上行为 数据
线下行为 数据
友圈等。
数据源与数据类型的关系图
大数据采集方法分类
数据的采集是指利用多个数据库或存储系统来接收发自客户端(Web、App或者传 感器形式等)的数据。比如,电商会使用传统的关系型数据库MySQL和Oracle等 来存储每一笔事务数据,在大数据时代,Redis和MongoDB和HBase等NoSQL数 据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千 上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在 峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。 根据数据源的不同,大数据采集方法也不相同。但是为了能够满足大数据采集的需 要,大数据采集方法都使用了大数据的处理模式:MapReduce分布式并行处理模 式或者基于内存的流式处理方式。
Sink
收集过来,再将收集到的数据送到指定的
目的地(Sink)。为了保证输送的过程一 Web
定成功,在送到目的地之前,会先缓存数
大数据导论
第二章
CONTENTS 目录
PART 01 大数据采集概述 PART 02 系统日志采集方法 PART 03 网络数据采集方法 PART 04 习题
PART 01 大数据采集概念
采集是大数据处理流程的第一步。数据是大数据处理的基 础,数据的完整性和质量直接影响着大数据处理的结果。 采集是大数据处理流程的第一步。数据是大数据处理的基 础,数据的完整性和质量直接影响着大数据处理的结果。
相关主题