当前位置：文档之家› 大数据导论-思维、技术与应用第2章大数据采集

大数据导论-思维、技术与应用第2章大数据采集

社交网络交互数据
移动互联网数据
数据结构
结构化半结构化非结构化
大数据分类
在大数据体系中，将传统数据分类为业务数据，而将传统数据体系中没有考虑过的新数据源分为线下行为数据、线上行为数据和内容数据三大类。
业务数据
消费者数据、客户关系数据、库存数据、账目数据等；
行业数据
车流量数据、能耗数据、PM2.5数据等；
PART 02 系统日志采集方法
许多公司的平台每天都会产生大量的日志，并且一般为流式数据，比如搜索引擎的pv和查询等。处理这些日志需要特定的日志系统。目前使用最广泛的用于系统日志采集的海量数据采集工具有Hadoop的Chukwa，Apache Flume， Facebook的Scribe和LinkedIn的Kafka等
2 系统日志采集
系统日志采集主要是收集公司业务平台日常产生的大量日志数据，供进行离线和在线的大数据分析系统使用。高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具均采用分布式架构，能够满足每秒数百MB的日志数据采集和传输需求。
大数据采集方法分类
3 网络数据采集
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。网络爬虫会从一个或若干初始网页的URL开始，获得各个网页上的内容，并且在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足设置的停止条件为止。这样可将非结构化数据、半结构化数据从网页中提取出来，存储在本地的存储系统中。
大数据采集方法分类
4 感知设备数据采集
感知设备数据采集是通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。主要关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。
日志系统特征
许多公司的平台每天都会产生大量的日志，并且一般为流式数据，比如搜索引擎的pv和查询等。处理这些日志需要特定的日志系统，这些系统需要具有以下特征：
1 构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；
2
支持近实时的在线分析系统和分布式并发的离线分析系统；
3
具有高可扩展性，也就是说，当数据量增加时，可以通过增加节点进行水
内容数据
应用日志、电子文档、机器数据、语音数据、社交媒体数据等；
线上行为数据页面数据、交互数据、表单数据、会话数据、反馈数据等；
线下行为数据车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。
大数据主要来源
大数据的主要来源有：
1 企业系统：客户关系管理系统、企业资源计划系统、
数据源
数据类型
库存系统、销售系统等； 2 机器系统：智能仪表、工业设备传感器、智能设备、
3
平扩展。
系统日志采集方法
目前使用最广泛的用于系统日志采集的海量数据采集工具有Hadoop 的Chukwa，Apache Flume，Facebook的Scribe和LinkedIn的 Kafka等
Hadoop的 Chukwa
Apache Flume
Facebook的 Scribe
Apache Flห้องสมุดไป่ตู้me的基本概念
大数据采集概述
大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。数据包括RFID射频数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。
数据包括
RFID射频数据
用户行为数据
传感器数据
大数据采集方法分类
1 数据库采集
传统企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。随着大数据时代的到来，HBase、Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。通过在采集端部署大量数据库，并在这些数据库之间进行负载均衡和分片来完成大数据采集工作。
大数据采集方法分类
Flume是一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。 Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（比如文本、HDFS、HBase等）的能力。
Flume的核心是把数据从数据源（Source）
Source
视频监控系统等； 3 互联网系统：电商系统、服务行业业务系统、政府
监管系统等；
4 社交系统：微信、QQ、微博、博客、新闻网站、朋
企业系统机器系统互联网系统社交系统
行业数据
业务数据
内容数据
线上行为数据
线下行为数据
友圈等。
数据源与数据类型的关系图
大数据采集方法分类
数据的采集是指利用多个数据库或存储系统来接收发自客户端（Web、App或者传感器形式等）的数据。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，在大数据时代，Redis和MongoDB和HBase等NoSQL数据库也常用于数据的采集。在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。根据数据源的不同，大数据采集方法也不相同。但是为了能够满足大数据采集的需要，大数据采集方法都使用了大数据的处理模式：MapReduce分布式并行处理模式或者基于内存的流式处理方式。
Sink
收集过来，再将收集到的数据送到指定的
目的地（Sink）。为了保证输送的过程一 Web
定成功，在送到目的地之前，会先缓存数
大数据导论
第二章
CONTENTS 目录
PART 01 大数据采集概述 PART 02 系统日志采集方法 PART 03 网络数据采集方法 PART 04 习题
PART 01 大数据采集概念
采集是大数据处理流程的第一步。数据是大数据处理的基础，数据的完整性和质量直接影响着大数据处理的结果。采集是大数据处理流程的第一步。数据是大数据处理的基础，数据的完整性和质量直接影响着大数据处理的结果。

e商务文档

大数据导论-思维、技术与应用第2章大数据采集

相关文档推荐：

e商务文档

大数据导论-思维、技术与应用 第2章 大数据采集

相关文档推荐：

大数据导论-思维、技术与应用第2章大数据采集