当前位置：文档之家› 大数据采集技术概述

大数据采集技术概述

智慧IT
大数据采集技术概述
技术创新，变革未来
大数据中数据采集概念
数据采集(DAQ)：又称数据获取，是指从传感器和其它待测设备等模拟和数字被测单元中自动及被动采集信息的过程。

数据分类新一代数据体系中，将传统数据体系中没有考虑过的新数据源进行归纳与分类，可将其分为线上行为数据与内容数据两大类。

在大数据领域，数据采集工作尤为重要。

目前主流以实时采集、批量采集、ETL相关采集等
大数据的主要来源数据
▷线上行为数据：页面数据、交互数据、表单数据、会话数据等。

▷内容数据：应用日志、电子文档、机器数据、语音数据、社交媒体数据等。

▷大数据的主要来源：
1）商业数据
2）互联网数据
3）传感器数据
4）软件埋点数据等
数据源
分析数据、清洗数据时候。

首先弄清除数据的来源。

数据的所有来源是程序。

比如：web程序、服务程序等。

数据的形态
两种：日志文件、数据流。

对比：
由于数据流的接口要求比较高。

比如有些语言不支持写入kafka。

队列跨语言问题。

所以日志文件是主要形态。

数据流的用于实时分析较好。

日志文件好处：便于分析、便于跨平台、跨语言。

调试代码注意。

常用的日志文件输出工具log4j。

写程序时尽量别写system.out。

互联网日志采集统计常见指标
1、UGC : User Generated Content，也就是用户生成的内容。

2、UV:(unique visitor)，指访问某个站点或点击某条新闻的不同IP地址
的人数。

现已引申为各个维度的uv泛称。

3、PV：（pageview），即页面浏览量，或点击量。

4、DAU : daily active user，日活跃用户数量、MAU : 月活跃用户量
5、ARPU : Average Revenue Per User 即每用户平均收入，用于衡量
电信运营商和互联网公司业务收入的指标。

6、新增用户数、登录用户数、N日留存（率）、转换率。

服务器的请求日志
nginx的access日志：
log_format main '$remote_addr -$remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
举例：
127.0.0.1 --[30/Dec/2015:11:51:00 +0800] "GET /userList HTTP/1.1" 200 21770
"http://localhost/index" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36" "-"
127.0.0.1 --[30/Dec/2015:11:51:00 +0800] "GET /media/css/select2_metro.css HTTP/1.1" 200
15370 "http://localhost/userList" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36" "-"
如果nginx感兴趣：https:///resources/admin-guide/
负载均衡。

tomcat或者其它的web服务器的日志：
根据业务情况介绍。

提出一个问题：怎么统计UV、PV、登录？让web怎么打日志可以实现uv、pv、登录的统计？
传统数据采集和大数据采集的区别
传统数据采集
1. 来源单一，数据量相对于大数据较小，甚至人工采集
2. 结构单一
3. 关系数据库和并行数据仓库
4. 其他一些静态数据
传统采集方式的不足
1、传统的数据采集来源单一，且存储、管理和分析数据量也相对较小，大多采用关系型数据库和并行数据仓库即可处理。

对依靠并行计算提升数据处理速度方面而言，传统的并行数据库技术追求高度一致性和容错性。

根据CAP理论，难以保证其可用性和扩展性。

CAP相关连接：
/blog/2018/07/cap.html
2、采集时效性和规模较低
大数据的数据采集特点
1. 来源广泛，数据量巨大
2. 数据类型丰富，包括结构化，半结构化，非结构化
3. 数据落地快，下游一般落地分布式数据库
4. 时效性高，成熟的采集工具，实时采集
大数据采集的方式
▷系统日志采集方法
很多互联网企业都有自己的海量数据采集工具，多用于系统日志采集。

1、Flume，主流大数据采集框架，对接多种数据源，时效性
高
2、Logstash，ELK框架之一。

经常与ElasticSearch，Kibana
配置，组成著名的ELK技术栈，非常适合用来做日志数据的采集及分析
3、传统数据库巨头Oracle的采集工具，OGG
4、非工具性采集：网络爬虫，埋点日志、单一上传、硬盘拷
贝等等
云计算下的采集方式
云计算下的采集方式特点：以阿里云日志服务为例
•30+采集方式，10+SDK支持
•PB级流量，百万QPS弹性伸缩
•与开源主流软件社区完美兼容
•完善监控信息，管理百万设备
云计算-日志服务架构
云计算下采集服务的特点
基于日志文件、无侵入式的收集日志
只读取文件。

日志文件无侵入。

安全、可靠
支持文件轮转不丢失数据。

支持本地缓存。

网络异常重试。

方便管理
Web端操作。

可视化配置。

完善的自我保护
实时监控进程CPU、内存消耗。

限制使用上限。

https:///document_detail/28979.html?spm=a2c4g.11186623.6.598.7e3d5dc7rXfNQg
P A G E43 THANKS。

e商务文档

大数据采集技术概述

相关文档推荐：