当前位置：文档之家› 大数据导论-第3章[23页]

大数据导论-第3章[23页]

大数据导论
3.1 大数据采集 3.2 数据预处理 3.3 ETL技术及其工具【思考题】
3.1 大数据采集
3.1.1 大数据采集简介
1．大数据的来源
世上本没有数据，一切数据都是人为的产物。大数据主要来源于现实世界、人类记录和计算机生成三
个方面，如图3-1所示。
传统意义上的“数据”，是指“有根据的数字”，数字之所以产
集设备和应用软件。
数据采集的限制因素：资源有限。
数据采集的目标：有价值数据最大化，无价值数据最小化，和现实对象的偏差最小化。
数据采集的特殊要求：可靠性、时效性。
3．多源数据的采集方式
1）软件接口对接方式
2）开放数据库方式 3）基于底层数据交换的数据直接采集方式
4．影响数据采集准确性的原因
1）网络异常 2）统计口径不同
1．Apache Flume Flume是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume使用JRuby来构建，所以依赖Java运行环境。Flume最初是由Cloudera的工程师设计用于合并日志数据的系统，后来逐渐发展用于处理流数据事件。 2．Fluentd Fluentd是另一个开源的数据收集框架，如图3-10所示。Fluentd使用C/Ruby开发，使用JSON 文件来统一日志数据。它的可插拔架构支持各种不同种类和格式的数据源和数据输出。它同时提供了高可靠性和很好的扩展性。Treasure Data对该产品提供支持和维护。
传感 ///
3．用于采集互联网信息的网络爬虫网络爬虫（Web Spider）又称网页蜘蛛，是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。 4．群智感知技术与传统感知技术依赖于专业人员和设备不同，群智感知技术将目光转向大量普通用户，利用其随身携带的智能移动终端（智能手机、可穿戴设备等）形成大规模、随时随地且与人们日常生活密切相关的感知系统，通过网络通信形成群智感知网络，从而实现感知任务分发与感知数据收集，完成大规模、复杂的社会感知任务。在计算机科学领域，与群智感知相关的概念有群体计算、社群感知、众包等。众包是协调一个群体（互联网上的一大群人）做“微工作”（每人做一点贡献）来解决软件或者单个人难以解决的问题，通过一系列的机制和方法来指导和协调群体的行为，从而达到目的。文本数据采集：包括广告、杂志、报纸、教材等。图片数据采集：包括实体图片、人物图片、场景图片等。语音视频数据采集：方言、特殊情景语音、视频等。 O2O/LBS数据采集：店铺信息、公交站牌、Wi-Fi等。问卷调研：市场机会调研、广告效果调研、使用体验调研等。
生，是因为人类在实践中发现，仅仅用语言、文字和图形来描述这个
世界是不精确的，也是远远不够的。例如，有人问“姚明有多高”，
如果回答说“很高”“非常高”“最高”，别人听了，只能得到一个
抽象的印象，因为每个人对“很”“非常”有不同的理解，“最”也
是相对的，但如果回答说“2.26米”，就一清二楚。除了描述世界，
数据还是我们改造世界的重要工具。人类的一切生产、交换活动，可
图3-1 大数据的来源
以说都是以数据为基础展开的，例如度量衡、货币的背后都是数据，它们的发明和出现，都极大地推动了人类文明的进步。
大数据导论
/// 4 ///
2．多源数据采集的目标及要求
数据采集（DAQ）又称数据获取，是指从真实世界对象中获得原始数据的过程。数据采集的过程要充分
大数据导论
/// 6 ///
3．Logstash Logstash是著名的开源数据栈ELK（ElasticSearch，Logstash，Kibana）中的那个“L”。Logstash用 JRuby开发，所有运行时依赖JVM。 4．Chukwa Chukwa是Apache旗下另一个开源的数据收集平台，它远没有其他几个有名。Chukwa基于Hadoop的 HDFS和MapReduce来构建（显而易见，它用Java实现），提供扩展性和可靠性。Chukwa同时提供对数据的展示、分析和监视。 5．Scribe Scribe是Facebook开发的数据（日志）收集系统。 6．Splunk Splunk提供完整的数据采集、数据存储、数据分析和处理，以及数据展现的能力。Splunk是一个分布式的机器数据平台。 Distributed Search负责数据的搜索和处理，提供搜索时的信息抽取。 Indexers负责数据的存储和索引。 Forwarders负责数据的收集、清洗、变形，并发送给Indexers。
考虑其产生主体的物理性质，同时要兼顾数据应用的特点。
数据采集的目的是为了测量电压、电流、温度、压力或声音等物理现象。基于PC的数据采集，通过模块
化硬件、应用软件和计算机的结合，进行测量。尽管数据采集系统根据不同的应用需求有不同的定义，但各个
系统采集、分析和显示信息的目的却都相同。数据采集系统整合了信号、传感器、激励器、信号调理、数据采
3）代码质量问题
4）无效请求
5．如何正确选择数据采集方式
1）全埋点与代码埋点
2）前端埋点与后端埋点
大数据导论
/// 5 ///
3.1.2 常用大数据采集工具
数据采集最传统的方式是企业自己采集生产系统产生的数据，除上述生产系统中的数据外，企业的信息系统还充斥着大量的用户行为数据、日志式的活动数据、事件信息等，越来越多的企业通过架设日志采集系统来保存这些数据，希望通过这些数据获取商业或社会价值。
大数据导论
/// 7 ///
3.1.3 常用的数据采集方法
1．用于采集物理世界信息的传感器说到传感器，相信大家都不会陌生，比如微信的“摇一摇” 就用到了加速度传感器。 1）传感器的定义传感器是一种物理设备或者生物器官，能够探测、感受外界的信号、物理条件（如光、热、湿度）或化学组成（如烟雾），并将探知的信息传递给其他的设备或者器官。 2）传感器的种类 2．用于采集数字设备运行状态的日志文件系统日志可记录系统中硬件、软件和系统问题的信息，同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因，或者寻找受到攻击时攻击者留下的痕迹。系统日志包括系统日志、应用程序日志和安全日志。
第3 章
大数据的采集及预处理
任何完整的大数据平台一般包括以下几个部分：数据采集、数据存储、数据处理、数据展现（可视化、报表和监控）。其中，数据采集是所有数据系统必不可少的。随着大数据越来越被重视，数据采集也变得尤为突出，这给我们带来了许多挑战，第一个挑战就是在大量的数据中收集需要的数据。数据源多种多样，数据量大、变化快，如何保证数据采集的可靠性？如何避免重复数据？如何保证数据的质量？

e商务文档

大数据导论-第3章[23页]

相关文档推荐：