当前位置:文档之家› 大数据导论-第3章[23页]

大数据导论-第3章[23页]

大数据导论
3.1 大数据采集 3.2 数据预处理 3.3 ETL技术及其工具 【思考题】
3.1 大数据采集
3.1.1 大数据采集简介
1.大数据的来源
世上本没有数据,一切数据都是人为的产物。大数据主要来源于现实世界、人类记录和计算机生成三
个方面,如图3-1所示。
传统意义上的“数据”,是指“有根据的数字”,数字之所以产
集设备和应用软件。
数据采集的限制因素:资源有限。
数据采集的目标:有价值数据最大化,无价值数据最小化,和现实对象的偏差最小化。
数据采集的特殊要求:可靠性、时效性。
3.多源数据的采集方式
1)软件接口对接方式
2)开放数据库方式 3)基于底层数据交换的数据直接采集方式
4.影响数据采集准确性的原因
1)网络异常 2)统计口径不同
1.Apache Flume Flume是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume使用JRuby来构建,所以依赖Java运行环境。Flume最初是由Cloudera的工程师设计用于合并 日志数据的系统,后来逐渐发展用于处理流数据事件。 2.Fluentd Fluentd是另一个开源的数据收集框架,如图3-10所示。Fluentd使用C/Ruby开发,使用JSON 文件来统一日志数据。它的可插拔架构支持各种不同种类和格式的数据源和数据输出。它同时提供了 高可靠性和很好的扩展性。Treasure Data对该产品提供支持和维护。
传感 ///
3.用于采集互联网信息的网络爬虫 网络爬虫(Web Spider)又称网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚 本。 4.群智感知技术 与传统感知技术依赖于专业人员和设备不同,群智感知技术将目光转向大量普通用户,利用其随身携带 的智能移动终端(智能手机、可穿戴设备等)形成大规模、随时随地且与人们日常生活密切相关的感知系统, 通过网络通信形成群智感知网络,从而实现感知任务分发与感知数据收集,完成大规模、复杂的社会感知任 务。在计算机科学领域,与群智感知相关的概念有群体计算、社群感知、众包等。 众包是协调一个群体(互联网上的一大群人)做“微工作”(每人做一点贡献)来解决软件或者单个人 难以解决的问题,通过一系列的机制和方法来指导和协调群体的行为,从而达到目的。 文本数据采集:包括广告、杂志、报纸、教材等。 图片数据采集:包括实体图片、人物图片、场景图片等。 语音视频数据采集:方言、特殊情景语音、视频等。 O2O/LBS数据采集:店铺信息、公交站牌、Wi-Fi等。 问卷调研:市场机会调研、广告效果调研、使用体验调研等。
生,是因为人类在实践中发现,仅仅用语言、文字和图形来描述这个
世界是不精确的,也是远远不够的。例如,有人问“姚明有多高”,
如果回答说“很高”“非常高”“最高”,别人听了,只能得到一个
抽象的印象,因为每个人对“很”“非常”有不同的理解,“最”也
是相对的,但如果回答说“2.26米”,就一清二楚。除了描述世界,
数据还是我们改造世界的重要工具。人类的一切生产、交换活动,可
图3-1 大数据的来源
以说都是以数据为基础展开的,例如度量衡、货币的背后都是数据, 它们的发明和出现,都极大地推动了人类文明的进步。
大数据导论
/// 4 ///
2.多源数据采集的目标及要求
数据采集(DAQ)又称数据获取,是指从真实世界对象中获得原始数据的过程。数据采集的过程要充分
大数据导论
/// 6 ///
3.Logstash Logstash是著名的开源数据栈ELK(ElasticSearch,Logstash,Kibana)中的那个“L”。Logstash用 JRuby开发,所有运行时依赖JVM。 4.Chukwa Chukwa是Apache旗下另一个开源的数据收集平台,它远没有其他几个有名。Chukwa基于Hadoop的 HDFS和MapReduce来构建(显而易见,它用Java实现),提供扩展性和可靠性。Chukwa同时提供对数据的 展示、分析和监视。 5.Scribe Scribe是Facebook开发的数据(日志)收集系统。 6.Splunk Splunk提供完整的数据采集、数据存储、数据分析和处理,以及数据展现的能力。Splunk是一个分布式 的机器数据平台。 Distributed Search负责数据的搜索和处理,提供搜索时的信息抽取。 Indexers负责数据的存储和索引。 Forwarders负责数据的收集、清洗、变形,并发送给Indexers。
考虑其产生主体的物理性质,同时要兼顾数据应用的特点。
数据采集的目的是为了测量电压、电流、温度、压力或声音等物理现象。基于PC的数据采集,通过模块
化硬件、应用软件和计算机的结合,进行测量。尽管数据采集系统根据不同的应用需求有不同的定义,但各个
系统采集、分析和显示信息的目的却都相同。数据采集系统整合了信号、传感器、激励器、信号调理、数据采
3)代码质量问题
4)无效请求
5.如何正确选择数据采集方式
1)全埋点与代码埋点
2)前端埋点与后端埋点
大数据导论
/// 5 ///
3.1.2 常用大数据采集工具
数据采集最传统的方式是企业自己采集生产系统产生的数据,除上述生产系统中的数据外,企 业的信息系统还充斥着大量的用户行为数据、日志式的活动数据、事件信息等,越来越多的企业通过 架设日志采集系统来保存这些数据,希望通过这些数据获取商业或社会价值。
大数据导论
/// 7 ///
3.1.3 常用的数据采集方法
1.用于采集物理世界信息的传感器 说到传感器,相信大家都不会陌生,比如微信的“摇一摇” 就用到了加速度传感器。 1)传感器的定义 传感器是一种物理设备或者生物器官,能够探测、感受外界 的信号、物理条件(如光、热、湿度)或化学组成(如烟雾), 并将探知的信息传递给其他的设备或者器官。 2)传感器的种类 2.用于采集数字设备运行状态的日志文件 系统日志可记录系统中硬件、软件和系统问题的信息,同时 还可以监视系统中发生的事件。用户可以通过它来检查错误发生 的原因,或者寻找受到攻击时攻击者留下的痕迹。系统日志包括 系统日志、应用程序日志和安全日志。
第3 章
大数据的采集及预处理
任何完整的大数据平台一般包括以下几个部分: 数据采集、数据存储、数据处理、数据展现(可视化、 报表和监控)。其中,数据采集是所有数据系统必不 可少的。随着大数据越来越被重视,数据采集也变得 尤为突出,这给我们带来了许多挑战,第一个挑战就 是在大量的数据中收集需要的数据。数据源多种多样, 数据量大、变化快,如何保证数据采集的可靠性?如 何避免重复数据?如何保证数据的质量?
相关主题