当前位置:文档之家› 大数据解决方案

大数据解决方案

大数据平台技术解决方案目录第1章技术解决 (4)1.1大数据采集 (4)1.1.1概述 (4)1.1.2数据来源 (4)1.1.3数据现状 (5)1.1.4技术支撑 (6)1.1.5价值体现 (10)1.1.6解决工具 (10)1.2大数据存储 (11)1.2.1概述 (11)1.2.2技术支持--Hadoop概论 (11)1.2.3价值体现 (19)1.3大数据治理 (20)1.3.1概述 (20)1.3.2数据治理现状 (20)1.3.3数据治理概念 (21)1.3.4数据治理主要内容 (22)1.3.5技术实现 (28)1.3.6价值体现 (32)1.3.7解决工具 (34)1.4大数据分析 (34)1.4.1概述 (34)1.4.2大数据分析方法 (35)1.4.3数据分析的类型 (40)1.4.4数据分析步骤 (40)1.4.5价值体现 (41)1.4.6大数据分析应用 (42)1.4.7解决工具 (44)1.5大数据可视化 (44)1.5.1概述 (44)1.5.2大数据可视分析的概念 (45)1.5.3大数据可视化分析的方法 (45)1.5.4价值体现 (48)第1章技术解决1.1大数据采集1.1.1概述随着大数据时代的到来,数据正呈现出爆炸式的增长趋势。

随着IT技术的不断发展,无论是传统的业务系统数据,还是新型的非结构化数据,我们能够利用并转化为有用信息的数据变得越来越多。

表格1-1 传统数据采集与大数据数据采集对比1.1.2数据来源按照数据来源划分,大数据的三大主要来源分为商业数据、互联网数据与物联网数据。

1.商业数据商业数据是指来自企业ERP系统,各种POS终端以及网上支付系统等业务系统的数据,商业数据是现在最主要的数据来源渠道。

2.互联网数据互联网数据是指网络空间交互过程中产生的大量数据,包括通信记录及QQ、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用。

3.物联网数据物联网是指在计算机互联网的基础上,利用射频识别、传感器、红外感应器、无线数据通信等技术,构造一个覆盖世界上万物互联的The Internet of Things。

其内涵包含两个方面意思:一是物联网的核心和基础仍是互联网,是在互联网基础之上延伸和扩展的一种网络;二是其用户端延伸和扩展到了任何物品与物品之间进行信息交换和通信。

物联网的定义是:通过射频识别(Radio Frequency Identification,RFID)装置、传感器、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,以进行信息交换和通信,从而实现智慧化识别、定位、跟踪、监控和管理的一种网络体系。

物联网数据是除了人和服务器之外,在射频识别、物品、设备、传感器等结点产生的大量数据,包括射频识别装置、音频采集器、视频采集器、传感器、全球定位设备、办公设备、家用设备和生产设备等产生的数据。

物联网数据的特点主要包括以下几点。

1)物联网中的数据量更大。

物联网的最主要特征之一是结点的海量性,其数量规模远大于互联网;物联网结点的数据生成频率远高于互联网,如传感器结点多数处于全时工作状态,数据流是持续的。

2)物联网中的数据传输速率更高。

由于物联网与真实物理世界直接关联,很多情况下需要实时访问、控制相应的结点和设备,因此需要高数据传输速率来支持。

3)物联网中的数据更加多样化4)物联网对数据真实性的要求更高。

1.1.3数据现状数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,对数据进行抽取、转换和集成加载。

在以上过程中,除了更正、修复系统中的一些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介质中。

其中,数据的质量至关重要。

常见的数据质量问题可以根据数据源的多少和所属层次(定义层和实例层)分为 4 类。

1)单数据源定义层违背字段约束条件(例如,日期出现 9 月 31 日),字段属性依赖冲突(例如,两条记录描述同一个人的某一个属性,但数值不一致),违反唯一性(同一个主键 ID 出现了多次)等。

2)单数据源实例层单个属性值含有过多信息,拼写错误,存在空白值,存在噪音数据,数据重复,数据过时等;3)多数据源定义层同一个实体的不同称呼(如 custom_id、custom_num),同一种属性的不同定义(例如,字段长度定义不一致,字段类型不一致等);4)多数据源实例层数据的维度、粒度不一致(例如,有的按 GB 记录存储量,有的按 TB 记录存储量;有的按照年度统计,有的按照月份统计),数据重复,拼写错误等。

1.1.4技术支撑大数据采集1.系统日志主要为系统日志采集;均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

2.对非结构化数据的采集非结构化数据的采集就是针对所有非结构化的数据的采集,包括企业内部数据采集和网络数据采集等。

◆企业内部数据的采集时对企业内部各种文档、视频、音频、邮件、图片等数据格式之间互不兼容的数据采集。

◆网络数据采集时至通过网络爬虫活网站公开的API等方式从网站上获取互联网种的相关网页内容的过程。

◆除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

3.其他的数据采集主要是政府、企业对于一些保密性要求较高的数据,可以通过特定的系统接口或者线下采集等方式采集。

数据处理现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。

为了提高数据挖掘的质量产生了数据预处理技术。

1)不完整:缺少属性值或仅仅包含聚集数据2)含噪声:包含错误或存在偏离期望的离群值比如:salary=“-10”,明显是错误数据3)不一致:用于商品分类的部门编码存在差异。

比如age=“42”Birthday=“03/07/1997”而我们在使用数据过程中对数据有如下要求:一致性、准确性、完整性、时效性、可信性、可解释性。

同时由于获得的数据规模太过庞大,数据不完整、重复、杂乱,在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间。

1.1.4.2.1数据清洗数据消减的目的就是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。

现有的数据消减方法如下:1)数据聚合(DataAggregation),如构造数据立方。

2)消减维数(DimensionReduction),如通过相关分析消除多余属性。

3)数据压缩(DataCompression),如利用编码方法(如最小编码长度或小波)。

4)数据块消减(NmnerosityReduction),如利用聚类或参数模型替代原有数据。

此外,利用基于概念树的泛化(Generalization)也可以实现对数据规模的消减。

在大数据清洗中,可以根据缺陷数据类型可分为五类:1)异常记录检测:包括解决控制、错误值和不一致数据的方法。

2)空值的处理:一般采用估算方法,如:均值、众数、最大值、最小值、中位数填充。

但估值方法会引入误差,如果空值较多,会使偏离较大。

3)错误值的处理:通常采用统计方法来处理,如:偏差分析、回归方程、正态分布等。

4)不一致数据的处理:主要体现数据不满足完整性约束,可以通过分析数据字典、元数据等,整理数据之间的关系进行修正。

不一致数据通常是缺乏数据标准而产生的。

5)重复数据的检测:其算法可以分为基本的字段匹配算法、递归的字段匹配算法、Smith-Waterman算法、基于编辑距离的字段匹配算法和改进余弦相似度函数等算法。

1.1.4.2.2数据转换如何将数据转换为统一的格式,是数据集成中最复杂和最困难的问题。

数据转换包含以下处理内容。

1)平滑处理帮助除去数据中的噪声,主要技术方法有Bin 方法、聚类方法和回归方法。

2)合计处理对数据进行总结或合计操作。

例如,每天的数据经过合计操作可以获得每月或每年的总额。

这一操作常用于构造数据立方或对数据进行多粒度的分析。

3)数据泛化处理用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。

例如,街道属性可以泛化到更高层次的概念,如城市、国家,数值型的属性,如年龄属性,可以映射到更高层次的概念,如年轻、中年和老年。

4)规格化处理将有关属性数据按比例投射到特定的小范围之中。

例如,将工资收入属性值映射到0 到 1 范围内。

5)属性构造处理根据已有属性集构造新的属性,以帮助数据处理过程。

下面将着重介绍规格化处理和属性构造处理:规格化处理就是将一个属性取值范围投射到一个特定范围之内,以消除数值型属性因大小不一而造成挖掘结果的偏差,常常用于神经网络、基于距离计算的最近邻分类和聚类挖掘的数据预处理。

对于神经网络,采用规格化后的数据不仅有助于确保学习结果的正确性,而且也会帮助提高学习的效率。

对于基于距离计算的挖掘,规格化方法可以帮助消除因属性取值范围不同而影响挖掘结果的公正性。

下面介绍常用的3种规格化方法:●最大最小规格化方法该方法对被初始数据进行一种线性转换。

例如,假设属性的最大值和最小值分别是98 000元和12 000元,利用最大最小规格化方法将“顾客收入”属性的值映射到0~1 的范围内,则“顾客收入”属性的值为73 600元时,对应的转换结果如下。

(73 600-12 000)/(98 000-12 000)*(1.0-0.0) + 0 = 0.716计算公式的含义为“(待转换属性值-属性最小值)/(属性最大值-属性最小值)*(映射区间最大值-映射区间最小值)+映射区间最小值”。

●零均值规格化方法该方法是指根据一个属性的均值和方差来对该属性的值进行规格化。

假定属性“顾客收入”的均值和方差分别为54 000元和16 000元,则“顾客收入”属性的值为73 600 元时,对应的转换结果如下。

(73 600-54 000)/16000 = 1.225计算公式的含义为“(待转换属性值-属性平均值)/属性方差”。

十基数变换规格化方法该方法通过移动属性值的小数位置来达到规格化的目的。

所移动的小数位数取决于属性绝对值的最大值。

假设属性的取值范围是-986~917,则该属性绝对值的最大值为986。

属性的值为435 时,对应的转换结果如下。

435/10^3 = 0.435计算公式的含义为“待转换属性值/10”,其中,j 为能够使该属性绝对值的最大值(986)小于 1 的最小值。

属性构造方法可以利用已有属性集构造出新的属性,并将其加入到现有属性集合中以挖掘更深层次的模式知识,提高挖掘结果准确性。

例如,根据宽、高属性,可以构造一个新属性(面积)。

构造合适的属性能够减少学习构造决策树时出现的碎块情况。

此外,属性结合可以帮助发现所遗漏的属性间的相互联系。

1.1.5价值体现1.全面性:在大数据时代数据的来源复杂、各业务系统繁多,通过数据采集支持全面的数据汇集。

相关主题