当前位置:文档之家› 大数据下的智能数据分析技术研究

大数据下的智能数据分析技术研究

大数据下的智能数据分析技术研究摘要:大数据背景下对数据的智能分析技术提出了新的挑战,本文对传统的智能数据分析技术做了比较,分析其各自的优缺点。

同时对新的大数据分析方案Hadoop进行了梳理,提出了未来大数据智能分析技术的发展方向的展望。

关键词:大数据数据智能分析Hadoop大数据时代业已到来,当今世界正处在一个数据爆炸的时代。

伴随着多媒体、云计算、物联网、社交网络等技术的发展,以及天文观测、空间地理、金融分析等各领域每天都在产生巨量的数据,这些数据如此庞大,其规模、其涌现速度和其处理难点超出目前常规技术能管理、处理和分析的能力[1]。

一般来说,大数据具有量大(V olume)、流动性大(Velocity),种类多(Variety),分布式(distributed)、非一致(nonuniformity)等特性,这些特点决定了在大数据时代,我们传统的数据处理技术必须有革命性的变化,包括数据的存储与组织方式、计算方法、数据分析,而对大数据的智能分析技术将尤为重要。

1 几种传统智能数据分析方法的比较大数据智能分析需要有新的理论和技术的突破,但它与传统的智能数据分析方法必定还有延续。

传统的数据分析领域,如知识库系统、数据仓库、数据挖掘等已经积累了很多优秀的理论和技术,下面对其中的一些典型理论和技术的梳理。

1.1 决策树决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法,它是建立在信息论基础之上对数据进行分类的一种方法。

首先通过一批已知的训练数据建立一棵决策树,然后采用建好的决策树对数据进行预测。

决策树的建立过程是数据规则的生成过程,因此,这种方法实现了数据规则的可视化,其输出结果容易理解,精确度较好,效率较高,缺点是难于处理关系复杂的数据。

常用的方法有分类及回归树法、双方自动交互探测法等。

其中分类树主要用于数据记录的标记和归类,回归树主要用于估计目标变量的数值[2]。

1.2 关联规则关联规则分析发现大量数据中项集之间有价值的关联或相关联系,就是要建立形如X→Y的蕴涵式,其中X和Y分别称为关联规则的先导(antecedent)和后继(consequent)。

关联规则一般应用在事物数据库中,其中每个事物都由一个记录集合组成。

这种事物数据库通常都包括极为庞大的数据,因此,当前的关联规则发现技巧正努力根据基于一定考虑的记录支持度来削减搜索空间。

关联规则的常见算法有Apriori 算法、基于划分的算法、FP-树频集算法等。

1.3 粗糙集(Rough Sets)粗糙集智能数据分析是粗糙集理论中的主要应用技术之一,是一种基于规则的数据分析的方法。

其思想主要来自统计学和机器学习,但并不是这两种工具随意的应用,它以粗糙集理论为基础,以数据表所表示的信息系统为载体,通过分析给定数据集的性质、粗糙分类、决策规则的确定性以及覆盖度因子等过程,从中获取隐含的、潜在有用的知识。

用粗糙集理论进行数据分析主要有以下优势:它无需提供对知识或数据的主观评价,仅根据观测数据就能达到删除冗余信息;非常适合并行计算、提供结果的直接解释。

1.4 模糊数学分析用模糊(Fuzzy sets)数学理论来进行智能数据分析。

现实世界中客观事物之间通常具有某种不确定性。

越复杂的系统其精确性越低,也就意味着模糊性越强。

在数据分析过程中,利用模糊集方法对实际问题进行模糊评判、模糊决策、模糊预测、模糊模式识别和模糊聚类分析,这样能够取得更好更客观的效果。

模糊分析方法不足主要表现在:用户驱动,用户参与过多;处理变量单一,不能处理定性变量和复杂数据,如非线性数据和多媒体数据;发现的事实或规则是以查询为主要目的,对预测和决策影响不大,而且过分依赖主观的经验。

1.5 人工神经网络人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

该模型由大量的节点(或称神经元)之间相互联接构成。

每个节点代表一种特定的输出函数,称为激励函数(activation function)。

每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。

网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。

而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。

典型的神经网络模型主要分三大类,即前馈式神经网络模型,反馈式神经网络模型,自组织映射方法模型。

人工神经网络具有非线性、非局限性、非常定性、非凸性等特点,它的优点有三个方面:第一,具有自学习功能。

第二,具有联想存储功能。

第三,具有高速寻找优化解的能力。

1.6 混沌和分形理论混沌(Chaos)和分形(Fractal)理论是非线性科学中的两个重要概念,研究非线性系统内部的确定性与随机性之间的关系。

混沌描述的是非线性动力系统具有的一种不稳定且轨迹局限于有限区域但永不重复的运动,分形解释的是那些表面看上去杂乱无章、变幻莫测而实质上潜在有某种内在规律性的对象,因此,二者可以用来解释自然界以及社会科学中存在的许多普遍现象。

其理论方法可以作为智能认知研究、图形图像处理、自动控制以及经济管理等诸多领域应用的基础。

1.7 自然计算分析方法自然计算是指受自然界中生物体的启发,模拟或仿真实现发生在自然界中、易作为计算过程解释的动态过程[4]。

针对不同生物层面的模拟与仿真,有群体智能算法、免疫算法、DNA算法等。

群体智能(Swarm Intelligence,SI)是一种模仿自然界动物昆虫觅食筑巢行为的新兴演化计算技术,研究的是由若干简单个体组成的分散系统的集体行为,每个个体与其他个体以及环境都有相互作用。

目前主要的SI算法有粒子群优化算法(Particle Swarm Optimization,PSO),蚁群算法(Ant Colony Optimization,ACO),文化算法(Culture Algorithm),人工鱼群算法(Artificial Fish Swarm Optimization,AFSO)以及觅食算法(Foraging Algorithm),其中PSO和ACO受到了人们广泛的关注。

人工免疫系统(Artificial Immune System,AIS)是从脊椎动物免疫系统中获取灵感构建的计算系统。

人工免疫(亦称计算机免疫)学借鉴生物免疫的思想,以典型的多样性、适应性、自治性、动态覆盖性、动态平衡性等特性,求解某些特定复杂问题具有较好的效果。

经典免疫算法有反向选择、克隆选择、免疫网络、危险理论等。

遗传算法(Genetic Algorithm)是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法。

它是由美国的J.Holland教授1975年首先提出,其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。

遗传算法的这些性质,已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。

2 大数据下数据智能分析技术大数据由于其独特的特性决定了对其进行智能分析的技术必须有新的发展的进步,才能胜任在如此庞大的数据中进行智能分析。

有学者指出大数据的智能分析技术有望成为人工智能的解决之道,目前有很多企业和科研人员提出了很多新的智能分析技术方案。

如惠普推出基于HA VEn大数据分析平台、Teradata天睿公司推出的Teradata Aster大数据探索平台(Teradata Aster Discovery Platform)以及IBM公司和Intel公司都推出了他们各自的大数据分析方案。

这些方案都涉及Hadoop这个大数据分析平台。

Hadoop是Appach基金会支持的一个开源系统,包括两部分,一是分布文件系统、二是分布计算系统。

前者称为HDFS(Hadoop Distributed File System),后者称为MapReduce。

HDFS是一个分布文件管理系统,呈主/从(Master/Slaver)结构,一个主节点称为名字节点(Namenode),其余的计算机是从节点,称为数据节点(Datanode)。

主节点管理元数据,从节点存放和管理应用数据。

一个HDFS系统可以支持巨大的分布文件系统,如上万个计算节点、一亿个文件、10PB数量级的数据,等等。

因而它对大数据的支持是强大的。

为了进一步支持大数据,在HDFS上构建了一个NoSQL数据库系统,称为Hbase。

HBase 是一个列存储的数据库系统,其接口语言是Pig。

除此以外,Hadoop在HBase上还提供了一个数据仓库/数据挖掘软件Hivi。

面向机器学习,还提供了一个机器学习软件包Mahout,从而满足大数据管理和分析的要求,如图1所示。

另一方面,大数据分析相比传统的数据分析,具有数据量大、查询分析复杂等特点,因而需要有新的大数据分析方法和理论的出现。

一方面人们发现现有的单一智能数据分析方法已经不能全面、高效地胜任数据分析的工作,由此一种趋势是交叉融合多种智能数据分析技术的方法和技术应运而生。

如模糊数学和其他理论融合形成了模糊人工神经网络、模糊遗传算法、模糊进化算法、模糊计算学习理论;演化计算和其他理论融合渗透形成了模糊演化算法、演化人工神经网络等。

另一方面大数据的智能分析技术的发展还有赖于新型的数据存储和组织技术以及新的高效率的计算方法的支持。

数据存储和组织技术应该采用的更好的分布式的数据存储策略,并尽量提高数据的吞吐效率、降低故障率。

如谷歌公司的GFS和Hadoop项目的HDFS是两个最知名的分布式文件系统,他们都采用比较新颖的策略。

高效率的计算方法有分布式运算、数据流技术、新硬件技术等[3]。

3 结论总之,以上介绍的各种数据智能分析技术方法各有其特点和优势、潜力与局限。

如人工神经网络善长于直接从数据中进行学习,但其推理能力不如模糊系统;演化计算很适合于求解全局最优问题,它也具有学习能力,但其学习的精度不如神经网络,推理能力不如模糊系统;而模糊系统的学习能力也明显不如其它方法。

要得到一种通用的智能分析技术方法是非常困难的事情。

因此,将多种方法进行融合,发挥各自的优势而弥补彼此的缺点是一个重要的研究方向。

同时数据库平台将也会是传统和新型平台的结合,如hadoop将会借鉴融合传统数据库平台的优点。

参考文献[1]顾君忠.大数据与大数据分析[J].软件产业与工程,2013(4):17-21.[2]邓茗春,李刚.基于人工神经网络的智能数据分析方法研究[J].信息技术与信息化,2005(5):50-51.[3]宫学庆,金澈清,等.数据密集型科学与工程:需求与挑战[J].计算机学报,2012,35(8):1564-1587.[4]张葛祥,潘林强.自然计算的新分支——膜计算[J].计算机学报,2010.。

相关主题