神经网络在数据挖掘中的应用————————————————————————————————作者:————————————————————————————————日期:ﻩ神经网络在数据挖掘中的应用摘要:给出了数据挖掘方法的研究现状,通过分析当前一些数据挖掘方法的局限性,介绍一种基于关系数据库的数据挖掘方法——神经网络方法,目前,在数据挖掘中最常用的神经网络是BP网络。
在本文最后,也提出了神经网络方法在数据挖掘中存在的一些问题.关键词:BP算法;神经网络;数据挖掘1.引言在“数据爆炸但知识贫乏”的网络时代,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。
数据挖掘技术应运而生。
并显示出强大的生命力。
和传统的数据分析不同的是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
所得到的信息具有先未知,有效性和实用性三个特征。
它是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。
数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来。
数据挖掘在自身发展的过程中,吸收了数理统计、数据库和人工智能中的大量技术。
作为近年来来一门处理数据的新兴技术,数据挖掘的目标主要是为了帮助决策者寻找数据间潜在的关联(Relation),特征(Pattern)、趋势(Trend)等,发现被忽略的要素,对预测未来和决策行为十分有用。
数据挖掘技术在商业方面应用较早,目前已经成为电子商务中的关键技术。
并且由于数据挖掘在开发信息资源方面的优越性,已逐步推广到保险、医疗、制造业和电信等各个行业的应用。
数据挖掘(Data Mining)是数据库中知识发现的核心,形成了一种全新的应用领域。
数据挖掘是从大量的、有噪声的、随机的数据中,识别有效的、新颖的、有潜在应用价值及完全可理解模式的非凡过程。
从而对科学研究、商业决策和企业管理提供帮助。
数据挖掘是一个高级的处理过程,它从数据集中识别出以模式来表示的知识。
它的核心技术是人工智能、机器学习、统计等,但一个DM系统不是多项技术的简单组合,而是一个完整的整体,它还需要其它辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表述这一系列的高级处理过程。
所谓高级处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋式上升过程。
最后将分析结果呈现在用户面前。
根据功能,整个DM系统可以大致分为三级结构。
神经网络具有自适应和学习功能,网络不断检验预测结果与实际情况是否相符。
把与实际情况不符合的输入输出数据对作为新的样本,神经网络对新样本进行动态学习并动态改变网络结构和参数,这样使网络适应环境或预测对象本身结构和参数的变化,从而使预测网络模型有更强的适应性,从而得到更符合实际情况的知识和规则,辅助决策者进行更好地决策。
而在ANN的实现过程中,又往往需要大量的数据来产生充足的训练和测试样本模式集,以便有效地训练和评估ANN的性能,这一点正好是建立在数据仓库和大型数据库上的数据挖掘工具所能提供的。
由于ANN和DM两者的优势互补,将神经网络用于数据挖掘具有现实意义和实用价值。
神经网络是模拟人脑内部结构,在模拟推理、自动学习等方面接近人脑的自组织和并行处理的数学模型。
其优点之一是,不依赖于对象,通过学习将输入、输出以权值的方式编码,把它们联系起来。
神经网络在数据挖掘中的优势是:噪声数据的强承受能力,对数据分类的高准确性,以及可用各种算法进行规则提取。
因此,常常借助神经网络来进行数据挖掘。
2.数据挖掘数据挖掘(Data Mining).又称数据库中的知识发现(Knowledge Discovery in Database.KDD).是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式.它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。
数据挖掘是进行数据查询.它能够找出过去数据之间的潜在联系.从而促进信息的传递。
数据挖掘工具能够对将来的趋势和行为进行预测.从而很好地支持人们的决策。
2.1数据挖掘的发展数据挖掘(DM)的实质是一种发现知识的应用技术,是一个提取有用信息的过程。
与数据挖掘意义相近的术语有数据开采、知识抽取、信息收集和信息发现等,现在普遍采用的主要有数据挖掘和数据库中的知识发现(Knowledge Discovery in Database,KDD)。
KDD一词最早出现在1989年8月举行的第l1届国际联合人工智能学术会议上,它是指从数据库中抽取大量数据中隐含的、潜在的和有用的知识的过程。
在1993年,IEEE的Knowledge and Data Engineering会刊出版了KDD技术专刊,发表的论文和摘要体现了当时KDD的最新研究成果和动态。
目前KDD的国际研讨会的数量和规模逐渐扩大,1997年数据挖掘和知识发现的国际学术刊物Data Mining and Knowledge Discovery开始创刊,许多杂志刊物也为数据挖掘开辟了学术专栏,为该领域的研究与交流提供了广阔的舞台。
由于数据挖掘可以为企业构筑竞争优势,为社会带来巨大的经济效益,一些国际知名公司也纷纷加入数据挖掘的行列,研究开发相关的软件和工具。
美国的IBM公司于1996年研制了智能挖掘机,用来提供数据挖掘解决方案;SPSS股份公司开发了基于决策树的数据挖掘软件——一sPsScHAID;思维机器公司在1997年开发了Darwin这一数据挖掘套件,还有Oracle公司、SAS公司和Mapinfo公司等都开发了相关的产品。
此外,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets 最为权威,另一份在线周刊为Ds(决策支持),1997年开始出版。
自由论坛DM EmailClub可以通过电子邮件讨论数据挖掘和知识发现的热点问题。
数据挖掘是数据库和信息决策领域的最前沿的研究方向之一,已引起了国内外学术界的广泛关注。
在我国已经开始进行数据挖掘技术的研究,但还没有看到数据挖掘技术在我国成功应用的大型案例。
2.2 数据挖掘的分类数据挖掘涉及的学科领域和方法很多,因此分类的方法也有多种。
按挖掘对象分:有关数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库和万维网(WEB)等。
按挖掘方法分:粗略分为机器学习方法、统计学方法、神经网络方法和数据库方法等。
机器学习可细分为归纳分析(决策树和规则归纳等)、基于范例学习、遗传算法等。
统计方法可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别和非参数判别等)、聚类分析(系统聚类和动态聚类等)、探索性分析(主成分分析法和相关分析法)等;神经网络可细分为前馈式神经网络(BP算法)、自组织神经网络(自组织特征映射、竞争学习等)等。
按挖掘任务分:可分为关联规则发现、分类、聚类、时间序列预测模型发现和序贯模式发现等。
2.3数据挖掘的技术方法(1)分析方法数据挖掘中大量采用统计分析方法,如描述统计、概率论、回归分析、时间序列分析、多元分析等。
回归分析是用于了解自变量和因变量之间的关系,并用这些关系来进行分析和预测。
时间序列分析,即利用时间序列模型进行分析。
多元分析是对多维随机变量进行分析的技术,其主要有主成分分析、因子分析、判别分析、聚类分析及典型相关分析等。
(2)决策树决策树主要是基于数据的属性值进行归纳分类,常用于分类的层次方法有“If—Then”规则。
决策树方法的最大优点就是可理解性,比较直观它与神经网络最大的区别是,决策树可以解释如何得出结果的决策过程。
其缺点是处理复杂性的数据时,分支数非常多,管理起来难度很大。
同时,还存在数据的缺值处理问题。
其算法有ID3、C4.5、CART和CHAID等,目前出现的两种新算法SLIQ和SPRINT,可以由非常大的训练集进行决策树归纳,可以处理分类属性和连续性属性。
(3)神经网络一种模仿人脑思考结构的数据分析模式,由输入变量或数值中自我学习并根据学习经验所得的知识不断调整参数,以期得到资料的模式。
是建立在自学习的数学模型基础之上,它可以对大量复杂的数据进行分析,并能完成对人脑或计算机来说极为复杂的模式抽取及趋势分析。
其实神经网络的处理过程主要是通过网络的学习功能找到一个恰当的连接加权值来得到最佳结果。
比较典型的学习方法是回溯法。
通过将输出结果同一些已知值进行一系列比较,加权值不断调整,得到一个新的输出值,再经过不断的学习过程,最后该神经网络得到一个稳定的结果。
3.神经网络人工神经网络(ANN)是由大量并行分布式处理单元组成的简单处理单元.它有通过调整连接强度而从经验知识进行学习的能力并可将这些知识进行运算.是模拟人脑的一种技术系统。
神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神经庀和神经网络的特点,通过简化、归纳,提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络本身的结构来表达输入和输出的关联知识。
人工神经网络是由大量简单的神经元按某种方式连接形成的智能仿生网络,它以简单非线性神经元作为处理单元,通过广泛连接构成大规模分布式并行处理非线性动力学系统方式,它不依赖于精确数学模型,而显示出自适应!自学习功能。
1943年,法国心理学家W.S.McCuloch和W.Pitts在分析综合神经元基本特征的基础上提出了第一个神经元数学模型,开创了人类自然科学技术史上的一门新兴科学ANN的研究。
从1943年到现在,神经网络已经发展成为一门多学科领域的边缘交叉学科。
1986年,Rumelhart和Hinton提出了误差后向传播神经网络BP(Error Back Propa gation Neural Net.work)。
BP神经网络是由输入层节点、隐含层节点和输出层节点组成。
对于输入的信号,是由对应的每个训练样本度量的属性组成的,每个属性分别输入到输入层的各个单元中;这些单元加权输出到隐含层的各个“类神经元”中;该隐含层的加权输出可以输入到另一个隐含层,如此下去;最后一个隐含层的加权输出作为构成输出层的单元的输入。
输出层发布给定样本的网络预测。
误差后向传播是通过迭代处理一组训练样本,将每个样本的网络预测与实际知道的类标号比较,进行学习,得出误差信号。
将误差信号进行反馈,对于每个训练样本,修改权值,使得网络预测和实际类之间的均方误差最小。
这种修改是“后向”进行的,即由输出层,经由每个隐含层,到第一隐含层。
BP神经网络对应着一定的输入和输出,由事物的属性转换成相应的数据作为输入数据,输出数据则对应着相应的事物主题,隐含的神经网络决定着分类规则。