数据挖掘课程论文题目:数据挖掘中神经网络方法综述学号:********名:**专业:工业工程目录一、引言 (3)(一)数据挖掘的定义 (3)(二)神经网络简述 (3)二、神经网络技术基础理论 (3)(一)神经元节点模型 (3)(二)神经网络的拓扑结构 (4)(三)神经网络学习算法 (4)(四)典型神经网络模型 (5)三、基于神经网络的数据挖掘过程 (6)(一)数据准备 (6)(二)规则提取 (7)(三)规则评估 (8)四、总结 (8)一、引言(一)数据挖掘的定义关于数据挖掘的定义很多,其中被广泛接受的定义是:数据挖掘是一个从不完整的、不明确的、大量的并且包含噪声,具有很大随机性的实际应用数据中,提取出隐含其中、事先未被人们获知、却潜在有用的知识或模式的过程。
该定义包含了一下几个含义:(1)数据源必须为大量的、真实的并且包含噪声的;(2)挖掘到的新知识必须为用户需求的、感兴趣的;(3)挖掘到的知识为易理解的、可接受的、有效并且可运用的;(4)挖掘出的知识并不要求适用于所有领域,可以仅支持某个特定的应用发现问题。
[1]这个定义准确的叙述了数据挖掘的作用,即对海量、杂乱无章的数据进行处理和分析,并发现隐藏在这些数据中的有用的知识,为决策提供支持。
(二)神经网络简述神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳,提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络本身的结构来表达输入和输出的关联知识。
[2]起初,神经网络在数据挖掘中的应用并未被看好,其主要原因是神经网络具有结构复杂、可解释性差、训练时间长等缺陷。
但其对噪声数据的高承受能力和低错误率的优点,以及各种网络训练算法的陆续提出与优化,尤其是各种网络剪枝算法和规则提取算法的不断提出与完善,使得神经网络在数据挖掘中的应用越来越为广大使用者所青睐。
二、神经网络技术基础理论(一)神经元节点模型生物神经元,也成神经细胞,是构成神经系统的基本单元。
生物神经元主要由细胞体、树突和轴突构成。
人们将生物神经元抽象化,建立了一种人工神经元模型。
(1) 连接权连接权对应于生物神经元的突触,各个人工神经元之间的连接强度由连接权的权值表示,权值正表示激活,为负表示抑制。
(2) 求和单元求和单元用于求和各输入信号的加权和(线性组合)。
(3) 激活函数激活函数起非线性映射作业,并将人工神经元输出幅度限制在一定范围内,一般限制在(0,1)或者( − 1,1)之间。
(二)神经网络的拓扑结构人工神经网络(Artificial Neural Networks,ANN)是由大量人工神经元广泛互联而成的,它可以用来模拟神经系统的结构和功能。
人工神经网络可以看成是以人工神经元为节点,用有向加权弧连接起来的有向图。
根据连接方式,ANN 主要分为两大类:(1)前馈型网络前馈型网络是静态非线性映射,通过简单非线性处理的复合映射可获得复杂的非线性处理能力。
网络中各个神经元接受前一级的输入,并输出到下一级,网络中没有反馈,且同层中的神经元之间无连接。
(2) 反馈型网络反馈型神经网络是一种从输出到输入具有反馈连接的神经网络,神经元的输出可以反馈至同层或者前层神经元。
因此,信号能够正向和反向流通。
(三)神经网络学习算法下面介绍神经网络中最基本的几种学习算法:(1) Hebb 型学习Hebb 型学习的出发点是 Hebb 学习规则,即如果神经网络中某一神经元同另一直接与它连接的神经元同时处于兴奋状态,那么这两个神经元之间的连接强度将得到加强。
该学习方式可用如下表示:(2) 误差修正学习误差修正学习是一种有导师的学习过程,其基本思想是利用神经网络的期望输出与实际之间的偏差作为连接权值调整的参考,并最终减少这种偏差。
最基本的误差修正规则规定:连接权值的变化与神经元希望输出和实际输出之差成正比。
该规则的连接权的计算公式如下所示:(3) 竞争型学习竞争型学习是指网络中某一组神经元相互竞争对外界刺激模式响应的权力,在竞争中获胜的神经元,其连接权会向着对这一刺激模式竞争更为有利的方向发展。
竞争型学习是一种典型的无导师学习,学习时只需要给定一个输入模式集作为训练集,网络自行组织训练模式,并将其分成不同类型。
[3](4)随机型学习随机型学习的基本思想是结合随机过程、概率和能量(函数)等概念来调整网络的变量,从而使网络的目标函数达到最大(或最小)。
网络的变量可以是连接权,也可以是神经元的状态[4]。
(四)典型神经网络模型自1957年美国学者F.Rosenblatt于第一届人工智能会议上展示他构造的第一个人工神经网络模型—MP 模型以来,据统计到目前为止,已提出的神经网络模型有上百种之多。
前馈型网络,以 BP(Back Propagation)模型、函数型网络为代表,用于分类、预测和模式识别等方面;反馈型网络,以 Hopfield 离散模型和连续模型为代表,常用于联想记忆和优化计算;自组织型网络,以 Kohonen 和ART 模型为代表,常用于聚类和模式识别。
(1) BP 误差反向传播网络,是一种多层前向网络,采用最小均方差学习方式。
这是一种最广泛应用的网络。
它可用于语言综合,识别和自适应控制等用途。
BP 神经网络是需要有教师的训练。
(2) Hopfield 网络是由相同的神经元构成的单层,并且不具学习功能的自联想网络,并且需要对称连接。
(3) Kohonen 自组织神经网络,也称为自组织特征映射网络 SOM。
它的输入层是单层单维神经元;而输出层是二维的神经元,神经元之间存在以“墨西哥帽”形式进行侧向交互的作用。
因而,在输出层中,神经元之间有近扬远抑的反馈特性,从而使 Kohonen 网络可以作为模式特征的检测器。
(4) ART 网络也是一种自组织网络模型,无教师学习网络。
它能够较好地协调适应性,稳定性和复杂性的要求。
在 ART 网络中,通常需要两个功能互补的子系统(注意子系统和取向子系统)相互作用。
它不足之处是在于对转换、失真和规模变化较敏感。
[5]三、基于神经网络的数据挖掘过程经过研究,得出了如图所示的基于神经网络的数据挖掘的过程。
该过程由数据准备、规则提取和规则评估三个阶段组成。
[6](一)数据准备拥有数据是进行数据挖掘的必要条件,但仅仅拥有数据还是不够的。
因此很有必要在实施数据挖掘之前进行数据准备。
所谓数据准备就是对被挖掘的数据进行定义、处理和表示,以使它适应于特定的数据挖掘方法。
数据准备是数据挖掘过程中的第一个重要步骤,在整个数据挖掘过程中起着举足轻重的作用。
它主要包括以下四个过程。
(1)数据清洗:数据清洗就是填充数据中的空缺值,消除噪声数据,纠正数据中的不一致数据。
因为数据仓库中的数据来源于异质操作数据库,这些异质操作数据库中的数据并非都是正确的,常常不可避免地存在着不完整、不一致、不精确和重复的脏数据。
数据清洗可以在数据装入数据仓库之前或之后进行。
目前最常用的数据清洗方法有基于规则的方法、可视化的方法和统计的方法。
(2)数据选择:数据选择就是选择用于本次挖掘的数据列和行。
在绝大多数情况下,虽然人们无法精确地知道哪些参数是对决策最重要的,但神经网络可以帮助人们建立一个与参数相关的模型,进而帮助确定哪些是最重要的参数。
数据选择实际上是在两个维上进行的。
首先是列或参数维的选择,其次是行或记录维的选择。
(3)数据预处理:数据预处理就是对选择后的干净数据进行增强处理。
这种增强处理有时意味着根据一个或多个字段产生新的数据项,有时意味着用一个信息量更大的字段去代替若干个字段。
应该说明的是,输入字段的数目不应该是提供给数据挖掘算法信息量的量度。
因为有些数据可能是冗余的,也就是说,有些属性只不过是相同事实的不同度量方式而已。
(4)数据表示:数据表示就是将数据预处理后的数据转化成基于神经网络的数据挖掘算法可以接受的形式。
基于神经网络的数据挖掘只能处理数值数据,因此需要将符号数据转化为数值数据。
各种常见的神经网络模型的学习算法、网络结构以及基本功能见参考文献[7]。
(二)规则提取规则的提取方法很多,其中最为常用的方法有如下几种。
(1)LRE的方法:用LRE的方法对MLP(多层感知器)进行规则提取主要有两步:第一,对网络中的每一隐层结点和输出结点,搜索不同的输入组合使得输入加权和大于当前结点的阈值;第二,对每个组合产生一条规则,其前提是各个输入条件的合取。
Either、KT、Subset算法就是LRE方法中有代表性的三种方法。
这三种方法的优点是所产生的规则较容易理解;缺点是搜索空间大、搜索效率低、前后产生的规则有可能发生重复以及不能保证所有有用的规则都被产生出来。
[9](2)黑盒的方法:黑盒的方法仅考虑从前馈神经网络的输入和输出的行为来提取规则,之所以称它为黑盒方法,是因为使用该方法在提取规则时不考虑神经网络的类型和结构,只关心网络的输入与输出之间的映射关系。
Saito and Nakano为了从训练好的神经网络提取医疗诊断规则而提出的改进算法就是该方法的一个典型的例子。
(3)提取模糊规则的方法:在模糊神经网络和神经模糊系统的研究中,有些模糊神经网络和神经模糊系统中包含了模糊规则的提取和精华方法。
(4)从递归网络中提取规则的方法:该方法将递归网络的状态和有限自动机的状态相对应,从离散时间递归网络中提取出有限自动机的文法规则。
另外,使用该方法可以提高神经网络的泛化能力。
(5)最近,Tasa和Ghosh又提出了一些新的规则提取方法:二值输入输出规则提取算法、部分规则提取算法以及全部规则提取算法。
有关这三种算法的具体描述见参考文献[8]。
(三)规则评估尽管规则评估的目标依赖于各个具体的应用,但总体说来,可以根据以下目标来评估规则:(1)寻找提取规则的最优顺序,使得它在给定的数据集上取得最好的效果;(2)测试被提取规则的正确性;(3)检测在神经网络中还有多少知识未被提取出来;(4)检测被提取出来的规则与训练好的神经网络之间存在的不一致性的地方。
但是,预先确定规则的顺序对规则的运用有着重要的作用,然而,从神经网络中提取规则的过程并未给出任何有关规则顺序的信息,但可以在以下三个测度的基础上实现它:健壮性测度,它在给定的数据集上测试每条规则被激发的次数,显然它与规则的顺序无关;完备性测度,它测试有多少模式被单独一条规则所识别;错误警戒性测度,它测试一条规则被错误激发的次数。
[10]四、总结目前,全球信息技术迅速发展,互联网快速普及,现代信息系统进入了大数据时代,人们不得不面对着从过量和海量的数据和信息中挖掘出自己真正需要的数据的境况。
所以数据挖掘算法的研究在近十年来受到了全世界专家学者极大的关注,并飞速发展。