当前位置:文档之家› 指标筛选技术在神经网络数据挖掘中的应用

指标筛选技术在神经网络数据挖掘中的应用

指标筛选技术在神经网络数据挖掘模型中的应用摘要在简要介绍神经网络基本原理的基础上,以分类神经网络中的RBF 网络为例,讨论了神经网络数据挖掘模型中指标筛选的重要性,并以信用卡欺诈检测神经网络数据挖掘模型为实证案例,演示了指标筛选方法能有效地提高神经网络模型的分类效率与收敛速度,同时,讨论如何针对数据挖掘主题与数据特点选择合适的指标筛选技术。

常用的指标筛选技术有相关分析、回归分析、信息增益、模糊集与主成分法等,本文重点介绍了基于回归分析的指标筛选与基于信息增益的指标筛选,目的在于通过引入指标筛选技术,提高神经网络数据挖掘模型的准确率、响应速度与减少资源占用等。

关键词:数据挖掘、神经网络、指标筛选、信息增益1. 引言根据Universal Approximation Theore,即神经网络具有对任何复杂函数的模拟逼近功能,这为神经网大规模应用提供了强有力的理论依据。

由于神经网络是基于生物神经网络的模拟,通过不断学习来认识事物潜在的规律。

同时,由于神经网络没有对数据分布进行相应的假设,这使神经网络在各行业中的应用具有广泛的适用性。

另一方面,由于没有对数据分布进行假定,使神经网络对噪声数据具有相当的柔性,这进一步使人们在面对高维空间与海量数据时,更偏向于采用基于生物模拟的神经网络,而非基于传统的统计分析与计量方法,如多元统计分析等。

但是,神经网络的柔性与通用逼近性在实践中有时并未给研究分析带来理想的效果,其根本原因在于,直接导入高维空间数据致使神经网络的效率急剧下降,也使得神经网络很难满足实时响应的要求,如实时欺诈监控、实时风险评级、工业实时控制等。

因此,本文针对神经网络的应用,提出了高维空间的预处理,即指标筛选。

文章安排具体如下,首先介绍了神经网络的基本原理;其次,介绍几种指标筛选方法,并进行比较,重点讨论信息增益方法在指标选择中的优势;再次,根据一银行信用卡欺诈数据集,演示了指标筛选技术在神经网络中的作用,同时比较了不同指标筛选技术的效率;最后,总结了指标筛选技术在神经网络模型中应用要点。

2. 神经网络的基本原理人工神经网络(Neural Networks)是对生物神经网络进行仿真研究的结果。

它通过采集样本数据进行学习的方法来建立数据模型,系统通过样本不断学习,在此基础上建立计算模型,从而建立神经网络结构[2]。

神经网络通过训练后可以执行复杂函数的功能,能对所有函数进行逼近,Universal Approximation Theorem。

这就是说,如果一个网络通过训练后呈收敛状态,那么神经网络就具备了执行输入到输出这种线性或非线性的函数功能。

当然,这种函数不是基于理论或经验的假设,而是基于对样本的有监督的训练,使神经网络具备了模拟复杂系统的功能。

根据数据挖掘主题的类型,神经网络可分为分类神经网络(含预测)与聚类神经网络。

本文实证分析部分采用神经网络中的RBF 网络,RBF 网络属于分类神经网络,其拓扑图与学习原理可参阅相应文献[3]。

RBF 神经网络除了具有神经网络的相应优点外,还有两大缺陷,一是网络的训练时间较长,或需要高性机能计算机设备,当然,除非工业级的实时监控上的应用,对一般的经济分析而言,这点不足为虑。

另一个不足是研究者不能得到一个基于样本训练出来的分类函数,也即不能对输入输出进行结构分析,这也是所有神经网络模型的一大缺憾。

3. 指标筛选技术数据挖掘需要处理的是海量的数据集,且变量(或指标)非常多(一般都在50 个以上,称为高维空间),由于不知道相应的规则或模式,收集更多的样品指标以防止遗漏重要解释变量,但是这不等于把所的指标都应用数据挖掘建模,这样会严重影响建模的效率与对挖掘结果的解释,少量的指标有利于模型的结构解释。

因此,在建模之前必须对指标进行筛选,以挑选出对目标变量或模式有重要影响的变量。

指标筛选即指标归约,是指用部分指标来代替原有的指标体系,即进行适当降维。

降维的方法主要有两类,一是选择指标的子集来代替原有的指标体系,如相关分析、回归分析、信息增益与模糊集等。

二是对原有指标进行变换,转化成新的综合性指标,如主成分分析。

本文所述的指标筛选是子集的选择。

指标选取的方法有多种,常用的是相关分析,基于Pearson 相关定理。

由于相关分析在数据处理中应用较为普遍,本文不再赘述。

关于基于模糊集的指标筛选技术,由于在常用的统计软件中得不到支持,故不作介绍。

故本节重点介绍基于回归分析与信息增益的指标筛选方法。

与相关分析不同,基于回归分析筛选方法试图从线性因果关系来说明各个自变量对因变量的影响程度与方向。

基于信息增益的指标筛选方法与上述两种方法完全不同。

信息增益方法源于熵理论,即热力学第二定律,目前在社会学科、管理科学以及空间科学上取得了相当多的成功应用,其基本思想是以指标的信息含量来评价指标的重性,进而筛选指标。

3.1 基于回归分析的指标筛选原理回归分析有线性与非线性之分。

线性回归分析适用于取值范围不大的指标,以防止个别指标值对回归线产生较大的拉近作用,使回归线过分拟合异常值(或端点值)。

回归分析指标筛选方法有:前进法(Forward)、后退法(Backward)以及步进法(Stepwise)。

其基本原理如下:Forward 是在回归模型中逐步加入指标,直到没有满足一定显著性要求的指标为止。

对已入选择的指标在有新的指标加入后,其显著性是否符合要求不再进行检测,即“只进不出”。

显著性检测一般采用偏j F 检验。

Backward 是先把所有的指标纳入到回归模型中,然后根据显著性水平,剔除显著性水平最低的指标(即T值绝对值最小的,且不显著性),再由剩下的指标重新拟合回归模型,并剔除T 值最小的指标,如此循环,直到所有指标都达到一定的显著性要求为止。

Backward 最大的特点,也即缺点是对已剔除的指标不再有机会入选回归模型,即“只出不进”。

Stepwise 是Forward 与Backward 的结合,也是最为常的回归筛选指标的方法。

其基本过程与Forward 类似,不同之处在于对已剔除的指标还有机会重新选入模型,即“有进有出”。

最为关键的是分别对剔除与选入设定了不同的显著性水平,且剔除的显著性水平out a 小于进入的显著性水平in a ,即所谓的“宽进严出”,否则会产生引进后再剔除这样的循环过程。

基于回归分析的指标筛选应用的关键在于对回归函数形式的假设是否与实际相符,同时指标的显著性检验需要对数据分布作相应的的假设。

其优点是可以从结构上说明各指标的重要性。

3.2 基于信息增益的指标筛选原理在进行数据挖掘时,要确定使用哪些指标,除了基于成功的经验与先验理论外,一般比较困难,况且数据挖掘的目标是发现潜在的有兴趣的模式与规律。

也就是说,事先没有一定的理论认识,如有相当的认识,则可以采用其它统计手段进行分析。

如果采用的指标太少,会降低数据挖掘的效果。

如果选用的指标太多,会产生指标间的共线性,导致挖掘主题被“淹没”,如在判别分析中不能得到判别函数,同时参数的标准差将增大,显著性检验失效。

因而,指标筛选成了数据挖掘的关键之一。

在介绍信息增益方法前,先对熵(entropy)的概念做相应解释。

熵是对数据集的随机性的一种度量,是一种量化信息的概念。

爱因斯坦曾指出热力学的第二定律(熵理论)是联系自然界与人类社会的桥梁,由此可见熵理论的重要性。

熵理论目前已广泛应用于信息科学、管理科学与环境空间科学等。

熵表达了一种物质状态所能提供的信息,如果熵小,则物质呈现出一种相对有序的状况,这就意味着所包括的信息量较少。

对统计分析而言,如果一个数据集中的所有数据都属于同一类,概率取值为1,则没有不确定性,此时的熵取值为0。

假设有一个数据集S(一个样本),被解释变量(指标)为o,有r 个指标值(o , o , , o r 1 2 L ),根据o的取值可以把数据集S 划成r个子集(r s , s , , s 1 2 L ),显然有) 1 2 r S = s ⋃s ⋃L⋃s ,⋂ ⋂ ⋂ = f s r s1 s L s 。

任一样品属于i s 概率为i p ,则对样本S分成r类所需要的信息为:∑== -rir i i I s s s p p11 2 2 ( , ,L, ) ( log )采用以2 为底的对数i p 2 log ,是因为信息编码采用二进制方式。

解释变量(评价指标)为i A (i =1,2,L,n),任取一个指标i A ,i A 有m 个取值(m a , a , , a 1 2 L ),根据指标i A 的取值可能把数据集S 划成m 个子集(m sa , sa ,L sa 1 2 ),显然有m S = sa1 ⋃sa2 ⋃L⋃sa ,⋂ ⋂ ⋂ = f m sa1 sa2 L sa ,则k s 与l sa 交集为kl k l C = s ⋂ sa 。

令kl n 为kl C 中的样品数目,其中(k=1,2,L,r ,l =1,2,L,m)则根据指标i A 对样本S 进行分类所需要的信息称作i A 的熵,记为( ) i E A( ) ( , , , ) 1 211 2l l rlmll l rli I C C CrE A n n n LL ∑=+ + +=则i A上该划分所获得的“信息增益”(information gain)定义为:( ) ( , , , ) ( ) i 1 2 r i Gain A = I s s L s - E A通过上述方法,可以计算每个n 指标的信息增益,按信息增益从大到小的顺序选取部分指标作为评价指标。

比较回归分析指标筛选技术与信息增益指标筛选技术的原理,可以发现,除离散化之外,基于熵理论的信息增益方法对数据分布没有相应的假设,同时信息增益技术在决策树ID3 与C4.5 算法中起着支撑作用。

一般而言,在没有数据的分布信息的情况下,使信息增益进行指标筛选更为合理。

4. 基于指标筛选技术的RBF 神经网络信用卡评级分析4.1 数据来源与软件工具说明基于指标筛选的RBF 神经网络信用卡评级分析所用的数据集为DMAGECR与DMAGESCR,由SAS 公司提供,分别用于模型的训练、测试。

记录数分别为1000、75 条,共有21 个指标①。

目标变量为risk,“1”表示欺诈,“0”表示正常。

分析工具采用SAS/STAT,SAS/EM4.3。

SAS/STAT 主要是用于一般的统计分析,SAS/EM4.3 主要用于决策树。

4.2 指标筛选由于目标变量risk 为二值型,采用Logistic回归分析进行指标筛选,方法为Stepwise。

指标筛选结果,按显著性依高到低为:CHECKING、INSTALLP、SAVING、PURPOSE、MARTIAL、DURATION、AMOUNT。

相关主题