当前位置:文档之家› 代价敏感决策树讲解

代价敏感决策树讲解

用于欺诈检测的一种代价敏感决策树方法cba Yusuf Sahin , Serol Bulkan , Ekrem DumanaKadikoy,Engineering, Marmara University, Department of Electrical & Electronics34722 Istanbul, Turkeyb Istanbul,University, Kadikoy, 34722 Department of Industrial Engineering, MarmaraTurkeyc Department of Industrial Engineering, Ozyegin, Cekmekoy, 34794 Istanbul, Turkey可变误分类代价信用卡欺诈检测决策树分类关键词:代价敏感建模虽然诸如摘要:随着信息技术的发展,欺诈行为遍布世界各地,这导致了巨大的经济损失。

等欺诈预防机制已经被开发应用于信用卡系统,但这些机制并不能阻止一些最常CHIP&PIN或者是所谓的在线信用卡欺诈邮购。

POS机上的信用卡欺诈使用,见的欺诈类型,比如在虚拟在欺诈检测成为了一种必不可少的工具,并且可能是阻止此类欺诈类型的最佳方法。

所以,它将在每个非叶节点选择分裂属性时此次研究中,提出了一种全新的代价敏感决策树方法,其在现实世界信用卡数据集上的性能可以与那些众所周知的传统分最小化误分类代价之和,在给定的问题集误分类代价将取不同的值。

结果表明,类模型相比较。

在这种分类方法中,此代价敏感决策树算法胜过现有公知的方比如准确度和真阳性率,上使用已知的性能指标,通过在欺因此,法,而且针对特定的信用卡欺诈检测领域,还新定义了一种代价敏感指标。

诈检测系统中实施该方法,可以更好的减少由于欺诈交易造成的金融损失。

信用卡欺诈检测有很多以前已经完成引言1.关于信用卡系统以及欺诈领域非技的研究。

Hanagandi, 术性知识的一般背景可以分别从欺诈可以被定义为为了取得财务或个Dhar, and Buescher (1996) and Hand and 两种避免由于诈人利益的非法或刑事欺骗。

学习。

在这个领域中,最常用(2001)骗活动导致欺诈和损失的机制是欺诈预防Blunt的欺诈检测方法有规则归纳技术,决策树,以及欺诈检测系统。

欺诈预防是以防止欺诈,),支持向量机(SVM)行为发生为目标的主动机制。

欺诈检测系统人工神经网络(ANN逻辑回归以及诸如遗传算法的启发式算法。

在诈骗者越过欺诈预防系统并且开始一个也可以通过集成以欺诈交易时发挥作用。

有关欺诈领域以及检这些技术可以单独使用,大多and Hand 及元学习技术协同使用来构建分类器。

的综述可以在Bolton 测技术比and 数信用卡欺诈检测系统在使用监督算法,(2002), Kou, Lu, Sirwongwattana,Brause, Langsdorf, & Hepp, and 如神经网络(Huang (2004), Phua, Lee, Smith,Cruz, & Gayler (2005), Sahin and Duman (2010)1999; Dorronsoro, Ginel, Sanchez,& Whitrow, 1997; Juszczak, Adams, Hand, 的研究中找到。

其中最知名的欺诈领域是信Weston, 2008; Quah & Sriganesh, 2008; 用卡系统。

可以通过许多方法进行信用卡欺Schindeler, 2006; Shen, Tong, & Deng, 诈,如简单盗窃,申请欺诈,伪造卡片,从2007; Stolfo, Fan, Lee, Prodromidis, & 未达卡问题(NRI)以及在线诈骗(在持卡Lee, 1997; Stolfo, Fan, 人不存在的情况下)。

在网络诈骗中,交易Chan,Zhang, 1999; Syeda, 是通过远程完成的,并且只需要信用卡信Prodromidis, & Chan,Stolfo, & & Pan, 2002; Prodromidis, Chan, 由于网络的国际可用性和易用性,息。

用户一类的决策树技C4.5和C&RT,可以在互联网交易中隐藏自身位置以及身2000)ID3、Chen, Huang, & Chen, 2004; Chiu, (所以通过该媒介发生的欺诈行为正在快份,术Chen,2003;2005;Mena, Lee, & Liang, Luo, 速增长。

.Wheeler & Aitken, 2000)以及支持向量机Network of Excellence in Machine LearningLeonard, )的技术路线图,代价敏感学习据(Gartner Reports, 2010;称是在机器学习研究的未来中一个非常流1993)。

行的课题(Saitta, 信用卡欺诈检测是一个非常困难,但也2000; Zhou & Liu,2006)。

因此,通过构建代价敏感分类器来很受欢迎的亟待解决的问题。

总是仅有有限改善分类器在欺诈检测系统中的性能是一数量有关犯罪交易的数据。

同时,也有可能个使大量经济损失恢复的最好办法。

此外,(合法)行为模式存在诈骗者进行符合正常客户的忠诚度和信任度也将有所增加。

并且Aleskerov, Freisleben, & Rao, 1997)(代价敏感分类器已经被证明能够有效处理的交易通过的情况。

此外,该问题还有很多类限制。

首先,正常和诈骗行为的表现不断地不平衡问题(Thai-Nghe, Gantner, &Schmidt-Thieme, 2010; Zhou & 改变。

其次,新欺诈检测方法的发展变得更Liu, 2006)。

大量过去的研究是在恒定的误分类代加困难是由在欺诈检测中交换思想的事实价矩阵或者由一些恒定的合成误分类代价尤其是信用卡欺诈检测因为安全和造成的,组成的代价矩阵上进行的;然而,每个假阴隐私问题被严格限制。

第三,数据集不一定性(FN)具有它固有的独特的误分类代价。

是可用的,其结果往往是截尾的,这使得它因此,每个假阴性(FN甚至,们难以评估。

一些研究使用合成产生)应当以某种方式排列来显示误分类代价的差异。

等Brause, 1999; Dorronsoro例如,具有较的数据进行(大交易量的或者更大可用额度的欺诈交易。

第四,信用卡欺诈数据集是高)等, 1997应该比具有较小数量或可用额度的更需要度倾斜集。

最后,该数据集正在不断发展,被检测。

恒定代价矩阵或者不变代价矩阵的使得正常和诈骗行为的表现总是在变化组合不能描述这个场景。

KouPhua 所以,本研究是在等, 2004; 2002; & (Bolton Hand, 可变误分类代价的分类问题工作中,将这样。

因et al., 2005; Sahin & Duman, 2010)的情况纳入考虑的开拓者之一。

信用卡欺诈检测仍然是一个流行的,具此,这项研究的目的是填补信用欺诈检测文献的一项空白。

有挑战性以及困难的研究课题。

Visa关于欧在此研究中,2008年,开发了一个新的代价敏感洲国家的信用卡欺诈报告指出在决策树归纳算法,大约它将在树的每个非叶节点50%的信用卡欺诈损失是由于在线欺诈选择分裂属性时最小化误分类代价之和,并)(Ghosh & Reilly, 1994。

许多文献报道且分类性能可以与那些无论是代价不敏感了大量不同国家的损失(Bolton & Hand,还是代价敏感的具有固定误分类代价率的。

2002; Dahl, 2006; Schindeler, 2006)传统分类方法相比较,比如传统决策树算新方法提高了在这一领域的分类器性因此,法,基于这个领域能兼有经济意义与研究贡献。

人工神经网络和支持向量机。

结果表明,就诈骗交易的辨别和防止可能的损失量而的特性,定义一个新的代价敏感方法是改善言,的最佳途径之一。

这个代价敏感决策树算法在我们现实世界数据集上的表现优于现有公知的方法。

虽然传统的机器学习技术在许多分类在信用卡欺诈检测中,问题上一般是成功的,但是具有高准确度或误分类代价以及欺诈的优先序基于个人记录来区别不同。

其最小化误分类误差并不总是开发分类器的结果是,常见的性能指标,如准确率,真阳在现实世界的机器学习问题领域的应目标。

性率(TPR定义有各种类型的代价参与,用中,Turney)或者甚至曲线下面积(AUC)并不适合评估模型的性能,)。

因为它们接受每个Turney, 2000了其中的九种主要类型(欺诈是具有相同优先级,大多数机器学习文献并不采取任何这然而,不管欺诈交易量或者当时交易中用卡的可用信用额度是多少。

些代价的考虑,仅仅剩下的一小部分考虑了应该使用一个使用有意义的方式按序排列Turney误分类代价。

还指出误分类误差的代欺诈交易以及检查模型在最小化总经济损有具中分在价类(位Turney, 地的特独一旦诈骗者得到失时性能的全新性能指标。

European 项目(ML-netll。

而根据)2000.使用信用卡进行诈骗交易的机会,他们通常(Drummond & Holte, 2003; Japkowicz & Stephen, 2002; Japkowicz et al., 2000; 消耗完一张信用卡的可用信用额度。

因此,Maloof, 2003)。

一个欺诈交易的经济损失可以假定为交易第二种方法是当建立分类模型时将代前卡的可用信用额度,而不是交易的数量。

价敏感性考虑在内,调整廉价类的阈值使得这样,模型在测试集上的性能比较可以使用昂贵类样本的误分类更加困难以此最小化新定义的代价敏感性能指标挽回损失率误分类代价(Langford (SLR),也就是从欺诈交易中信用卡可用额& Beygelzimer, 2005;Maloof, 2003; Sheng & Ling, 2006; Zhou 度之和的潜在经济损失中挽回的百分比。

为& Liu, 2006了显示我们观点的正确性,在模型性能的比)。

过采样,欠采样和调整阈值不会更改算法,较中,代表模型性能的真阳性率(TPR)的因此可以被用于几乎所有的算法(Ma, 值也会给出。

Song, Hung, Su, & Huang, 2012)。

然而,前两者会改变模型算法的输入,本文的其余部分安排如下:第二章节给而后者会改变由该算法构建的模型的输出出机器学习中代价敏感方法的回顾;第三章(Zhou& Liu, 2006节给出对于信用卡数据的结构的一些见解;)。

相关主题