数据挖掘技术在金融领域的应用武扬金融部门每天的业务都会产生大量数据,利用目前的数据库系统可以有效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。
缺乏挖掘数据背后隐藏的知识的手段,导致了数据爆炸但知识贫乏的现象。
与此同时,金融机构的运作必然存在金融风险,风险管理是每一个金融机构的重要工作。
利用数据挖掘技术不但可以从这海量的数据中发现隐藏在其后的规律,而且可以很好地降低金融机构存在的风险。
学习和应用数据挖掘技术对我国的金融机构有重要意义。
1.数据挖掘概述1.1 数据挖掘的定义对于数据挖掘,一种比较公认的定义是W.J.Frawley,G.Piatetsk Shapiro 等人提出的。
数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识、这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts ) ,规则(Rules )、规律(Regularities )、模式(Patterns)等形式。
这个定义把数据挖掘的对象定义为数据库。
随着数据挖掘技术的不断发展,其应用领域也不断拓广。
数据挖掘的对象已不再仅是数据库,也可以是文件系统,或组织在一起的数据集合,还可以是数据仓库。
与此同时,数据挖掘也有了越来越多不同的定义,但这些定义尽管表达方式不同,其本质都是近似的,概括起来主要是从技术角度和商业角度给出数据挖掘的定义。
从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程。
它是一门广义的交叉学科,涉及数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化等多学科领域且本身还在不断发展。
目前有许多富有挑战的领域如文本数据挖掘、Web信息挖掘、空间数据挖掘等。
从商业角度看,数据挖掘是一种深层次的商业信息分析技术。
它按照企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性并进一步将其模型化,从而自动地提取出用以辅助商业决策的相关商业模式。
1.2 数据挖掘方法数据挖掘技术是数据库技术、统计技术和人工智能技术发展的产物。
从使用的技术角度,主要的数据挖掘方法包括:1.2.1 决策树方法:利用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。
国际上最有影响和最早的决策树方法是ID3方法,后来又发展了其它的决策树方法。
1.2.2 规则归纳方法:通过统计方法归纳,提取有价值的if- then规则。
规则归纳技术在数据挖掘中被广泛使用,其中以关联规则挖掘的研究开展得较为积极和深入。
1.2.3 神经网络方法:从结构上模拟生物神经网络,以模型和学习规则为基础,建立3种神经网络模型:前馈式网络、反馈式网络和自组织网络。
这种方法通过训练来学习的非线性预测模型,可以完成分类、聚类和特征挖掘等多种数据挖掘任务。
1.2.4 遗传算法:模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。
为了应用遗传算法,需要将数据挖掘任务表达为一种搜索问题,从而发挥遗传算法的优化搜索能力。
1.2.5 粗糙集(Rough Set)方法:Rough集理论是由波兰数学家Pawlak在八十年代初提出的一种处理模糊和不精确性问题的新型数学工具。
它特别适合于数据简化,数据相关性的发现,发现数据意义,发现数据的相似或差别,发现数据模式和数据的近似分类等,近年来已被成功地应用在数据挖掘和知识发现研究领域中。
1.2.6 K2 最邻近技术:这种技术通过K个最相近的历史记录的组合来辨别新的记录。
这种技术可以作为聚类和偏差分析等挖掘任务。
1.2.7 可视化技术:将信息模式、数据的关联或趋势等以直观的图形方式表示,决策者可以通过可视化技术交互地分析数据关系。
可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。
1.3.数据挖掘在金融行业中的应用数据挖掘已经被广泛应用于银行和商业中,有以下的典型应用:1.3.1 对目标市场(targeted marketing)客户的分类与聚类。
例如,可以将具有相同储蓄和货款偿还行为的客户分为一组。
有效的聚类和协同过滤( collaborative filtering)方法有助于识别客户组,以及推动目标市场。
1.3.2 客户价值分析。
在客户价值分析之前一般先使用客户分类,在实施分类之后根据“二八原则”,找出重点客户,即对给银行创造了80%价值的20%客户实施最优质的服务。
重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。
通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度;通过对交易数据的详细分分析鉴别哪些是银行希望保持的客户;通过挖掘找到流失的客户的共同特征,就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。
1.3.3 客户行为分析。
找到重点客户之后,可对其进行客户行为分析,发现客户的行为偏好,为客户贴身定制特色服务。
客户行为分析又分为整体行为分析和群体行为分析。
整体行为分析用来发现企业现有客户的行为规律。
同时,通过对不同客户群组之间的交叉挖掘分析,可以发现客户群体间的变化规律,并可通过数据仓库的数据清洁与集中过程,将客户对市场的反馈自动输人到数据仓库中。
通过对客户的理解和客户行为规律的发现,企业可以制定相应的市场策略。
1.3.4 为多维数据分析和数据挖掘设计和构造数据仓库。
例如,人们可能希望按月、按地区、按部门、以及按其他因素查看负债和收入的变化情况,同时希望能提供诸如最大、最小、总和、平均和其他等统计信息。
数据仓库、数据立方体、多特征和发现驱动数据立方体,特征和比较分析,以及孤立点分析等,都会在金融数据分析和挖掘中发挥重要作用。
1.3.5 货款偿还预测和客户信用政策分析。
有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。
数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素,别除非相关因素。
例如,与货款偿还风险相关的因素包括货款率、资款期限、负债率、偿还与收入(payment-to -income)比率、客户收入水平、受教育程度、居住地区、信用历史,等等。
而其中偿还与收入比率是主导因素,受教育水平和负债率则不是。
银行可以据此调整货款发放政策,以便将货款发放给那些以前曾被拒绝,但根据关键因素分析,其基本信息显示是相对低风险的申请。
1.3.6 业务关联分析。
通过关联分析可找出数据库中隐藏的关联网,银行存储了大量的客户交易信息,可对客户的收人水平、消费习惯、购买物种等指标进行挖掘分析,找出客户的潜在需求;通过挖掘对公客户信息,银行可以作为厂商和消费者之间的中介,与厂商联手,在掌握消费者需求的基础上,发展中间业务,更好地为客户服务。
1.3.7 洗黑钱和其他金融犯罪的侦破。
要侦破洗黑钱和其他金融犯罪,重要的一点是要把多个数据库的信息集成起来,然后采用多种数据分析工具找出异常模式,如在某段时间内,通过某一组人发生大量现金流量等,再运用数据可视化工具、分类工具、联接工具、孤立点分析工具、序列模式分析工具等,发现可疑线索,做出进一步的处理。
数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势,这些信息对于决策或规划是有用的,金融行业数据的挖掘有助于根据顾客的流量安排工作人员。
可以挖掘股票交易数据,发现可能帮助你制定投资策略的趋势数据。
挖掘给企业带来的潜在的投资回报几乎是无止境的。
当然,数据挖掘中得到的模式必须要在现实生活中进行验证。
2 基于小波分析和支持向量机的指数预测模型小波分析理论是目前科学界和工程界讨论和研究最多的课题之一,它包含了丰富的数学内容,又具有巨大的应用潜力。
小波分析是在Fourier分析的基础上发展起来的,是调和分析近半个世纪以来的结晶。
其基本思想是将一般函数(信号)表示为规范正交小波基的线性叠加,核心内容是小波变换。
由于小波变换在时域和频域具有良好的局部化性质,能自动调整时、频窗口,以适应实际分析需要,因而已成为许多工程学科应用的有力工具。
在进一步介绍小波分析理论之前,我们先了解一下金融时间序列的概念。
支持向量机(support vector machine, SVM)是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问题的新工具。
它成为克服“维数灾难”和“过学习”等传统困难的有效办法,虽然他还处在飞速发展的阶段,但它的理论基础和实现途径的基本框架已经形成。
支持向量机目前主要用来解决分类问题(模式识别,判别分析)和回归问题。
而股市行为预测通常为预测股市数据的走势和预测股市数据的未来数值。
而当我们将走势看作两种状态(涨、跌),问题便转化为分类问题,而预测股市未来的价格是指为典型的回归问题。
我们有理由相信支持向量机可以对股市进行预测。
2.1 金融时间序列概况金融市场是国家经济生活的核心,寻找其中的变化规律,进行有有效合理的管理是各国政府及相关研究机构孜孜以求的目标之一。
同时,人们对金融预测也作了大量的探索,取得了丰硕的成果。
典型的金融预测是时间序列预测。
金融市场的数据绝大多数都是时间序列数据,即指这些数据是按照时间的排序取得的一系列观测值,如股票或期货价格、货币利率、外汇利率等。
这些数据具有非常复杂的变化规律,而利用一定的数学方法对其进行分析和研究将有助于制定更为精确的定价和预测决策,当然对于金融投资与风险管理活动具有十分重要的意义。
金融时间序列分析主要是以统计理论和方法为基础,通过模型假设、参数估计、回归分析等技术来描述其内在的规律。
适当的数学工具和真实的数据使金融时间序列分析成为金融经济研究中独具魅力的一块领域,例如美国经济学家Engle和英国经济学家Granger 就因其提出的ARCH模型和协整理论而荣获2003年度诺贝尔经济学奖。
一般来说,时间序列的分析可以通过时域和频域两个途径进行。
但是很多金融时间序列表现出较强的非平稳性和长记忆性,这使得许多传统的单独集中于时域或频域的研究分析方法已经不再适用。
而小波分析作为一种新型的信号分析方法,因其在时域和频域都具有表征信号局部特征的能力,被誉为“数学显微镜“,因而它非常适用于分析分平稳信号。
小波分析是近20年发展起来的新兴数学分支,也是目前数学界和工程界讨论最多的话题之一。
并且已经在信号和图像处理、模式识别、语音识别、地震勘测等众多学科中得到了广泛应用。
相对来说,其在金融时间序列分析和建模中的应用却相对较少。
但近年来,小波分析方法在金融时间序列分析中的重要地位已经越来越受到人们的关注。
2.2小波消噪在金融时间序列中的应用金融市场中数据由于各种偶然因素的影响,即使不存在暗箱操作,或没有什么重要新闻、重要政策出台,也会表现一种小幅的随机波动。