当前位置:文档之家› 数据挖掘报告

数据挖掘报告

摘要数据挖掘技术可以在浩瀚的数据中进行统计、分析、综合、推理,发现数据部关联,并作出预测,提供数据信息,为决策提供辅助支持。

目前,数据挖掘技术已经广泛应用在商业领域,同样,可以将数据挖掘技术与国家教育项目相结合,对项目中的各类数据信息进行挖掘分析,提取隐藏的数据信息,为项目开发部门提供决策依据,进一步提高项目的科学性和高效性。

本文结合自身参与教育部指定的关于城市集群竞争力项目的实践经验,分析数据挖掘技术在国家教育项目中应用的可行性,并以此为例,采用JAVA语言编写实现KNN算法。

在项目实施方案中,以城市集群的数据为基础,完成数据挖掘的全过程:确定数据挖掘的对象和目标、数据清理和预处理,对某个指标缺失的数据引入神经网络方法进行预测填补,对缺失较多的数据引入对比和类比的方法进行预测填补,采用KNN算法实现数据分类,形成指标体系。

利用数据挖掘的结果,通过对指标数据的分析,预测决定城市集群竞争力的主要因素,从而为今后城市集群的发展方向和职能定位提供参考,为城镇体系的总体发展指明方向,为提高我国城市集群整体经济实力和综合竞争力提供一些有益的建议和对策,促进成熟集群向一体化方向发展,同时也可以为国其他城市集群的发展提供给一些有益的参考。

【关键词】数据挖掘 KNN算法数据分类 JAVA 城市集群竞争力目录摘要 (1)目录 (2)第一章绪论 (3)1.1研究背景和研究意义 (3)第二章数据挖掘技术的研究 (4)2.1 数据挖掘的功能 (4)2.2 数据挖掘的对象 (6)2.3 数据挖掘的过程 (7)2.4 数据挖掘算法 (9)第三章 KNN算法介绍与实现 (10)3.1 KNN算法介绍 (10)3.2 KNN算法的JAVA实现 (12)第四章总结 (17)第一章绪论1.1研究背景和研究意义1、研究背景随着信息社会的发展,计算机技术和数据库管理系统的应用,产生了大量的数据信息,数据库存储的数据量也在日益增长。

但对于此数据却是“数据丰富,信息贫乏",人们迫切需要从此类数据中获取信息,即将此类数据转换成有用的信息和知识,并且被广泛应用于事物管理、信息检索和数据分析中。

这种需求导致了对数据分析工具的需求扩大,数据挖掘技术就是在此信息技术发展下产生的。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘涉及多学科技术的集成,包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析等。

数据挖掘技术在商业等赢利性领域中已经取得了广泛的应用。

但在高校、政府等非赢利组织的应用并不广泛。

结合自身参与项目的经验,利用数据挖掘技术快速而又准确的从浩瀚的数据资源中提取出所需信息,从而在实际应用中将管理信息转化为可供决策使用的知识,这不仅具有理论价值,更具有极大的现实意义。

2、研究意义本文利用数据挖掘的结果,通过对指标数据的分析,预测决定城市集群竞争力的主要因素,从而为今后城市集群的发展方向和职能定位提供参考,为城镇体系的总体发展指明方向,为提高我国城市集群整体经济实力和综合竞争力提供一些有益的建议和对策,促进成熟集群向一体化方向发展,同时也可以为国其他城市集群的发展提供给一些有益的参考。

第二章数据挖掘技术的研究2.1 数据挖掘的功能数据挖掘的功能用于指定数据挖掘任务中要找的模式类型。

数据挖掘任务一般分为两类:描述和预测。

描述性挖掘任务记录数据库中数据的一般特性。

预测性挖掘任务在当前数据上进行推断以及预测。

数据挖掘功能以及他们可以发现的模式类型为:一、概念描述数据可以与类或概念相关联,用汇总的、简洁的、精确的方式描述每个类或概念,概念描述就是产生数据特征化和比较的描述。

数据特征化是目标类数据的一般特征或特性的汇总。

通常,用户指定类的数据通过数据库查询收集。

数据特征的输出可以用多种形式提供。

包括饼图、条图、曲线、多维数据立方体和包括交叉表在的多维表。

结果描述也可以用概化关系或规则形式。

数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。

目标类和对比类由用户指定,而对应的数据通过数据库查询检索。

输出的形式类似于特征描述,但区分描述应当包括比较度量,帮助区分目标类和对比类。

用规则表示的区分描述成为区分规则。

二、关联分析关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。

即两个或两个以上数据项的取值之间存在某种规律性,就称为关联,可以建立起这些数据项的关联规则。

关联分析广泛用于购物篮或事务数据分析。

包含单个谓词的关联规则称作单维关联规则。

在多个属性或谓词之间的关联,采用多维数据库,每个属性称为一维,则此规则称作多维关联规则。

数据关联是数据库中存在的一类重要的、可被发现的知识,它反映一个事件和其他事件之间依赖或关联。

如果两项或多项属性之问存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。

在大型数据库中,关联规则可以产生很多,这就需要进行筛选。

一般用“支持度"和“可信度"两个阈值来淘汰那些无用的关联规则。

三、分类和预测分类是指找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。

分类是数据挖掘中应用得最多的任务。

分类就是找出一个类别的概念描述,并用这种描述来构造模型。

可采用多种形式如分类规则、判定树、数学公式或神经网络。

等导出模型对训练数据集(即其类标记已知的数据对象)的分析。

分类可以用来预测数据对象的类标记。

然而,在某些应用中,人们可能希望预测某些空缺的或不知道的数据值,而不是类标记。

当被预测的值是数值数据时,通常称之为预测。

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。

典型的预测方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。

预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。

尽管预测可以涉及数据值预测和类标记预测,通常预测限于值预测,并因此不同于分类。

预测也包含基于可用数据的分布趋势识别。

在分类和预测之前可能需要进行相关分析,它试图识别对于分类和预测无用的属性并排除。

四、聚类分析与分类和预测不同,聚类(clustering)分析数据对象,而不考虑已知的类标记。

一般情况下,训练数据中不提供类标记,因为不知道从何开始。

聚类,可以用于产生这种标记。

对象根据最大化类的相似性、最小化类问的相似性的原则进行聚类或分组。

即对象的簇(聚类)这样形成,使得在一个簇中的对象具有很高的相似性,‘而与其他簇中的对象很不相似。

所形成的每个簇可以看作一个对象类,由它可以导出规则。

聚类也便于分类编制,将观察到的容组织成类分层结构,把类似的事件组织在一起。

五、异常分析数据中可能包含一些数据对象,他们与数据的一般行为或模型不一致,这些数据对象是异常的,大部分数据挖掘方法将异常数据视为噪声而丢弃,异常分析就是探测和分析那些不符合数据的一般模型的数据对象,并对其建模。

然而,在一些应用中(如欺骗检测),罕见的事件可能比正常出现的那些更有趣,称作孤立点挖掘。

六、演变分析数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。

尽管这可能包括时间相关数据的特征化、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。

2.2 数据挖掘的对象关系数据库系统广泛地用于商务应用。

随着数据库技术的发展,出现了各种高级数据库系统,以适应新的数据库应用需要。

新的数据库应用包括处理空间数据(如地图)、工程设计数据(如建筑设计、系统部件、集成电路)、超文本和多媒体数据(包括文本、影象、图象和声音数据)、时间相关的数据(如历史数据或股票交易数据)和WWW(通过Internet可以使巨大的、广泛分布的信息存储)。

依据不同的数据类型,数据挖掘的对象包括以下几种:一、关系数据库当数据挖掘用于关系数据库时,可以进一步搜索趋势或数据模式。

例如,数据挖掘系统可以分析顾客数据,根据顾客的收人、年龄和以前的信用信息预测新顾客的信用风险。

数据挖掘系统也可以检测偏差,如与以前的年份相比,哪种商品的销售出入预料。

这种偏差可以进一步考察(例如,包装是否有变化,或价格是否大幅度提高)。

关系数据库是数据挖掘最流行的、最丰富的数据源,因此它是我们数据挖掘研究的主要数据形式。

二、数据仓库一般,数据仓库用多维数据库结构建模。

数据仓库的实际物理结构可以是关系数据存储或多维数据立方体。

它提供数据的多维视图,并允许预计算和快速访问汇总的数据。

通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理(OLAP)。

OLAP允许在不同的抽象层提供数据。

同时允许用户在不同的汇总级别观察数据。

三、事务数据库一般地说,事务数据库由一个文件组成,其中每个记录代表一个事务。

事物数据库可有一些相关联的附加表。

事务可以存放在表中,由于大部分关系数据库系统不支持嵌套关系结构,而记录数据为一个嵌套关系,使用事务数据库通常存放在一表格式的展开文件中,或展开到类似的标准关系中。

当需要识别频繁的事物之间的关联时即可采用通过事务数据的数据挖掘系统。

四、文本数据库文本数据库是包含对象文字描述的数据库。

通常,这种词描述不是简单的关键词,而是正片文档。

文本数据库可能是高度非结构化的(如www页)、半结构化的(如email))或结构化的(如图书馆数据库)。

文本数据库上的数据挖掘可以发现对象类的一般描述,以及关键字或容的关联和文本对象的聚类行为。

为做到这一点,需要将标准的数据挖掘技术与信息检索技术和文本数据特有的层次构造(如字典和辞典),以及面向学科的(如化学、医学、法律或经济)术语分类系统集成在一起。

五、多媒体数据库多媒体数据库存放图象、音频和视频数据。

它们用于基于图象容的检索、声音传递、视频点播、www和识别口语命令的基于语音的用户界面等方面。

多媒体数据库必须支持大对象,如视频这样的数据对象可能需要兆字节级的存储。

还需要特殊的存储和搜索技术。

因为视频和音频数据需要以稳定的、预先确定的速率实时检索,防止图象或声音间断和系统缓冲区溢出,因此这种数据称为连续媒体数据。

对于多媒体数据库挖掘,需要将存储和搜索技术与标准的数据挖掘方法集成在一起。

有前途的方法包括构造多媒体数据立方体、多媒体数据的多特征提取和基于相似性的模式匹配。

2.3 数据挖掘的过程数据挖掘的过程实际是一个数据库知识的发现过程。

依据发现过程可以分为以下几个步骤执行:一、确定挖掘目标清晰明确的定义出问题,认清数据挖掘的最终业务目标。

一般来说,目标可以是关联规则发现、数据分类、回归、聚类、数据汇总、概念描述、相关分析建模或误差检测及预测或综合应用等。

相关主题