当前位置:文档之家› 聚类算法分析及其在学生成绩分中的应用

聚类算法分析及其在学生成绩分中的应用

本科学生毕业论文(设计)题目聚类算法分析及其在学生成绩分析中的应用学院数学计算机科学学院专业计算机科学与技术学生姓名陶彬贤学号*******指导教师伍长荣职称副教授论文字数6564完成日期2011 年 4 月15 日论文题目聚类算法分析及其在学生成绩分析中的应用学生姓名、学院:陶彬贤数学计算机科学学院中文摘要(300字左右)数据挖掘就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。

数据挖掘的方法有很多,聚类分析是目前最有应用前景的数据分析方法之一,因为聚类分析能作为一个独立的工具来获得数据分布的情况,观察每一个簇的特点,并能集中的对特定的某些簇作进一步的分析。

对学生原始成绩进行等级评定是教学管理中的重要环节,利用聚类算法可以对学生成绩进行有效的等级划分。

K_means算法是划分式聚类算法的一种,文中运用K_means算法对学生成绩进行了聚类并对结果加以分析。

关键词(3~5个):聚类算法;K_means;学生成绩分析英文题目Clustering algorithms and Application of Clustering algorithms in students' performance analysis学生姓名、学院(英文):Taobinxian,school of mathematics&computer science 英文摘要Data mining extract those implicit but potentially useful information from a lot of incomplete, fuzzy and random data.There are many ways of data mining .Clustering analysis is one of the most application prospect of data analysis method,because the cluster analysis can be used as an independent tool to get data distribution,observe every cluster characteristic, and can focus on certain cluster for further analysis.Ranking of the student original scores is an important link of teaching ing clustering algorithm can repartition the student achievement effectively.k_means algorithm is a partition type of clustering algorithm.In this paper K_means algorithm is used to cluster the student achievement and the result has been analysed.英文关键词Clustering algorithms;k_means;students' performance analysis目录第一章引言 (3)第二章聚类分析技术与K_means算法 (3)2.1 聚类的定义 (3)2.2 聚类算法的分类 (4)第三章聚类技术在学生成绩分析中的应用 (6)3.1 学生成绩传统划分 (6)3.2 k_means算法描述[10] (6)3.3 k-means聚类算法实现流程图 (7)3.4 K_means算法对学生成绩分析 (7)3.5 程序实现 (9)3.6 传统方法与K_means算法的比较 (11)结论 (12)参考文献: (12)致谢 (13)聚类算法分析及其在学生成绩分析中的应用陶彬贤,数计学院摘要:数据挖掘就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。

数据挖掘的方法有很多,聚类分析是目前最有应用前景的数据分析方法之一,因为聚类分析能作为一个独立的工具来获得数据分布的情况,观察每一个簇的特点,并能集中的对特定的某些簇作进一步的分析。

对学生原始成绩进行等级评定是教学管理中的重要环节,利用聚类算法可以对学生成绩进行有效的等级划分。

K_means 算法是划分式聚类算法的一种,文中运用K_means算法对学生成绩进行了聚类并对结果加以分析。

关键词: 聚类算法;K_means;学生成绩分析Clustering algorithms and Application of Clustering algorithms in students' performance analysisTaobinxian,school of mathematics&computer scienceAbstract:Data mining can extract those implicit but potentially useful informationfrom a lot of incomplete, fuzzy and random data.There are many ways of data mining .Clustering analysis is one of the most application prospect of data analysis method,because the cluster analysis can be used as an independent tool to get data distribution,observe every cluster characteristic, and can focus on certain cluster for further analysis.Ranking of the student original scores is an important link of teaching ing clustering algorithm can repartition the student achievement effectively.k_means algorithm is a partition type of clustering algorithm.In this paper K_means algorithm is used to cluster the student achievement and the result has been analysed.Key words:Clustering algorithms;k_means;students' performance analysis第一章引言传统的数据分析方法是统计分析法,该方法只是对事实的验证,描述已经发生的事实,难以发现数据中存在的关系和规律,也难以根据现有的数据预测未来的发展趋势。

由于它缺乏挖掘数据背后知识的手段,因而导致了“数据爆炸但知识贫乏”的现象[1]。

面对这一挑战,数据挖掘(Data Mining,DM)[2]和知识发现(Knowledge Discovery in Database,KDD)技术应运而生,并逐渐显示出了强大的生命力。

在高校中,考试成绩是评估教学质量的重要依据[3],也是评估学生是否掌握好所学知识的重要方式。

试卷分析是考试过程的一个重要环节。

聚类是深层次的数据信息分析方法。

将聚类[4]技术应用于试卷成绩分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系[5]。

第二章聚类分析技术与K_means算法2.1 聚类的定义目前被广泛采纳的关于聚类所下的定义为[6]: 一个类簇内的实体是相似的,不同类簇的实体是不相似的;一个类簇是测试空间中点的会聚,同类簇的任意两个点间的距离小于不同类簇任意两点间的距离,类簇可以描述为1个包含密度相对较高点集的多维空间中的连通区域,它们借助包含密度相对较低点集的区域与其他区域(类簇)相分离。

并且,聚类确定了数据集中所有数据的归属[7]。

2.2 聚类算法的分类聚类算法大致分成层次化聚类算法、划分式聚类算法、基于密度和网格以及模型的聚类算法和其他聚类算法。

层次化聚类算法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。

具体又可分为“自底向上”和“自顶向下”两种方案。

例如在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。

代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等;划分式聚类算法:给定一个有N个元组或者纪录的数据集,分裂法将构造K 个分组,每一个分组就代表一个聚类,K<N。

而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。

使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;基于密度的聚类算法:基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。

这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。

代表算法有:DBSCAN 算法、OPTICS算法、DENCLUE算法等;基于网格的聚类算法:这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。

这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。

代表算法有:STING算法、CLIQUE算法、WA VE-CLUSTER算法;基于模型的聚类算法:基于模型的方法给每一个聚类假定一个模型,然后去寻找能个很好的满足这个模型的数据集。

这样一个模型可能是数据点在空间中的密度分布函数或者其它。

相关主题