数据挖掘在教学系统中的应用毕业论文第1章数据挖掘基本理论1.1 数据挖掘技术早期文献中,数据挖掘,也称为数据库中的知识发现,是从数据库中的数据抽取隐含的、未知的和潜在有用的信息(如知识规则、约束和规律等)的非平凡的过程。
确切地讲,数据挖掘(简记为DM)是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。
从功能上可以将DM的分析方法划分为以下四种(根据IBM的划分方法):关联分析;序列模式分析;分类分析;聚类分析。
关联规则挖掘算法是一种重要的数据挖掘方法。
DM系统不是多项技术的简单组合,而是一个完整的整体,它还需要其他辅助技术的支持,才能完成数据准备、数据挖掘、结果表述、算法评价这一系列任务。
根据功能,整个DM系统可以大致划分为三级结构(如图1.1所示)图1.1 DM系统结构图DM的数据分析过程可以分成数据准备、数据挖掘、结果表述及评价四个步骤。
数据准备阶段主要是准备适合分析的数据;数据挖掘阶段是最关键的阶段,主要是选定合适的挖掘算法,对数据进行分析,以得出真正合理有用的知识;结果表述阶段是把挖掘阶段得出的知识以便于用户理解的方式进行描述;评价阶段是用户根据已有的知识对挖掘的结果进行合理性分析,若有不合理的方面,再重复上述三个步骤,以保证挖掘结果的合理性。
DM与其他数据库工具既存在区别又存在联系。
查询工具、验证型工具、发掘型工具各自的侧重点不同,因此适用围和针对的用户也各不相同。
发掘型的应用主要负责从大量数据中发现数据模式,预测趋势和行为,与验证型工具一个很大的不同在于,用户在整个信息的挖掘过程中无需或只需很少的指导。
数据挖掘就是一种发掘型工具,与验证型工具不同,数据挖掘是一种展望和预测的工具,它能挖掘数据间潜在的模式,发现经营者可能忽略的信息,并为企业作出前摄的、基于知识的决策。
查询工具、验证型工具和发掘型工具是相互补充的,只有很好的结合起来,才能达到最好的效果。
数据挖掘被信息产业界视为数据库技术的前沿,数据库技术的新应用领域。
它在数据仓库、决策支持、市场策略和金融预测等领域具有广泛的应用前景。
全世界排名前列的大型和超大型公司95%以上都建立了数据仓库和应用了数据挖掘技术。
1.2 关联规则挖掘算法1.2.1频繁集的发现寻找频繁子集的方法是根据所有频繁发生的集合的子集也是频繁发生的。
为了生成频繁项目集,首先遍历数据库,收集每个项目集的支持度,取其支持度不低于最低支持度的项目集构成频繁项目集的集合L1;然后两两连接L1中的项目集,形成二维项目集的集合,再次遍历数据库,收集每个侯选二维项目的支持数,取其支持数不低于最低支持项目集构成频繁二项集的集合I2;如此迭代,直到新的侯选集n维集合为空时为止。
1.2.2 关联规则的发现假设每个频繁集的支持度都得到,记作P( ),∈频繁集,那么可信度Confidence(Ll /L2)=P( 1nL2)/p( 1)。
如果Confidence(L1/L2)满足最低信任度,那么这条规则存在,是有意义的。
在已经提出的许多算法中,R.Agrawal等人在文献中提出的Apriori算法是最有影响的。
除了最初提出的性能较Apriori差的AIS算法及其面向SQL的变体SETM,目前已知的大多数算法都是以Apriori为核心,或是其变体,或是其扩展。
Apriori是一种宽度优先算法,通过对数据库D的多趟扫描来发现所有的频繁项目集,在每一趟k中只考虑具有同一长度k(即项目集中所含项目的个数)的所有项目集。
在第1趟扫描中,Apriori 算法计算I中所有单个项目的支持度,生成所有长度为I的频繁项目集。
在后续的每一趟k中,首先以前一趟中所发现的所有频繁项目集为基础,生成所有新的候选项目集,即潜在的频繁项目集,然后扫描数据库D,计算这些候选项目集的支持度,最后确定侯选项目集中哪一些真正成为频繁项目集。
重复上述过程直到再也发现不了新的频繁项目集。
算法高效的关键在于生成较小的候选项目集,也就是尽可能不生成和计算那些不可能成为频繁项目集的侯选项目集。
1.3 聚类分析算法聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。
这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。
1.3.1 划分方法(PAM:PArtitioning method)首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。
典型的划分方法包括:k-means,k-medoids,CLARA,CLARANS FCM。
1.3.2 层次方法(hierarchical method)创建一个层次以分解给定的数据集。
该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。
为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。
典型的这类方法包括:第一个是:BIRCH方法,它首先利用树的结构对对象集进行划分;然后再利用其它聚类方法对这些聚类进行优化。
第二个是:CURE方法,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定量(向聚类中心)进行收缩。
第三个是ROCK方法,它利用聚类间的连接进行聚类合并。
最后一个CHEMALOEN,它则是在层次聚类时构造动态模型。
1.3.3 基于密度方法根据密度完成对象的聚类。
它根据对象周围的密度(如DBSCAN)不断增长聚类。
典型的基于密度方法包括:DBSCAN:该算法通过不断生长足够高密度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。
此方法将一个聚类定义为一组“密度连接”的点集。
个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。
1.3.4 基于网格方法首先将对象空间划分为有限个单元以构成网格结构;然后利用网格结构完成聚类。
STING 就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。
CLIQUE和Wave-Cluster 则是一个将基于网格与基于密度相结合的方法。
1.3.5 于模型方法包括:统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。
它的输入对象是采用符号量(属性-值)对来加以描述的。
采用分类树的形式来创建一个层次聚类。
1.4 分类分析若预测的变量是离散的(如批准或否决一项贷款),这类问题就称为分类;如果预测的变量是连续的(如预测涨跌情况),这类问题称为回归。
分类一直为人们所关注。
常用的方法有决策树、神经网络、贝叶斯、粗糙集等方法。
分类分析要分析数据库中的一组对象,找出其共同属性,构造分类模型,然后利用分类模型对其它的数据对象进行分类。
分类目标是分析训练集中的数据,利用数据中能得到的特征,为每一类建立一个恰当的描述或模型,然后根据这些分类描述对测试数据进行分类或产生更恰当的描述。
第2章数据挖掘技术的应用2.1 挖掘在成绩分析中的运用2.1.1 现有成绩分析的弊端教师简单的以考试分数来评价学生学习效果,教师在成绩分析这方面所花的时间较多,在一定程度上牵扯了教师的精力,使教师没有更多的精力关注教学的设计和过程的组织。
在传统考试中,由于时间和条件的限制,教师只能从有限的几个方面来分析考试,如根据最高分、最低分、平均分了解班级的整体水平,凭自己的印象寻找错误率较高的题目加以讲解等。
在进行年级成绩分析的时候,只是对成绩本身进行了简单统计的描述。
2.1.2 数据挖掘的应用(1) 对试题的分析与评价通过分析考试成绩及参与考试的样本,警告出现异常反应的试题,以及对专家估计的试题属性值进行自动校正等等。
主要从试题的难度、区分度、迷惑力几方面来评价。
其中难度用通过率体现,通过率为组成试卷提供选题依据,影响着分数的分布形态,离散程度,从而制约着测验的信度和效度。
一般而言,整个试卷的难度平均为 0.5为佳,各个试题难度均匀分布在 0.2~0.8之间为好。
区分度反应了一个题目的鉴别能力,由其可以得到三个方面的信息,题目能否有效的测量或预测所要了解的某些特性或正态;题目能否与其他题目一致的分辨被试;以及被试在该试题的得分和测验总分数间一致性如何。
区分度取值介于(+1,-1)。
迷惑力指多项选择体中供选择用的非正确答案被考生选中的可能性,因此这项指标只对多项选择题有意义。
通常用一次测验中选中某错误答案的次数来估计大案的迷惑效力。
考试中某一选项无一人选择,说明该选项无迷惑力;如果选用的人数多且低分组的选用多于高分组,说明该选项的迷惑力强。
如果高、低分组选某项的人数较少且人数接近,说明该选项的迷惑力较弱。
此参数对于成绩的分析意义不大,而且我们获得的数据只是学生一试题一分数,没有喧响。
这样的数据,所以此参数在成绩分析中没有采纳。
(2) 对试卷的分析与评价对试卷的分析可以利用关联规则对试卷数据库进行分析来得到某次考试的有效性、可信度、得分分布等信息。
评价从信度、效度、标准分数几方面来进行。
其中信度包括由客观题构成的试卷的信度和由主观题构成的试卷的信度、由主观题和客观题并存的试卷的信度,对信度系数的大小度量,应结合测验的用途、条件、容来看。
效度用以了解测验的质量和功能,为进一步改进测验或是在几个同类测验中合理选择提供依据。
利用效标关系、效度进行预测。
(3) 对学生的分析与评价学生在测验后总是关心自己的成绩,关心自己成绩的排名,关心自己哪些知识点掌握的好,哪些知识点掌握得不好,想知道进一步努力的方向。
可以利用分析学生的历次考试成绩及试卷中各题的得分,分析学生的进步情况、学习障碍、知识点和知识单元的掌握情况等等。
其中包括利用 Z分数对应曲线图对学生同时进行的各科目测试成绩进行的横向比较、利用Z分数对应曲线图及二列相关系数的分析对学生分数在历次测验中进行的纵向比较、利用成绩分布曲线得出学生成绩频数分布图等。
(4) 对知识点的分析与评价教师除了关心学生的考试情况,如成绩分布、平均分、与其他学生的比较等。
更关心学生对知识点的掌握情况。
分析学生已掌握的教学容和未掌握的教学容来找出教学的薄弱环节,通过分析学生的异质反应,找到需要单独辅导的学生。
这是对知识点的分析与评价的主要任务,可以结合数据挖掘的相关功能帮助分析各科成绩或学生历次成绩与总体成绩的相关性、回归性和方差齐性来了解学生某测试中各知识点的掌握情况、学生对某个知识点的总体掌握情况等。
2.2 分类规则挖掘在智能题库系统中的应用2.2.1 运用数据挖掘技术实现智能题库系统首先,设计数据库,数据库中包含题库,答案库和答案关键字库,题型库中包含科目,题号,题型,题目,难度,分值等字段;答案库中包括科目,题号,分值,答案,答案序号(用于标识同一题的多个答案)等字段其中题号是关键字;答案关键字库中包含题号,答案序号,权值和答案关键字。