当前位置:文档之家› 数据挖掘课程设计

数据挖掘课程设计

本科课程设计及实验期末成绩评估系统的数据仓库和数据挖掘设计课程名称:数据挖掘
课程编号:08060116
学生姓名:cwl
学号:2008052251
学院:信息科学技术学院
系:计算机科学系
专业:软件工程
指导教师:lb
教师单位:信息学院计算机系
开课时间:2010~2011学年度第二学期
2011年06月20日
第1章概述
1.1应用背景和问题的提出
在大学生活中,我们大学生在某种程度上还是比较重视自己的课程成绩的。

而有一个期末最终成绩的评估系统,无疑对同学们而言是很有用的。

在这个系统中,只需输入你估计的平时成绩以及表现和期末考试的得分,就可以预测出最终的成绩。

而这个课程成绩的组成以及得出是怎么样的呢。

这个最终的得分是受到什么影响呢?本论文就以上问题进行了探讨和挖掘。

1.2设计内容的介绍
本课程设计主要是探讨和研究在老师给定成绩时考虑的因素,以及这些因素所占的比例。

数据仓库为一份记录着600个同学的得分情况的数据,数据挖掘则采用决策树探究出影响结婚年龄的因素。

第2章数据仓库设计
2.1概念模型设计
数据仓库里面有一个实体,也就是成绩score。

成绩的决定因素有performance 也就平时表现情况,即根据其在课堂上的活跃程度以及认真听课的情况来给的分,还有averscore就是同学平时的作业得分以及平时测试或者期中测试的平均成绩,以
及期末考试的成绩lasttest 。

2.2逻辑模型设计
本数据仓库只有一个表,逻辑模型设计如下:
score
lasttest
performanc
e
averscore
2.3物理模型设计
在数据仓库的物理设计中,主要解决数据的存储结构、数据的索引策略、数据的存储策略、存储分配优化等问题。

物理设计的主要目的有两个,一是提高性能,二是更好地管理存储的数据。

访问的频率、数据容量、选择的RDBMS支持的特性和存储介质的配置都会影响物理设计的最终结果。

在本数据挖掘中,数据的索引策略采取的并不是位图索引而是按列索引
2.4 OLAP模型设计
在本设计中由于案例考虑的并不复杂,所以OLAP模型设计也就比较的简单。

下面的数据是保存在Excel中的。

大概的模型设计也就如下图所示。

2.5 OLAP前端展示设计
第3章数据挖掘分析
3.1 期末成绩评估系统应用挖掘概述
在本系统中,数据仓库采用一个二维表来存储和表示同学们的平时成绩,平时表现得分,以及期末成绩等属性。

数据挖掘则采用关联分析来将二维表中的实例分开,并探究这些数据所蕴含的规律。

3.2数据挖掘实验
3.2.1实验环境
Windows XP
Microsoft SQL Server 2008
Microsoft Visual Studio 2008
Microsoft Office 2003 Excel Access
3.2.2数据准备及预处理
首先选择数据源,以下几个截图是在做实验时的几个步骤。

3.2.3 实验内容(输入数据集,选择算法,输出结果,比较分析)(1)建立一个Analysis Services Project的项目,在数据源中输入数据集:
说明:以上实验室在实验室做的,由于时间不够,回到宿舍自己安装了中文
版的SQL SERVER工具,并完成接下来的实验步骤。

3.2.4 算法选择
分类的任务是通过分析由已知类别数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型(也常常称作分类器)。

分类算法有多种,例如,决策树分类算法、神经网络分类算法、贝叶斯分类算法等。

这里需要用的是决策树分类算法。

在本挖掘中选择是关联分析,分析过程和结果如以下图所示:
下面是挖掘模型:项集:
关联规则:
提升图:
分类矩阵:
依赖关系网络图:
后来我用回归预测法,得到了一个散点图,说明预测值和实际值是有一定的关联的:通过以上的分析,我们得出一个结论,就是期末成绩在最终得分中所占的比例最大,平时成绩和平时表现的权重差不多,在这个结论中,期末考试的成绩的重要性,不言而喻,增加期末考试的成绩,最能提高最终成绩,平时成绩和表现的得分也很重要,但相对权重没有期末成绩大。

一个分数高的学生,他的所有成绩都应该是很高的。

参考文献:
[1] Jamie MacLennan,ZhaoHui Tang,Bogdan Crivat 著.数据挖掘原理与应用(第2版)——SQL Server 2008数据库.北京:清华大学出版社.
[2]、王丽珍、周丽华、陈红梅、肖清,数据仓库与数据挖掘原来及应用,北京:科学出版社
[3]、陈立潮、张淼、南志红,数据库技术及应用(SQL Server)实践教程,北京:高等教育出版社。

相关主题