当前位置:文档之家› 数据仓库与数据挖掘_课程教学实践与探索

数据仓库与数据挖掘_课程教学实践与探索

2011年1月第1期 高教论坛H igher Education ForumJan 2011 No 1数据仓库与数据挖掘 课程教学实践与探索韦艳艳,张超群(广西民族大学 数学与计算机科学学院,广西 南宁 530006)摘要:本文从 数据仓库与数据挖掘 课程的本科教学特点出发,讨论了在授课过程中遇到的一些实际问题,介绍了理论教学环节和实验教学环节的各项内容及侧重点,并给出具体的实验教学方案。

关键词:教学实践;数据仓库;数据挖掘中图分类号:G642 文献标识码:A 文章编号:1671-9719(2011)01-0094-03作者简介:韦艳艳(1974-),女,广西贵港人,讲师,主要研究方向为数据挖掘、机器学习。

收稿日期:2010-10-11一、前言数据仓库与数据挖掘技术出现于20世纪80年代,90年代有了突飞猛进的发展。

这是信息和数据深度处理的必然需要,也是体现信息价值的重要工具。

现在, 数据仓库与数据挖掘 作为一门既有理论基础又有实际应用价值的学科,已经成为计算机、信息系统等很多专业本科生的学习内容之一,由此可见这门学科在当今科学中的重要性以及应用的广泛性。

本课程是计算机科学与技术本科生在第三学年开设的选修课程。

作为一门前沿性学科,数据仓库与数据挖掘有许多技术和方法是开放式、或仍处于探索阶段的。

因此,学生除了掌握基本的概念与方法之外,对该门学科中许多面临的问题、有待拓展的研究方向应有所了解,这样有助于为学生提供对该学科的一个广博且适度的概览,提高自主学习的能力,并为有志于在该领域进行深入研究的学生提供一个学习的机会。

由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围;此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。

因此,要实现 数据仓库与数据挖掘 课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排[1-2]。

二、课程的教学内容本课程的任务主要是从数据库角度出发,全面、系统地介绍数据仓库与数据挖掘的基本概念、基本方法以及该领域的最新进展。

通过本课程的学习,使学生对数据仓库与数据挖掘的整体结构、概念和技术有深入的认识和了解,并且熟悉相关算法的基本原理,提高学生分析数据的思维能力与计算能力。

教材方面,我们采用的是清华大学出版社出版,由安淑芝等编著 数据仓库与数据挖掘 ,同时还向学生推荐阅读韩家炜编著的 数据挖掘:概念与技术 ,这是一本得到业内广泛认可的的经典教科书[3]。

该课程理论课时共22学时,各章节授课学时安排如表1所示。

表1 各章节的授课学时章节学时第一章 绪论2第二章 数据仓库7第三章 数据预处理3第四章 数据挖掘的基础知识2第五章 数据挖掘的常用算法8表2 实验教学内容实验内容课时数据仓库的基本构造方法及实施联机分析处理4构建N or thwind数据仓库系统4数据收集及预处理2各类数据挖掘及分析8实验课时共18学时,实验内容主要配合教学环节来设置。

具体安排如表2所示。

三、理论教学环节数据仓库与数据挖掘 这门课程所涉及的是多个学科的交叉领域,要求学生有扎实的计算机专业知识,且应当掌握如数据库系统、程序设计、概率统计、数据结构、机器学习等学科的基础知识。

但由于本科生课程在教学设置及课时安排方面的原因,学生不可能完全了解相关的学科内容,因此,本课程在理论讲解时,对涉及到学生比较生疏的知识点,比如决策支持对数据的特殊要求、知识的定义及表示方法、信息熵的计算等等,应根据学生已有的知识水平,结合实例予以说明。

数据仓库与数据挖掘 这门课程与数据库有着紧密的联系,在讲解数据仓库部分时,应当首先让学生了解数据管理技术从数据库发展到数据仓库的过程,以便理解数据仓库技术和数据挖掘技术产生的原因,进而出现数据挖掘这一类深层次的数据分析的发展过程。

而在讲解数据仓库与数据挖掘的关系时,应当指出数据仓库系统能够满足数据挖掘技术对数据环境的要求,可以直接作为数据挖掘的数据源。

反之,数据挖掘的数据源不一定必须是数据仓库系统,它可以是任何数据文件或格式,但必须事先进行数据预处理,处理成适合数据挖掘的数据。

数据仓库可以为企业管理人员提供决策分析所需要的数据环境,而数据挖掘则可以从大量数据中发现知识,是一类深层次的数据分析方法。

而在讲授数据挖掘部分,则应把侧重点放在所用方法的概念和属性,而不是机械地应用不同的数据挖掘工具。

因为对数据挖掘而言,深入地理解挖掘方法、模型以及它们的工作原理是有效和成功运用数据挖掘技术的基本条件。

我们在课程讲授过程中,也应向学生强调说明这一点,即任何数据挖掘的研究者和实践者都要清楚地了解:某种挖掘技术的应用场合是什么?有何局限性?可以从哪些方面着手改进它等,为其将来在实际工作中使用数据挖掘工具打好基础。

四、实验教学环节实验是计算机类课程教学过程中的一个重要环节,对于绝大多数本科生而言,只有在实践中才能真正地理解与掌握理论。

数据仓库与数据挖掘 是一门与实际应用结合非常紧密,实践性非常强的课程。

因此,实验教学一方面要结合学生的实际动手能力,侧重于与实际应用紧密结合,充分调动学生的主动积极性,而不是简单让学生进行验证式的操作实验或仅仅局限于机械地使用、熟悉某种软件工具。

但另一方面,学生对相关的软件工具本身并不熟悉,如何使学生很好地利用工具进行系统设计或数据分析工作,是完成实验教学任务所必须考虑的问题。

(一)实验环境本课程实验主要涉及构建数据仓库及实施数据挖掘,根据实验室的硬件条件及教材提供的实验内容,我们选择微软的SQL Server2000(含Analysis Serv ice组件以及SPSS的Climent ine8 0作为实验软件。

(二)实验项目设置1.使用数据仓库开发工具SQ L Ser ver2000提供了一套完全的数据库和数据分析解决方案,其中的Analysis Service组件支持数据仓库的创建和应用,并提供了多功能强大的工具和服务以帮助完成数据仓库的建立、维护,进行OLAP联机分析和数据挖掘。

A nalysis Serv ice自带有一个实例教程,非常适合初学者使用。

由于学生从未使用过SQL Server的Analysis Serv ice,也不了解这一组件,所以首先让学生熟悉这个软件,具体做法是根据实例教程学习如何在Anal ysis Service中怎样创建和使用数据仓库,在实验过程中学生不应只局限于只完成指定的操作步骤,而是围绕着下列问题进行:Analysis Service中是如何创建多维数据集的,包含哪些步骤?多维数据集的元数据有哪些内容?怎样使用多维数据集对数据进行各种OLAP 分析操作(切片/切块、上钻/下钻、旋转)、如何理解分析的结果?这些问题集中归纳了Analysis Service的基本使用方法,较好地帮助学生解决了 这样做意义何在? 的问题。

这部分实验由学生根据教程自行完成,教师不安排演示和解说,只是在学生遇到无法解决的问题时才提供帮助,这样不仅大大提高了实验效率,也使学生的自主学习能力上了一个台阶。

通过这个实验内容,学生基本上熟悉了Analy sis Serv ice的工作环境,掌握了数据仓库的创建和使用方法,同时也理解了课本中提到的多维数据、事实表、维度表、元数据以及OLA P分析等重要的知识点。

有了这个作基石,接下来就可以安排学生自行设计完成一个数据仓库系统了。

2 构建数据仓库系统构建数据仓库系统属于开放性实验,它能够让学生在掌握有关知识和技能的同时,获得较高的创新意识和创新能力。

该实验要求学生根据SQL Serv er2000的样例数据库N ort hw ind来构建数据仓库。

Nort hw ind是一家虚构的公司,从事世界各地的特产食品进出口贸易。

Nort hw ind样例数据库包含有这家公司的销售数据,数据内容多,而且数据量也较大,符合我们的实验要求。

构造No rt hw ind数据仓库的第一步,是首先理解业务数据,No rt hw ind数据库中的表非常多,需要重点关注的是下面几个表的内容及其相互间的关联:Categ ories:种类表Cust omers:客户表Employ ees:员工表Order Det ails:订单明细表Orders:订单表P roduct s:产品表Suppliers:供应商表接下来第二步,确定分析主题。

主题是建立多维数据集的关键前提,根据Nort hw ind的业务,我们引导学生从几个方面考虑,分析时感兴趣的主题可能会有:销售、客户、员工、产品供应等等,由学生自行选定主题,然后根据选定的主题来考虑需要涉及哪些数据、这些数据存放在哪此表当中,有了这些信息,就可以导入数据并构建多维数据集了。

第三步,在已建好多维数据集的基础上,实施各种联机分析操作,给出分析结果并解释这些数据所代表的含义。

学生在做这个实验项目过程中,接触到了近乎实际的经营数据,由于要理顺各表存放的信息及数据间的关联,学生需要用到许多数据库的相关知识,并切身体会到由于事务数据库本身存放了关系复杂的各类数据,要进行一些深层的查询分析是比较困难的,比如,查询某一年度地区订货量增长排名前10位的客户。

而按照分析主题建立起多维数据集后,对数据各个层次的查询成为可能。

此外,学生设计的多维数据模型决定了联机分析时的数据分析效果,这又使学生收获了新的感性经验:即数据仓库的设计阶段非常重要,涉及主题域、所需数据以及相关数据模型的不同设计方案,直接影响着数据仓库的有效使用。

需要说明的是,由于涉及到复杂的事务数据库,该实验内容对学生而言是有一定难度的,因此在实验期间,教师要加强巡视,对出现的问题要及时作启发提示、释疑和引导,以免影响学生的积极性和实验进度。

3.数据收集与预处理数据挖掘技术强调的是所用方法的概念和属性。

因此,这部分实验设计成开放式的:学生从数据收集、整理进而实施数据挖掘、分析结果的整个过程的每一个步骤都自己确定实验方案,自主完成。

对于要进行挖掘分析的数据,我们打破以往的验证式实验的方式,仅仅简单地将一组数据给学生,而后由学生按照软件工具的操作步骤进行挖掘,这样的实验会使学生产生依赖心理,并且 知其然但不知其所以为然 ,达不到巩固其在课堂上所学书本知识、加深对基本概念、基本原理和分析方法的理解的目的。

基于此,数据挖掘部分的实验分析数据全部来自于网络。

我们选定了淘宝网(ht t p:// w ww taobao com)为数据来源网站。

该网站有种类繁多的各类时尚商品的销售及拍卖,还有相关的社区交流,同时提供支付宝网上交易安全保证系统,深受年轻人的喜爱。

相关主题