当前位置:文档之家› 数据挖掘在实际生活中的应用

数据挖掘在实际生活中的应用

数据挖掘在学生学习成绩中的应用小组成员:说明由于我们小组分析的是上一学年我们计商两个班级的学习成绩与奖学金获得情况,因此涉及到了学生的一些个人信息。

我们小组全体成员一致承诺:我们获得的数据(通过辅导员老师获得)仅用于本门课程的数据分析所用,对大家的姓名、学号、成绩等敏感信息已做过处理,保证大家的隐私不被泄露。

希望各位能够予以理解!选题背景近年来,随着高校的不断扩招,学生人数大幅增加,给高校学生管理、教学工作带来了严峻考验。

传统的教学管理手段已经不能满足高校的快速发展。

现阶段许多高校对学生的成绩、学生的信息基本还停留在传统的、简单的数据库管理和查询阶段,不能发挥其应有的作用。

就以学生成绩为例,教师对学生的成绩知识做一个简单的优、良、中、差的考核,并不考虑影响学生学习成绩的因素,有些可能是主观因素,有些可能是客观因素。

如果某些客观因素比如学习环境、师资力量等不能很好地解决,将严重影响学生的学习成绩,制约学生的发展,而且严重阻碍了学校教育教学发展的脚步。

因此,通过数据挖掘等技术理性的分析学生成绩等关键信息,提高教学质量与水平,是广大师生最关心的问题之一。

数据挖掘数据挖掘又称为数据库中的知识发现(KDD),是从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。

数据挖掘的任务是从大量的数据中发现对决策有用的知识,发现数据特性以及数据之间的关系。

利用贝叶斯分类器分析奖学金概率问题奖学金作为一种激励机制,在人才培养过程中发挥非常重要的导向作用,其目的是为了引导和鼓励学生刻苦学习、奋发向上,促进学生全面素质提高和个性健康发展。

为了了解我们计商两个班级上一学年奖学金获得情况,进而考评上一学年我们电子商务系教学成果以及各位同学的学习成绩情况,我们小组利用贝叶斯分类器的方法进行了分析。

贝叶斯分类器的分类原理:贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

贝叶斯公式:p(X,Y)=p(Y|X)p(X)=p(X|Y)p(Y)变换式:) () ()|()|(XpY pYXpXYp其中,X和Y在分类中可以分别表示样本的属性集合类别。

p(X,Y)表示他们的联合概率,p(X|Y)和p(Y|X)表示条件概率,p(Y|X)是后验概率,p(Y)称为Y 的先验概率。

已知通过辅导员老师获得2012-2013学年计商两个班级学生奖学金获得情况统计数据如表1和表2 所示:表1 A1班奖学金获得情况表2 A2班奖学金获得情况已知A1班总人数39,由表1可看出获得奖学金人数为22,获得奖学金的概率约为0.56已知A2班总人数36,由表2可看出获得奖学金人数16,获得奖学金的概率约为0.44A1、A2两个班级总人数为75,奖学金获得者38人,其中A1班占奖学金获得者的比例为58%,A2班占奖学金获得者总人数的比例为42%。

.根据以上数据可以得到奖学金获得概率及获奖人数占两个班级获奖总人数的比例,如表3所示:班级奖学金概率获奖人数占两个班级获奖总人数的比例10计商A1 0.56 58%10计商A2 0.44 42%表3 奖学金获得概率及所占比例通过以上数据,我们解决以下两个问题:(1)随机从两个班级中选出一个学生是奖学金获得者的概率是多少?(2)随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自哪个班级的可能性最大?假设X表示“选出的一个学生是奖学金获得者”,Y=i,(i=10计商A1,10计商A2)表示“选出的学生是来自班级i”,则问题就转换为求解p(X)与p(Y=i|X)。

由表3得到后验概率为:P(X|Y=10计商A1)=0.56,P(X|Y=10计商A2)=0.44先验概率为:P(Y=10计商A1)=58%,P(Y=10计商A2)=42%由全概率计算公式得出:P(X)=P(X|Y=10计商A1)P(Y=10计商A1)+P(X|Y=10计商A2)P(Y=10计商A2)目标是每个对象与簇中心距离的平方和最小。

根据对奖学金获得者学生的学习情况分析可知:获奖等级与该学生平时去图书馆的次数、平时上课迟到次数、上课座位前后、参加竞赛次数、宿舍评分等因素有关。

比如,图书馆能为同学们提供安静的、舒适的学习环境,同时能够提高学生学习的自觉性,因此常去图书馆的同学学习成绩一般都比很少去图书馆学生学习成绩要好,相应的拿到奖学金的概率越大,拿到奖学金的等级也越高。

其他因素类似,这里不一一详细用文字来描述。

首先定义五个变量(每学期均按16周计算):x:一学期去图书馆次数(每周按七天计算,上限112次)1x:一学期迟到次数(每周按四天计算,上限64次)2表4 根据不同获奖等级选取的学生信息在以上给定的9个样本中选择3个样本:1号样本代表能够拿到一等及以上奖学金6号样本代表能够拿到非一等及以上奖学金9号样本代表不能够拿到奖学金计算每一个样本与这三个样本的距离:135.195.19126064131121061,2=-+-+-+-+-=d5.78205.1912396413561066,2=-+-+-+-+-=d 5.148175.1912196473101069,2=-+-+-+-+-=dd d d d d d d d d 975.195.1811605214112271,7=-+-+-+-+-=d 5.46205.181139527410276,7=-+-+-+-+-=d 5.54175.181119527410279,7=-+-+-+-+-=d5.485.191811605310112731,8=-+-+-+-+-=d 13420181139531056736,8=-+-+-+-+-=d 10517181119537010739,8=-+-+-+-+-=d1=(112+106+85+90+73)/5=93.2 2x =(1+3+2+1+0)/5=1.43x =(60+64+64+62+53)/5=60.6 4x =(1+2+1+0+1)/5=15x =(19.5+19.5+19+18.5+18)/5=18.9第二类:1x =(34+56+27)/3=39 2x =(3+1+4)/3=2.7 3x =(48+39+52)/3=46.3学生2与新样本的距离:4.189.185.19116.60644.132.931061,2=-+-+-+-+-=d2.833.195.19113.46647.23391062,2=-+-+-+-+-=d5.143175.1911196477101063,2=-+-+-+-+-=d学生3与新样本的距离:749.185.19116.60484.132.93341,3=-+-+-+-+-=d2.73.195.19113.46487.2339342,3=-+-+-+-+-=dd d d d d d d d d d 学生8与新样本的距离:1.30189.18116.60534.102.93731,8=-+-+-+-+-=d8.433.199.18113.46537.2039732,8=-+-+-+-+-=d9.105179.181119537010733,8=-+-+-+-+-=d第二次聚类结果:小组成员学习感言:(组长):经过一学期《商务智能》这门课程的学习,使我们从刚开始对商务智能、数据挖掘概念的学习,到后来利用数据挖掘的一些方法去分析足球队成员的组成情况、加上最后两周上机实验的练习以及最终的期末大作业,使我们对数据挖掘有了一个更深层次的了解并能够利用它进行一些实际问题的分析与解决。

在整个学习过程中,虽然我们小组有几名同学在实习,但是有问题时我们还会通过网络、电话、邮件等方式一起进行讨论,一起完成任务。

A:通过这学期对商务智能这门课程的学习,我了解到了如何对目标对象进行数据挖掘和利用贝叶斯分类器分析问题等。

这学期的学习还包括了很多商务智能相关的技术以及软件的运用,使自己受益良多,让我的商务智能相关技术知识丰富了不少,也提高了我的软件操作能力,利用数据之间的联系,可以找出数据之外的隐含信息,对于我来说,这种能力至关重要,在以后走向社会时,有一个别人不会的技能,增加了自己的竞争力。

感谢小组成员的密切配合,让我们可以把小组作业的工作顺利的完成。

B:通过这学期对商务智能这门课程的学习,我了解到如何对目标对象进行数据挖掘和利用贝叶斯分类器分析问题等知识。

在这次的小组作业中我们在选定了学生成绩分析,但是设计到理论和计算的时也非常仔细,组长组织大家讨论选定了题目后按照步骤进行计算,完成文章后大家进行修改和讨论,我制作了PPT。

上完这门课后我对商务智能的概念、商务智能的应用、数据挖掘的概念、聚类分析等又有了一个新的认识,之前上课没听懂的知识点通过这次作业弄明白了。

C:在这次的小组作业中我们在选定了贴近生活的成绩分析,但是设计到理论和计算的时也非常仔细,组长组织大家讨论选定了题目后按照步骤我对文章内容进行审查修改,在组长处理好数据后也进行核对。

因为我这学期申请了免听没有随堂听课,所以在小组作业时也是在请教同学、求助组长下完成的,这里也要感谢他们在周末时牺牲自己时间来来帮助我。

在完成作业过程中,我意识到数据挖掘的应用可以让分析的结果更加具有说服力,因为在分析的过程中有真正的数据和论点支持着。

另外我对商务智能的概念、商务智能的应用、数据挖掘的概念、聚类分析等有了一个新的认识。

D:经过一学期对《商务智能》这门课的学习,我们学到很多在外面学不到的东西,比如数据挖掘我们在做足球队的小组题目是就充分发挥了数据挖掘的作用。

在学习了这门课后我也可以把所学的知识运用到生活中,特别是我现在做的工作当中,这也可以使我们在工作方面比别人多一份技能,在此也要感谢老师对我们实习的同学照顾,也感谢组长对我们的耐心工作。

E:在本门课程的学习过程中,学到了非常多的新知识,有关于数据挖掘和商务智能锁带给电子商务发展新的契机和基础,另外在参与大作业讨论时,通过对学生奖学金分析,与组员组长之间的讨论,也收获了很多。

包括对聚类分析的方法,贝叶斯分类器的分类原理等知识点的掌握,由于该门课程过程比较艰难,有较多的理论和数理知识背景,但在组长的带领下,我们小组认真的完成老师布置的每次小组作业,希望能在最后大作业获得好的成绩!致谢最后,借此机会,感谢这门课程的任课老师某某老师,感谢您一学期以来对我们的辛勤教导!特别感谢我们小组的其他每一位成员(A,B,C,D,E)在小组讨论、小组作业中的辛勤付出!感谢在这门课程上给予我们小组帮助的每一位热心同学!谢谢你们!参考文献:【1】商务智能(第二版),赵卫东,清华大学出版社,2011.3。

相关主题