《统计软件》报告
聚类分析和方差分析
在统计学成绩分析中的应用
班级:精算0801班
*****
学号:**********
报告时间:2011年11月
指导老师:***
成绩:
目录
一、背景及数据来源 (1)
二、描述性统计分析 (2)
三、聚类分析 (4)
四、方差分析 (6)
五、结果分析与结论 (8)
聚类分析和方差分析在统计学成绩分析中的应用
一、背景及数据来源
SAS 系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS 软件。
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。
SAS 系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。
BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。
也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。
它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。
各模块的安装及更新都可通过其安装程序非常方便地进行。
本文利用SAS软件进行描述性统计、聚类分析等统计分析方法,将学生按照多指标综合考虑进行聚类。
数据来源:选取2010—2011第一学期统计学选教课成绩单,选取性别系别等变量进行考察。
将中文名称改为英文。
数据类型如下所示:
当输入字符型的变量时,需要加上符号$在该变量的后面,用于区分数值型变量,所以用$来作为后缀。
删除缺考错误分数等异常值。
命名为2010stat.xls
二、描述性统计分析
(一)导入数据
首先建立永久磁盘路径,导入数据集stat
libname path "D:\sas\";
run;
(二)描述性统计分析
然后进行描述性统计对性别、平时成绩、期末成绩、总评成绩进行计算,代码如下:
proc means data=path.stat;
var sex s1 s2 s3;
run;
输出结果如下:
从结果可以分析出,总体学生平时成绩平均分为86.28分,总评成绩均分为77.15分。
按照系别分类,每个系进行描述性统计,代码如下:
proc means data=path.stat;
var sex s1 s2 s3;
class dept;
run;
运行的输出结果如下所示:
从结果可以分析得出,各个系别学生成绩的均值、观测值、标准差及最大值和最小值。
其中,会计系、财政系和市场营销系人数众多,除了经济系、市场营销系和留学生以外,各系都有100分。
(三)统计图
绘制频率直方图,直方图可以良好的反映各系的人数和性别比例。
代码如下所示:
proc gchart data=path.stat;
vbar dept/type=sum subgroup=sex;
run;
统计直方图如下所示:
直方图的横轴是系别变量,纵轴是人数。
蓝色是男生红色是女生。
根据直方图显示会计系、营销系、财政系三系人数最高。
分别表示各系别男女生人数分布。
三、聚类分析
输入代码:
proc cluster data=path.stat method=ward outtree=tree standard pseudo ccc;
proc tree data=tree graphics horizontal;
run;
上述程序说明了使用系统聚类法来进行研究,并且绘制出聚类分析结果的树状图。
ccc说明需要计算半偏R2、R2和CCC统计量。
这三个统计量和下面的伪F 和伪T2统计量主要用于检验聚类的效果。
当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,半偏R2统计量大说明信息的损失程度大。
R2统计量反映了类内离差平方和的大小,R2统计量大说明类内离差平方和小。
CCC统计量的值大说明聚类的效果好。
Pseudo说明要计算伪F和伪T2统计量一般认为伪F统计量在出现峰值的是
所对应的分类是较佳的分类选择。
当把数据从G+1类合并为G类时,如果伪T2统计量的值大,说明不应该合并这两类。
后面的tree过程是用来绘制聚类分析结果的树状图。
运行结果如下:
上面的运行结果给出了对样品的聚类过程。
SPRSQ为半偏R2统计量、RSQ 为R2统计量、CCC为立方聚类标准、PSF为伪F统计量、PST2为伪T2统计量。
结果分析:从半偏R2统计量的结果可以看出,当样本数据从3类合并为2类时,信息的损失程度较前面的的合并有明显的增加。
从R2统计量的结果可以看出,当样本数据从3类合并为2类时,R2统计量较前面的合并显著减小,这意味着类内离差平方和增加,违背了Word,s的分类原则。
从CCC统计量的结果可以看出,最大值对应的类数为3类。
从6类合并为5类时,伪T2统计量显著增加,伪T2统计量下降显著。
由聚类分析的分析结果的树状图可知分为3类也是符合图形的。
综合各类统计量的结果,学生的统计学成绩分为3类比较合适。
四、方差分析
输入代码:
proc glm;
class sex s3;
model s3=sex s3 sex*s1/ ss1 ss2 ss3 ss4;
means s1/duncan;
run;
输出结果如下所示:
从输出结果可以看出,平时成绩对总评成绩有显著的影响。
性别对成绩影响中,女生成绩要优于男生,平均分比男生高,方差比男生小。
可见,在平时成绩和性别对学生统计学总评成绩的影响。
五、结果分析与结论
本文选取2010—2011年统计学成绩作为样本数据,运用SAS软件先对学生成绩进行描述性统计分析,再选用聚类分析法,最后进行方差分析。
聚类分析(Cluster Analysis)根据样品的统计量将相似程度较大的样品聚合到一个小的分类单位,相似程度较小的聚合到一个大的分类单位,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强,直到把所有的样品都聚合完毕,形成一个由小到大的分类系统,并将整个分类系统画成一张谱系图。
方差分析(Analysis of Variance)由于各种因素的影响,研究所得的数据呈现波动状。
造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
根据描述性统计得到全部学生以及各系别学生的成绩以及性别的描述性统计,聚类分析将学生按照成绩系别等变量分为三大类。
整体分析结果良好的反映学生的学习水平。
结合上文的结论,可以分析出:女生由于出勤高,因而平时成绩优秀,这样期末总评成绩也普遍比男生高。