《统计软件》报告
聚类分析和方差分析
在统计学成绩分析中的应用
班级:精算0801班
姓名:张倪
学号:2008111500
报告时间:2011年11月
指导老师:郝际贵
成绩:
1
目录
一、背景及数据来源 (1)
二、描述性统计分析 (2)
三、聚类分析 (4)
四、方差分析 (6)
五、结果分析与结论 (8)
聚类分析和方差分析在统计学成绩分析中的应用
一、背景及数据来源
SAS 系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。
SAS 系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。
BASE SAS模块是SAS系统的核心,承担着主要的数据管理
任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。
也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。
它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。
各模块的安装及更新都可通过其安装程序非常方便地进行。
本文利用SAS软件进行描述性统计、聚类分析等统计分析方法,将学生按照多指标综合考虑进行聚类。
数据来源:选取2010—2011第一学期统计学选教课成绩单,选取性别系别等变量进行考察。
将中文名称改为英文。
数据类型如下所示:
学号性别班级系部课程名称老师平时成绩期末成绩总评学年
数值型数值型字符型字符型数值型数值型数值型字符型字符型数值型S3
Sn
Sex
class
S1
S2
year
title
teacher
dept
当输入字符型的变量时,需要加上符号$在该变量的后面,用于区分数值型变量,所以用$来作为后缀。
删除缺考错误分数等异常值。
命名为2010stat.xls
1
二、描述性统计分析(一)导入数据stat 首先建立永久磁盘
路径,导入数据集libname path D:\sas\;
;
run(二)描述性统计分析然后进行描述性统计对性别、平时成绩、期末成绩、总评成绩进行计算,代码如下:proc means data=path.stat;
var sex s1 s2 s3;
run;
输出结果如下:
分,总评成绩均分为86.28从结果可以分析出,总体学生平时成绩平均分为分。
77.15 按照系别分类,每个系进行描述性统计,代码如下:means data=path.stat; proc
var sex s1 s2 s3;
class dept;
run;
运行的输出结果如下所示:
2
标准差及最大值从结果可以分析得出,各个系别学生成绩的均值、观测值、和最小值。
其中,会计系、财政系和市场营销系人数众多,除了经济系、市场营分。
销系和留学生以外,各系都有100(三)统计图代码如下绘制频率直方图,
直方图可以良好的反映各系的人数和性别比例。
所示:proc gchart
data=path.stat;
vbar dept/type=sum subgroup=sex;
;
run统计直方图如下所示:3
根据直方直方图的横轴是系别变量,纵轴是人数。
蓝色是男生红色是女生。
分别表示各系别男女生人数分布。
图显示会计系、营销系、财政系三系人数最高。
三、聚类分析输入代码:data=path.stat method=ward outtree=tree standard pseudo ccc; clusterproc
data=tree graphics horizontal; proc tree;
run并且绘制出聚类分析结果的树上述程序说明了使用系统聚类法来进行研究,状图。
22F统计量。
这三个统计量和下面的伪和CCCccc说明需要计算半偏R、R2和伪T统计量主要用于检验聚类的效果。
2统计量说明了本次合并信息的损R 类时,G+1类合并为G半偏当把数据从2统计量大说明信息的损失程度大。
失程度,半偏R22统计量大说明类内离差平方和统计量反映了类内离差平方和的大小,RR 小。
CCC统计量的值大说明聚类的效果好。
2统计量在出现峰值的是F 和伪说明要计算伪PseudoFT统计量一般认为伪4
2T类时,如果伪G+1类合并为G所对应的分类是较佳的分类选择。
当把数据从统计量的值大,说明不应该合并这两类。
后面的tree过程是用来绘制聚类分析结果的树状图。
运行结果如下:
2RSQ统计量、上面的运行结果给出了对样品的聚类过程。
SPRSQ为半偏R22统T为伪统计量、为伪为立方聚类标准、为R统计量、CCC PSFFPST2 计量。
5
223结果分析:从半偏R类合并为统计量的结果可以看出,当样本数据从2统计量的结果可以类时,信息的损失程度较前面的的合并有明显的增加。
从R2统计量较前面的合并显著减小,这看出,当样本数据从3R2类时,类合并为,统计量的结果从Word违背了CCCs的分类原则。
意味着类内离差平方和增加,2统计量
显著类时,伪T53可以看出,最大值对应的类数为类。
从6类合并为2统计量
下降显著。
增加,伪T综合各类统类也是符合图形的。
由聚类分析的分析结果
的树状图可知分为3 计量的结果,学生的统计学成绩分为3类比较合适。
四、方差分析输入代码:glm;proc
sex s3;
class
/ ss1 ss2 ss3 ss4; model s3=sex s3 sex*s1/duncan; means s1run;
输出结果如下所示:6
性别对成绩影响从输出结果可以看出,平时成绩对总评成绩有显著的影响。
中,女生成绩要优于男生,平均分比男生高,方差比男生小。
可见,在平时成绩和性别对学生统计学总评成绩的影响。
7
五、结果分析与结论
本文选取2010—2011年统计学成绩作为样本数据,运用SAS软件先对学生成绩进行描述性统计分析,再选用聚类分析法,最后进行方差分析。
聚类分析(Cluster Analysis)根据样品的统计量将相似程度较大的样品聚合到一个小的分类单位,相似程度较小的聚合到一个大的分类单位,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强,直到把所有的样品都聚合完毕,形成一个由小到大的分类系统,并将整个分类系统画成一张谱系图。
方差分析(Analysis of Variance)由于各种因素的影响,研究所得的数据呈现波动状。
造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
根据描述性统计得到全部学生以及各系别学生的成绩以及性别的描述性统计,聚类分析将学生按照成绩系别等变量分为三大类。
整体分析结果良好的反映学生的学习水平。
结合上文的结论,可以分析出:女生由于出勤高,因而平时成绩优秀,这样期末总评成绩也普遍比男生高。
8。