统计软件》报告聚类分析和方差分析在统计学成绩分析中的应用班级:精算0801 班姓名:张倪学号:2008111500报告时间:2011年11 月指导老师:郝际贵成绩:目录一、背景及数据来源 (1)二、描述性统计分析 (2)三、聚类分析 (4)四、方差分析 (6)五、结果分析与结论 (8)聚类分析和方差分析在统计学成绩分析中的应用,、背景及数据来源SAS系统全称为Statistics Analysis System最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS 软件。
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。
SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。
BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。
也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。
它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。
各模块的安装及更新都可通过其安装程序非常方便地进行。
本文利用SAS软件进行描述性统计、聚类分析等统计分析方法,将学生按照多指标综合考虑进行聚类。
数据来源:选取2010—2011第一学期统计学选教课成绩单,选取性别系别等变量进行考察。
将中文名称改为英文。
数据类型如下所示:当输入字符型的变量时,需要加上符号$在该变量的后面,用于区分数值型变量,所以用$来作为后缀。
删除缺考错误分数等异常值。
命名为2010stat.xls】、描述性统计分析(一) 导入数据首先建立永久磁盘路径,导入数据集statlibn ame path "D:\sas\"; run ;(二) 描述性统计分析然后进行描述性统计对性别、平时成绩、期末成绩、总评成绩进行计算,代 码如下:proc means data=path.stat;var sex s1 s2 s3; run ;输出结果如下:MEANS PROCEDURE吏星 标签N均值 标准差 垢小值援大值从结果可以分析出,总体学生平时成绩平均分为86.28分,总评成绩均分为77.15 分。
按照系别分类,每个系进行描述性统计,代码如下:proc means data=path.stat;var sex si s2 s3; class dept; run ;运行的输出结果如下所示:6123s s s S6123S S S S4969 2080665B C.3706897 0.4831382 86.2S52704 15.8409394 74.2894073 18J64176677.1490367 IB.5374497il 05,00000001.0000000 100.0000000 100.0000000 100.00000000.4634146 0.5017284 0 1.0000000 81.0731707 18.9103019 0100.0000000 65.8510519 22.805761917.000000099.0000000 69.860975621.516417899.8000000e 1 2--3 s s s se 1 23 s s s s从结果可以分析得出, 各个系别学生成绩的均值、 观测值、标准差及最大值 d@pt观测的亍数 变量 标签N 均值 标准差 摄小值 摄犬值财政丢221sex sex 221 0.3800905 0.4865108 0 1.0000000 si si 221 87.5610360 15.5391625 0100.0000000 s2s2 22175.6515037 19.86307455.0000000100.0000000s3s322178.282126717.862344711.2000000100.0000000管理科学与工程系105sex sex 105 0.4380952 0.4985326 01.0000000 sisi105 88.9714206 11.1091241 50.0000000 100.0000000或 或 10577.838095216.297704112.0000000100.0000000s3s3105 01.1000000 14.216238081.8000000100.0000000国际经济贸易系.142sex sex 1420.30732390.4883631 01.0000000 si §1142 85.246473915.9022665100.0000000£2 £2140 72.850000019.133354417.0000000100.0000000s3 s3142 75.858450718.70362060 100.0000000 会计系429sex sex429 0.3240093 0.4685499 01.0000000 si si429 89.1165501 11.9393104 33.0000000 100.0000000s2 s2429 77.601166618.1890094 8.0000000 100.0000000s3 虏429 80.9867133 15.6030996 27.8000000100.000000035sexsex350.34235710.4815940 n1.0000000sisi35 84.228571414.4834301 37.0000000100.0000000 s2 s235 72.257142921.0116314 12.000000097.000000053s335 75.8571429 18,519707928.400000097.9000000 留学生56sexsex560.80857140.46896091.0000000si si56 77.4642057 16.1627679 095.0000000£55 61.9810182 8.1114709 47.000000080.0000000s3s356 65.8517057 11.4553519 0 83.0000000101sex sex101 0.2071207 0.4546786 U 1.0000000 sisi101 82.2079208 23.4500318 0100.0000000 或s290 75,0777778 18.0260908 16.0000000100.000000010171.9970297 26.7744298 0 100.0000000市场営销系207sex §1sex si s2 s3 237 237 279 237 0.3067596 85.3972125 72.4695341 74.9414634 0.48785S5 17.8710139 18.7183101 19.9953278 0 016.00000000 1.0000000 100.0000000 100.0000000 IUU.UUUUUUU 数学丢36 sexsex36 0,3611111 0.4871361 01.0000000 创 创36 34.3611111 7.7317630 75.0000000 100.0000000 s2s2 36 83.166BBB7 16.9073108 31.0000000 100.0000000s3 s3 36 86.5130009 13.6230928 47.0000000100.0000000 体育生15Sgx15 0.33333330.48795000 1.0000000sisi 0 ----s2 s3s2 s30 0和最小值。
其中,会计系、财政系和市场营销系人数众多,除了经济系、市场营 销系和留学生以外,各系都有100分(三)统计图绘制频率直方图,直方图可以良好的反映各系的人数和性别比例。
代码如下所示:proc gchart data=path.stat;vbar dept/type=sum subgroup=sex; run ;统计直方图如下所示:醫计專Enr直方图的横轴是系别变量, 纵轴是人数。
蓝色是男生红色是女生。
根据直万图显示会计系、营销系、财政系三系人数最高分别表示各系别男女生人数分布三、聚类分析输入代码:proc cluster data=path.stat method=ward outtree=tree standard pseudo ccc;proc tree data=tree graphics horizontal;run;上述程序说明了使用系统聚类法来进行研究,并且绘制出聚类分析结果的树状图。
ccc说明需要计算半偏R2、R2和CCC统计量。
这三个统计量和下面的伪F 和伪T2统计量主要用于检验聚类的效果。
当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,半偏R2统计量大说明信息的损失程度大。
R2统计量反映了类内离差平方和的大小,R2统计量大说明类内离差平方和小。
CCC统计量的值大说明聚类的效果好。
Pseudo说明要计算伪F和伪T2统计量一般认为伪F统计量在出现峰值的是T ie所对应的分类是较佳的分类选择。
当把数据从 G+1类合并为G 类时,如果伪T 2统计量的值大,说明不应该合并这两类。
后面的tree 过程是用来绘制聚类分析结果的树状图。
运行结果如下: The CLUSTER ProcedureYard's Mini mum Variance Cluster AnalysisCluster Hi story 12PSPS27842096320626070247846557502109698663460603■2-»9-*・・■5■■■■・・2»»A o ■»-3■■-o ■f t -o 11Q v 9-f c 3-2-c v n V 48141653218382121O 11819514B 12191543511144G 629677—844783821395-41343219768139879427350333408425060492085253779843 2086531098887765310875554433221002139475704■88777777666666666665555555555555555433NCL --Clusters J □ i r^d — FREE SPRSQ RSQ ERSQ CCC44 CLH68 CL91 28 0.0007 .981 ,eaa107 43CL62 CL151 116 0.0007 .880 .897 10E 42 CL93 CL II 66 32 0.0007 ,S?9 ,895 104 41 CL144 CL53 236 0,000? .979 .084 109 40 C 口 9 CL99 5S 0,0008 .878 ,892 102 39 CL64 CL81 55 0.0008 .977 .891 101 38 CL61 CLS5 37 D.0008 .076 .889 98.7 37 CL58 OB1574 3 0.0008 .975 ,8S898.7 36 CL75 CL63 13? 0.0009 .875 .8»B 37 J 35 0626 S CL78 4 0.0009 .874 .884 96.7 34 CLS2 CL83 36 0.0009 .S?3 .602 95.9 33 CL59 CL74 38 0,0009 .972 .860 95.1 32 CLC5 CL44 42 0.0010 .971 ,878 94.2 31 CL49CL97 102 D.OQIO .S70 .87693.3 30 081358CL57 12 0.0012 .S69 .874 92.2 29 CL60 CL94 111 D.OOU ,S67 .87290.9 28 CL30 OBI 596 13 0.0015 .96689.427 CL55 CL33 156 0.001C.964 M7 瞬』2E CL4« CL42 105.863 ,86486.4 25 CL36CL43 259 0.0020 .981 .eei 84.6 24 C 口 2 CL40 30 0.0020*8网 33.2 23CL38 CL51 58 D.0021 .S56 .855 81.7 n CL52 CL31 197 0.0021 .S54 .85180.4 21CL67 CL70 17 0.0022 .95278.2 20 CL 羽 CL47 30 0.0026 .948 .644 77.8 19 CL29 CL45 155 0.0029.846 .838 76 J ie CL34 CL39 91.943 Mb74.8 17 CL22 CL56 243 0,003C ,940 ,830 73.1 16 CL35 CL37 10.0040 .935 .824 7L3 15 CL26 CL24 135 0.0041 .S32 .31S IG9.9 14 CL20 CL32 72 0.0057 *S26 .81267.4 13 CL559 CL54 4 D 血闊 .820.804 !56.3 12 CL 贈 CL27 265 o.ooes.796 '54.9 11 CL41 CL25 4S9 0.0069 .908.7B6 53.7 10 CL18 CL21 ioe 0.0102,775 5L2 9 CL14 CL23 1300.0170 .079 .7B2 45,6 8 CL1:8 CL W 冰0.0185 .861 ,746 41,6 1CL17 CL15 428 D.0242 .B37 .726 36.8 8 CL16 CL13 11 0 J84S .S02 JOI 30.5 5 CL12 CL8 528 0.0783 .728.669 15 J 4 CL11 CL? 81? 0.1036 詔25.B£3 0.4? 3 CL6 CL9 141 (k 1640 .471 ,540 -12 2 CL5 CL4 1445 0.1820 .289 .421 -16 1CL2CL315SC0,2887,000.0000,00上面的运行结果给出了对样品的聚类过程。