当前位置:文档之家› SAS软件学习总结

SAS软件学习总结

SAS软件知识要点总结
李明
注意:数据集要有名字,变量要有名字,所以 SAS 中对名字(数据集名、变量名、数据库名,等等)有约定:SAS 名字由英文字母、数字、下划线组成,第一个字符必须是字母或下划线,名字最多用8 个字符,大写字母和小写字母不区分。

比如,name,abc,aBC,x1,year12,_NULL_等是合法的名字,且abc 和aBC 是同一个名字,而class-1(不能有减号)、a bit(不能有空格)、serial#(不能有特殊字符)、Documents(超长)等不是合法的名字。

二、MODEL 语句
MODEL 语句在一些统计建模过程中用来指定模型的形式。

其一般形式为
MODEL 因变量=自变量表 / 选项;
比如
model math=chinese;
即用语文成绩预测数学成绩。

注意:MODEL就是指出谁是因变量,谁是自变量;
三、BY 语句和CLASS 语句
BY语句在过程中一般用来指定一个或几个分组变量,根据这些分组变量值把观测分组,然后对每一组观测分别进行本过程指定的分析。

在使用带有BY 语句的过程步之前一般先用
SORT 过程对数据集排序
注意:BY语句就是按某给定指标分类(组)
在一些过程(如方差分析)中,使用CLASS 语句指定一个或几个分类变量,它实际相当于因变量。

而在另一些过程(如MEANS)中,CLASS 语句作用与BY 语句类似,可以指
定分类变量,把观测按分类变量分类后分别进行分析。

使用CLASS 时不需要先按分类变量
排序。

注意:CLASS语句的作用有两个:1.指定(分类变量),本身就是因变量;
2.与BY类似,指定分类变量并分类;
四、OUTPUT 语句
在过程步中经常用 OUTPUT 语句指定输出结果存放的数据集。

不同过程中把输出结果存入数据集的方法各有不同,OUTPUT 语句是用得最多的一种,其一般格式为:
OUTPUT OUT=输出数据集名关键字=变量名关键字=变量名⋯;
其中用OUT=给出了要生成的结果数据集的名字,用“关键字=变量名”的方式指定了输
出哪些结果(关键字的例子比如MEANS 过程中的MEAN,VAR,STD 等等),等号后面的变量名指定了这些结果在输出数据集中叫什么名字。

例如:
五、FREQ 语句和WEIGHT 语句
FREQ 语句指定一个重复数变量,每个观测中此变量的值说明这个观测实际代表多少个完全相同的重复观测。

FREQ 变量只取整数值。


freq numcell;
WEIGHT 语句指定一个权重变量,在某些允许加权的过程中代表权重,其值与观测对应的方差的倒数成比例。

注意:FREQ是计量频数的;WEIGHT则是计量权重的;
七、WHERE语句(就是条件句)
用WHERE 语句可以选择输入数据集的一个行子集来进行分析,在WHERE 关键字后指定一个条件。

比如:
where math>=60 and chinese>=60;
指定只分析数学、语文成绩都及格的学生。

补充:LABEL语句就是给变量命名,或者是重新修改变量名;(可以是汉字)
散点图和曲线图(事实上就是离散和连续的区别)
注:在SAS软件中的plot和gplot 函数与MATLAB中有一些不同之处。

plot专门制作散点图;而gplot则是制作曲线图(连续图)
注意:SYMBOL 语句是一个全程语句,指定绘图用的连线方式、颜色、散点符号、大小,等等。

SYMBOL 语句可以带编号,如SYMBOL2,SYMBOL3 等,不带编号的相当于SYMBOL1。

注意:上图为如何在同一坐标系中作多个图的程序写作模式。

直方图和扇形图
用 GCHART 过程绘制直方图、扇形
图、三维直方图等表示变量分布的图形。

例如,要绘制SASUSER.GPA 中GPA 的分布直方图,只要用:
proc gchart data=sasuser.gpa;
vbar gpa;
run;
其中绘图用的变量用VBAR 语句给出。

图形见图4。

如果把VBAR 改成HBAR 则条形方向变为横向。

用GCHART 绘制的直方图和在INSIGHT 中绘制的直方图有所不
同,它在横轴标的是区间的中点值,而在INSIGHT 中横轴标的是区间的端值。

在GCHART 中用PIE语句绘制表示频数的扇形图(即饼图),例如:
proc gchart data=sasuser.gpa;
pie sex;
run;
如果想显示百分比值,只要
在PIE语句中加入TYPE=PERCENT 选项,如“pie sex / type=percent;”。

若是想得到三维直方图,将pie改为block即可。

三维曲面图(g3d)
见课本159页普通直方图并排直方图。

相关主题