当前位置:
文档之家› 第三章 sas过程步及简单统计
第三章 sas过程步及简单统计
程序d:\sas2003\data3-2.sas:
proc means data = mysas.stua; var math; output out=result02 n=n mean=meanmath std=stdmath; run; proc print data=result02; run;
10. 二个重要的输出语句:
1) ods printer ① 直接输出结果到本地打印机.如: ODS printer; proc print data = mysas.stua; var name english; run;
ODS printer close;
② 直接输出结果到pdf文件.如: ODS printer file=‘d:\sas2003\1.sas’;
UNIVARIATE语句格式如下: PROC UNIVARIATE [选择项] ;
VAR
BY FREQ
变量 ;
变量 ; 变量 ;
WEIGHT
ID OUTPUT RUN;
变量 ;
变量 ; [关键词=新变量名] ;
OUT=SAS数据集
3.3.4 FREQ 过程 (频数过程)
FREQ过程用于产生1至N维的频数和交叉表。
3.3.2 MEANS 过程
MEANS过程(均值过程)用于对数值型变量产生
针对单个变量的简单描述性统计值。 语句格式为: PROC MEANS [选择项] ; VAR 变量名列表 ; BY 变量名列表 ; CLASS 变量名列表 ; FREQ 变量名列表 ; WEIGHT 变量名列表 ; ID 变量名列表 ; OUTPUT OUT=SAS数据集 统计量 … RUN ;
run;
3.2.3 全程语句 1. TITLE 标题语句 SAS系统有一默认的输出标题,使输出的每页 有一行标题,内容为“The SAS System”。事实 上,我们可以指定自己的标题来取代SAS缺省的 标题。指定标题TITLE语句格式为:
TITLE '标题内容';
例如,在前一例的程序前面加上一行 title '2001级1班成绩表'; 则输出结果的标题以“2001级1班成绩表”替 代了“The Sas System”。
在DATA步中也可以用FORMAT语句规定变量的 输出格式,用LABEL 语句规定变量的标签,用 LENGTH语句规定变量的存储长度,用ATTRIB语 句同时规定变量的各属性。在数据步中规定的 变量属性是附属于数据集本身的,是永久的; 在过程步中规定的变量属性(标签、输出格式 等)只对该过程的本次运行发挥作用。
PROC PRINT DATA = 数据集名称;
例:程序d:\sas2003\data3-5.sas: proc print data=mysas.stua; var name english; run;
例:程序d:\sas2003\data3-6.sas: proc print data = mysas.stua noobs; var name english; run;
3. 输出格式选项OPTIONS语句
OPTIONS语句可以规定系统运行的一些通用选 择项,比如输出是否每页有页号,是否有日期, 输出的行宽,输出每一页的高度(行数),等等。 如: options nonumber nodate linesize=78 pagesize=60; 其中NONUMBER表示输出不显示页号(改用 NUMBER则规定显示页号),NODATE表示不在每页 显示运行日期和时间(改用DATE则显示), LINESIZE=78规定输出每行最宽不超过78个字符, PAGESIZE=60 规定输出每页为60行,不足时用空 行补齐。
3.2.2 变量标签语句LABEL
变量标签语句LABEL的作用,是为变量指定输 出标签。 例:程序d:\sas2003\data3-7.sas: proc print data = mysas.stua noobs lable;
var name math english;
Label name=‘姓名’ math=‘数学’ english=‘英 语’;
proc print data=mysas.stua;
var name english; run; ODS printer close;
2) ods rtf 直接输出结果到rtf文件。如: ODS rtf file=‘d:\sas2003\1.rtf’; proc print data=mysas.stua; var name english; run; ODS rtf close;
;
Std dev = std, std err = stderr
3.3.3 UNIVARIATE
过程
1. UNIVARIATE过程简介 UNIVARIATE过程除了可以完成与MEANS过程相同 的基本统计量外,还可以计算变量的极端值、 分位数,生成频率表,并支持对数据进行正态 性检验。 UNIVARIATE与MEANS过程不同的功能包括: 描述变量极端值的情况。 计算分位数,如中位数,1/4和3/4分位数。 生成若干个描述变量分布的图。 生成频率表。 对数据进行正态性检验。
的分析。例如:程序d:\sas2003\data3-1.sas:
proc sort data = mysas.stua;
by sno;
run;
4.OUTPUT语句
过程步中经常用OUTPUT语句指定输出结果存放的数据 集。不同过程中把输出结果存入数据集的方法各有不同, OUTPUT语句是使用频繁的语句之一。其语法格式为: OUTPUT OUT=输出数据集名 关键字=变量名 关键字= 变量名 …; 其中用“OUT=”给出了存放结果数据集的名字,关键 字用于定义输出变量名,用“关键字=变量名”的方式 指定了系统自动输出变量与存储变量之间的对应关系。 等号后面的变量名指定了输出数据集中的存储变量名称。 例如:
其中正态性检验当n≤2000时,应选用ShapiroWilks的W检验。当W值愈接近1,提示资料服从正态 分布;反之,当W值愈远离1,提示资料不服从正态 分布。或直接看p值,若P>0.05, 接受H0:假设,资料 服从正态分布。反之, P<0.05, 资料不服从正态分布。
当n≥2000时,应选用kolmogorov-Smirnov的D检 验。D值越小,P值越大,揭示资料服从正态分布。
变量名列表可以使用省略的形式,如x1-x3
等。
应用实例:
var math chinese;
2.MODEL语句 MODEL语句在统计建模过程中用来指定模型的 形式。语法格式为: MODEL 因变量 = 自变量列表 / 选项; 应用实例: model y=x1 x2 x3 ;
3.BY语句 BY语句在过程步中用来指定一个或几个 分组变量,根据这些分组变量值可以把观测 记录分组,然后对每一组观测分别进行指定
3.3.5 应用实例
例1 单个平均数的测验(means过程) 测定 某稻田的地表光照度E(y,klx) 4次,得结果为: 3.4, 2.8, 3.5, 4.1。试测验该结果与根据BeerLambert定律推算的理论值μ0 = 3.0是否有显 著差异。
程序:d:\sas2003\data3-0.sas DM "log;clear;output;clear;"; ods rtf file='D:\sas2003\data3-0.rtf'; data new; input y @@; y=y-3; cards; 3.4 2.8 3.5 4.1; proc means stderr T prt;run; ods rtf close;
2. FOOTNOTE 脚注语句
全程语句FOOTNOTE用于为输出添加脚注,语句 格式为: FOOTNOTE '注脚内容字符串';例如:FOOTNOTE
'第三章例子'; 则其后的输出每页底端会有脚 注“第三章例子”显示,直到用另一个 FOOTNOTE语句指定新的脚注,或用空FOOTNOTE 语句取消脚注为止。使用方法同TITLE语句。
方法称为随机抽样。
中位数(Median):如果一组数据按大小顺序排列, 中间位置的数值即为中位数。
几何平均数(Geometric mean): n个数值乘积的n次
方根。
众数(Mode):样本里具有次数最多的那个数值。
分位数(Quartile): 描述样本分布和位置的统计量,
0.5分位数即中位数。
输出图形说明: 茎叶图以分数为纵坐标,发生的次数为横坐标,将分数一 一予以登录,来显示数据资料的情形。如果某一个分数据 所包含的观测数多于48,则不绘制茎叶图,而改画平行条 状图。茎叶图向右的轮廓,可以看做分布的外部曲线轮廓, 通过轮廓可以初步判断数据是否呈正态分布。
盒形图Boxplot画出两行平行线,下面的一条为第25的百分
3.2 PRINT过程
3.2.1 PRINT过程简介
在SAS Windows版以前,PRINT过程是最常用的SAS过 程之一。在生成一个数据集之后,如果数据量不是 太大,我们一般都用一个PRINT过程步列出数据集的 内容,以检查变量对应输入的数据值是否正确。现 在我们可能通过Viewtable表打开生成的数据集查看 数据。为了输出显示一个指定的数据集,在PROC PRINT语句中使用DATA=指定数据集,语法结构如下:
位数,上面的一条为第75的百分位数线。这两条线中间的 (+)加号指出平均数所在,中间的一条线为中位数。此数 据的均值与中位数重叠。垂直线称为须线,须线的长度上 下分别为第25和第75百分位数间的1.5倍,须线之上或下, 以星号(*)及0表示极端数据。
FREQ语句格式:
PROC TABLEபைடு நூலகம் WEIGHT BY
PREQ [选择项] ; 变量名; 变量名; 变量名;