当前位置:
文档之家› 第四讲 SAS的描述统计(2)
第四讲 SAS的描述统计(2)
首先将其导入为SAS数据文件work.sryzc。
ID
R_ID Income Outgo
ID
R_ID Income Outgo
1
2
1794
1550
16
2
2200
2060
2
2
1716
1365
17
1
2730
2236
3
1
3410
2730
18
1
2496
1455
4
2
1765
1530
19
1
1760
1040
5
2
1 14 4275.00 2400.00 3305.00
4275.00
1760.00
2 16 2460.00 1740.50 2192.00
2460.00
1080.00
-----------------------------------------------------------------------------------------------------------------
(2).应用举例
例3:某单位对100名健康的女大学生测定了血清总蛋白含 量(g/L),试做单变量描述性统计分析。
data aa; input x @@; cards; 74.3 78.8 ……70.4 ; proc means; run; proc means maxdec=2 n min max mean std stderr cv; run;
run;
使用BY语句分区域输出统计量:
R_ID=1
The MEANS Procedure
Analysis Variable : INCOME Income
N Mean Median 1st Pctl 5th Ptcl 95th Pctl 99th Pctl --------------------------------------------------------------------------------------------------
Upper
Quartile Quartile Maximum Minimum --------------------------------------------------------------------
2400.00 3305.00 4275.00 1760.00 --------------------------------------------------------------------
Analysis Variable : INCOME Income
R_ID Obs N
Mean Median 1st Pctl 5th Ptcl 95th Pctl
-----------------------------------------------------------------------------------------------------------------
14 2803.71 2775.00 1760.00 1760.00 4275.00 4275.00 --------------------------------------------------------------------------------------------------
Lower
新数据集中统计量用原变量名
2) 统计量关键字=新名字列表
3) 统计量关键字(变量列表)=新名字列表
(2)把变量height和weight的均值(新名分别取为hmean和wmean ) 和标准差(新名字分别取为hstd 和wstd )输出到新数据集result3.
proc means data=bclass noprint ; var height weight ; output out=result3 mean=hmean wmean std=hstd wstd ;
输出结果:
MEANS 过程
分析变量:x
N 最小值 最大值 均值 标准偏差 标准误差 偏差系数
100 64.30 84.30 73.66 3.94
0.39
5.35
例4 下表为两个不同地区居民家庭收入和支出情 况的抽样调查(单位:元),试分别统计收入和 支出情况。
将下表中数据输入成Excel文件sryzc.xls。4个变 量名分别为:ID、R_ID、Income和Outgo,该四个变量 分别表示“家庭编号”、“地区编号”、“家庭总收 入”和“家庭总支出”。
proc means data=bclass noprint ; var height weight ; output out=result2 mean= ;
run ; Proc print data=result2;run;
output <选项> < 输出统计量列表> ;
输出统计量列表形式:
1) 统计量关键字=
2184
1900
20
1
2820
2366
6
2
2050
2050
21
2
2250
1966
7
2
2460
2184
22
1
3170
240081Fra bibliotek1976
1170
23
2
1200
1250
9
1
2850
2496
24
2
1776
1350
10
1
4275
2760
25
2
1980
1794
11
2
2010
1275
26
1
2455
2550
12
1
R_ID=2
Analysis Variable : INCOME Income
N Mean Median 1st Pctl 5th Ptcl 95th Pctl 99th Pctl
16 1889.44 1983.00 1080.00 1080.00 2460.00 2460.00 ---------------------------------------------------------------------------------------------
在PROC MEANS语句中使用统计量关键字列表。输出数 据集sryzc中收入(Income) 的观测个数、均值、中位数、第一 百分位数、第五百分位数、第九十五百分位数、第九十九百分 位数、第一四分位数、第三四分位数、最大值、最小值。
proc means data =sryzc n mean median p1 p5 p95 p99 q1 q3 max min var ;
例5 1) 使用BY语句, 将上例中的数据按地区(R_Id)分组,计算 统计量:
proc sort data = sryzc; by R_Id;
run; proc means data = sryzc n mean median
p1 p5 p95 p99 q1 q3 max min; var Income; by R_Id;
关键字 skewness
kurtosis t probt q1 q3 qrange p1 p5 p10 p90 p95 p99 clm lclm uclm
所代表的含义 偏度
峰度 分布位置假设检验之t统计量 上述t统计量对应的概率值 第一四分位数 第三四分位数 四分位数间距 第一百分位数 第五百分位数 第十百分位数 第九十百分位数 第九十五百分位数 第九十九百分位数 置信限 置信下限 置信上限
1、MEANS过程(均值过程)
(1) 语法格式
Proc means <选项> <输出统计量关键字列表> ; < Var 分析变量名列 ;> <Class 分类变量名列 ;> <by 分类变量名列 ; > <Output out=数据集名 < 输出统计量列表> ; >
Run ;
Proc means 主语句选项:
SAS运行结果:
可以计算的描述性统计量关键字及其含义见下表。
关键字 n
nmiss mean std stderr var median mode cv max min sum sumwgt css uss range
所代表的含义 有效数据记录数
缺失数据记录数 均值 标准差 标准误 方差 中位数 众数 变异系数 最大值 最小值 总计 加权值总计 校正平方和 未校正平方和 极差
Lower
Upper
Quartile Quartile Maximum Minimum --------------------------------------------------------------------
1740.50 2192.00 2460.00 1080.00 --------------------------------------------------------------------
1.DATA=SAS数据集 指出SAS数据集的名称,若省略,则使用最近产生的数据集。
2.MAXDEC=数字 指定该过程输出结果中小数部分的最大位数(0到8).默认是8。 3. ALPHA= 置信水平为1- . 默认为 =0.05.
Means过程默认输出统计量只有五个: N, Mean , Std , Min , Max
var Income; run;
运行结果
(3) 使用CLASS语句或BY语句
class 分类变量名列 ;