SAS统计的基本教程
功能
将数据集按指定变量排序
将数据集中数据列表输出
绘统计图
对指定的数值变量作详细的统计描述
对指定的数值变量作简单的统计描述
对指定的分类变量作统计描述和检验
非参数检验
进行t检验
进行方差分析
拟合一般线性模型
拟合线性回归模型
进行相关分析
拟合Logistic回归模型
拟合cox比例风险模型
6
第二节 频数统计与柱状图
16
❖ 第一种:对变量weight规定一个格式
❖
proc format;
value wfmt low-32=’24-32’
32-40=’32-40’
40-48=’40-48’
48-56=’48-56’
56-64=’56-64’
64-72=’64-72’
72-high=’72-80’; /*书上格式不好用*/
基础统计分析过程
❖ 第一节 描述统计量 ❖ 第二节 频数统计与柱状图 ❖ 第三节 常用描述统计量计算
1
第一节 描述统计量
介已绍知描一述组这试组验数(据或的观几测类)特数征据量为。:X1,X2……Xn,以下
一、表示位置的特征量
位均值(mean)、众数(m0)、中位数(me)和百分
数(percentile)
9
第二节 频数统计与柱状图
二、用分析员应用作频数统计和直方图 Statistics=>Descriptive=>Frequency counts… 1、分析变量sex、age 2、解释各按钮 3、注意图表输出位置 4、按性别分组 5、作加权演示
10
第二节 频数统计与柱状图
三、用编程作频数统计与柱状图
❖;
❖ 例四:正态假设检验
❖ proc univariate data=wh100 normal;
❖ var w;
❖ title '100名学生体重数据的正态性检验';
5
❖ run;
过程步名 Sort Print Gchart Univariate Means Freq Npar1way Ttest Anova GLM REG Corr Logistic Phreg
Analyze =>…. Histogram/Bar Chart(Y)
1、分析sex、age、height三个变量 2、按性别分组输出 3、解释图形的下三角菜单 数据文件:class1
8
第二节 频数统计与柱状图
(二)用INSIGHT作频数统计
Analyze => Distribution(Y) 1、作sex、age的频数统计 2、按性别分组作age的频数统计
run;
12
第二节 频数统计与柱状图
若不要计算某些指标,可在tables语句设定 选
项,可用的选项有:
nocum-----不要累计的频数和百分数 nopercent-----不要百分数和累计百分数 例如只要计算年龄取值的频数和累计频数,
其程序为:
proc freq data=sasuser.class1;
样本数据的情况、取不同数值的比例 描述了样本取值的分布,通过频数可进一 步了解总体相应指标的分布。
对于频数统计,除了用列表记录变量 取不同数值的频数、百分数外,还常用柱 状图或饼图等图形工具来表示。柱状图也 称条形图。
7
第二节 频数统计与柱状图
一、用INSIGHT作频数统计和柱状图
(一)用INSIGHT作柱状图
14
第二节 频数统计与柱状图
若有权变量的数据,可用weight语句加权:
data stud; input sex n;
cards; 1 40 0 55 ; run; proc freq data=stud; tables sex; weight n; run;
15
第二节 频数统计与柱状图
对于连续型数据通常使用组距式分组。 例如将数据class1中的体重数值由24公斤至 80公斤,每8公斤为一组,按组统计的体重 频数表。这里常用的是使用Format过程或 形成一个新的变量。
❖ 168.8 54.0 169.1 66.2 177.5 60.0 177.0 66.2 169.9 55.9 167.4 54.4
❖ 169.3 58.4 172.8 72.8 169.8 58.0 160.0 65.3 179.1 62.2 172.3 49.8
❖ 163.3 46.5 172.9 66.7 165.4 58.0 175.8 63.2 162.3 52.2 165.4 65.7
Run; proc freq data=stud ;
tables gweight; run;
then then then then then then then
gweight='72-80'; gweight='64-72'; gweight='56-64'; gweight='48-56'; gweight='40-48'; gweight='32-40'; gweight='24-32';
文件:P59_2.sas
19
第二节 频数统计与柱状图
(二)用CHART过程作直方图
CHART过程是用图表的方式形象地表示变 量取值及两个以上变量之间的关系。它所描述的 图形有直方图(条形图)、块形图、饼形图、星 形图。这里着重介绍直方图。
CHART过程产生的图形有三个因素决定: 选择图形表示方法;显示图表变量值的统计量; 规定分组的特性。
❖ 165.7 55.4 161.2 48.5 172.8 57.0 175.1 75.5 157.5 50.5 169.8 62.9
❖ 168.6 63.4 172.6 61.0 163.8 58.5 165.1 61.5 166.7 52.5 170.9 61.0
❖ 166.1 69.5 166.2 62.5 172.4 52.6 172.8 60.0 177.8 63.9 162.7 56.8
❖ 166.2 49.8 181.7 63.0 175.8 68.3 172.3 55.5 172.7 58.5 174.3 64.0
❖ 171.2 59.0 174.8 68.0 165.4 55.5 169.1 64.8 167.9 62.0 176.8 64.0
❖ 183.5 69.9 165.5 48.6 171.0 70.5 170.3 58.5
二、表示分散程度的特征量
方差、标准差、极差、四分位差、变异系数和标准误
(即均值的标准差)
三、表示形状的特征量
偏度和峰度
2
❖ N-观测个数
Sum Wgts-加权和
❖ Mean-均值
Sum-总和
❖ Std Dev-标准差 Variance-方差
❖ Skewness-偏度 Kurtosis-峰度
❖ USS-加权平方和 VSS-加权离差平方和
总变量
23
第二节 频数统计与柱状图
基本格式:
PROC CHART <选项>; /*选项有DATA=*/ VBAR 变量名列 </<标准选项><VBAR特有选项>>; HBAR 变量名列 </<标准选项><HBAR特有选项>>;
RUN;
24
第二节 频数统计与柱状图
标准选项
①DISCRETE——用来指明数值图表变量是离散的而 不是连续的。如果省略该选项,则CHART过程假定 所有数值变量都是连续的。
label gweight=‘体重分组值’;
run;
proc freq data=tmp;
tables gweight;
run;
/*程序在p59*/
18
(2) Data stud;
set xw.class1; If weight>=72 If 64<=weight<72 If 56<=weight<64 If 48<=weight<56 If 40<=weight<48 If 32<=weight<40 If weight<32
❖ 百分数( TYPE= PCT)
❖ 累计频数( TYPE= CFREQ)
❖ 累计百分数( TYPE= CPCT)
❖ 总和( TYPE= SUM)
❖ 平均数( TYPE= MEAN)
通过选项TYPE=取以上几种选择来显示不 同
统计量的图形
22
第二节 频数统计与柱状图
(3)分组特性的选择 ❖ 用于分组的变量选项DISCRETE ❖ 用于并排分组的选项GROUP= ❖ 用于分子组的选项SUBGROUP= ❖ 对连续变量用区间中点定位的选项MIDPOINTS= ❖ 选项SUMVAR=规定收集对均值、总和、或频数的汇
(一)用FREQ过程作频数统计 利用编程统计频数和百分数可以使用PROC
FEEQ。它最简单的用法是:
proc freq data=数据集名; tables 变量名列;
run;
11
第二节 频数统计与柱状图
例如对数据集CLASS1的变量SEX和 AGE要统计其频数和百分数,其程序为:
PROC freq data=sasuser.class1; tables age sex;
❖ 171.5 59.3 176.6 66.3 181.7 68.6 175.2 74.9 169.5 59.5 169.6 61.5
❖ 169.1 63.1 185.5 77.0 173.9 65.5 162.5 50.0 171.5 58.5 175.6 59.8