当前位置:文档之家› 基本统计描述模板

基本统计描述模板

变量:2个(分组变量,血压变量) 观察:4个 浙江大学公共卫生学院流行病与卫生统计学科系 沈毅
程序2_2:
Data ex2_2 (drop=obs);
do group=1 to 4;
do obs=1 to 4; input bp@@;
调用MEANS过程,要求计算每组的 样本量、均数、标准差、标准误及做
45 44 45 25 49 36
浙江大学公共卫生院流行病与卫生统计学科系 沈毅
proc means后面的mean std stder cv min max称为选择项,它们分别表示要求计算 和输出均数,标准差,标准误,变异系数, 最小值和最大值。如proc means后面的 选择项全部缺省,则输出均数,标准差, 最小值和最大值。
Var x y z;表示所统计的变量是x,y和z。 如var语句缺省,则统计所有的数值型变 量。
浙江大学公共卫生院流行病与卫生统计学科系 沈毅
输出结果见下图: 变异系数CV=S/MEAN*100%
浙江大学公共卫生学院流行病与卫生统计学科系 沈毅
例2-2:
No group1 group2 group3 group4 1 145 120 115 100 2 135 115 120 98 3 155 120 123 105 4 140 118 124 103
SAS默认的关键词(部分):
mean x
均数
n
var x x 2
方差
n 1
std x x 2 / n 1 标准差
stderr s n
css x x 2
cv s 100% x
标准误 离均差平方和(SS) 变异系数
浙江大学公共卫生学院流行病与卫生统计学科系
沈毅
一、MEANS过程
output; end;
单样本t检验输出t和相应的p值。
end;
Cards;
145 135 155 140 120 115 120 118
115 120 123 124 100 98 105 103
;
Proc means n mean std stderr t prt;
class group;
Run;
基本统计(描述)过程
• MEANS 过程 • SUMMARY过程 • UNIVARIATE过程 • FREQ过程 • PLOT过程(略)
浙江大学公共卫生学院流行病与卫生统计学科系 沈毅
集中趋势的描述指标
❖ 算术均数:适合单峰和基本对称的分布 ❖ 中位数:适用于任意分布类型 ❖ 截尾均数:数据中有极端值,用截尾均数更好 ❖ 几何均数:适用于原始数据分布不对称,但经过对数转换
对计量资料进行统计描述主要可通过MEANS过程 和SUMMARY过程实现。这两者功能大致相同, 略有差异。MEANS过程没有输出中位数、四分位 数和众数的功能,SUMMARY过程则没有输出偏度 系数和峰度系数。
浙江大学公共卫生学院流行病与卫生统计学科系 沈毅
格式:
PROC MEANS <选择项>;―――主语句 <VAR>< 变量表>;―――――――分析变量 <CLASS> <变量表>;――――――分组变量 RUN;
Class语句指定分组变量group
浙江大学公共卫生学院流行病与卫生统计学科系 沈毅
结果如下:
默认状态下的t检验,检验假设H0:μ=0 t=(mean-μ)/se
浙江大学公共卫生学院流行病与卫生统计学科系 沈毅
二、SUMMARY过程
格式:PROC SUMMARY <选择项>;――主语句 <VAR>< 变量表>;―――――――――分析变量 <CLASS>< 变量表>;――――― ――分组变量 <OUTPUT OUT=数据集名>; RUN;
SUMMARY过程的用法与MEANS基本相同。不同点在于: 1、在选择项中,SUMMARY过程中可以用MEDIAN、 QUARTILE、MODE来输出中位数、四分位数和众数。 2、默认状态只输出n,在选择项中如缺少print,则不显示 3、SUMMARY过程可以使用OUTPUT语句,把输出的结果 存入一个数据集中。
选择项:1、DATA=数据集名 ----- 用于指定分析数据集, 否则,使用当前数据集
2、统计量―― 用于指定需要输出的统计量, 包括:N,MEAN,STD,STDERR,MIN,MAX,SUM,CV,t,P等18个。 说明: 1.默认状态下则不分组计算所有的变量。 3.默认状态下输出的统计量为N,MEAN,STD,MIN,MAX。
45
44
4
505
45
47
5
492
46
32
6
485
45
25
7
499
49
17
8
480
45
20
9
566
49
36
10
539
49
27
浙江大学公共卫生学院流行病与卫生统计学科系 沈毅
程序2-1
data ex2_1; input no x y z@@; cards; 1 545 40 50 2 490 46 39 3 515 4 505 45 47 5 492 46 32 6 485 7 499 49 17 8 480 45 20 9 566 10 539 49 27 ; proc means mean std stderr cv min max; var x y z; run;
❖ 方差和标准差 适用于正态分布
❖ 百分位数 如中位数(P50)、四分位数(P25、P50、P75)
❖ 四分位间距 即P75-P25,适用于任意分布类型,不受极端值影响
❖ 变异系数(CV)
S/ x ,适用于测量尺度相差太大或数据量纲不同时,
比较两组数据离散程度的大小
浙江大学公共卫生学院流行病与卫生统计学科系 沈毅
浙江大学公共卫生学院流行病与卫生统计学科系 沈毅
例2-1 10年间某医院因心肌梗塞死亡的 病例数的数据如表2.1,试作分 析。
浙江大学公共卫生院流行病与卫生统计学科系 沈毅
表2.1 某医院心肌梗塞死亡的病例数
年 份 病例数
year
x
死亡例数
住院期y
急性期z
1
545
40
50
2
490
46
39பைடு நூலகம்
3
515
后呈对称分布的资料 ❖ 众数(Mode):样本数据中出现频次最大的那个数字 ❖ 调和均数(H):较少使用,观察值x倒数之均数的倒数,
常用于完成的工作量相等而所用时间不 同,求平均速度的情况
浙江大学公共卫生学院流行病与卫生统计学科系 沈毅
离散趋势的描述指标
❖ 全距 大体了解数据的分布范围,用于预备性检查
相关主题