医用SAS统计分析三
主要格式:
PROC FREQ [选择项]; TABLES 表达式/ [选择项]; WEIGHT <变量名>;
说明:
❖PROC过程[选择项] data=数据集; 规定PROC FREQ语句使用的数据集。 formchar(1,2,7)=‘|-+’; 规定用来构造列联表单元的轮廓线
和分隔线的字符(只有三个字符)。1为垂线,2为水平线, 7为水平与垂直的交叉线。
一、分类变量的统计推断—卡方检验
在SAS系统中,对分类变量资料的基本统计分析方法主 要通过FREQ过程实现的。FREQ过程的主要功能有:
1.产生一维或多维频数表; 2.计算各种表中格子的理论频数、构成比和各种率; 3.对分类变量资料作相应的假设检验。
2020年3月29日
1
FREQ过程的语句及说明
52.51 47.49 100.00
2020年3月29日
9
STATISTICS FOR TABLE OF R BY C
Statistic
DF Value Prob
-------------------------------------------------------
Chi-Square ①
1 39.927 0.001
proc freq Formchar(1,2,7)=‘|-+’; weight f; tables r*c/chisq; run;
2020年3月29日
8
卡方检验结果
TABLE OF R BY C
RC Frequency|二维表每个格子的频数 Percent |每个格子的频数在总频数中的百分比。 Row Pct |行百分数,每格子频数占该行合计频数的百分比。 Col Pct | * 1| 2| Total ---------+--------+--------+
1 | 63 | 17 | 80 | 35.20 | 9.50 | 44.69 | 78.75 | 21.25 | *列百分数,每格子频数占 | 67.02 | 20.00 | 该列合计频数的百分比。 ---------+--------+--------+ 2 | 31 | 68 | 99 | 17.32 | 37.99 | 55.31 | 31.31 | 68.69 | | 32.98 | 80.00 | ---------+--------+--------+ Total 94 85 179
2020年3月29日
3
TABLES语句的表达式
▪ 表达式是要求FREQ过程分析处理的一维或多维表的清单。 一维表有一个变量名表示,二维表由星号“*”联接两个变量 名表示,如a*b表示变量a与b的二维表。三维表的形式为 a*b*c。
TABLES语句的[选择项]
1.普通选项
• out=数据集 建立一个包含变量值和频数计数的输出数 据集。如果TABLES语句中不止一个表达式,数据集的内 容相应于TABLES语句中最后一个表达式的表格。
❖WEIGHT语句 指明该变量为频数。只能使用一个WEIGHT 语句,且该语句作用于所有的表。
2020年3月29日
7
四格表资料的卡方检验
书中例10-1 data chisq1; do r=1 to 2;
do c=1 to 2; input f @@; output; end; end; cards; 63 17 31 68 ;
2020年3月29日
4
2.统计分析主要选项 •chisq 对每层作χ2检验,包括Pearson χ2 、似然比χ2 和 Mantel-Haenszel χ2 。此外还给出与χ2 检验有关的关联指 标包括Phi系数、列联系数和Cramer’s V。对于2×2表,给 出Fisher精确概率。
•agree 进行配对χ2 检验(McNemar’s检验); 一致性检验的 Kappa值。
•Alpha= 给出α检验水准。缺省为0.05.
•expected 给出期望频数。
2020年3月29日
6
3.禁止输出选项 •nofreq 不给出列联表中的格频数 •no•nocol 不给出列联表中各格的列百分数 •nocum 不给出频数表的累积频数和累积百分数 •noprint 不给出表格,但给出CHISQ、CMH等语句所指 定的统计量。
2020年3月29日
5
•measures 对每层的二维表计算一系列关联指标及相应的 标准误,包括Pearson和Spearman相关系数,以及 Gamma和Kendall系数等。对于2×2表,还给出常用的危 险度指标及其可信区间。
•all 给出chisq,measures,cmh所请求的全部统计量。
•exact 对大于2×2的列联表计算Fisher精确概率。同时 也给出CHISQ选项的全部统计量。
•cmh 给出Cochran-Mantel-Haenszel统计量,主要用于 行×列表的统计分析。对于分层2×2表,cmh过程给出总体 相对危险度估计及其可信区间,还给出各层关联度指标是否 齐性的Breslow检验。
2020年3月29日
2
❖TABLES语句
PROC FREQ过程中可有多条TABLES语句,TABLES语句后可接多 个表格表达式,每个表达式可包含任何数量的变量,从而得到所 需的表格。
如果TABLES语句缺省,则FREQ过程对数据集中的所有变量 都给出相应的一维频数表。不规定任何选项时,若需某变量的一 维频数,FREQ给出该变量每一水平的频数(freqency)、累积频数 (cumulative freqency)、频数的百分比(percent)和累积百分比 (cumulative percent);若需二维频数表,FREQ产生交叉分组列 表,即包括各格的频数、总频数的格百分数、行频数的格百分数 和列频数的格百分数。
Likelihood Ratio Chi-Square② 1 41.860 0.001
Continuity Adj. Chi-Square ③ 1 38.047 0.001
Mantel-Haenszel Chi-Square ④ 1 39.704 0.001