第三讲SAS的基本统计分析
回归分析
在拟合了直线后,为拟合多项式曲线,只要选“Curves | Polynomial”,然后输入阶次(Degree(Polynomial)),就 可以在散点图基础上再加入一条多项式曲线。对于本例,我们 看到二次多项式得到的曲线与直线差别很小,所以用二次多项 式拟合没有优势。还可以试用三次、四次等多项式。为了改变 阶次还可以使用拟合窗口中的多项式阶次滑块(Parametric Regression Fit中的Degree(Polynomial))。
M
10
119.0
100.0 12.225943 11.900000
F
9
71.0
90.0 12.225943
7.888889
Average scores were used for ties.
Wilcoxon Two-Sample Test
Statistic
71.0000
Normal Approximation
SAS软件应用
第四章 SAS的基本统计分析(1)
主讲:上海财经大学统计学系 邵建利
版权所有, 2005 上海财经大学 邵建利
SAS基本统计分析概论
前面我们已经看到了SAS的编程计算、数据管理能力、 数据汇总、数据探索分析能力。这一章我们讲如何用SAS 进行基本的统计检验、线性回归、方差分析、列联表检验 等基本统计分析。我们既使用SAS语言编程,也使用 SAS/INSIGHT的菜单界面。
一些单变量检验问题
The SAS System
23:06 Friday, October 7, 2005 2
The TTEST Procedure
Statistics
Lower CL
Upper CL Lower CL
Upper CL
Variable Sex
N
Mean Mean
Mean Std Dev Std Dev Std Dev Std Err
Kruskal-Wallis Test
Chi-Square
2.4151
DF
1
Pr > Chi-Square
0.1202
结果分为四部分:两样本的秩和的有关统计量, Wilcoxon两样本检验的结果,t检验的近似显著性, Kruskal-wallis检验结果。我们只要看Wilcoxon检验的p 值Prob > |Z| = 0.1202,检验结果不显著,可认为男、女 生的体重在0.05水平下无显著差异。
一些单变量检验问题
如果我们希望检验男、女生的体重,对特殊人群有时无法使 用两样本t检验,因为检验女生的体重样本的正态性发现它是 非正态。这种情况下我们可以使用非参数检验。检验两独立 样本的位置是否相同的非参数检验有Wilcoxon秩和检验。 我们用NPAR1WAY过程加Wilcoxon选项可以进行这种检验。 见下例:
Weight F
9 75.211 90.111 105.01 13.093 19.384 37.135 6.4613
Weight M
10 92.692 108.95 125.21 15.633 22.727 41.491 7.187
Weight Diff (1-2)
-39.41 -18.84 1.7313 15.923 21.22 31.811 9.7497
Tests for Normality
Test
--Statistic--- -----p Value------
Shapiro-Wilk
W 0.965083 Pr < W
0.6756
Kolmogorov-Smirnov D 0.134048 Pr > D >0.1500
Cramer-von Mises
4.50000
Tests for Location: Mu0=0
Test
-Statistic- -----p Value------
Student's t t 7.617748 Pr > |t| 0.0001
Sign
M
4 Pr >= |M| 0.0078
Signed Rank S
18 Pr >= |S| 0.0078
proc npar1way data=sashelp.class wilcoxon; class sex; var weight; run;
The NPAR1WAY Procedure
Wilcoxon Scores (Rank Sums) for Variable Weight
Classified by Variable Sex
W-Sq 0.057963 Pr > W-Sq >0.2500
Anderson-Darling
A-Sq 0.366427 Pr > A-Sq >0.2500
其中W:Normal为Shapiro-Wilk正态性检验统计量,Pr<W为检验的显著性概率值(p 值)。当N≤2000时正态性检验用Shapiro-Wilk统计量,N>2000时用Kolmogorov D统 计量。我们可以看到,p值很小,所以在0.05水平(或0.10水平)下应拒绝零假设, 即认为height分布正态。
T-Tests
Variable Method
Variances
DF t Value Pr > |t|
Weight
Pooled
Equal
17
-1.93
0.0702
Weight
Satterthwaite Unequal
17
-1.95
0.0680
Equality of Variances
Variable Method
SAS/INSIGHT中未提供两独立样本检验的功能。
成对总体均值检验
我们在现实中经常遇到两个总体是相关的测量结果的比 较,比如,考察同一组人在参加一年的长跑锻炼前后的心 率有无显著差异。这时,每个人一年前的心率和一年后的 心率是相关的,心率本来较快的人锻炼后仍相对于其它人 较快。所以,检验这样的成对总体的均值不能使用两样本 t检验的方法,因为独立性条件不再满足。这时,我们可 以检验两个变量间的差值的均值是否为零,这等价于检验 两组测量值的平均水平有无显著差异。
一些单变量检验问题
假设我们有两组样本分别来自两个独立总体,需要检 验两个总体的均值或中心位置是否一样。如果两个总 体都分别服从正态分布,而且方差相等,可以使用两 样本t检验过程TTEST。
proc ttest data=sashelp.class; class sex; var weight; run;
检验单个样本的均值是否为零只要使用UNIVARIATE过程, 在UNIVARIATE过程的矩部分给出了均值为零的t检验和符 号检验、符号秩检验的结果。
两配对样本的T检验可根据样本数据对两总体均值之间是否 有差异进行推断。作此类T检验的基本要求是:首先两样本 数据必须两两配对,即样本顺序相同、数目相等等。其次, 两总体是服从正态分布的。最后两配对样本T检验的基本假 设为:两总体均值相同。
一些单变量检验问题
上面的检验中对立假设是两组的均值不等,所以检验是双 边的,p值的计算公式为Pr(t分布随机变量绝对值>计算 得到的t统计量的绝对值)。如果要进行单边的检验,比如 对立假设为女生体重高于男生(右边),则p值为Pr(t分 布随机变量>计算得到的t统计量),当计算得到的t统计量 值为正数时(现在t=4.0)此单边p值为双边p值的一半, 当计算得到的t统计量为负数时肯定不能否定零假设。检 验左边时恰好相反。
我们只要看其中的三个检验:T: Mean=0是假定差值变量服 从正态分布时检验均值为零的t统计量值,相应的p值Pr>|T|为 0.0001在0.05水平下是显著的,所以可认为两科分数有显著 差异。M(Sign)是非参数检验符号检验的统计量,其p值 Pr>=|M|为0.0001在0.05水平下是显著的,结论不变。Sgn Rank是非参数检验符号秩检验的统计量,其p值Pr>=|S|为 0.0078在0.05水平下是显著的,结论不变。所以这三个检验 的结论都是两科成绩有显著差异。
一些单变量检验问题
对单个变量,我们可能需要作正态性检验、两独立样本均值 相等的检验、成对样本均值相等的检验。
正态性检验
在PROC UNIVARIATE语句中加上NORMAL选项可以进行 正态性检验
proc univariate data=sashelp.class normal; var weight; run;
Z
-1.5132
One-Sided Pr < Z
0.0651
Two-Sided Pr > |Z| 0.1302
t Approximation
One-Sided Pr < Z
0.0738
Two-Sided Pr > |Z| 0.1476
Z includes a continuity correction of 0.5.
一些单变量检验问题 Tests for Location: Mu0=0Fra bibliotekTest
-Statistic- -----p Value------
Student's t t 19.1449 Pr > |t| <.0001
Sign
M
9.5 Pr >= |M| <.0001
Signed Rank S
95 Pr >= |S| <.0001
Sum of
Expected
Std Dev
Mean
Sex
N
Scores
Under H0
Under H0