sas单变量分析
normal(color=blue) cfill=grey;
inset N mean std skewness kurtosis pnormal/pos=ne; label glucose='葡萄糖';
title 'glucose in blood';
id name; run;
2015年3月18日星期三8时28分10秒
2015年3月18日星期三8时28分10秒
1.6 means过程-by语句
proc sort ; by gender; proc means ; var phosphrs glucose; by gender; run;
2015年3月18日星期三8时28分10秒
样本统计量(一)
Median 中位数 -S0.5 Mode 众数 -峰值 Max Min Q3 最大值 最小值 上四分位数 S0.75
Q1
下四分位数 S0.25
2015年3月18日星期三8时28分10秒
样本统计量(二)
Sum 求和
X
i 1
n
i
Mean 均值 CSS
1 n X Xi n i 1
一阶矩
校正平方和(离均差平方和)
CSS ( X i X )2 二阶中心矩
i 1 n
USS
未校正平方和 USS X i2
/*单变量分析02-means过程.sas*/ proc means ; var phosphrs glucose;
output out=b mean=ph_mean std=ph_std;
run;
2015年3月18日星期三8时28分10秒
1.5 means过程-class语句
/*单变量分析02-means过程.sas*/ proc means ; var phosphrs glucose; class gender; run;
分析原因;决定是否剔除
(2)检查数据分布特征
2015年3月18日星期三8时28分10秒
1.1 means过程
/*单变量分析02-means过 程.sas*/ proc means;
var phosphrs glucose ;
run;
2015年3月18日星期三8时28分10秒
1.2 means过程+label+title
2015年3月18日星期三8时28分10秒
2.1 结果(四):分位数
分位数 100%最大值 99%
75% Q3 上四分位数 50% 中位数 25% Q1下四分位数
0%最小值
2015年3月18日星期三8时28分10秒
2.1 结果(五):极端值
2015年3月18日星期三8时28分10秒
2.2 univariate过程-plot选项
小结
univariate和means过程 1.实现的统计任务
2.统计量
3.by、classs、label、format、id、 freq等语句
复习:假设检验的概念
t检验和非参数检验
2015年3月18日星期三8时28分10秒
…
…
…
2015年3月18日星期三8时28分10秒
直方图
单变量分析01-gchart过程.sas
Normal?
2015年3月18日星期三8时28分10秒
调整直方图
单变量分析01-gchart过程.sas
2015年3月18日星期三8时28分10秒
探索性数据分析
探索性数据分析(exploreatary data analysis,EDA)的 基本思想是从数据本身出发,不拘泥于模型的 假设而采用非常灵活的方法来探究数据分布的 大致情况,也可以为进一步结合模型的研究提 供线索,为传统的统计推断提供良好的基础、 减少盲目性。 (1)检查数据是否有错误:找出过大或过小的点;
s n
2015年3月18日星期三8时28分10秒
S 变异系数 CV X 100%
样本统计量(四) -偏度(SKEWNESS) 描述样本数据对称性的指标:
n n 3 ( X X ) i 3 ( n 1)( n 2) s i 1
三阶中心矩
例如:0,1,1,1,2,7
(0-2)3+3(1-2)3 +(2-2)3 +(7-2)3 >0 关于均值对称的数据其偏度为0,右(左)侧更分 散的数据偏度为正(负)。
2015年3月18日星期三8时28分10秒
univariate过程-title,label语句
proc univariate; var glucose; label glucose='葡萄糖'; title 'glucose in blood'; run;
2015年3月18日星期三8时28分10秒
univariate过程-id语句 proc univariate; var glucose; id name; run;
2015年3月18日星期三8时28分10秒
例2
40名麻疹易感儿接受麻疹疫苗一个月,血凝抑制抗体
滴度如下:
抗体滴度 1:4 1:8 1:16 1:32
人数
抗体滴度
1
1:64
5
1:128
proc univariate; histogram glucose; run;
2015年3月18日星期三8时28分10秒
2.3 univariate过程-画直方图
proc univariate; var glucose; histogram glucose/normal; run;
2015年3月18日星期三8时28分10秒
变量的测量水平
•名义量度-给变量值赋予名称。
性别 汽车类型 班级 学号 血型
•有序量度-对应的变量值有严格的顺序
成绩:不及格<及格<良<优 滴度:一级<二级<三级 坚决拥护>拥护>弃权>反对>坚决反对
•区间量度-变量值为数值,且有顺序,差很重要
温度 90-45 90/45= 363.15/318.15
/*单变量分析02-means过程.sas*/ proc means; var phosphrs glucose ;
title 'blood';
label phosphrs='磷' glucose='葡萄糖'; run;
2015年3月18日星期三8时28分10秒
1.3 means过程-定制
/*单变量分析02-means过程.sas*/ proc means mean std stderr; var phosphrs glucose ;
茎.叶 101 =32.0 101 3.2
(茎.叶) 101
2015年3月18日星期三8时28分10秒
盒形图(箱线图)
平均数
* 中位数 0 *
上四分位数Q3
下四分位数Q1 触须 1.5 (Q3-Q1)
*
2015年3月18日星期三8时28分10秒
2.3 univariate过程-画直方图
频数表 直方图 统计量
•比率量度-变量值为数值,有顺序,数值间的差
值、数值0有意义。
频数表 直方图 统计量
2015年3月18日星期三8时28分10秒
例1
有48个患者血清中磷和葡萄糖含量的数据。
number 01 02 name 王红 申奥 … gender 女 女 … phosphrs 4.1 4.6 glucose 136 98
2015年3月18日星期三8时28分10秒
样本统计量(四) -偏度(SKEWNESS)
对称,偏度=0
偏向右,偏度>0
偏向左,偏度<0
2015年3月18日星期三8时28分10秒
样本统计量(四) -峰度(KURTOSIS) 峰度-以同方差的正态分布为标准,比较两 侧极端数据分布情况的指标。若两侧极端数 据较多(少),峰度为正(负)。正态分布 的峰度为0。
6
1:256
2
1:512
人数
7
10
4
5
2015年3月18日星期三8时28分10秒
读入数据
2015年3月18日星期三8时28分10秒
求对数的平均值20ຫໍສະໝຸດ 5年3月18日星期三8时28分10秒
求滴度的平均值
2015年3月18日星期三8时28分10秒
小结: univariate过程句法
proc univariate 选项;
•比率量度-变量值为数值,有顺序,数值间的差
值、数值0有意义。
重量 100kg-50kg 100kg/50kg
2015年3月18日星期三8时28分10秒
变量的类型与概括数据方法的选择
•名义量度-给变量值赋予名称。
频数表 条形图
•有序量度-对应的变量值有严格的顺序
频数表 条形图 秩变换
•区间量度-变量值为数值,且有顺序,差很重要
proc univariate plot; var phosphrs glucose; run;
茎叶图 盒形图
2015年3月18日星期三8时28分10秒
茎叶图
12.0 101 =120 12.2 101 =122 12.5 101 =125 12.6 101 =126 12 101+8=128
run;
2015年3月18日星期三8时28分10秒
2.1 结果(一):矩
矩
样本含量 均数 标准差 偏度 平方和 变异系数 权重和 和 方差 峰度 离均差平方和 标准误
2015年3月18日星期三8时28分10秒