当前位置:文档之家› 第4章_定量数据描述性统计分析.

第4章_定量数据描述性统计分析.


xi x 3 n ( ) (n 1)(n 2) s
主要衡量数据的对称性,若其值大于0则表示位于均值右边数据较分散 ,若小于0则表示均值左边数据较分散。 KURTOSIS(峰度系数):计算公式为
xi x n(n 1) 3(n 1)2 KURT ( ) (n 1)(n 2)(n 3) s (n 2)(n 3)
PORC GPLOT DATA=数据集 ; PLOT 纵坐标变量Y*横坐标变量X……</选项列表>; SYMBOLN <选项列表> ; AXISN <选项列表> ; RUN;
n
描述性统计分析指标
MIN(最小值):样本中的最小观察值。 SUM(和):样本观察值的总和。 RANGE(极差):最大与最小观测值之差。 STD DEV(标准差):计算公式为 Std Dev (n为样本量)。
(x x )
n 1
2
VAR(方差):为标准差的平方,用来衡量相对于均值的分散性和变 异性。数据的集中程度高则方差小,反之则大。 STDERR(标准误):计算公式为 STDERR STD / N CV(变异系数):计算公式为 CV
第4章 定量数据描述性统计分析
主要内容
Hale Waihona Puke 描述性统计分析指标MEANS/UNIVARIATE过程
常见统计图
GPLOT/GCHART过程
描述性统计分析指标
(1)基本统计分析指标
基本概念: 总体:研究对象的全体。 样本:从总体中抽取的个体。 随机抽样:从总体中抽取样本,且每个样本被抽到的机会均等。
xi ) / n (n为样本量N)。 MEAN(均值):计算公式为 mean ( i 1 MODE(众数):样本中出现次数最多的数据。 MEDIAN(中位数):指将数据按大小顺序排列起来,形成一个数列, 居于数列中间位置的数据。若总数为奇数,取中间值;若总数为偶数, 取中间两个值的平均值。 PX(分位数):它将全部观察值分成两个部分,其中有X%个观察值小 于PX,(100-X)%个观察值大于PX。 MAX(最大值):样本中的最大观察值。
菜单法
描述性统计图形
(1)常见统计图形介绍
图形类 型 条形图 圆饼图 主要特征 表示相互独立的统计指标的数量大小。通常纵轴表示数量,横轴 为分组标志。绝对数或相对数均可表示数量,图中各长条的高度 反映了数值大小。 表示事物内部的构成情况。图中每个扇形面积的大小表示百分比 数量大小,将 360 °圆心角看成是 100%,把每一部分所占的百分 比数折算成圆心角的度数,画出对应的扇形。 表示计量资料(测定每个观察单位某项指标值的大小)各组段上 的频数的分布情况。图中各长条的面积表示各组数量的大小。 用于资料中包含两个数量指标,放在横轴上的数量指标通常是时 间。适用于表示一个或多个事物随着时间的推移,在数量上的增 减幅度。 举例 绘制不同城市的 年度GDP情况。 绘制某种食物的 不同营养成分所 占的百分比。 如绘制某班学生 中考平均得分的 分布情况。 如绘制某城市某 年12个月的CPI情 况。
描述性统计分析指标
(3)UNIVARIATE过程
一般使用格式 PROC UNIVARIATE DATA=SAS数据集 <选项列表> ; VAR 变量列表; BY 变量列表; FREQ 变量; WEIGHT 变量; ID 变量列表; OUTPUT <OUT=输出数据集名> <统计量关键字=变量名列表> <PCTLPTS=百分位数 PCTLPRE=变量前缀名 PCTLNAME=变量后缀名>; RUN;
s 100% x
n i 1
2 USS w x USS(加权平方和):计算公式为 ii
其中 wi 代表权重
描述性统计分析指标
CSS(加权离差平方和):计算公式为 CSS
SKEWNESS(偏度系数):计算公式为 SKEW
2 w ( x x ) i i i 1
n
描述性统计分析指标
(3)SAS实例——描述小麦单穗粒数分布
在某农业试验基地进行试验,从某块农田中随机抽取50株 小麦,并且测出其单穗粒数(count)(相应的SAS数据集在 光盘中的存储路径为data/chap4/wheat),请据此计算其描述 性统计指标,以得到小麦单穗粒数的分布状况。
29 29 25 26 30 25 34 33 36 25 28 31 36 29 27 31 22 32 32 27 26 22 33 29 43 32 21 29 29 25
27
32
27
24
30
28
26
28
27
34
18
25
29
27
28
26
30
25
27
32
描述性统计分析指标
编程法:
proc means data=chap4.wheat MAXDEC=2; /*调用means过程,输出结果保留两位小数*/ var count; /*指定分析变量为count*/ run; proc univariate data=chap4.wheat plot ; var count; run; /*调用univariate过程,输出图形*/
直方图
折线图
散点图
用于资料中包含两个数量指标,且两个变量之间有自变量和因变 量之分。通常把自变量放在横轴上,因变量放在纵轴上。将成对 的数据点(X, Y)在X和Y直角坐标系中用点表示出来,所以称 为散布图或散点图。
如绘制某一组随 机样本的身高和 体重的散点图。
描述性统计图形
(2)GPLOT过程
一般使用格式:
峰值反映分布的尖锐度或平坦度,正峰值表示相对尖锐的分布,负峰 值表示相对平坦的分布。 PROB>|T|:在总体均值是0的假设条件下,学生T统计量大于临界T的绝 对值的概率。
4
描述性统计分析指标
(2)MEANS过程
一般使用格式 PROC MEANS DATA=SAS数据集 <选项列表> ; VAR 变量列表; CLASS 变量列表; BY 变量列表; FREQ 变量; WEIGHT 变量; ID 变量列表; OUTPUT <OUT=输出数据集名> <统计量关键字=变量名 列表> ; RUN;
相关主题