SAS的描述统计功能
2.3 统计图形
❖2.3.1 定量变量的图形表示 ❖2.3.2 分类变量的图形表示
2.3.1 定量变量的图形表示
❖1. 直方图
▪ 对于数值型变量,常用直方图(histogram) 来展示变量取值的分布。将变量取值的范围分 成若干区间,在等间隔区间的情况,每个区间 的长度称为组距。考察数据落入每一区间的频 数与频率,在每个区间上画一个矩形,它的宽 度是组距,它的高度可以是频数、频率或密度 (频率/组距),在高度是密度的情况,每一 矩形的面积恰是数据落入区间的频率,这种直 方图可以估计总体的概率密度。
2.1.1 统计学的基本概念
❖ 概率 ▪ 度量随机事件发生的可能性的大小 ▪ A:随机事件 ▪ P(A)随机事件发生的概率 ▪ P(A)=1 事件一定发生 ▪ P(A)=0 事件绝对不发生
2.1.1 统计学的基本概念
❖2. 参数与统计量 ▪ 参数(parameter):定量地反映总体的某个 性质,如平均值μ、概率π等。 ▪ 统计量(statistics):定量反映样本的某个性 质,如样本方差(s2)、样本比例(P)等。
• 抽样(sampling)是指
从总体中抽取部分的做 法。
• 样本(sample)通过抽
样得到的总体的一个子 集。
随机化
使样本具有代表性的 重要方法
总体
样本
2.1.1 统计学的基本概念
抽样方法
❖ 简单随机抽样:在抽样的过程中,任何一个样本 被选中的机会都相同。 ▪ 利用计算机产生的随机数(对于有限总体), 可模拟简单随机抽样,如对学生的学号用随机 数进行抽样
2.2.2 用“分析家”计算统计量
❖2.通过Summary Statistics菜单计算描述性统计量
▪ 选择主菜单“Statistics(统 计)”→“Descriptive(描述性统 计)”→“Summary Statistics(汇总统计 量)”,打开“Summary Statistics”对话框, 选择变量列表中的Income,单击“Analysis” 按钮,选定分析变量,如图所示。
❖4. 百分位数(Percentile)
▪ 分位数也是描述数据分布和位置的统计量。 0.5分位数就是中位数,0.75分位数和0.25分位 数又分别称为上、下四分位数,并分别记为Q3 和Q1。
2.1.3 表示数据分散程度的统计量
❖1. 极差(Range)与半极差(Interquartile range)
▪ 极差就是数据中的最大值和最小值之间的差: ▪ 极差 = max{xi} – min{xi}
▪ 上、下四分位数之差Q3 – Q1称为四分位极 差或半极差,它描述了中间半数观测值的散布 情况。
❖2. 方差(Variance或Var)
• 方差是由各观测值到均值距离的平方和除以观测
量减s2 1 :n 1 1 i n 1(x i x )2 (x 1 x )2 n . . 1 ( .x n x )2
❖1. 均值(Mean)
▪ 均值是所有观测值的平均值,是描述数据取 值中心位置的一个度量:
xn 1i n1xi
x1xn n
2.1.2 表示数据位置的统计量
❖2. 中位数(Median或Med)
▪ 中位数是描述观测值数据中心位置的统计量,
大体上比中位数大(小)的数据为观测值的一
半。中位数的一个优点是它不受个别极端数据
▪ 利用峰度研究数据分布的形状是以正态分布为 标准(假定正态分布的方差与所研究分布的方 差相等)比较两端极端数据的分布情况,若
• 近似于标准正态分布,则峰度接近于零; • 尾部较正态分布更分散,则峰度为正,称为轻尾; • 尾部较正态分布更集中,则峰度为负,称为厚尾。
2.1.5 其它统计量
❖1. 均值的标准误(Std Error Mean或Std Mean或 Std error)
SAS的描述统计功能
进行数据分析首先应:
❖ 明确分析的目的 ❖ 明确分析的对象 ❖ 确定是否需要抽样
▪ 在一些问题中,要考查整个总体往往是不可能的,因 为要耗费太多的时间和资源
❖ 确定需要记录的数据项目
2.1.1 统计学的基本概念
1. 总体和样本
❖ 总体(population)是所研 究的指标测量值的集合。
的影响,具有稳健性。中位数的计算方法是:
首先将数据从小到大排序为:x(1),...,x(n), 然后计算
中位数 x12((n2x1()n2)
x(n1)) 2
n为奇数 n为偶数
2.1.2 表示数据位置的统计量
❖3. 众数(Mode)
▪ 观测值中出现最多的数称为众数。众数用得 不如均值和中位数普遍。在属性变量分析中, 常需考虑频数,因此众数用得多些。
2.2.1 用INSIGHT计算统计量
▪ 选择选项矩统计量和分位数,取消默认的选 项:“Box Plot/Mosaic Plot”和 “Histogram/Bar Chart”,单击“OK”按钮, 即可得到变量Income按“R_Id”分组的各种矩 统计量(Moments)和分位数(Quantiles), 如图所示。
2.2.3 编程实现描述性统计
❖ SAS提供有多个不同的过程来实现统计量的计算, 它们在功能范围上有许多的重复,下面介绍用 FREQ、MEANS和UNIVARIATE这三个过程 来计算简单的描述统计量。
▪ FREQ过程常用来计算分类变量取值的频数, 而MEANS和UNIVARIATE过程则对数值型变 量计算均值、标准差等统计量。
▪ 对于无限总体不能进行标号,抽样过程不能用 随机数,难于实施
❖ 分层抽样:按数据的层次进行抽样。 ▪ 如小学生的身高,按每年级分为一个层
2.1.1 统计学的基本概念
❖ 随机事件 ▪ 在一次试验中可能发生也可能不发生的事件 ▪ 在试验之前,无人知道发生还是不发生 ▪ 经大量试验,这类事件是有一定规律的
家庭总收入 2200 2730 2496 1760 2820 2250 3170 1200 1776 1980 2455 1080 1986 3369 1530
家庭总出 2060 2236 1455 1040 2366 1966 2400 1250 1350 1794 2550 1380 1200 2305 1316
CV100 s (%) x
2.1.4 表示数据分布形状的统计量
❖ 偏度和峰度是描述数据分布形状的指标。
❖1. 偏度(skewness)
▪ 偏度是刻画数据对称性的指标。偏度的计算 公式为:
SK n
n (xi x)3
(n1)n (2)i1 s
▪ 在SAS中:
• 关于均值对称的数据其偏度为0;
• 左侧更为分散的数据,其偏度为负,称为左偏;
2.2.1 用INSIGHT计算统计量
❖2. 在INSIGHT中打开数据集
▪ 在菜单中选择“Solution(解决方 案)”→“Analysis(分 析)”→“Interactive Data Analysis(交互 式数据分析)”,打开“SAS/INSIGHT Open” 对话框,在对话框中选择数据集:Mylib.sryzc, 单击“Open(打开)”按钮,即可在 INSIGHT中打开数据窗口,如图所示。
StM d easn
n
n(n11)i n1(xi x)2
❖2. 校正平方和(Corrected sum of squares)
n
CSS (xi x)2
i1
2.1.5 其它统计量
❖3. 未校正平方和(Uncorrected sum of squares)
n
USS xi2
i1
❖4. k阶原点矩
2.2.2 用“分析家”计算统计量
▪ 单击“Statistics”按钮,打开“Summary Statistics:Statistics”对话框。对话框中列出 可以计算的所有统计量(如右图所示)。
▪ 描述性统计量如下图所示
2.2.2 用“分析家”计算统计量
❖3. 通过Distributions菜单计算描述性统计量
2.1.3 表示数据分散程度的统计量
❖3. 标准差(Standard deviation或Std Dev) ▪ 方差的开方称为标准差:
s s2
▪ 标准差的量纲与原变量一致。 ❖4. 变异系数(Coefficient of Variation或CV)
▪ 变异系数是将标准差表示为均值的百分数, 是观测数据分散性的一个度量,它在比较用不 同单位测量的数据的分散性时是有用的:
2.3.1 定量变量的图形表示
• 图2-22 密度直方图与频数直方图
▪ SAS软件会根据样本容量在样本取值范围内自 动地确定一个分组方式,另外也提供了设定分 组的方法。
2.2.1 用INSIGHT计算统计量
❖3. 计算统计量
• 选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。 在数据集sryzc的变量列表中,选择Income为分析 变量,选择R_Id,为分组变量。
•
• 单击“Output(输出)”按钮,在打开的对话框中 包含描述性统计量选项。
• 右侧更为分散的数据,其偏度为正,称为右偏。
2.1.4 表示数据分布形状的统计量
❖2. 峰度(kurtosis)
▪ 峰度描述数据向分布尾端散布的趋势。峰度 的计算公式为:
K n (n 1 ) n(x i x )43 (n 1 )2
(n 1 )n ( 2 )n ( 3 )i 1 s (n 2 )n ( 3 )
▪ 选择主菜单“Statistics(统 计)”→“Descriptive(描述性统 计)”→“Distributions(分布)”,打开 “Distributions”对话框,选择变量列表中的 Income,单击“Analysis”按钮,选定分析变 量。