当前位置:文档之家› SPSS描述性统计分析讲课教案

SPSS描述性统计分析讲课教案


差.sav)
因变量列表,即待分析变量列表。可从
左侧列表中选择一个或多个变量。
因子列表,用作数据分组分析。如果选 择了多个变量,则组合分组。
全距 标准差 方差 离散系数 其他指标
偏度 峰度
SPSS的描述统计分析整体分析与设计的内容
1、集中趋势 集中趋势是指一组数据向某一中心值靠拢的倾向。
➢ 均值(Mean):反映了某变量所有取值的集中趋势或平均水平。
xx1x2...xn x
n
n
均值往往会受到异常大和异常小的数值影响,所以对于严重的偏态分
菜单:“分析→描述统计→描述” 。 示例数据: 奥斯卡获奖者年龄.sav
标准化处理,同时产生相应的Z得分,
并作为新变量保存在数据窗口。新变 量为 原变量名+前缀Z。 标准化的计算公式:
Zi
Xi S
X
Xi 是变量 X 的第i个取值;S 是标准差。
SPSS的描述统计分析整体分析与设计的内容
三、输出分析
每个变量单独输出一个图形。
控制频数表输出的分类数量,当频数表的分组数 大于设定值时,禁止其输出。用以避免产生巨型 表格。
SPSS的频数分析
整体分析与设计的内容
三、输出结果分析
基本统计信息汇总表。N表示进行统计分析的样 本总量;Valid表示有效样本量:Missing表示 缺失样本数目。
Percentiles列出了销售数据的四分位数
➢ 偏度(Skewness):是描述变量取值分布形态对称性的统计量。
Skewnessn1 1i n1(xi x)3/S3
当偏度值为0,说明数据对称分布;当偏度值大于0,表示变量取值 右偏,在直方图中有一条长尾拖在右边;当偏度值小于0,表示变 量取值左偏,在直方图中有一条长尾拖在左边。 ➢ 峰度(Kurtosis):用来描述变量取值分布形态陡缓程度的统计量,
N栏显示男、女样本容量相同;从均值上看 女<男;男的全距 和标准差都小于女的,说明男演员获奖年龄波动幅度小于女 演员;从峰度和偏度看,两组数都不服从正态分布。
SPSS探索性统计分析整体分析与设计的内容
一、方法原理
探索性数据分析(Exploratary Data Analysis, 简称EDA)的基本思想 是从数据本身出发,而不拘泥于模型假设;采用灵活的方法来探讨数 据分布的大致情况,为进一步结合模型的研究提供线索,为传统的统 计推断提供良好的基础,并且减少盲目性。
频数分析表。Frequency表示变 量值落在某个区间(或类别) 中的次数;Percent是各频数占 总样本数的百分比;Valid Percent是有效百分比; Cumulative Percent是累积百分 比,指各百分比逐级累加起来 的结果。
SPSS的频数分析
整体分析与设计的内容
从图形特征看,数据呈右偏分布。历史销售数据总体数值偏
➢ 标准差(Standard Deviation):指变量取值距离均值的平均离散 程度的统计量。
S
1 n1
n i1
(xi
2
x)
➢ 方差(Variance):是标准差的平方。 方差在使用上存在一点不足:量纲不统一。
SPSS的描述统计分析整体分析与设计的内容
3、刻画分布形态的描述性统计量 分布形态是指数据是否对称,偏斜程度如何,分布陡缓程度如何等。
是指分布图形的尖峰程度。 当数据分布和标准正态分布陡缓程度相同时,峰度为0;峰度大于 0说明数据分布比正态分布陡峭,为尖峰分布;峰度小于0为平峰
分布。 Kurtosisn1 1i n1(xix )4/S43
SPSS的描述统计分析整体分析与设计的内容
二、操作
描述性统计分析过程是统计描述应用最多的一个过程。在这个过程中, 可以将原始数据转换为标准值,并以变量形式保存,供以后分析。
大;同时,最大值“27”差不多是最小值定,具有较大的波动性。
SPSS的描述统计分析
整体分析与设计的内容
一、原理 统计量是研究随机变量变化综合特征的重要工具,描述性统 计量的分类如下:
对数据特征的描述
集中趋势
离散程度
分布形态
均值 众数 中位数 其他指标
SPSS描述性统计分析
SPSS频数分析
整体分析与设计的内容
“图表”按钮对应的对话框: 注: 1)选择直方图选项,则不能再设置图表值 选项。 2)在选中直方图选项后,可以进一步选择 在直方图上显示正态曲线。 3)仅适用于连续型的数值型变量。
“格式”按钮对应的对话框:
将所有变量集中在一个图形中输出,以便比较。
SPSS探索性统计分析整体分析与设计的内容
二、操作
探索性数据分析过程用于计算指定变量的探索性统计量和有关的图 形。从这个过程中可以获得箱图、茎叶图、直方图、各种正态检验 图、频数表、方差齐性检验等结果,以及对非正态或正态非齐性数据 进行变换,以表明和检验连续变量的数值分布情况。
菜单:“分析→描述统计→探索”(示例数据:中国南北城市温
布,均值会失去应有的代表性。
➢ 众数(Mode):分布数列中最常出现的标志值,频数或频率最大。
众数适用于单峰对称的情况。对于多峰的分布则不适用。
➢ 中位数(Median):指将分布数列中各单位的标志值依其大小顺序 排列,位于中间位置的标志值称为中位数。
中位数来描述连续变量,会损失很多信息。例如,其他变量比中位 数大多少或小多少等。
SPSS的描述统计分析整体分析与设计的内容
2、刻画离散程度的描述性统计量 离散程度是指一组数据远离其中心值的程度,即考察数据分布的 疏密程度。
➢ 全距(Range):也称“范围”,是数据中最大值和最小值之差, 又称“极差”。
Range = 最大值 - 最小值
全距说明了数据的整体变动范围,但不能反映其间变量分布情况。
在实践中,数据分析往往分两个步骤,即探索性数据分析和实证分 析。探索性数据分析是从复杂的数据中分离出数据的基本模式和特 点,让分析者发现其中的规律,以便选择分析方法;而对于探索性数 据分析中发现的数据规律,分析者需要使用特定的统计模型进行实证 分析,以确定规律是否正确。
一般的,探索性分析主要考察以下内容: 1)检查数据是否有错,并决定是否删除异常数据。 2)获得数据分布特征。 3)对数据初步观察,发现一些内在规律。
相关主题