第三章 spss描述性统计
旅游与管理工程学院
二、描述性统计分析指标
• 集中趋势的量度(measures of central tendency) :共性 • 离散程度 的量度(measures of variability):异质 性 • 分布形态的量度
旅游与管理工程学院
1、集中趋势的量度
• 集中趋势(平均数值)是对整个群体的数值的最好的代 表。 • 有三种形式的平均数值:平均值(mean)、中位数( median)、众数(mode)。 其中,最常用的是平均值 。
n
旅游与管理工程学院
• 联合频数与边缘频数 • 表中fij为联合频数;FXj为列边缘频数;FYi 为行边缘频数;n为总观测数量。 • 联合频率与边缘频率 • fij/n为联合频率;FXj/n为列边缘频率; FYi/n为行边缘频率。 • 条件频率 • fij/FXj为X条件Y频率[P(Y=i|X=j)]; fij/FYi为Y条件X频率[P(X=j|Y=i)]。
旅游与管理工程学院
标准差(方差)
标准差(σ)与方差(σ 2 )是反 映数据离散趋势最常用的统计量。 在分组条件下,标准差的公式为:
(x
x )2 f f
标准差是方差方差的算术平方根。
旅游与管理工程学院
严格地讲,在方差和标准差的计算中,分母应取n-1,
因为数据变异的自由度是n-1。但在大样本情况下,使用n和
旅游与管理工程学院
• 若总体中的个体可按两个属性A与B分类,A有r个等级 A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大 小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj, nij称为 频数,将r×c个nij排列为一个r行c列的二维列联 表,简称r×c表。若所考虑的属性多于两个,也可按类似的 方式作出列联表,称为多维列联表。 • 最常用的列联表为两个变量的列联表。一个为行变量,其分 类数为r个;一个为列变量,其分类数为c个。一个r行c列的 列联表称为r×c列联表。
u
u
x
旅游与管理工程学院
四、用图形显示数据 1、常用图形 • 柱状图 • 多边图 • 线性图
旅游与管理工程学院
柱状图
1800
1600
1400
1200
1000
800
Count
600 400 16-20 21-30 31-40 41-50 51-60 61-70
年龄组
Cases weighted by W EIGHT
旅游与管理工程学院
算术平均数
算术平均数等于所有样本数据的总 和除以数据个数。算术平均值是描述 样本数据中心趋势最常用的统计量。
在分组条件下,其公式为:
x1f1 x 2f 2 x 3f 3 xnfn xf x f f
旅游与管理工程学院
2、离散程度
• 离散程度 (异质性 )反映的是数值之间是如 何的不同。 • 同样均值不同差异程度 。如: 7,6,3,3,1 3,4,4,5,4 4,4,4,4,4 • 有五个离散程度的量度指标:全距(range) 、平均差(Average Difference)标准差( standard deviation)、方差(variance)和 标准误。 其中,最常用的是标准差。
旅游与管理工程学院
三、正态分布理论
1、.概念
正态分布又称高斯(Gauss)分布,是最常见、最重要 的一种连续型分布,表现为中间高,两端低,左右完全对称 的图形。
旅游与管理工程学院
2、图形 正态分布密度函数
1 ( X )2 f (X ) exp( ) 2 2 2
其中参数
。
为均值,
n-1差别不大。 自由度df是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的资料的个数,称为该统计量的自 由度。 统计学上的自由度包括两方面的内容: 首先,在估计总体的平均数时,由于样本中的 n 个数 都是相互独立的,从其中抽出任何一个数都不影响其他数据 ,所以其自由度为n。
旅游与管理工程学院
2
为标准差,由此决定的正态分布记作
N (, )
旅游与管理工程学院
正态分布概率密度曲线示意图
旅游与管理工程学院
不同均值正态分布示意图
旅游与管理工程学院
1.5
1
不同标准差的正态分布示意图
旅游与管理工程学院
正态曲线下面积的分布规律:
通过对密度函数积分我们可以知道正态曲线下,横轴
旅游与管理工程学院
多边图
1800
1600
1400
1200
1000
800
Count
600 400 16-20 21-30 31-40 41-50 51-60 61-70
年龄组
Cases weighted by W EIGHT
旅游与管理工程学院
线性图
Dot/Lines show counts
750
500
一、列联表分析
• 列联表又称交互分类表,所谓交互分类,是指同时依据两个 变量的值,将所研究的个案分类。交互分类的目的是将两变 量分组,然后比较各组的分布状况,以寻找变量间的关系。
• 如果是按两个标志对一组观察值进行交叉分组所 得到的频数分布表,表中列出同时联系于横行和 纵行某特定标志名称的观察值数目,在表的右边 栏列出各行频数的合计,在表的底行列出各列频 数的合计,在两者交叉处,即表的右下角,列出 频数总计,这类表就是列联表。
旅游与管理工程学院
第三章 描述性统计分析
旅游与管理工程学院
第一节 描述性统计理论 • 一、描述性统计(Descriptive Statistics) • 1、概念: • 描述性统计就是组织、描述和总结所收集到 的一组数据的特征。 • 需要注意的是,它所描述的是这组数据本身 的分布特征,并不能深入了解统计数据的内部规 律。 SPSS的许多模块都可完成描述性统计分析, 但专门为该目的而设计的几个模块则集中在描述 统计菜单中,他们就是计算各种统计量或绘制统 计图来实现描述功能。
旅游与管理工程学院
•
列X 行Y 1 2 … r 合计 (列边缘) 1
列链表的构造
2 c 合计 (行边缘) FY1=∑f1j FY2=∑f2j … FYr=∑frj
f11 f21 … fr1
f12 f22 … fr2
… … … …
f1c f2c … frc
FX1=∑fi1
FX2=∑fi2
FXc=∑fic
低收入
高收入
旅游与管理工程学院
第二节 单变量描述性分析
• 一、 频数分析过程 • 二、数据描述分析过程 • 三、数据探索过程
旅游与管理工程学院
一、 频数分析过程 • 频数分布表是描述性统计中最常用的方法之一, SPSS频数分析过程就是专门为产生频数表而设计 的,它不仅可以产生单变量详细的频数表,显示 文件中指定变量特定值发生的频数,还可以获得 某些描述统计量或按要求给出某百分位点的数值 以及常用的条图、圆图等统计图。 • 分析实例:见统计学成绩.sav
旅游与管理工程学院
2、描述性统计分析:
所谓描述性统计分析,就是对一组数据的各种特征
进行分析,以便于描述测量样本的各种特征及其所代表 的总体的特征。描述性统计分析的项目很多,常用的如
平均数、标准差、中位数、频数分布、正态或偏态程度
等等。这些分析是复杂统计分析的基础。 平均数、标准误 标准差、方差 频数分布、峰度、偏度 探索分析 中位数、众数、全距 四分位、十分位、百分位数 标准分数及其线性转换 交叉列联表分析
C ou n t
250
0 1 2 3 4 5 6
年 龄组
旅游与管理工程学院
2、图型显示的频数分布特征 • • • • • 频数分布的特征可以有4个指标来显示: 均值 标准差 偏度(skewness) 峰度(kurtosis)
均值
旅游与管理工程学院
频
数
低收入
A群体的平均收入 B群体的平均收入 C群体的平均收入
同 ;峰度大于 0,其数据分布比正态分布更陡峭;
峰度小于0,其数据分布比正态分布更平坦。
旅游与管理工程学院
偏度( Skewness )
是描述数据分布对称性的统计
量 ,而且也是与正态分布的对称性相比较而得到的。如果
分布的偏度等于0 ,则其数据分布的对称性与正态分布相 同 ;如果偏度大于0,则其分布为正偏或右偏,即在峰的 右边有大的偏差值,使右边出现一个拖得较远的尾巴;如 果偏度小于 0,则为负偏或左偏,即在峰的左边有大的偏 差值,使左边出现一个拖得较远的尾巴。
所夹的面积为1。理论上:
68.27%;
范围内曲线下的面积占总面积的 范围内曲线下的面积占总面积的 范围内曲线下的面积占总面积的 范围内曲线下的面积占总面积的
1.645
90%;
1.96
95%;
2.58
99%。
旅游与管理工程学院
3、 标准正态分布及其应用
标准正态分布:均值为0,标准差为1的正态分布 只要变量 X ~ N ( , 2 ) ,就可经下式转换为 0 、 1 的标准正态分布,记作 u ~ N (0,1) 。此变 换也称为标准化变换,或称 变换。
旅游与管理工程学院
• 单击探索按钮,默认置信区间为95%,采用茎叶图 ,采用默认设置即可
旅游与管理工程学院
旅游与管理工程学院
茎叶图,整数位为茎,小数位为叶。 这样可以非常直观的看出数据的分布范围及形态
旅游与管理工程学院
第三节 列联表及多选题频数分析
• • 列联表分析 多选题频数分析
旅游与管理工程学院
高收入
旅游与管理工程学院
异质性(标准差)
群体A的收入分布