第五章基本统计分析
例: 对某个问题的总体看法,如新业务的使用愿望、教学效 果等 对某事物的客观描述,如通话的漫游类型、大客户的行 业分布
百分比 绘制统计图形:条形图(品质数据)、饼图、 直方图(数量数据)
频数分析 基本操作步骤
(1)菜单选项:analyze->descriptive statistics>frequencies (2)选择几个待分析的变量到variables框. (3)chart选项,选择所需要的图形
不同类型的移动客户月话费比较(数据拆分) 利用分位数(不显示频数分布表)
计算描述统计量
目的
精确把握变量的总体分布状况,了解数 据的集中趋势、离散趋势、对称程度、 陡峭程度。
基本方法
计算基本描述统计量
计算描述统计量
描述集中趋势的统计量
均值(mean):表示某变量所有变量值集中趋势或平均水平的 统计量。
频数分析
• 频数分析中的其他分析
• 计算中位数、分位数:适用于定序、定距数据 – 数据按升序排序后,找到若干个分位点上的变 量值 – quartiles:计算四分位数25%(QL)、50%(中位数)、 75%(QU) – cut points for n equal groups: n等份 – percentile: 自定义百分位点 • 计算众数:适用于定类数据(但必须是数值型)
多选项分析 多选项分析的基本思路
定义多选项变量集 多选项频数分析 多选项交叉分组下的频数分析
多选项分析
定义多选项变量集
目的:将已分解的变量定义为一个集合,便于进 行多选项分析 菜单选项:analyze->multiple response>define sets 从原变量中选取被分解的变量(数值型)到 variables in sets框 指定被分解的变量是按多选项二分法 (dichotomies)分解还是按多选项分类法 (categories)分解的. 为变量集命名。系统自动在名字前加字符$.
计算描述统计量 其他统计量
均值标准误差(S.E means)
中心极限定理认为:样本均值~N(u,σ2/n) 反映样本均值与总体真值间的平均离散程 度 样本数越大,样本均值的离散程度越小, 对真值的估计越准确
计算描述统计量
基本操作步骤
(1)菜单选项:analyze->descriptive statistics>descripive (2)选择将参加计算的数值型 数值型变量名到variables框。 数值型 —— ——仅适用于数值型 数值型变量 数值型
优 男 女 总数 10 8 18 37.5 良 5 12 17 35.4 中 5 4 9 18.8 及格 3 1 4 8.3 总数 23 25 48 100
分析列联表中变量间的关系
卡方检验基本步骤
(3)计算卡方统计量的值,并得到该统计量值的 概率P值 (4)决策。概率P与显著性水平比较,小于等于则 拒绝H0,否则不能拒绝
phi系数:在2×2列联表中 ,通常[-1,1],负号无实际意 义 列联C系数(contingency coefficient), 通常为[0,1) V系数 [0,1] 值越大表示行列变量的相关性越大 χ2
V= n m r −1), (c −1)] in[(
分析列联表中变量间的关系
Ordinal
反映定序变量一致性指标 行变量等级越高,列变量等级也越高或越低— —一致性高 行变量等级越高,列变量等级不定——不一致 指标绝对值越大越相关,越接近0越无关
频数分析
• 频数分析中的其他分析
• 分位数的应用
• 从一个侧面比较两组样本数据的集中趋势
– 例:( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
• 在排除极端值影响的条件下,通过计算分位数差, 比较两组样本数据的离散程度
分位数、中位数、众数的应用举例
– 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
分析的主要步骤
产生交叉列联表 分析列联表中变量间的关系
针对定类数据和定序数据的频数分析
产生交叉列联表 产生交叉列联表
•什么是列联表 多个变量在不同取值下的数据分布频数表
控制变量
行变量
列变量
工商管理
性别 优 男 女
成绩 良
差
频数
产生交叉列联表 产生交叉列联表
基本操作步骤 (1)菜单选项: analyze->descriptive statistics->
频数分析
• 应用举例
移动通话的漫游类型分析 特点:定类数据 使用频数、百分比、总数(不可缺少的) 不使用频数表中给出的累计频数和累计百 分比 移动通话时间分析、移动客户话费分析 特点:数量数据 除使用频数、百分比、总数外,还可以充 分使用累计频数和累计百分比
频数分析
• 数据中存在缺失值 • 使用有效百分比(分母为有效样本数) • 例:学生成绩得优率、得良率 frequencies->format 频数分布表输出按变量值、频数升序、降 序输出
探索性描述分析
相关图形
箱线图 茎叶图 直方图 正态分布图:检验变量是否符合正态分布 方差齐性检验:各组离散程度是否相同
H0:方差相等
举例:两班学生成绩分布情况,离散程度 是否相同。
交叉分组下的频数分析
目的
通过了解不同变量在不同水平下的数据分布 情况 ,判断水平对变量是否有影响
例:女生的学习成绩比男生好吗?(两变量) 不同专业的女生学习成绩都比男生好吗? (三变量)
实现步骤
statistics选项 cells选项
分析列联表中变量间的关系
卡方检验的要求:
一般要求列联表中期望频数小于5的格子数不超过 20%,否则会夸大卡方值,容易得出拒绝结论,可以 采用精确检验。 卡方值会受样本数的影响
行列变量相关性的其他测度指标 Nominal:
ϕ= χ2
n
χ2 χ +n
2
C=
分析列联表中变量间的关系
•卡方检验基本步骤
(1)H0:行列变量之间无关联 或相互独立 (2)构造卡方统计量 •统计量服从(r-1)*(c-1) 个自由度的卡方分布 •count:观察(实际)频数 •expected count:期望频 数
(期望频数反映的是H0成立 情况下的数据分布特征)
( fo − fe )2 2 χ =∑ fe
计算描述统计量 描述陡峭程度的统计量
峰度(kurtosis):描述某变量所有变量值分 布形态陡缓程度的统计量。
峭度为0表示与正态分布峭度相同。 大于0表示比正态分布陡,尖峰。 小于0表示比正态分布缓;平峰。
n 1 Kurtosis = ( xi − x ) 4 / SD 4 − 3 ∑ n - 1 i =1
学 (2 ) 清 华 大 学 (3 ) 人 民 大 学 (4 ) 大 学 (5 ) 北 京 师 范 大 学 (6 ) 北 京 外 (2 ) 清 华 大 学 (3 ) 人 民 大 学 (4 ) 学 大 学 (5 ) 北 京 师 范 大 学 (6 ) 北 京 外 学 (2 ) 清 华 大 学 (3 ) 人 民 大 学 (4 ) 大 学 (5 ) 北 京 师 范 大 学 (6 ) 北 京 外
计算描述统计量 描述对称程度的统计量
偏度(skewness):描述某变量所有变量值 分布形态的偏斜程度和方向的统计量.
偏度为0表示对称; 大于0表示正偏差大(右偏),众数比均值小,极 值大于均值; 小于0表示负偏差大(左偏)。
n 1 Skewness = ( xi − x )3 / SD 3 ∑i=1 n -1
码 案 1 1 1 1 1 1
多选项分析
多选项分类法:
预先估计多选项问题可能被选择的最多答案数.为每个 答案建立一个变量,取值为多选项问题的可选答案. 例如:最多可选三个学校
变 量 名 A B C 变 量 名 标 签 第 一 选 项 第 二 选 项 第 三 选 项 编 码 方 案
(1 )北 京 大 北 京 理 工 国 语 大 学 (1 )北 京 大 北 京 理 工 国 语 大 学 (1 )北 京 大 北 京 理 工 国 语 大 学
第五章 SPSS的基本统计分析 SPSS的基本统计分析
SPSS的基本统计分析 SPSS的基本统计分析
频数分析频数分析-对应表格法 计算描述统计量计算描述统计量-对应数值法 探索性描述分析探索性描述分析-结合 交叉分组下的频数分析 多选项分析 统计图统计图-对应图形法
频数分析
目的
粗略把握变量的总体分布状况。
多选项分析
多选项二分法
将每个答案作为一个变量,每个变量只有两个取值(0 或1)。
变 量 名 变 量 名 标 签 北 清 人 北 北 北 京 华 民 京 京 京 大 大 大 理 师 外 学 学 学 工 大 学 范 大 学 国 语 大 学
例如:
X X X X X X 1 2 3 4 5 6
编 方 0 0 0 0 0 0
多选项分析
多选项问题的处理方法
(1)思路: 将一个问题定义成几个变量,用这几个变量来 描述该问题的几个可能被选择的答案。 分别做频数分析或交叉分组下的频数分析 (2)方法:
多选项二分法(multiple dichotomies method)和多选项 分类法(multiple category method) 普通频数分析和交叉分组下的频数分析
多选项分析
什么是多选项问题?
(1)即:在回答某些问题时,答案在两个以上 例如:请问您平时主要的休闲娱乐方式是: a.看电视、听广播 b.玩游戏 c.体育运动 d.逛街购物e.经常去港澳游玩 f.看书学习 g.喝酒聊天 h.工作太忙,没时间休闲娱乐 又如:您经常浏览的网站?在下列品牌中您信任哪些 品牌? (2)多选项问题不能直接处理。因为SPSS中的一个变 量对每一个答案只能取一个值。