SPSS第四章基本统计分析
中 0 500 0
高 0 0 600
一致
1 - 29
青 中 老
低 0 0 400
中 0 600 0
高 500 0 0
应用举例
受教育程度越高通信支出越高吗? 受教育程度越高通信支出比例越高吗?
1 - 30
多选项分析
什么是多选项问题?
(1)即:在回答某些问题时,答案在两个以上 例如:请问您平时主要的休闲娱乐方式是: a.看电视、听广播 b.玩游戏 c.体育运动 d.逛街购物e.经常去港澳游玩 f.看书学习 g.喝酒聊天 h.工作太忙,没时间休闲娱乐 又如:您经常浏览的网站?在下列品牌中您信任哪些 品牌? (2)多选项问题不能直接处理。因为SPSS中的一个变 量对每一个答案只能取一个值。
2 2
2
C
2
1 - 27
分析列联表中变量间的关系
Ordinal(定序变量)
反映定序变量一致性指标 行变量等级越高,列变量等级也越高或越低 ——一致性高 行变量等级越高,列变量等级不定——不一 致 指标绝对值越大越相关,越接近0越无关
1 - 28
定序变量一致性检验
年龄与工资收入交叉列联表 低 青 400 一致 中 0 老 0
n 3
3
计算描述统计量
描述陡峭程度的统计量
峰度(kurtosis):描述某变量所有变量值 分布形态陡缓程度的统计量。
峭度为0表示与正态分布峭度相同。 大于0表示比正态分布陡,尖峰。 小于0表示比正态分布缓;平峰。
Kurtosis
1 - 12
1 n -1
i 1 ( xi x) / SD 3
n 4 4
计算描述统计量
其他统计量
均值标准误差(S.E means)
中心极限定理认为:样本均值~N(u,2/n) 反映样本均值与总体真值间的平均离散
程度 样本数越大,样本均值的离散程度越小 ,对真值的估计越准确
1 - 13
计算描述统计量
基本操作步骤
(1)菜单选项:Analyze->Descriptive Statistics ->Descripive (2)选择将参加计算的数值型变量名到Variables框。 ——仅适用于数值型变量
1 - 23
分析列联表中变量间的关系
•卡方检验基本步骤
(1)H0:行列变量之间无关联 或相互独立 (2)构造卡方统计量 •统计量服从(r-1)*(c-1) 个自由度的卡方分布 •count:观察(实际)频数 •expected count:期望频 数
(期望频数反映的是H0成立 情况下的数据分布特征)
采用的方法
制作频数分布表:包括计算 频数、累计频数、 百分比、累计百分比 绘制统计图形:条形图(品质数据)、饼图、 直方图(数量数据)
1-3
频数分析
基本操作步骤
(1)菜单选项:Analyze->Descriptive Statistics->Frequencies (2)选择几个待分析的变量到variables框. (3)chart选项,选择所需要的图形 例:班级男女生频数分布表、成绩分布表
数据标准化处理应用举例源自快速找到移动话费出众的客户 网通集团企业效益评价
1 - 15
探索性描述分析
目的:在未知数据分布特点情况下,通过计算详尽描述统计量, 辅助全面的统计图,认识数据分布。 基本操作步骤 (1)菜单选项:analyze->descriptive statistics->Explore (2)选择将参加计算的数值型变量名到Dependent list框 (3)进行分组描述分析时,将分组变量选入Fact list框 描述统计量: M统计量:集中趋势的估计值,不受极端值影响。用于判断 有无异常值。
购买数量 多 少 列总计 个案数
已婚者 31% 69% 100% 700
单身者 52% 48% 100% 300
男性 女性 购买数量 已婚者 单身者 已婚者 单身者 多 35% 40% 25% 60% 少 列总计 个案数 65% 100% 400 60% 100% 120 75% 100% 300 40% 100% 180
分位数、中位数、众数的应用举例
不同类型的移动客户月话费比较(数据拆分) 利用分位数(不显示频数分布表),比较男女生成绩 集中程度
1-8
计算描述统计量
目的
精确把握变量的总体分布状况,了解 数据的集中趋势、离散趋势、对称程 度、陡峭程度。
基本方法
计算基本描述统计量
1-9
计算描述统计量
描述集中趋势的统计量 均值(mean):表示某变量所有变量值集中趋势或平均水平 的统计量。 适用于定距定比数据。 特点:利用了全部数据,易受极端值的影响。 描述离散程度的统计量 标准差(standard deviation--Std Dev):表示某变量的所有 变量值离散趋势的统计量。 SPSS中计算的是样本标准差。 方差(variance):标准差的平方。 SPSS中计算的是样本方差。 极差 (range):最大值(minimum)-最小值(minimum) 1 - 10
1-6
频数分析
• 频数分析中的其他分析
• 计算中位数、分位数:适用于定序、定距数据 – 数据按升序排序后,找到若干个分位点上的变 量值 – quartiles:计算四分位数25%(QL)、50%(中位数)、 75%(QU) – cut points for n equal groups: n等份 – percentile: 自定义百分位点 • 计算众数:适用于定类数据(但必须是数值型)
1-7
频数分析
• 频数分析中的其他分析
• 分位数的应用
• 从一个侧面比较两组样本数据的集中趋势
– 例:( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
• 在排除极端值影响的条件下,通过计算分位数差,比 较两组样本数据的离散程度
– 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
1 - 24
优 男 女 总数 10 8 18 37.5
2
( fo f e ) fe
中 5 4 9 18.8
2
良 5 12 17 35.4
及格 3 1 4 8.3
总数 23 25 48 100
分析列联表中变量间的关系
卡方检验基本步骤
(3)计算卡方统计量的值,并得到该统计量值的概率P 值 (4)决策。概率P与显著性水平比较,小于等于则拒绝 H0,否则不能拒绝 statistics选项 Pearson Chi-Square:常用于行列变量独立性检验 Likelihood Ratio:可用于对数线性模型检验 Fisher‘s Exact Test:N<40,或Fe<5 Linear-by-Linear Association:线性相关卡方检验
进一步计算
cells选项:选择在频数分析表中输出各种百 分比. row:行百分比(Row pct); column:列百分比(Col pct); total:总百分比(Tot pct);
1 - 22
分析列联表中变量间的关系 目的:
通过列联表分析,检验行列变量之 间是否独立。
方法:
卡方检验:对品质数据的相关性进 行度量(这里两变量均为定类数据 或定序数据)
1 - 32
多选项分析
多选项二分法
将每个答案作为一个变量,每个变量只有两个取值 (0或1)。 例如:
变量名 X1 X2 X3 X4 X5 X6 变量名标签 北京大学 清华大学 人民大学 北京理工大学 北京师范大学 北京外国语大学 编 码 方案 0 1 0 0 0 0 0 1 1 1 1 1
1 - 16
探索性描述分析
相关图形
箱线图 茎叶图 直方图 正态分布图:检验变量是否符合正态分布 方差齐性检验:各组离散程度是否相同
H0:方差相等
举例:两班学生成绩分布情况,离散程度 是否相同。
1 - 17
购买数量 多 少 列总计 个案数
全部样本 37.3% 62.7% 100% 1000
第四章 SPSS的基本统计分析
1-1
SPSS的基本统计分析
频数分析-对应图表法 计算描述统计量-对应数值法 探索性描述分析-结合 交叉分组下的频数分析
多选项分析
统计图-对应图形法
1-2
频数分析
目的
粗略把握变量的总体分布状况。
例: 对某个问题的总体看法,如新业务的使用愿望、教学效 果等 对某事物的客观描述,如通话的漫游类型、大客户的行 业分布
1-4
频数分析
• 应用举例
移动通话的漫游类型分析 特点:定类数据 使用频数、百分比、总数(不可缺少的) 不使用频数表中给出的累计频数和累计百分比 移动通话时间分析、移动客户话费分析 特点:定序数据、数量数据 除使用频数、百分比、总数外,还可以充分使 用累计频数和累计百分比
1-5
频数分析
• 数据中存在缺失值 • 使用有效百分比(分母为有效样本数) • 例:学生成绩得优率、得良率 Frequencies->Format 频数分布表输出按变量值、频数升序、降 序输出
购买流行服装
交叉分组下的频数分析
针对定类数据和定序数据的频数分析(用于定类 定序数据分析有custom table\logistic\loglinear) 目的:通过了解不同变量在不同水平下的数据 分布情况 ,判断水平对变量是否有影响
例:女生的学习成绩比男生好吗?(两变量) 不同专业的女生学习成绩都比男生好吗? (三变量)
实现步骤
1 - 25