当前位置：文档之家› SPSS第四章基本统计分析

SPSS第四章基本统计分析

中 0 500 0
高 0 0 600
一致
1 - 29
青中老
低 0 0 400
中 0 600 0
高 500 0 0
应用举例
受教育程度越高通信支出越高吗？受教育程度越高通信支出比例越高吗？
1 - 30
多选项分析
什么是多选项问题？
(1)即:在回答某些问题时,答案在两个以上例如:请问您平时主要的休闲娱乐方式是: a.看电视、听广播 b.玩游戏 c.体育运动 d.逛街购物e.经常去港澳游玩 f.看书学习 g.喝酒聊天 h.工作太忙,没时间休闲娱乐又如：您经常浏览的网站？在下列品牌中您信任哪些品牌？ (2)多选项问题不能直接处理。因为SPSS中的一个变量对每一个答案只能取一个值。
2 2
2
C
2
1 - 27
分析列联表中变量间的关系
Ordinal（定序变量）

反映定序变量一致性指标行变量等级越高，列变量等级也越高或越低 ——一致性高行变量等级越高，列变量等级不定——不一致指标绝对值越大越相关，越接近0越无关
1 - 28
定序变量一致性检验
年龄与工资收入交叉列联表低青 400 一致中 0 老 0
n 3
3
计算描述统计量
描述陡峭程度的统计量

峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。
峭度为0表示与正态分布峭度相同。大于0表示比正态分布陡，尖峰。小于0表示比正态分布缓；平峰。
Kurtosis
1 - 12
1 n -1
i 1 ( xi x) / SD 3
n 4 4
计算描述统计量
其他统计量

均值标准误差(S.E means)
中心极限定理认为：样本均值~N(u,2/n) 反映样本均值与总体真值间的平均离散
程度样本数越大，样本均值的离散程度越小，对真值的估计越准确
1 - 13
计算描述统计量
基本操作步骤
(1)菜单选项:Analyze->Descriptive Statistics ->Descripive (2)选择将参加计算的数值型变量名到Variables框。 ——仅适用于数值型变量
1 - 23
分析列联表中变量间的关系
•卡方检验基本步骤
(1)H0:行列变量之间无关联或相互独立 (2)构造卡方统计量 •统计量服从(r-1)*(c-1) 个自由度的卡方分布 •count:观察(实际)频数 •expected count:期望频数
(期望频数反映的是H0成立情况下的数据分布特征)
采用的方法
制作频数分布表：包括计算频数、累计频数、百分比、累计百分比绘制统计图形：条形图（品质数据）、饼图、直方图（数量数据）

1-3
频数分析
基本操作步骤
(1)菜单选项:Analyze->Descriptive Statistics->Frequencies (2)选择几个待分析的变量到variables框. (3)chart选项，选择所需要的图形例：班级男女生频数分布表、成绩分布表
数据标准化处理应用举例源自快速找到移动话费出众的客户网通集团企业效益评价

1 - 15
探索性描述分析
目的:在未知数据分布特点情况下,通过计算详尽描述统计量, 辅助全面的统计图,认识数据分布。基本操作步骤 (1)菜单选项:analyze->descriptive statistics->Explore (2)选择将参加计算的数值型变量名到Dependent list框 (3)进行分组描述分析时，将分组变量选入Fact list框描述统计量： M统计量：集中趋势的估计值，不受极端值影响。用于判断有无异常值。
购买数量多少列总计个案数
已婚者 31％ 69％ 100％ 700
单身者 52％ 48％ 100％ 300
男性女性购买数量已婚者单身者已婚者单身者多 35％ 40％ 25％ 60％少列总计个案数 65％ 100％ 400 60％ 100％ 120 75％ 100％ 300 40％ 100％ 180
分位数、中位数、众数的应用举例
不同类型的移动客户月话费比较（数据拆分）利用分位数（不显示频数分布表），比较男女生成绩集中程度
1-8
计算描述统计量
目的

精确把握变量的总体分布状况，了解数据的集中趋势、离散趋势、对称程度、陡峭程度。
基本方法

计算基本描述统计量
1-9
计算描述统计量
描述集中趋势的统计量均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。适用于定距定比数据。特点：利用了全部数据，易受极端值的影响。描述离散程度的统计量标准差(standard deviation--Std Dev):表示某变量的所有变量值离散趋势的统计量。 SPSS中计算的是样本标准差。方差(variance):标准差的平方。 SPSS中计算的是样本方差。极差 (range):最大值(minimum)-最小值(minimum) 1 - 10
1-6
频数分析
• 频数分析中的其他分析
• 计算中位数、分位数:适用于定序、定距数据 – 数据按升序排序后，找到若干个分位点上的变量值 – quartiles:计算四分位数25%(QL)、50%(中位数)、 75%(QU) – cut points for n equal groups: n等份 – percentile: 自定义百分位点 • 计算众数:适用于定类数据（但必须是数值型）
1-7
频数分析
• 频数分析中的其他分析
• 分位数的应用
• 从一个侧面比较两组样本数据的集中趋势
– 例：( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
• 在排除极端值影响的条件下，通过计算分位数差，比较两组样本数据的离散程度
– 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
1 - 24
优男女总数 10 8 18 37.5

2
( fo f e ) fe
中 5 4 9 18.8
2
良 5 12 17 35.4
及格 3 1 4 8.3
总数 23 25 48 100
分析列联表中变量间的关系
卡方检验基本步骤
(3)计算卡方统计量的值，并得到该统计量值的概率P 值 (4)决策。概率P与显著性水平比较，小于等于则拒绝 H0,否则不能拒绝 statistics选项 Pearson Chi-Square:常用于行列变量独立性检验 Likelihood Ratio：可用于对数线性模型检验 Fisher‘s Exact Test：N<40,或Fe<5 Linear-by-Linear Association：线性相关卡方检验
进一步计算

cells选项:选择在频数分析表中输出各种百分比. row:行百分比(Row pct); column:列百分比(Col pct); total:总百分比(Tot pct);
1 - 22
分析列联表中变量间的关系目的：
通过列联表分析，检验行列变量之间是否独立。
方法：

卡方检验：对品质数据的相关性进行度量（这里两变量均为定类数据或定序数据）
1 - 32
多选项分析
多选项二分法
将每个答案作为一个变量，每个变量只有两个取值 (0或1)。例如:
变量名 X1 X2 X3 X4 X5 X6 变量名标签北京大学清华大学人民大学北京理工大学北京师范大学北京外国语大学编码方案 0 1 0 0 0 0 0 1 1 1 1 1
1 - 16
探索性描述分析
相关图形

箱线图茎叶图直方图正态分布图：检验变量是否符合正态分布方差齐性检验：各组离散程度是否相同

H0：方差相等
举例：两班学生成绩分布情况，离散程度是否相同。
1 - 17
购买数量多少列总计个案数
全部样本 37.3％ 62.7％ 100％ 1000
第四章 SPSS的基本统计分析
1-1
SPSS的基本统计分析
频数分析-对应图表法计算描述统计量-对应数值法探索性描述分析-结合交叉分组下的频数分析
多选项分析
统计图-对应图形法
1-2
频数分析
目的
粗略把握变量的总体分布状况。
例：对某个问题的总体看法，如新业务的使用愿望、教学效果等对某事物的客观描述，如通话的漫游类型、大客户的行业分布
1-4
频数分析
• 应用举例
移动通话的漫游类型分析特点：定类数据使用频数、百分比、总数(不可缺少的) 不使用频数表中给出的累计频数和累计百分比移动通话时间分析、移动客户话费分析特点：定序数据、数量数据除使用频数、百分比、总数外，还可以充分使用累计频数和累计百分比
1-5
频数分析
• 数据中存在缺失值 • 使用有效百分比(分母为有效样本数) • 例：学生成绩得优率、得良率 Frequencies->Format 频数分布表输出按变量值、频数升序、降序输出
购买流行服装
交叉分组下的频数分析
针对定类数据和定序数据的频数分析(用于定类定序数据分析有custom table\logistic\loglinear) 目的:通过了解不同变量在不同水平下的数据分布情况，判断水平对变量是否有影响
例：女生的学习成绩比男生好吗？(两变量) 不同专业的女生学习成绩都比男生好吗？ (三变量)

实现步骤
1 - 25

e商务文档

SPSS第四章基本统计分析

相关文档推荐：