当前位置:文档之家› 第四章基本统计分析

第四章基本统计分析

1 - 25
卡方检验的要求: 卡方检验的要求:
一般要求列联表中期望频数小于5 一般要求列联表中期望频数小于5的格子数 不超过20%,否则会夸大卡方值,容易得 不超过20%,否则会夸大卡方值,容易得 20% 出拒绝结论,可以采用精确检验。 N>=40, T>=5, Pearson卡方检验,若 Pearson卡方检验,若 P≈α,改用确切概率法检验 改用确切概率法检验 N<40,或 N<40,或T<5, 确切概率法检验
1-4
频数分析
应用举例
移动通话的漫游类型分析 特点:定类数据 使用频数、百分比、总数(不可缺少的) 不使用频数表中给出的累计频数和累计百分比 移动通话时间分析、移动客户话费分析 特点:定序数据、数量数据 除使用频数、百分比、总数外,还可以充分使 用累计频数和累计百分比
1-5
频数分析
数据中存在缺失值 使用有效百分比(分母为有效样本数) 例:学生成绩得优率、得良率 Frequencies->Format 频数分布表输出按变量值、频数升序、降 序输出
第四章 SPSS的基本统计分析 SPSS的基本统计分析
1-1
SPSS的基本统计分析 SPSS的基本统计分析
频数分析频数分析-对应表格法 计算描述统计量计算描述统计量-对应数值法 探索性描述分析探索性描述分析-结合 交叉分组下的频数分析 多选项分析 统计图统计图-对应图形法
1-2
频数分析
目的
粗略把握变量的总体分布状况。
1 - 11
n 1 Skewness = (xi x)3 / SD3 ∑i=1 n -1
计算描述统计量
描述陡峭程度的统计量
峰度(kurtosis):描述某变量所有变量值 峰度(kurtosis):描述某变量所有变量值 分布形态陡缓程度的统计量。
峭度为0 峭度为0表示与正态分布峭度相同。 大于0 大于0表示比正态分布陡,尖峰。 小于0 小数分析中的其他分析
计算中位数、分位数:适用于定序、定距数据 – 数据按升序排序后,找到若干个分位点上的变 量值 – quartiles:计算四分位数25%(QL)、50%(中位数)、 75%(QU) – cut points for n equal groups: n等份 – percentile: 自定义百分位点 计算众数:适用于定类数据(但必须是数值型)
数据标准化处理应用举例
快速找到移动话费出众的客户 网通集团企业效益评价
1 - 15
探索性描述分析
目的:在未知数据分布特点情况下,通过计算详尽描述统计量, 目的:在未知数据分布特点情况下,通过计算详尽描述统计量, 辅助全面的统计图, 辅助全面的统计图,认识数据分布。 基本操作步骤 (1)菜单选项:analyze->descriptive statistics->Explore (1)菜单选项:analyzestatistics(2)选择将参加计算的数值型变量名到Dependent list框 (2)选择将参加计算的数值型 数值型变量名到Dependent list框 (3)进行分组描述分析时,将分组变量选入Fact list框 (3)进行分组描述分析时,将分组变量选入Fact list框 描述统计量: M统计量:集中趋势的估计值,不受极端值影响。用于判断 有无异常值。
例:女生的学习成绩比男生好吗?(两变量) 例:女生的学习成绩比男生好吗?(两变量) 不同专业的女生学习成绩都比男生好吗? (三变量) 三变量)
分析的主要步骤
产生交叉列联表 分析列联表中变量间的关系
1 - 19
产生交叉列联表 产生交叉列联表
什么是列联表 多个变量在不同取值下的数据分布频数表
控制变量 列变量
例: 对某个问题的总体看法,如新业务的使用愿望、教学效 果等 对某事物的客观描述,如通话的漫游类型、大客户的行 业分布
采用的方法
制作频数分布表:包括计算 频数、累计频数、 百分比、累计百分比 绘制统计图形:条形图(品质数据)、饼图、 直方图(数量数据)
1-3
频数分析
基本操作步骤
(1)菜单选项:Analyze->Descriptive (1)菜单选项:AnalyzeStatistics->Frequencies tatistics(2)选择几个待分析的变量到variables框. (2)选择几个待分析的变量到variables框 (3)chart选项,选择所需要的图形 (3)chart选项,选择所需要的图形 例:班级男女生频数分布表、成绩分布表
(3)计算卡方统计量的值,并得到该统计量值 (3)计算卡方统计量的值,并得到该统计量值 的概率P 的概率P值 (4)决策。概率P与显著性水平比较,小于等 (4)决策。概率P 于则拒绝H 于则拒绝H0,否则不能拒绝
实现步骤
statistics选项 statistics选项 cells选项 cells选项
1 - 26
分析列联表中变量间的关系
行列变量相关性的其他测度指标 χ2 = n Nominal: phi系数:在2 phi系数:在2×2列联表中 ,通常[-1,1],负号 通常[ 1,1],负号 无实际意义 χ 列联C系数( 列联C系数(contingency coefficient), 通常 coefficient) χ +n 为[0,1) χ V= V系数 [0,1] n m r 1), (c 1)] in[( 值越大表示行列变量的相关性越大
1 - 13
计算描述统计量
基本操作步骤
(1)菜单选项:Analyze->Descriptive Statistics (1)菜单选项:AnalyzeStatistics ->Descripive (2)选择将参加计算的数值型变量名到Variables框。 (2)选择将参加计算的数值型 数值型变量名到Variables框。 ——仅适用于数值型 ——仅适用于数值型变量 数值型变量
1 - 21
产生交叉列联表 产生交叉列联表 定距数据可做适当分组后再产生列联表 仅利用频数,信息利用不充分
进一步计算
cells选 cells选项:选择在频数分析表中输出各种百 分比. 分比. row:行百分比( row:行百分比(Row pct); column:列百分比( column:列百分比(Col pct); total:总百分比( total:总百分比(Tot pct);
购买流行服装
交叉分组下的频数分析
针对定类数据和定序数据的频数分析( 针对定类数据和定序数据的频数分析(用于定类 定序数据分析有custom table\logistic\ 定序数据分析有custom table\logistic\loglinear) 目的: 目的:通过了解不同变量在不同水平下的数据 分布情况 ,判断水平对变量是否有影响
1 - 16
探索性描述分析
相关图形
箱线图 茎叶图 直方图 正态分布图:检验变量是否符合正态分布 方差齐性检验:各组离散程度是否相同
H0:方差相等 H0:方差相等
举例:两班学生成绩分布情况,离散程度 是否相同。
1 - 17
购买数量 多 少 列总计 个案数
全部样本 37.3% 62.7% 100% 1000
分析比较男生和女生的学习成绩
比较集中趋势 比较离散趋势 比较偏斜程度 比较陡峭程度 实现方式:数据拆分
1 - 14
计算描述统计量
其他功能
数据标准化处理
zi = (xi x) / SD
新变量的均值为0,标准差为1; 新变量的均值为0,标准差为1; 小于0表示在平均水平下,大于0反之. 小于0表示在平均水平下,大于0反之. 正态分布的数据标准化后呈标准正态分布(68%, 正态分布的数据标准化后呈标准正态分布(68%, 95%,99%) 95%,99%) save standardized values as variables选项 variables选项 将变量作标准化后,结果存入名为“Z+原变量名” 将变量作标准化后,结果存入名为“Z+原变量名” 的新变量中. 的新变量中.
购买数量 多 少 列总计 个案数
已婚者 31% 69% 100% 700
单身者 52% 48% 100% 300
男性 购买数量 已婚者 单身者 多 35% 40% 少 65% 60% 列总计 100% 100% 400 120 个案数
女性 已婚者 单身者 25% 60% 75% 40% 100% 100% 300 180
n 1 Kurtosis = ( xi x)4 / SD4 3 ∑i=1 n -1
1 - 12
计算描述统计量
其他统计量
均值标准误差( 均值标准误差(S.E means)
中心极限定理认为:样本均值~N(u,σ 中心极限定理认为:样本均值~N(u,σ2/n) 反映样本均值与总体真值间的平均离散 程度 样本数越大,样本均值的离散程度越小 ,对真值的估计越准确
计算描述统计量 描述对称程度的统计量
偏度(skewness):描述某变量所有变量 偏度(skewness):描述某变量所有变量 值分布形态的偏斜程度和方向的统计 量.
偏度为0表示对称; 偏度为0表示对称; 大于0表示正偏差大(右偏),众数比均值小, 大于0表示正偏差大(右偏),众数比均值小, 极值大于均值; 极值大于均值; 小于0表示负偏差大(左偏) 小于0表示负偏差大(左偏)。
1-7
频数分析
频数分析中的其他分析
分位数的应用
从一个侧面比较两组样本数据的集中趋势
– 例:( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
在排除极端值影响的条件下,通过计算分位数差,比 较两组样本数据的离散程度
– 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
(期望频数反映的是H0成立 情况下的数据分布特征)
相关主题