当前位置：文档之家› 第四章基本统计分析

第四章基本统计分析

1 - 25
卡方检验的要求: 卡方检验的要求:
一般要求列联表中期望频数小于5 一般要求列联表中期望频数小于5的格子数不超过20%，否则会夸大卡方值，容易得不超过20%，否则会夸大卡方值，容易得 20% 出拒绝结论，可以采用精确检验。 N>=40, T>=5, Pearson卡方检验，若 Pearson卡方检验，若 P≈α,改用确切概率法检验改用确切概率法检验 N<40,或 N<40,或T<5, 确切概率法检验
1-4
频数分析
应用举例
移动通话的漫游类型分析特点：定类数据使用频数、百分比、总数(不可缺少的) 不使用频数表中给出的累计频数和累计百分比移动通话时间分析、移动客户话费分析特点：定序数据、数量数据除使用频数、百分比、总数外，还可以充分使用累计频数和累计百分比
1-5
频数分析
数据中存在缺失值使用有效百分比(分母为有效样本数) 例：学生成绩得优率、得良率 Frequencies->Format 频数分布表输出按变量值、频数升序、降序输出
第四章 SPSS的基本统计分析 SPSS的基本统计分析
1-1
SPSS的基本统计分析 SPSS的基本统计分析
频数分析频数分析-对应表格法计算描述统计量计算描述统计量-对应数值法探索性描述分析探索性描述分析-结合交叉分组下的频数分析多选项分析统计图统计图-对应图形法
1-2
频数分析
目的
粗略把握变量的总体分布状况。
1 - 11
n 1 Skewness = (xi x)3 / SD3 ∑i=1 n -1
计算描述统计量
描述陡峭程度的统计量
峰度(kurtosis):描述某变量所有变量值峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。
峭度为0 峭度为0表示与正态分布峭度相同。大于0 大于0表示比正态分布陡，尖峰。小于0 小数分析中的其他分析
计算中位数、分位数:适用于定序、定距数据 – 数据按升序排序后，找到若干个分位点上的变量值 – quartiles:计算四分位数25%(QL)、50%(中位数)、 75%(QU) – cut points for n equal groups: n等份 – percentile: 自定义百分位点计算众数:适用于定类数据（但必须是数值型）
数据标准化处理应用举例
快速找到移动话费出众的客户网通集团企业效益评价
1 - 15
探索性描述分析
目的:在未知数据分布特点情况下,通过计算详尽描述统计量, 目的:在未知数据分布特点情况下,通过计算详尽描述统计量, 辅助全面的统计图, 辅助全面的统计图,认识数据分布。基本操作步骤 (1)菜单选项:analyze->descriptive statistics->Explore (1)菜单选项:analyzestatistics(2)选择将参加计算的数值型变量名到Dependent list框 (2)选择将参加计算的数值型数值型变量名到Dependent list框 (3)进行分组描述分析时，将分组变量选入Fact list框 (3)进行分组描述分析时，将分组变量选入Fact list框描述统计量： M统计量：集中趋势的估计值，不受极端值影响。用于判断有无异常值。
例：女生的学习成绩比男生好吗？(两变量) 例：女生的学习成绩比男生好吗？(两变量) 不同专业的女生学习成绩都比男生好吗？ (三变量) 三变量)
分析的主要步骤
产生交叉列联表分析列联表中变量间的关系
1 - 19
产生交叉列联表产生交叉列联表
什么是列联表多个变量在不同取值下的数据分布频数表
控制变量列变量
例：对某个问题的总体看法，如新业务的使用愿望、教学效果等对某事物的客观描述，如通话的漫游类型、大客户的行业分布
采用的方法
制作频数分布表：包括计算频数、累计频数、百分比、累计百分比绘制统计图形：条形图（品质数据）、饼图、直方图（数量数据）
1-3
频数分析
基本操作步骤
(1)菜单选项:Analyze->Descriptive (1)菜单选项:AnalyzeStatistics->Frequencies tatistics(2)选择几个待分析的变量到variables框. (2)选择几个待分析的变量到variables框 (3)chart选项，选择所需要的图形 (3)chart选项，选择所需要的图形例：班级男女生频数分布表、成绩分布表
(3)计算卡方统计量的值，并得到该统计量值 (3)计算卡方统计量的值，并得到该统计量值的概率P 的概率P值 (4)决策。概率P与显著性水平比较，小于等 (4)决策。概率P 于则拒绝H 于则拒绝H0,否则不能拒绝
实现步骤
statistics选项 statistics选项 cells选项 cells选项
1 - 26
分析列联表中变量间的关系
行列变量相关性的其他测度指标 χ2 = n Nominal: phi系数：在2 phi系数：在2×2列联表中 ,通常[-1,1],负号通常[ 1,1],负号无实际意义 χ 列联C系数( 列联C系数(contingency coefficient）, 通常 coefficient） χ +n 为[0,1) χ V= V系数 [0,1] n m r 1), (c 1)] in[( 值越大表示行列变量的相关性越大
1 - 13
计算描述统计量
基本操作步骤
(1)菜单选项:Analyze->Descriptive Statistics (1)菜单选项:AnalyzeStatistics ->Descripive (2)选择将参加计算的数值型变量名到Variables框。 (2)选择将参加计算的数值型数值型变量名到Variables框。 ——仅适用于数值型 ——仅适用于数值型变量数值型变量
1 - 21
产生交叉列联表产生交叉列联表定距数据可做适当分组后再产生列联表仅利用频数，信息利用不充分
进一步计算
cells选 cells选项:选择在频数分析表中输出各种百分比. 分比. row:行百分比( row:行百分比(Row pct); column:列百分比( column:列百分比(Col pct); total:总百分比( total:总百分比(Tot pct);
购买流行服装
交叉分组下的频数分析
针对定类数据和定序数据的频数分析( 针对定类数据和定序数据的频数分析(用于定类定序数据分析有custom table\logistic\ 定序数据分析有custom table\logistic\loglinear) 目的: 目的:通过了解不同变量在不同水平下的数据分布情况，判断水平对变量是否有影响
1 - 16
探索性描述分析
相关图形
箱线图茎叶图直方图正态分布图：检验变量是否符合正态分布方差齐性检验：各组离散程度是否相同
H0：方差相等 H0：方差相等
举例：两班学生成绩分布情况，离散程度是否相同。
1 - 17
购买数量多少列总计个案数
全部样本 37.3％ 62.7％ 100％ 1000
分析比较男生和女生的学习成绩
比较集中趋势比较离散趋势比较偏斜程度比较陡峭程度实现方式：数据拆分
1 - 14
计算描述统计量
其他功能
数据标准化处理
zi = (xi x) / SD
新变量的均值为0,标准差为1; 新变量的均值为0,标准差为1; 小于0表示在平均水平下,大于0反之. 小于0表示在平均水平下,大于0反之. 正态分布的数据标准化后呈标准正态分布（68%，正态分布的数据标准化后呈标准正态分布（68%， 95%，99%） 95%，99%） save standardized values as variables选项 variables选项将变量作标准化后,结果存入名为“Z+原变量名” 将变量作标准化后,结果存入名为“Z+原变量名” 的新变量中. 的新变量中.
购买数量多少列总计个案数
已婚者 31％ 69％ 100％ 700
单身者 52％ 48％ 100％ 300
男性购买数量已婚者单身者多 35％ 40％少 65％ 60％列总计 100％ 100％ 400 120 个案数
女性已婚者单身者 25％ 60％ 75％ 40％ 100％ 100％ 300 180
n 1 Kurtosis = ( xi x)4 / SD4 3 ∑i=1 n -1
1 - 12
计算描述统计量
其他统计量
均值标准误差( 均值标准误差(S.E means)
中心极限定理认为：样本均值~N(u,σ 中心极限定理认为：样本均值~N(u,σ2/n) 反映样本均值与总体真值间的平均离散程度样本数越大，样本均值的离散程度越小，对真值的估计越准确
计算描述统计量描述对称程度的统计量
偏度(skewness):描述某变量所有变量偏度(skewness):描述某变量所有变量值分布形态的偏斜程度和方向的统计量.
偏度为0表示对称; 偏度为0表示对称; 大于0表示正偏差大(右偏),众数比均值小, 大于0表示正偏差大(右偏),众数比均值小, 极值大于均值; 极值大于均值; 小于0表示负偏差大(左偏) 小于0表示负偏差大(左偏)。
1-7
频数分析
频数分析中的其他分析
分位数的应用
从一个侧面比较两组样本数据的集中趋势
– 例：( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
在排除极端值影响的条件下，通过计算分位数差，比较两组样本数据的离散程度
– 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
(期望频数反映的是H0成立情况下的数据分布特征)

e商务文档

第四章基本统计分析

相关文档推荐：