应用统计学统计描述
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Explore 过程
茎叶图
直方图
箱式图 用于正态性检验的Q-Q图
Levene’s方差齐性检验选项
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Explore 过程
缺失值的设置,一般默认即可
2013年11月30日星期六
Frequencies 过程 (2) 频数表
Frequency:频数 Percent:百分比
分析结果
=当前频数/总数(包括缺失值) Valid Percent:有效百分比
=当前频数/有效总数(不包括缺失值) Cumulative Percent:累积百分比
=累积频数/有效总数(不包括缺失值)
2013年11月30日星期六
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Frequencies 过程
Statistics:设定要分析的统计量 分位数值
集中趋势
离散趋势 分布指标
若数据为组中值, 将其选中 本例选择四分位 数 和 5 % 、 95 % 分位数
2013年11月30日星期六
重庆交通大学管理学院
重庆交通大学管理学院
22:17:15
Frequencies 过程 (3)频数直方图
分析结果
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Descriptives 过程
Descriptive:一般性统计描述,相对于Frequencies,
它不能绘制统计图,所能计算的统计量也较少,适用于对服
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
集中趋势的描述指标
算术均数:适合单峰和基本对称的分布 中位数:适用于任意分布类型 截尾均数:数据中有极端值,用截尾均数更好 几何均数:适用于原始数据分布不对称,但经过对数转换 后呈对称分布的资料 众数(Mode):样本数据中出现频次最大的那个数字 调和均数(H):较少使用,观察值x倒数之均数的倒数,
偏度系数大于0为正偏态,峰度系数小于0表明峰比正态低, 本例偏度和峰度系数均接近0,因此认为近似正态分布。 参 数 估 计 : 均 数 (Mean) 的 标 准 误 ( Std.Error)为 0.212 岁 , 相 应 的 总 体 均 数 95 % 可 信 区 间 ( 95 % Confidence Interval for Mean)为41.32~42.15岁,表 明有95%的可能性认为该区间包含了总体均数。
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Explore 过程
分析结果
集中趋势指标、离散趋势指标
分布特征指标、参数估计
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Explore 过程
集 中 趋 势 指 标 : 3179 名 女 性 的 平 均 年 龄 为 41.74 岁
(ed)、职业满意度(jobsat)进行描述。
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Frequencies 过程 (1) 缺失值报告
分析结果
6400人的教育水平和职业满意度的数据都是完整的, 无缺失值。
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Frequencies 过程 (2) 频数表
x ,适用于测量尺度相差太大或数据量纲不同时,
重庆交通大学管理学院
22:17:15
比较两组数据离散程度的大小
2013年11月30日星期六
SPSS的许多模块均可完成统计描述的任务,除各种
用于统计推断的过程会附带进行相关的统计描述外 , SPSS还专门提供了几个用于连续变量统计描述的过程, 均集中于Analyze-Descriptive Statistics子菜单中。
重庆交通大学管理学院
22:17:15
Frequencies 过程 (1) 统计量
分析结果
人群年龄无缺失值,四分位数为33岁、41岁、51岁,即 人群中有1/4小于33岁,1/2小于41岁,1/4大于51岁。另外,
90%的人在24~64岁之间。
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
从正态分布的连续型变量进行描绘。同样以demo.sav为例, 对人群的年龄数据(age)进行描述。
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Descriptives 过程
单击中间的箭头,可以实现变量从一张表移入另一张表,
现将变量age移入右边variable列表中
2013年11月30日星期六
两者之差即全距58岁(Range),中间一半女性的年龄差即
四分位数间距17岁(Interquartile Range)。 重庆交通大学管理学院
2013年11月30日星期六
22:17:15
Explore 过程
分布特征指标:表明数据偏离正态分布程度的偏度系数
(Skewness)为0.327,峰度系数(Kurtosis)为-0.534。
22:17:15
Frequencies 过程
Charts:设定要绘制的统计图
图表类型:箱式图、 饼图、直方图等
本例选中绘制直方图
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Frequencies 过程
Format:在SPSS对话框中,用于设定结果文件中的
数据格式,通常默认即可。
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Explore 过程
要进行分析的应变量:age
分类变量:gender
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Explore 过程
一般描述 点估计中的稳健估计:M估计 极端值 百分位数
默认情况下,选择的是Descriptives,本例选择默认
人 群 年 龄 的 最 小 值 为 18 岁 , 最 大 值 为 77 岁 , 均 数 42.06岁,标准差12.29岁,偏度系数0.299,峰度系数-
0.602,基本近似正态。
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Explore 过程
Explore:对连续型资料分布不清楚时的探索性分析,可以 分类别进行描述(Frequencies和Descriptives不行),计算 多种描述统计量,给出各种统计图,进行简单参数估计。以 demo.sav为例,对男女性(gender)的年龄(age)分别进行 描述。
重庆交通大学管理学院
22:17:15
Explore 过程 (1) 缺失值报告
分析结果
本例无缺失值,有效人数女性3179人,男性3221人
Ca se Processing Summ ary Ca ses Missing N Pe rce nt 0 .0% 0 .0%
Gender Ag e in years Fema le Male
(Mean),去掉两侧各5%的极端值后,截尾均数为41.45岁
(5% Trimmed Mean),中位数41.00岁(Median),本例 上述三指标值基本相同,可推测数据应当是对称分布的。 离散趋势指标:年龄的方差为142.988岁 2 (Variance), 其平方根即标准差为11.958岁(Std.Deviation)。全部女性 中最小的18岁(Minimum),最大的76岁(Maximum)。
数据排序方式 多变量分析时的显示方式 设定组别超过n组时不显示表格
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Frequencies 过程
通过大纲视图可以快速定位各项结果 例如:点击大纲视图上的Histogram,则可快速定位至 age的频数直方图
2013年11月30日星期六
Frequencies 过程 Crosstabs 过程
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Frequencies 过程
Frequencies:主要针对分类输出频数表,从而得到频 数、百分数、累计百分比,给出原始频数表,众数,条图,
饼 图 等 。 以 demo.sav 为 例 , 分 别 对 人 群 的 教 育 水 平
22:17:15
Ratio 过程
Ratio:功能较特殊,用于对两个连续性变量计算相对比 指标,它可以计算一系列非常专业的相对比描述指标,相 对而言使用面较窄,在此不详述。
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
SPSS的许多分析过程均可完成统计描述的任务,还 专门提供了用于分类变量统计描述的过程 ,均集中于 Analyze-Descriptive Statistics子菜单中。
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Frequencies 过程
鼠标右键单击变量,可以获得更多变量信息 选择下拉按钮,显示所有定义的值标签
2013年11月30日星期六
重庆交通大学管理学院
22:17:15
Frequencies 过程
:表示该变量为数值型变量
: 表示该变量为字符型变量,且右下角的<表示短字符, 即变量长度<=8位
分析结果
2013年11月30日星期六
重庆交通大学管理学院