当前位置:文档之家› 属性(定性)数据分析_SPSS应用方法(第一部分)

属性(定性)数据分析_SPSS应用方法(第一部分)


极差就是数据中最大值和最小值之差 变量值: X 1 , X 2 , . . . . X n

方差( Variance ) : S2 1 ( X i - X )2 n - 1 i 1
1 n ( X i - X )2 n - 1 i 1
n
4, 3, 11, 3, 1 5, 8 最大值 = Max(Xi) = 11,最小值 = Min(Xi) = 1
研究方法II
郑 明 郁 文
第一章:数据的描述
珍惜您的数据



统计学是研究怎样去有效地 收集、整理 和分析带有随机性的数据,以对所考察 的问题做出推断或预测,直至为采取一 定的决策和行动提供依据和建议。 理解统计学,了解统计基本概念、基本 方法; 熟悉统计语言; 并知道如何评价统计结果。




常用的描述数据分散程度的统计量有:


极差(Range) 方差(Variance)、标准差(Standard Deviation) 四分位距(IQR—Interquartile range)
极差就是数据中最大值和最小值之差
数据的描述
计算汇总统计量—描述数据的变差
数据的描述
计算汇总统计量—描述数据的变差
10
数据的描述
计算汇总统计量—描述数据的变差

数据的描述
计算汇总统计量—描述数据的变差


方差和标准差是统计分析中最常用的描 述数据分散程度的统计量 方差是数据各个观测值相对与均值偏差 平方的一种平均 标准差就是方差的开方 方差和标准差都是非负的数。两者为零 表示变量的每个观测值只取同一个数值

加权平均 修削平均( 稳健性)
7 7 8 8 8 9 9
1 2 2 2
1 2 3
0.5 0.4 0.1
2
21
7 7
25
8 8 10 9 9
0.5 0.8 0.3 1.6
21 21
25 21
9
数据的描述
计算汇总统计量—描述数据的变差

数据的描述
计算汇总统计量—描述数据的变差

仅用数据的某个中心位置概括数据是不 够的。还需要考虑数据的分散程度。
观测数据和实验数据
数据收集有两种主要的方法: 观测数据 (Observational data): 仅凭观 测而非通过操作或控制事物所得到的数 据。例环境的数据,民意测验数据和证 券交易的数据 实验数据(Experimental data): 在实验中 控制实验对象而收集到的变量的数据。如:
以连续变化尺度测量 具有可进行分析的数值 有数值或字符值 用于作分类变量

数据的描述
用数字描述数据

详细数据:数据表本身 汇总数据: 名义型:不同类别的频数(个数) 区间型:频数、均值、最大值等指标 详细数据:枝页图、散点图 汇总数据: 名义型:条形图、饼图、拼花图 区间型:直方图、盒型图
数值型


在数据分析开始之前和过程中,发现(或剔除) 例外数据(Outlier)是保证数据分析质量的重要 环节。 例外数据是指个别观测有别于其它多数数据其 取值特别的大或特别小 分析的不同阶段可能发现不同的例外数据 例外数据需认真对待:记录错误的要剔除,有 的例外数据正是改进分析方法的依据
3
变量的类型

变量的类型
变量按其含义来看可作如下分类: 连续的 定量的
(Quantitative)

数据表中各变量由其记录的形式来看可粗分为 数值的(价格)和字符的(行业) 各变量 由其表示的内容可分为定性的(地区)和定量的 (交易量) 由其在分析中的作用又可分为区间型(interval) 和分类型(Categorical)(包括有序的(Ordinal)和 名义型(nominal)) 区间型(Interval)—数量型(Metric)(连续型) 有序的(Ordinal)—顺序型(Rank) (p.204) 名义型(Nominal)—分类型 (Categorical)
均值 中位数
变量值:
4, 3, 11, 3, 1 5, 8
排序:
1, 3, 3, 4, 5, 8, 11
中位数
(Median)
4
8
数据的描述
计算汇总统计量—各种中心位置

数据的描述
计算汇总统计量—各种中心位置

在茎叶图可以直接算出中位数
盒型图
中位数:

很好地代表了一组数据的中点 它的计算较为简单(基于数据的排序) 它不受个别极端数据的影响 它没有利用数据所有的信息 它利用了变量的每个观测值 在多数情况下均值可用于进一步的分析
明确数据分析的目的
一项数据分析任务在计划阶段就要明确以 下几方面: 分析的目的 明确对象(总体) 确定数据的由来,是否要抽样,要记录 哪些指标 采用的分析方法
A Failed Survey Example: 1936 U.S. presidential election, Alf Landon vs
每一行表示一个个体(对象,观测) 每一列表示一个变量(属性,指标)
发现和剔除例外数据

数据的缺失值
在数据的收集过程中,有时无法得到关心 对象的所有项目的记录。这时在汇总数 据表中某些记录的字段无法填入。通常 用某些特殊符号表示。也称它们为缺失 值(missing value)。在数据处理和分析中 给以特殊的处理。
标准差(Std Dev) : 变异系数 (CV) : 未校平方和(USS) : 校正平方和(CSS) :
S n
1 n -1
( X i - X )2
标准误 (Std Error ) : S
n
S X 100%
X i2
i 1 n
( X i - X )2
Franklin Roosevelt • October 1936, Literary Digest conducted largest poll in history (10 million voters). • They predicted that Landon would win by 4:3 in share of popular vote. • One month later, Roosevelt was re-elected with the largest majority in U.S. history. • The magazine went bankrupt soon after.
22
数据的描述
频数统计

数据的描述
用图形表示频数统计


对于名义型变量其频数分布是仅有的最全面的 统计特征 对于区间型变量详细的频数分布并不适用, 常 用的是按变量取值分组后统计频数


各种条形图和饼图是表示频数统计的图 形工具。在这些图里都有一个区分不同 类别的分类变量。该变量的每个值对应 一个类别 在条形图里,一个水平或垂直的“条” 代表一个类别,条的长度表示频数或百 分数 在饼图中,饼的一角表示一个类别,一 角饼的角度大小表示频数或百分数
均值(Mean) : 所有观测值相加除以观 测个数 X X 1 ... X n 1 n Xi n n i 1
30
x (4 3 11 3 1 5 8) / 7 5.0
数据的描述
计算汇总统计量—各种中心位置

数据的描述
计算汇总统计量—各种中心位置
中位数是描述数据取值中心位置的一个 指标。它将观测值分为个数相同的两组, 使一半观测值小于等于这个数,另一半 大于等于这个数。
直方图 茎叶图

均值:

数据的描述
计算汇总统计量—各种中心位置

数据的描述
计算汇总统计量—各种中心位置

众数(mode, 峰值)就是在变量数据中出 现次数最多的值。也就是在频数统计中 对应频数(或百分数)最大的(分类变量的) 值
1
描述中心位置的统计量除了均值、中位 数和众数外还有其他各种平均: 观测值(x) 权数(w) x*w
7
数据的描述
计算汇总统计量

数据的描述
计算汇总统计量—各种中心位置


从功能看,最常用的有:描述中心位置的、描 述数据变差的等 从计算的类型看:矩型、基于顺序统计量等 中心位置 矩 型 均值 基于分位数 其 它 分散度 其 它
1 变量值(样本):
X , X 2 , .... X
5, 8
n
4, 3, 11, 3, 1
26
数据的描述
用图形表示频数统计

数据的描述
计算汇总统计量

与直方图类似的显示数据分布的还有盒 型图、茎叶图、点线图等
盒型图

直方图 茎叶图

频数分布可以完整地描述数据取值的分 布。但它需要用多个值来描述。有时需 要用少数几个数值来描述变量取值的某 一方面的特征。这就是要计算变量取值 的汇总统计量。 从功能看,最常用的有:描述中心位置 的、描述数据变差的等 从计算的类型看:矩型、基于顺序统计 量等
6
数据的描述
用图形表示频数统计
数据的描述
分组统计频数和直方图



对于区间(连续)型变量详细的频数分布并 不适用。更多地是使用直方图 直方图将连续变量的取值范围(均匀)地分 为若干个组,然后统计变量在不同的组 取值的频数,按这一过程制作的条形图 常称为直方图 数据不多时分组方式会影响直方图的形 态
字符型
区间型(连续型)

用图形描述数据

分类型(名义型, 有序型)
5
数据的描述
频数统计

数据的描述
相关主题