当前位置：文档之家› 属性(定性)数据分析_SPSS应用方法(第一部分)

属性(定性)数据分析_SPSS应用方法(第一部分)

极差就是数据中最大值和最小值之差变量值： X 1 , X 2 , . . . . X n

方差( Variance ) : S2 1 ( X i - X )2 n - 1 i 1
1 n ( X i - X )2 n - 1 i 1
n
4, 3, 11, 3, 1 5, 8 最大值 = Max(Xi) = 11，最小值 = Min(Xi) = 1
研究方法II
郑明郁文
第一章：数据的描述
珍惜您的数据

统计学是研究怎样去有效地收集、整理和分析带有随机性的数据，以对所考察的问题做出推断或预测，直至为采取一定的决策和行动提供依据和建议。理解统计学，了解统计基本概念、基本方法；熟悉统计语言；并知道如何评价统计结果。

常用的描述数据分散程度的统计量有：

极差(Range) 方差(Variance)、标准差(Standard Deviation) 四分位距(IQR—Interquartile range)
极差就是数据中最大值和最小值之差
数据的描述
计算汇总统计量—描述数据的变差
数据的描述
计算汇总统计量—描述数据的变差
10
数据的描述
计算汇总统计量—描述数据的变差

数据的描述
计算汇总统计量—描述数据的变差

方差和标准差是统计分析中最常用的描述数据分散程度的统计量方差是数据各个观测值相对与均值偏差平方的一种平均标准差就是方差的开方方差和标准差都是非负的数。两者为零表示变量的每个观测值只取同一个数值

加权平均修削平均( 稳健性)
7 7 8 8 8 9 9
1 2 2 2
1 2 3
0.5 0.4 0.1
2
21
7 7
25
8 8 10 9 9
0.5 0.8 0.3 1.6
21 21
25 21
9
数据的描述
计算汇总统计量—描述数据的变差

数据的描述
计算汇总统计量—描述数据的变差

仅用数据的某个中心位置概括数据是不够的。还需要考虑数据的分散程度。
观测数据和实验数据
数据收集有两种主要的方法：观测数据 (Observational data): 仅凭观测而非通过操作或控制事物所得到的数据。例环境的数据，民意测验数据和证券交易的数据实验数据(Experimental data): 在实验中控制实验对象而收集到的变量的数据。如：
以连续变化尺度测量具有可进行分析的数值有数值或字符值用于作分类变量

数据的描述
用数字描述数据

详细数据：数据表本身汇总数据：名义型：不同类别的频数(个数) 区间型：频数、均值、最大值等指标详细数据：枝页图、散点图汇总数据：名义型：条形图、饼图、拼花图区间型：直方图、盒型图
数值型

在数据分析开始之前和过程中，发现(或剔除) 例外数据(Outlier)是保证数据分析质量的重要环节。例外数据是指个别观测有别于其它多数数据其取值特别的大或特别小分析的不同阶段可能发现不同的例外数据例外数据需认真对待：记录错误的要剔除，有的例外数据正是改进分析方法的依据
3
变量的类型

变量的类型
变量按其含义来看可作如下分类：连续的定量的
(Quantitative)

数据表中各变量由其记录的形式来看可粗分为数值的(价格)和字符的(行业) 各变量由其表示的内容可分为定性的(地区)和定量的 (交易量) 由其在分析中的作用又可分为区间型(interval) 和分类型(Categorical)(包括有序的(Ordinal)和名义型(nominal)) 区间型(Interval)—数量型(Metric)(连续型) 有序的(Ordinal)—顺序型(Rank) (p.204) 名义型(Nominal)—分类型 (Categorical)
均值中位数
变量值：
4, 3, 11, 3, 1 5, 8
排序：
1, 3, 3, 4, 5, 8, 11
中位数
(Median)
4
8
数据的描述
计算汇总统计量—各种中心位置

数据的描述
计算汇总统计量—各种中心位置

在茎叶图可以直接算出中位数
盒型图
中位数：

很好地代表了一组数据的中点它的计算较为简单（基于数据的排序）它不受个别极端数据的影响它没有利用数据所有的信息它利用了变量的每个观测值在多数情况下均值可用于进一步的分析
明确数据分析的目的
一项数据分析任务在计划阶段就要明确以下几方面：分析的目的明确对象（总体）确定数据的由来，是否要抽样，要记录哪些指标采用的分析方法
A Failed Survey Example: 1936 U.S. presidential election, Alf Landon vs
每一行表示一个个体(对象，观测) 每一列表示一个变量(属性，指标)
发现和剔除例外数据

数据的缺失值
在数据的收集过程中，有时无法得到关心对象的所有项目的记录。这时在汇总数据表中某些记录的字段无法填入。通常用某些特殊符号表示。也称它们为缺失值(missing value)。在数据处理和分析中给以特殊的处理。
标准差(Std Dev) : 变异系数 (CV) : 未校平方和(USS) : 校正平方和(CSS) :
S n
1 n -1
( X i - X )2
标准误 (Std Error ) : S
n
S X 100%
X i2
i 1 n
( X i - X )2
Franklin Roosevelt • October 1936, Literary Digest conducted largest poll in history (10 million voters). • They predicted that Landon would win by 4:3 in share of popular vote. • One month later, Roosevelt was re-elected with the largest majority in U.S. history. • The magazine went bankrupt soon after.
22
数据的描述
频数统计

数据的描述
用图形表示频数统计

对于名义型变量其频数分布是仅有的最全面的统计特征对于区间型变量详细的频数分布并不适用, 常用的是按变量取值分组后统计频数

各种条形图和饼图是表示频数统计的图形工具。在这些图里都有一个区分不同类别的分类变量。该变量的每个值对应一个类别在条形图里，一个水平或垂直的“条” 代表一个类别，条的长度表示频数或百分数在饼图中，饼的一角表示一个类别，一角饼的角度大小表示频数或百分数
均值(Mean) : 所有观测值相加除以观测个数 X X 1 ... X n 1 n Xi n n i 1
30
x (4 3 11 3 1 5 8) / 7 5.0
数据的描述
计算汇总统计量—各种中心位置

数据的描述
计算汇总统计量—各种中心位置
中位数是描述数据取值中心位置的一个指标。它将观测值分为个数相同的两组，使一半观测值小于等于这个数，另一半大于等于这个数。
直方图茎叶图

均值：

数据的描述
计算汇总统计量—各种中心位置

数据的描述
计算汇总统计量—各种中心位置

众数(mode, 峰值)就是在变量数据中出现次数最多的值。也就是在频数统计中对应频数(或百分数)最大的(分类变量的) 值
1
描述中心位置的统计量除了均值、中位数和众数外还有其他各种平均：观测值(x) 权数(w) x*w
7
数据的描述
计算汇总统计量

数据的描述
计算汇总统计量—各种中心位置

从功能看，最常用的有：描述中心位置的、描述数据变差的等从计算的类型看：矩型、基于顺序统计量等中心位置矩型均值基于分位数其它分散度其它
1 变量值（样本）：
X , X 2 , .... X
5, 8
n
4, 3, 11, 3, 1
26
数据的描述
用图形表示频数统计

数据的描述
计算汇总统计量

与直方图类似的显示数据分布的还有盒型图、茎叶图、点线图等
盒型图

直方图茎叶图

频数分布可以完整地描述数据取值的分布。但它需要用多个值来描述。有时需要用少数几个数值来描述变量取值的某一方面的特征。这就是要计算变量取值的汇总统计量。从功能看，最常用的有：描述中心位置的、描述数据变差的等从计算的类型看：矩型、基于顺序统计量等
6
数据的描述
用图形表示频数统计
数据的描述
分组统计频数和直方图

对于区间(连续)型变量详细的频数分布并不适用。更多地是使用直方图直方图将连续变量的取值范围(均匀)地分为若干个组，然后统计变量在不同的组取值的频数，按这一过程制作的条形图常称为直方图数据不多时分组方式会影响直方图的形态
字符型
区间型(连续型)

用图形描述数据

分类型(名义型, 有序型)
5
数据的描述
频数统计

数据的描述

e商务文档

属性(定性)数据分析_SPSS应用方法(第一部分)

相关文档推荐：