第三章 定性数据的 检验
p1=所有顾客中喜欢品牌甲的比例 p2=所有顾客中喜欢品牌乙的比例 p3=所有顾客中喜欢品牌丙的比例 则我们所要检验的假设为: H0: p1= p2= p3=1/3 H1: 至少一个比例超过1/3
3
? ? 假 如设果三H0类成的立观,察我次们数希分望别在为样本n1中, n喜2和欢n每3 一,品i?1 牌ni 的? n顾。
从而
c
?
?
2
?
(k
? 1)
对例3.1来说,k ? 3 ,当? ? 0.05 时,??2(k ?1)? ?02.05(2)? 5.991
? 2 ? (61 ? 50)2 ? (53 ? 50)2 ? (36 ? 50)2 ? 6.52
50
50
50
? 由于? 2 ? 6.52 ? 5.991,因此拒绝零假设。
由假设检验的一般原理知, c的值可由给定的显
著性水平 ? 确定,即c满足 P(? 2 ? c) ? ?
关于统计量 ? 2的分布,英国统计学家 Karl Pearson
给出下面的定理:
设总体中的每一个个体属于且只属 A1, A2 , , Ak
,k个类之一。总体中属于 k个类的比例为 p1, p 2 , , pk
即认为顾客对这三种品牌矿泉水的喜好确实存 在差异。
利用统计分析软件SPSS13.0可以大大简 化计算过程,下面用统计软件对例3.1进行分析。
?1.按要求录入数据; ?2.选择 Data ? weightCase 对数据进行加权; ?3.选择 Analyze ? Non ? parametricTest ? Chi ? square 进行非参数检验
3.1 多项分布与? 2 分布
?收集分类数据的目的是分析在每个类中 数据的分布。例如,我们为了估计消费 者中喜欢三种牙膏中每一种的比例,则 统计购买者三种牙膏的顾客购买每一种 的人数。在这里仅仅是根据牙膏的种类 来分类,我们称之为一维分类或一向分 类。下面通过例子来介绍一向分类数据 的分析。
[例3.1] 某超市为了研究顾客对三种矿泉水的 喜好比例,以便为下一次进货提供决策,随机 观察了150名购买者,并记录下他们所买的品 牌,统计出购买三种品牌的人数,如下表所示:
?列联表(contingency table )
顾客购买喜好调查
品牌
甲
乙
丙
人数
61
53
36
这些数据是否说明顾客对这三种矿泉水的喜好 确实存在差异?
? 解:由于该问题有甲、乙、丙三类,所以这个分布称为多项
概率分布,简称多项分布。
多项分布是二项分布的推广,可以看成多项实验得到的分
布。多项试验有如下一些性质:
1.多项试验由n个相同的实验组成;
2.每个实验的结果落在k组的某一组中;
。先从总体中随机抽查 n个,其中属于 Ai 类有n i个
(i ? 1,2, , k) 。
?定义统计量
? ? 2 ? k [ ni ? E(ni )]2 i?1 E(ni )
则当n充分大时,? 2统计量遵从自由度为 k-1的 ? 2 分布
一般要求 n应较大,使得每一类中的期望值个数
不少于5。
由以上定理知,当 n充分大时,? 2 ~ ? 2 (k ? 1) ,
理由拒绝 H 0。为此考虑如下统计量:
? 2 ? [ n1 ? E(n1)]2 ? [ n2 ? E(n2 )]2 ? [ n3 ? E(n3 )]2
E(n1 )
E(n2 )
E(n3 )
? (n1 ? 50)2 ? (n2 ? 50)2 ? (n3 ? 50)2
50
50
50
如果? 2值很大,则有理由拒绝 H0,拒绝域为:{? 2 ? c}
例3.1 1.录入数据
1 2 3
brand
freq
1
61
2
53
3
36
?2.打开 weightCase 对话框,将 freq 放
入 frequency ,单击OK。
பைடு நூலகம்
?3.打开Chi ? squaretest 对话框,把 freq 选入 ?Test Variable List 栏中,单击OK。
? 得到如下分析结果
客差不多 1/3的比例。或者说对 n个顾客中喜欢第一 种品牌的顾客的人数的期望值应为:
11
E (n1 )
?
np
?
n 3
?
? 150 3
?
50
同理 E(n2 ) ? E(n3) ? 50
于是对某一次抽样来说,ni 和E(ni )的差距在H0成 立时比较小;反之,如 ni和 E(ni )的差距比较大,则有
第三章 定性数据的 ? 2检验
?对定性指标的基本分析方法是按照它的变动 范围进行分类,调查机构按照某种设计方案 发放问卷,从回收的问卷中可统计出各种属 性的计数结果,如喜欢某种商品包装设计的 人数,这种数据称为频数。由此可以计算出 不同分类的频数分布,为深入分析这些定性 资料奠定基础。本章的目的是提高定性资料 的分析水平,主要介绍定性数据的列联表分 析和 ? 2检验在实际统计分析中的应用。
3.某个实验的结果落在某一特定组,比如说组i 中的概率为
pi (i ? 1,2, ? , k) 且在试验之间保持不变,且有 k pi ? 1
4.实验是独立的;
i?1
5.实验者关心 n1, n2 , , nk ,这里 ni (i ? 1,2, , k)等于实验
结果落在组 i 中的数目。注意: n1 ? n2 ? ? nk ? n
在多数试验中,当k ? 2 时,就得到二项分布。
在多数实际情况下,k个可能结果的概率 p1, p 2 , , pk 通常
是未知的,我们的目的就是对他们进行推断。
?对于例3.1,我们希望去检验顾客对三种矿泉 水品牌的喜好是否存在差异,考虑检验零假设 为对三种品牌的喜好没有差异,对立假设为对
三种品牌的喜好存在差异。 令
? 从输出结果可以看出,? 2 ? 6.520 ,且p值(sig )为
0.038小于 ? ? 0.05 ,检验结果与上述计算结果一
致,故有理由拒绝原假设,认为顾客顾客对三种品 牌矿泉水的喜好确实是有差异的。 ? 例3.2见课本,方法完全相同。
3.2 列联表分析
?问卷调查中常涉及对某个问题两个或多个不 同特征的分类。如:房地产商考虑顾客选择 房子设计的类型与职业的关系,所调查的每 个顾客都有两个特性,一个是选择房子的类 型,一个是职业。……例子中我们通常关心 的是按照两个特性进行的分类的方法之间是 否相互依赖,或者说是否相互独立。