当前位置：文档之家› 第三章定性数据的检验

第三章定性数据的检验

p1=所有顾客中喜欢品牌甲的比例 p2=所有顾客中喜欢品牌乙的比例 p3=所有顾客中喜欢品牌丙的比例则我们所要检验的假设为： H0： p1= p2= p3=1/3 H1：至少一个比例超过1/3
3
? ? 假如设果三H0类成的立观，察我次们数希分望别在为样本n1中, n喜2和欢n每3 一，品i?1 牌ni 的? n顾。
从而
c
?
?
2
?
(k
? 1)
对例3.1来说，k ? 3 ，当? ? 0.05 时，??2(k ?1)? ?02.05(2)? 5.991
? 2 ? (61 ? 50)2 ? (53 ? 50)2 ? (36 ? 50)2 ? 6.52
50
50
50
? 由于? 2 ? 6.52 ? 5.991，因此拒绝零假设。
由假设检验的一般原理知， c的值可由给定的显
著性水平 ? 确定，即c满足 P(? 2 ? c) ? ?
关于统计量 ? 2的分布，英国统计学家 Karl Pearson
给出下面的定理：
设总体中的每一个个体属于且只属 A1, A2 , , Ak
，k个类之一。总体中属于 k个类的比例为 p1, p 2 , , pk
即认为顾客对这三种品牌矿泉水的喜好确实存在差异。
利用统计分析软件SPSS13.0可以大大简化计算过程，下面用统计软件对例3.1进行分析。
?1.按要求录入数据； ?2.选择 Data ? weightCase 对数据进行加权； ?3.选择 Analyze ? Non ? parametricTest ? Chi ? square 进行非参数检验
3.1 多项分布与? 2 分布
?收集分类数据的目的是分析在每个类中数据的分布。例如，我们为了估计消费者中喜欢三种牙膏中每一种的比例，则统计购买者三种牙膏的顾客购买每一种的人数。在这里仅仅是根据牙膏的种类来分类，我们称之为一维分类或一向分类。下面通过例子来介绍一向分类数据的分析。
[例3.1] 某超市为了研究顾客对三种矿泉水的喜好比例，以便为下一次进货提供决策，随机观察了150名购买者，并记录下他们所买的品牌，统计出购买三种品牌的人数，如下表所示：
?列联表（contingency table ）
顾客购买喜好调查
品牌
甲
乙
丙
人数
61
53
36
这些数据是否说明顾客对这三种矿泉水的喜好确实存在差异？
? 解：由于该问题有甲、乙、丙三类，所以这个分布称为多项
概率分布，简称多项分布。
多项分布是二项分布的推广，可以看成多项实验得到的分
布。多项试验有如下一些性质：
1.多项试验由n个相同的实验组成；
2.每个实验的结果落在k组的某一组中；
。先从总体中随机抽查 n个，其中属于 Ai 类有n i个
(i ? 1,2, , k) 。
?定义统计量
? ? 2 ? k [ ni ? E(ni )]2 i?1 E(ni )
则当n充分大时，? 2统计量遵从自由度为 k-1的 ? 2 分布
一般要求 n应较大，使得每一类中的期望值个数
不少于5。
由以上定理知，当 n充分大时，? 2 ~ ? 2 (k ? 1) ，
理由拒绝 H 0。为此考虑如下统计量：
? 2 ? [ n1 ? E(n1)]2 ? [ n2 ? E(n2 )]2 ? [ n3 ? E(n3 )]2
E(n1 )
E(n2 )
E(n3 )
? (n1 ? 50)2 ? (n2 ? 50)2 ? (n3 ? 50)2
50
50
50
如果? 2值很大，则有理由拒绝 H0，拒绝域为：{? 2 ? c}
例3.1 1.录入数据
1 2 3
brand
freq
1
61
2
53
3
36
?2.打开 weightCase 对话框，将 freq 放
入 frequency ，单击OK。
பைடு நூலகம்
?3.打开Chi ? squaretest 对话框，把 freq 选入 ?Test Variable List 栏中，单击OK。
? 得到如下分析结果
客差不多 1/3的比例。或者说对 n个顾客中喜欢第一种品牌的顾客的人数的期望值应为：
11
E (n1 )
?
np
?
n 3
?
? 150 3
?
50
同理 E(n2 ) ? E(n3) ? 50
于是对某一次抽样来说，ni 和E(ni )的差距在H0成立时比较小；反之，如 ni和 E(ni )的差距比较大，则有
第三章定性数据的 ? 2检验
?对定性指标的基本分析方法是按照它的变动范围进行分类，调查机构按照某种设计方案发放问卷，从回收的问卷中可统计出各种属性的计数结果，如喜欢某种商品包装设计的人数，这种数据称为频数。由此可以计算出不同分类的频数分布，为深入分析这些定性资料奠定基础。本章的目的是提高定性资料的分析水平，主要介绍定性数据的列联表分析和 ? 2检验在实际统计分析中的应用。
3.某个实验的结果落在某一特定组，比如说组i 中的概率为
pi (i ? 1,2, ? , k) 且在试验之间保持不变，且有 k pi ? 1
4.实验是独立的；
i?1
5.实验者关心 n1, n2 , , nk ，这里 ni (i ? 1,2, , k)等于实验
结果落在组 i 中的数目。注意： n1 ? n2 ? ? nk ? n
在多数试验中，当k ? 2 时，就得到二项分布。
在多数实际情况下，k个可能结果的概率 p1, p 2 , , pk 通常
是未知的，我们的目的就是对他们进行推断。
?对于例3.1，我们希望去检验顾客对三种矿泉水品牌的喜好是否存在差异，考虑检验零假设为对三种品牌的喜好没有差异，对立假设为对
三种品牌的喜好存在差异。令
? 从输出结果可以看出，? 2 ? 6.520 ，且p值（sig ）为
0.038小于 ? ? 0.05 ，检验结果与上述计算结果一
致，故有理由拒绝原假设，认为顾客顾客对三种品牌矿泉水的喜好确实是有差异的。 ? 例3.2见课本，方法完全相同。
3.2 列联表分析
?问卷调查中常涉及对某个问题两个或多个不同特征的分类。如：房地产商考虑顾客选择房子设计的类型与职业的关系，所调查的每个顾客都有两个特性，一个是选择房子的类型，一个是职业。……例子中我们通常关心的是按照两个特性进行的分类的方法之间是否相互依赖，或者说是否相互独立。

e商务文档

第三章定性数据的检验

相关文档推荐：

e商务文档

第三章 定性数据的 检验

相关文档推荐：

第三章定性数据的检验