当前位置:文档之家› 第7章 群体间的差异比较——非参数检验

第7章 群体间的差异比较——非参数检验

例:对20个人进行了一次心理学上关于自负程度的测试,分数 越高表示自负的程度也越高。对受试者自负程度先进行前测, 经过一定的指导后,再进行后测,试分析这种指导是否减少自 负是否有作用。数据态总体。因此不能采 用t 检验,考虑用配对样本的非参数检验。

假设从两个未知的总体中分别独立、随机地各抽取一个样 本,把两个样本中的案例合并起来,然后按照案例值的大

小进行排序编号,每个数据的编号就是它的秩。 如果混合样本中有相同的数值,就在其所在的位置将这 几个相同的秩求平均,作为这几个案例值相同数值的秩。
男生英 语成绩 70 75 75 80 85 85 排序 编号 1 2 3 4 5 6 成绩 求秩 1 2.5 2.5 5 5.5 5.5 女生英 语成绩 80 85 85 90 90 95 排序 编号 1 2 3 4 5 6 成绩 求秩 1 2.5 2.5 4.5 4.5 6

结果说明
促销形式2的商 品销售额最高。
P值小于5%, 说明三种促销 形式下商品的 销售额有显著 差异。

Kendall协同系数检验主要是一致性检验。
例:有6名歌手参加比赛,4名评委进行评判打分。试推断这4个 评委的评判标准是否一致。数据见“评委打分.sav”。
商品 编号 评委1 评委2 评委3 评委4 秩和 1号歌手 (秩) 8.75(1) 2号歌手 (秩) 9.6(4) 3号歌手 (秩) 9.2(2) 4号歌手 (秩) 9.65(5) 5号歌手 (秩) 9.3(3) 6号歌手 (秩) 9.8(6)
例:针对“社团.sav”,分析参加社团活动的时间是否服从正 态分布。


单样本K-S检验的原假设:样本所属的总体与指定的理论 分布一致。 分析——非参数检验——旧对话框——1-样本 K-S
正态分布 均匀分布
指数分布
泊松分布

结果说明
概值小于0.05,因 此拒绝原假设, 即参与社团活动 的时间不服从正 态分布。
例:利用财经节目.sav分析不同受教育程度对财经节目的喜
好程度有无差异。
秩次越高,对财经节目 的喜好程度越低。
各组差异显 著
32

在 t 检验中,配对样本的t 检验要求前后测的数据来自正 态总体。当样本不服从正态总体时,利用配对样本的t 检
验便可能对结论产生严重误导。这时可以用配对样本的非 参数检验方法。



本市户口的 现住面积和 计划面积都 更高。
本市户口和外地 户口的现住面积 差异显著,计划 面积差异不显著。
25

我们在做自变量水平为两个以上的均值比较时,一般采用 方差分析。


方差分析是一种非常稳健的统计分析方法,即在违反数据 要求的情况下往往仍然能够得到科学的结果。 当数据的正态性假设不能满足的情况下,可进一步采用多 独立样本的非参数检验来进一步说明问题。



例:针对“住房状况调查.sav”,分析外地户口的比例是否为 15%。


二项分布检验的原假设:总体中第一类事件的比例是P。 分析——非参数检验——旧对话框——二项式
输入检验变量 中第一类事件 的比例。

结果说明
检验比例
观测比例 单尾 检验的概值小于 5%,则拒绝原假设, 认为外地户口的比例不 是15%。从观测比例来 看,应小于15%。
8.9(1) 8.75(1) 8.8(1)
4
9.55(4) 9.7(5.5) 9.6(4)
17.5
9.25(2) 9.25(2) 9.25(2)
8
9.75(5.5) 9.6(4) 9.75(5)
19.5
9.45(3) 9.3(3) 9.4(3)
12
9.75(5.5) 9.7(5.5) 9.85(6)

(Kendall)协同系数检验时,样本应是定序、定距或定
比数据。

检验方法为克科伦(Cochran)Q检验时,样本应是二分 变量。
例:为比较三种促销形式对商品销售的影响,收集若干种商品在 不同促销形式下的月销售额数据如下。试分析三种促销形式对销 售额的影响有无显著差异。见数据“促销方式.sav”
例:针对“住房状况调查.sav”,分析现住面积在100平米以 上的是否为20%.
输入检验变量 中第一类事件 的比例。 确定分割点
18

独立样本的t 检验时,要求数据来自正态分布总体的独立 随机样本。或者根据中心极限定理,样本容量足够大,其

均值的抽样分布近似正态分布。 而在样本容量较小的情况下,如果样本呈非正态分布, 这时就要考虑以一种更合理的非参数检验方法来代替独立 样本的t检验。即秩和检验。
23
例:有6名歌手参加比赛,4名评委进行评判打分。试推断这4个 评委的评判标准是否一致。数据见“评委打分.sav”。


此问题可先进行Friedman检验,考察6个歌手的水平是 否存在显著差异。 如果Friedman检验显著,则进一步进行Kendall协同系数

参数检验:利用样本或总体的一些数值属性构造“统计量” (如 t 统计量、F 统计量),然后利用统计量所服从的某 种已知分布来评价某种情况是不是“小概率事件”,进而 拒绝原假设的方法。 参数检验要求样本是独立的、随机的,并且来自同一个正 态总体,以便得到的统计量确实服从某种已知分布。


如果样本来源的总体并非正态的,但样本规模很大且总体 的偏态不明显,参数检验也有一定的适用性; 如果样本来源的总体并非正态的,同时样本规模很少,这 时利用参数检验就会得到错误的结论。

对于任何仅可分成两类的总体,如果已知其中一类事件所 占的比例为P,那么另一类所占的比例必定是1-P,用Q 表示。 对于同一个总体,P值总是固定的。但在抽样过程中,每 次抽样所得的P值都有可能不同。 二项分布就是从二分类的总体中抽得的随机样本中可观察 到的两类比例的抽样分布。考察每个类别中观察值的频数 与特定二项分布下的预期频数间是否存在统计学差异,是 对二分类变量的拟合优度检验。 原假设:总体中第一类事件的比例是P。
英语 排序 成绩 编号 70 75 75 80 80 1 2 3 4 5
性别 男 男 男 男 女
成绩求秩 1 2.5 2.5 4.5 4.5

85 85
85 85 90 90 95
6 7
8 9 10 11 12
男 男
女 女 女 女 女
7.5 7.5
7.5 7.5 10.5 10.5 12
分别计算来自两个样本的 案例值的秩的和。 如果两个样本具有相同 分布,它们的秩和的均值 应该相等。否则,则可推 断两总体的分布是有差异 的。
结果说明
P值小于5%, 说明前后测的 差值是显著的。
36

多配对样本的非参数检验是通过分析多组配对样本数据, 推断样本来自的多个总体的中位数或分布是否存在显著差

异。 数据要求:

各个样本为随机样本

各个样本的数据是配对的,即相关样本,各个样本的容量
相同。 检验方法为弗瑞德曼(Friedman)检验和肯德尔
第7章
7.1 非参数检验概述 7.2 单样本的非参数检验 7.4 双独立样本的非参数检验
7.5 多独立样本的非参数检验 7.6 配对样本的非参数检验
7.7 多配对样本的非参数检验
3

统计量:根据样本所计算出来的样本的各种描述性指标。 如均数、方差、标准差等;


参数:关于总体性质的数量化描述。如通过人口普查计算 得全国人口的平均年龄。 参数估计:采用抽样方法时,可以用样本得到的“统计量” 对“参数”进行估计,也叫参数估计。如用样本均数来推 断总体均数。
利用秩次进行检验,原 假设为K组变量都来自 相同的一个分布,但不 一定要求是正态的,可 以在违反正态性假设的 情况下代替方差分析。
中位数检验
结果说明:
秩次越高,参加社团活 动的时间越多。 各组差异显著

多独立样本的非参数检验(秩和检验),可以对定序变量进 行多组比较,而 t 检验和方差分析的因变量只能是定距!
例:数据社团.sav中,比较低年级学生、本科高年级学生、 硕士生和博士生参加社团活动的时间是否有差别。 在对参加社团活动的时 间做正态性检验时,发 现“time”变量不能通 过正态性检验。
违反正态性假设的前提下,仍可以做方差分析。
方差分析结果显著。此时可进一步进行非参数检验。

分析——非参数检验——旧对话框——K个独立样本

如投掷硬币出现正反两面的变量值序列为
1011011010011000101010000111。 其中连续的1有9组,连续的0有8组,这一序列总的游程数

量为17。

如果硬币的正反面出现是随机的,那么在该序列中,许多 个1或许多个0连续出现的可能性都不大,且1和0频繁交叉 出现的可能性也非常小,因此,游程数太大或太小都将表 明变量值存在不随机的现象。

非参数检验解决了这一问题,它也需要人为地构造一些统计 量,但这些构造出来的统计量并不使用样本的均值或方差等 这类对分布非常敏感的统计量,也不对总体分布的正态性提 出要求,这种方法被称作“非参数检验”。
7

在进行参数检验之前,可以先利用非参数检验看一下数据 来自什么样的总体,即判断样本的分布形状,然后有针对
9865.00 5220.00 10072.00 737.00 9423.00 771.00 639.00 1793.00 4061.00 542.00
2 1 2 2 1 3 2 3 2 3 秩和 21
3 2 3 3 3 1 3 1 3 2 25
1 3 1 1 2 2 1 2 1 1 14

分析——非参数检验——旧对话框——K个相关样本

性地在参数检验和非参数检验之间做出选择。 拟合优度检验:判断分布形状的非参数检验。把实际观 测到的样本与一个理论上的某种分布所对应的理论预测值 进行比较,检验两者是否有显著的差异。包括:
相关主题