非参数检验卡方检验
二项分布检验 一、二项分布检验概念 对于某分布,假定低于某指定值V的百分比占P0。如 果该假设成立,则分布将满足一个规律。 H0假设:样本组中低于等于某值V的个案占百分比P0。 二、操作步骤 执行:
[Analyze][Nonparametric][Binomial] 选择变量(必须是数值型变量)到Test Variables检验变 量窗口 定义分界值“Define Dichotomy”: “Get from data”为自动分界,即变量值中只有两类 数值。 “Cut point”定义分界值,检验小于该值的观测值。 “Test”定义检验百分比,例如:.10 , .50或 .75等。
/MISSING ANALYSIS. 四、应用举例:
设有若干块实验田,亩产(公斤)如下:
623 702 674 680 736 695
801 638 721 690 655 741 H0假设:产量低于650公斤的地只占10%。
Category N Observed Prop. Test Prop.
Exact Sig. (1-Tailed)
NPAR TESTS /K-S(NORMAL)= 变量名 /STATISTICS DESCRIPTIVES /MISSING ANALYSIS.
四、应用举例 下列数据是否满足正态分布:
4.35 5.20 5.18 4.27 4.62 4.79 4.52 5.70 5.50 4.87 4.76 4.79 4.15 4.57 4.76 4.50 4.89 4.71 4.93 5.34 4.97 4.40 5.21 4.89 4.74 4.88 4.77 5.29 5.09 4.70 4.69 5.00 4.62 5.23 4.44 5.01 4.29 4.99 4.73 4.97 检验结论:
“Monte Carlo” 适合不满足渐进分布的大样本分 布。
“Confidence”指定置信区间。 “Number of”指定近似法计算中的个案数。 “Exact”精确计算统计概率。 “Options”中可以设置选项: “Descriptive” 中将计算描述统计: 均值、标准差、最大值、最小值等。
( A B)(C D)( A C)(B D)
卡方检验基本前提
• 各小格之期望次数﹙或理论次数﹚不得 小于5。
• 不满足假设时的处理方法
– 小格合并法 – 增加样本数 – 去除样本法 – 使用Yate’s校正公式
非参数检验
χ2拟合优度检验
一、χ2检验概念 χ2检验是检验样本测量频数与期望频数的差异性。
– 虚拟化类别数据:由其它类型的数据型态转 换成类别形式的数据, 例如由连续变量转换 来的类别变量
• 类别数据的处理形态: 次数与百分比 • 类别数据的呈现: 次数分布表与列联表 • 类别数据的分析: 卡方检验与其它关联性
分析法
卡方检验的主要内容
• 配合度检验
– 某一个变量是否与某个理论分布或总体分布相符合 – 检验的内容仅涉及一个变量,是一种单因子检验
Asymp. Sig. (2-tailed) .973 检验结果:个案数为40个,Asymp. Sig. (2-tailed)= 0.973>0.05,这表明综合评比成绩是呈正态分布的。
• 独立性检验
– 同时检测两个类别变量﹙X与Y﹚之间的关系时,其 目的在于检测从样本得到的两个变量的观察值,是 否具有特殊的关联。
– 检测同一个样本的两个变量的关联情形
配合度检验
• 例1:某大学二年级的公共体育课是球类 课,根据自己的爱好,学生只需在篮球、 足球和排球三种课程中选择一种。据以 往的统计,选择这三种课程的学生人数 是相等的。今年开课前对90名学生进行 抽样调查,选择篮球的有39人,选择足 球的28人,选择排球的23人,那么,今 年学生对三种课程选择的人数比例与以 往不同?
[Analyze][Nonparametric Test][1-Sample K-S] 选择检验变量到Test Variables检验变量窗口中 定义分布方式,复选项: 正态“Normal” 均匀“Uniform” 泊松“Poisson” 指数“Exponential”
按钮“Exact”作用与前面相同 按钮“Options” 作用与前面相同 三、语法
随机分布情况:名次分布完全没有规律。
H0假设:样本分布是随机的,即游程不是最大或最小 二、操作步骤
执行
[Analyze][Nonparametric][Runs Test] 选择检验变量到Test Variables窗口中 定义分界值“Cut point”: 可以用中位数“Median”、众数“Mode”、平均值 “Mean”以及自定义“Custom”为分界值。
赞成 不赞成 行总和
男性 fo11 =58 fo12 =42 R1=100 女性 fo21 =62 fo22 =18 R2=80 列总和 C1=120 C2=60 T=180
男性 女性 列总和
赞成
fo11 =58 Fe11 =66.7 fo21 =62 Fe21 =53.3 C1=120
不赞成
fo12 =42 Fe12 =33.3 fo22 =18 Fe22 =26.7 C2=60
• t检验和方差分析(F检验)都属于参数 检验。他们有一个基本条件,就是要求 数据必须是连续的。在心理和教育研究 中,我们还会用到离散数据。
类别数据的分析
• 类别数据的产生
– 原发性类别数据:当被测定的变量的本质是 名义性的属性, 例如性别数据
– 操作性类别数据:以人为操作的手段所获致 的分类性数据, 例如实验操作的分类结果
fei
30
30
30
df 2
2 0.05
(2)
5.99
2
2 0.05
(2)
接受零假设,即选择三种课程的学生数相等。
独立性检验
• 例2 为了解男女在公共场所禁烟上的态 度,随机调查100名男性和80名女性。男 性中有58人赞成禁烟,42人不赞成;而 女性中则有61人赞成,19人不赞成。那 么,男女在公共场所禁烟的问题所持态 度不同?
<= 650
2
.166667
.1
.341
> 650
10
.8
分析结果:Exact Sig.为.341,表明H0假设,即:产量低 于650公斤的地只占10%的结论可以接受。
单样本游程检验
一、游程检验概念 Runs游程:样本测量值(变量值取值)相同取值的 连续串。
变量值分布可能有两类最有规则情况:比如一班同学 的成绩全部在前面,而二班的全部在后面。也可能是两个 班成绩不分上下,名次上是一个班一个,名次交替出现。
行总和 R1=100
R2=80
T=180
2
( foij feij )2 (58 66.7)2 (42 33.3)2 (62 53.3)2 (18 26.7)2 7.61
ij
feij
66.7
33.3
53.3
26.7
df (行数-1() 列数-1) 1
“Quartiles” 四等分百分位数的计算。 缺失值“Missing Value”: “Exclude cases test by test”表示排除在做统计 分析的变量中含有缺失值的个案。
三、命令语句
NPAR TEST /CHISQUARE=检测变量 /EXPECTED=对应的期望频数 /MISSING ANALYSIS.
“Values”为指定各个项的频数。 检验变量取值范围“Expected Range”: “Get from data”为不限定。 “Use specied range”指定上下限。
“Exact”可以定义各种不同分布下的显著性检验, 使计算更精确:
“Asymptotic only”适合于渐进分布的大样本分 布。
例如:在某次考试结束后,对不同成绩进行统计的 结果:
分数段 0-60分
期望频数Ei 0
测量频数Qi 1
60-75分
4
6
75-85分
8
8
85-100分
4
3
按照公式:
χ2 (Qi Ei)2 Ei
经过查表可得到P
P>α 不显著 P<= α显著
H0假设:样本的测量频数Qi与期望频数Ei差异不显 著。
一旦卡方值大于某一个临界值,即可获得显著的
统计结论
2
f0 fe 2
fe
篮球 观察次数(fo) 39 期望次数(fe) 30
足球 28 30
排球 23 30
2 ( foi fei )2 (39 30)2 (28 30)2 (23 30)2 4.46
篮球 观察次数(fo) 39 期望次数(fe) 30
足球 28 30
排球 23 30
卡方检验的统计原理
• 卡方检验所检测的是样本观察次数﹙或百分比﹚ 与理论或总体次数﹙或百分比﹚的差异性。
• 理论或总体的分布状况,可用统计的期望值(理 论值)来体现
• 卡方的统计原理,是取观察值与期望值相比较。
卡方值越大,代表统计量与理论值的差异越大,
四、应用举例 某地区的人口消费结构在83年和90年的统计数字如下:
食品 衣物 住房 燃料 日用品 非商品支 出
83年 53 12.8 11.7 5.6 14.1 2.8 90年 44.2 10.8 15.1 4.7 16.2 9.0 建立一个数据文件:变量cost 为44个1、11个2、15个 3、16个5、9个6 检测变量:cost 期望值定义:53 13 12 6 14 3 分析结果:Asymp.sig=.010,所以85年的消费结构同 90年的消费结构差异显著。