当前位置:
文档之家› SPSS软件入门与基础统计知识2
SPSS软件入门与基础统计知识2
1 f ( x) e 2
其中
为
( x )2 2 2
为总体均值, 2 为总体方差,则称随机
2
变量x服从正态分布(normal distribution), 记
x ~ N (, )。
正态曲线关于直线x=
对称,且在x= 时位于最高点;
正态分布函数的基本性质:
当
Z X
一般正态分布 s
标准正态分布 =1
m
x
Z
当我考试考了76分的时候:
原始分数大于平均数:z符号为“+” 原始分数小于平均数:z符号为“–” Z分数含义:原始分数与均值乊间相差几个标准差
1
0
1
2
Z分数=(76-82)/12=-0.5
Z分数的运用:
• Z分数是一种类型的标准分
一定时,曲线的形状由 确定. 越大,曲线越
“矮胖”,表示总体的分布越分散; 越小,曲线越 “瘦高”,表示总体的分布越集中.
f(x) A
B
C
x
和 对正态曲线的影响
标准正态分布– Z分布
任何一个一般的正态分布,可通过下面的线性变换转化 为标准正态分布
X Z ~ N (0,1)
意度均分为4.1分/5分。
• 1代表很不满意,2代表不满意,3代表中立,4代表满意,5代表非常满意 • 提问: 我想知道,2013年武汉市近城区教师对电子白板使用是否满意?
思考一: 怎么来表示教师是否满意? 当教师的均分大于或者等于4的时候,我们认为教师是满意的 思考二: 我们已经得到教师满意度均分4.1分了, 为什么我们不能直接下结论说2013年近城区教师对电子白板使用是满意的? 1,我们测得的满意度均分是样本的满意度,我们想求的是总体满意度。 2,如果教师样本均分是3.9,我们可以断言教师离满意是显著性不同的吗? 是真的不同,还是基于抽样的随机性?
5、回答问题(统计结论→实际结论)
假设检验的过程
提出假设
我认为平均是4, 教师满意电子白 板
假设检验
作出决策
拒绝或者无 法拒绝原假 设 别无选择!
总体
抽取随机样本
均值 = 4.1 x
假设检验
2,建立检验假设,确定检验水准(选用单侧或者双侧检验)
• H0原假设(不存在变化或差异的命题):H0:μ= μ0 • H1备择假设(有统计意义上明显差异):H1:μ≠ μ0
0.4 0.3 0.2
3, 随着自由度n的增加,t分布的密度函数越 接近正态分布密度函数 4, 当n>=30, t分布和标准正态分布接近
-3 -2 -1
n = 1 0.1 n=20
1 2 3
t 分布的图形(红色的是标准正态分布)
单样本T检验例子:
• 2013年武汉近城区教师中随机抽取100名教师进行电子白板问卷调查,满
SPSS软件应用第二讲
版权所有,使用者请注明出处,请勿修改
基本学习内容:
Z分布----正态分布
利用SPSS计算Z分数; 例如:求某学生某学科成绩在总 体学生成绩中的相对位置,比较某个学生的不同学科成绩
T分布----学生分布 利用SPSS进行T检验; 例如:求某个样本平均值和某个 已知值是否相等,是否有显著差异? 1, 单样本t检验 2,独立样本t检验 3,依存样本t检验
• 探索法:
1, 并不能创造群(group); 2, 不能得到某些统计量:中数,饼状图,条状 图,有正态曲线的直方图等
基本概率论知识:
• 为了确定抛掷一枚硬币发生正面朝上这个事件的概率 ,历史上
有人作过成千上万次抛掷硬币的试验。在表1中列出了他们的试 验记录:
• 从表1可看出,随着实验次数的增多,正面朝上这个事件发生的
• 虽然数学和语文分数一样,但对于在总体中的相对位置而
言,你的数学成绩更好。
总结:
• 一个原始分数80分也好,70,60分也好,并
没有太多意义。除非知道分数对应的平均分。
• 知道原始分数和平均分的分值相差25分,20
分也好,在对于总体中的相对位置而言没有 意义。只有当我们知道SD的分数,利用z分 数=(x-M)/SD,比较z分数,我们才可以比 较两个不同分数的高低。
分类比较:探索法 (explore)
分析 > 描述统计 > 探索 1,比较男孩和女孩的高考语文成绩: 因子(factor):性别 因变量列表(dependent):高考语文
• •
•
•
2,比较本地和外地学生的: 高考英语成绩 因子:学生类型 因变量列表:高考英语
两种样本分类比较:
• 拆分法:
1,可以计算所有的不同群体的统计量 2,创造出单独的群
假设检验—术语说明 1、第一类错误(拒真)--- H0为真时却被拒绝。 α风险---出现第一类错误的机率或最大风险。P{拒绝H0| H0为真} α称为显著水平,允许犯第一类错误的最大概率为α,即1-置信度 关于有无显著性差异的判断是在显著水平α之下做出的 2、第二类错误(取伪) --- H0为伪时没有被拒绝。 β风险---出现第二类错误的机率或最大风险。P{接受H0| H1不真} 1- β是否定原假设错误的概率,这是检验的功效POWER。
Z分数在SPSS中的应用
• 利用样本平均值x-bar和标准差SD计算z分数: •
分析> 描述统计 > 描述
•
利用两种方式 求高考语文分数的z分数
• 利用已知的总体平均值和SD:
• 转换
> 计算变量
x z SD
Z分布: 在一个已知的正态分布总体中,抽取若干样本,其均数分布 依然服从正态分布,即N(μ,σ)。
• 你在班上参加数学考试和语文考试
数学考试:你的分数是80分,班上的平均分是65分,SD=15 语文考试:你的分数是80分,班上平均分是60分,SD=25 这两个测试的z分数是多少? 1, 数学z分数是(80-65)/ 15=1 x z 2, 语文z分数是(80-60)/ 25=0.8
SD
在SPSS中我们进 行假设验证,P- value是我们判断 的基准
- 适用 10%: 损失不深刻时, 第二种错误引
起的损失大时。
单样本T检验
• 目标: • 确定样本均值是否显著不同于某个已知或估计的中体均值;
该样本对应的总体是未知的。 问题: 假设随机抽样了40个某年武汉市学生的高考语文成绩。 我想知道: 武汉市该年学生的高考语文成绩比分数110分低吗?
对于检验假设,需注意:
1,检验假设是针对总体而言,不是针对样本
2,H0和H1是相互联系,对立的假设,两者缺一不可
• 3,H1的内容直接反映了检验的单双侧性;
例如:H1:μ≠ μ0 并没有考虑方向,为双侧检验 H1:μ>μ0 或者μ<μ0,不仅考虑了差异,还考
虑了差异的方向,此为单侧检验
**单双侧检验的确定,应根据专业知识,以及所想解决的 问题来确定。一般认为双侧检验保守稳妥。
P-value是拒绝原假设时出错的概率,所以当P值很小时我 们就可以拒绝原假设。 考虑α为拒绝原假设之关键值,故一般P值大于α,则无法 拒绝原假设,相反,P值小于α,则拒绝原假设
P-value为多少是好呢?
- 一般 P-value<0.05,就拒绝原假设H0
总得适用 5%的规则吗? - 不,根据情况可用 1%或 10% - 适用 1%: 第一种错误引起的损失大时
可能的判断错误(风险):
假设检验—术语说明
实际情形 H0正确 正确判断 H0不正确 第二种错误 取伪错误:概率β 正确判断
根据 样本 数据 判断
H0正确 H0不正确
第一种错误 拒真错误:概率α
●对于一定样本容量n,要使α小,必导致β大;要使β小,必导致α大; ●要使α、β皆小,只有在样本量n很大场合才可达到,这在实际中并不可行, 折中方案是:控制α以制约β ,但不使α过小:常选=0.05(即置信度95%),
• 但在实际工作中,总体的σ往往是未知的。我们常用s作为 σ的估计值,因而引出概念t分布。
我们是用样本推算总体哦
总体的标准差σ未知,我们希望通 过样本来推算总体的特征哦
t分布的性质
1, t分布的密度函数曲线与标准正态分布N(0,1) 的密度函数相似
2, t(n)的蜜豆函数两侧尾部比N(0,1)尾部稍粗 t(n)的方差比N(0,1)稍大
单样本T检验
• 分析 > 比较均值 > 单样本T检验
• 填写原假设指定值110分
数据分析:
因为P值=0.03< 0.05, 因此拒绝原假设
当检验值=106:
你的心情又如何了?—_—
更多的信息来了。SD=3pts 你会求Z分数吗?
z score= (你的分数-平均分)/SD= (55-50)/3=1.67
如果是正态分布的话,意味着z=1.67, P(z)=0.9525.意味着95.25%的人比你考得差!
你现在的心情又如何? ^_^
总体中的相பைடு நூலகம்位置中比较不同分数
2、假设检验是根据样本提供的信息进行推断的,也就有犯错误的可能 原假设正确,我们拒绝了(也就是接受了备择假设)
犯该错误的概率用α表示,统计上把α称为假设检验中的显着性水平 (Significant level), 也就是决策中所面临的风险。 所以,显著性水平是指当原假设为正确时人们却把它拒绝了的概率或风险。 这个概率是由决策者确定的,通常取α=0.1、0.05、0.01。这表明,当 作出接受原假设的决定 时,其正确的可能性(概率)为90%、95%、99%。
生活中最常见的分布:正态分布
正态分布是一种很重要的连续型随机变量的概率分布:
现实生活中有许多变量是服从或近似服从正态分布的。 许多统计分析方法都是以正态分布为基础的。