当前位置:
文档之家› SPSS数据分析教程-第4章-概率论初步
SPSS数据分析教程-第4章-概率论初步
Sample80.sps
INPUT PROGRAM. VECTOR X(80). LOOP #I = 1 TO 50. LOOP #J=1 TO 80. COMPUTE X(#J)=RV.NORMAL(50, 10). END LOOP. END CASE. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE.
本章学习目标
用仿真方法从总体中抽取随机样本:生成 服从某种分布的随机数; 得到观测值的理论分布、经验分布; 理解抽样分布的形状; 掌握如何求置信区间; 学习如何从数据集中选择符合条件的个案。
4.1 离散型随机变量的仿真
4.1.1 均匀分布的随机数
假设我们有一个正方形,它被均 匀的分为4个相同大小的小正方形。 现在从正方形的中心上方随机地 投掷一颗玉米粒1 000次,假设每 次投掷的玉米粒都等可能的落在4 个小正方形中的一个之中。 问题是:落在1号、2号、3号和4 号正方形中的情况如何呢?
1
2
4
3
模拟投掷的过程 (1)
第1步:设置随机数种子 选择【转换】→【随机数字生成器】,勾 选“设置起点”,并在“固定值”下的 “值”中输入一个用户给定的数值。 第2步:生成均匀分布的随机数,等可能的 产生1,2,3和4这四个数共计1 000个. 选择【转换】→【计算变量】,在“目标 变量”框中输入变量名 “Spinn”,在“数 字表达式”框中输入 TRUNC(RV.UNIFORM(1,5)),然后单击【确 定】按钮.
由上面(1)式计算出的为分布函数的值; 如果是离散随机变量,(2)式给出的为概 率值,它是随机变量X取各个离散值0,1, 2,…,10的概率 。 函数CDF.BINOM(x,10,0.25)用于计算n=10, p=0.25的二项分布下x的分布函数值或者称 为累计概率。
二项分布的概率分布图
4.2.2 连续分布的随机变量—正态分 布
CDF.BINOM(x,10,0.25),该函数用于计算 出x所对应的累计概率,即:
P( X ≤ x)
i 0
x
n i n i p (1 p ) i
(1)
这里[x]表示不大于的最大整数。。 PDF.BINOM(x,10,0.25)计算而X取某个特定 值i的概率为: n i n i P( X i ) p (1 p ) i ( 2)
SPSS的CDF函数族给出的就是分布函数的值。 CDF.NORMAL(x,0,1)是给出均值为0,标准 差为1的正态分布变量x的累计概率分布函 数值。 PDF.NORMAL(x,0,1)是给出均值为0,标准 差为1的正态分布变量x的密度函数值。
可以画出累计概率分布 函数的线图
可以画出正态分布变量x 的密度函数的线图
SPSS数据分析教程
—《SPSS数据分析教程》
第4章 概率论初步
目录
4.1 离散型随机变量的仿真
4.1.1 均匀分布的随机数 4.1.2 正态分布的随机数 4.2.1 二项分布的分布函数和概率 4.2.2 连续分布的随机变量—正态分布
4.2 理论分布
4.3 经验分布 4.4 抽样分布 4.5 置信区间
方法1:选择【图形】→【图表构建程序】,选择 “条” 方法2:选择【分析】→【预测】→【序列图】 方法3:选择【图形】→【旧对话框】→【线图】
该样本数据的确是从正态分布的总体 中随机抽取的呢?
绘制随机数的带有正态 曲线的直方图
4.2 理 论 分 布
除4.1中的均匀分布和正态分布外,常见的 分布还有二项分布、负二项分布、泊松分 布、指数分布、t分布等。SPSS软件中提供 了这些常见分布的分布函数、概率分布函 数和概率密度函数。 SPSS的PDF与非中心PDF函数族提供了相关 分布的概率分布函数或者概率密度函数, CDF与非中心CDF函数族提供了相关分布的 累积概率分布函数(或简称分布函数)。 而逆DF函数族则给出了相应分布的分位数。
连续型随机变量的任何两个可能取值之间 都有无限多个可能的取值,因此所有可能 取值是不能列举的,也不能给随机变量的 某可能取值赋给一个唯一的概率值。 一般考虑连续型随机变量的分布函数(即 累积概率函数(Probability Cumulative Function,CDF)和密度函数(Probabilitty Density Function,PDF)。
谢谢!
相对频率直方图
4.4 抽 样 分 布
由于样本选择的随机性,样本统计量也是 随机变量,不同的样本,样本统计量的取 值也可能不同。 每个随机变量都有其分布性质,例如描述 性统计量均值、方差、分位数等。样本统 计量的分布称为抽样分布。
模拟从同一个分布已知的总体中随机抽取 若干不同的样本,然后观察样本统计量的 分布情况。 从一个均值为50、标准差为10的正态总体 中随机抽取80个容量为50的ቤተ መጻሕፍቲ ባይዱ本。
模拟投掷的过程 (2)
第3步:然后分析这四个数出现的次数和相 对频率。 选择【分析】→【描述统计】→【频率】
随机数分析(1)
Spinn 频 1.00 2.00 有效 3.00 4.00 合计 237 259 264 240 1 000 率 百 分 比 23.7 25.9 26.4 24.0 100.0 有效百分比 23.7 25.9 26.4 24.0 100.0 累积百分比 23.7 49.6 76.0 100.0
比较不同参数的正态分布函数
4.3 经 验 分 布
把观测到的样本数据的相对频率分布称为 经验分布,根据概率的频率定义,当样本 量足够大时,频率稳定到概率。实际问题 中样本数据所服从的分布常常是未知的, 我们只能通过样本数据的经验分布来了解 数据的分布情况。 SPSS描述性统计菜单的的频率过程中把频 率称为百分比,而把结果出现的次数称为 频率。
4.2.1 二项分布的分布函数和概 率
如果随机试验只有两个可能的结果,设该 试验中成功的概率为p。如果将该试验独立 地重复进行次n次,这一串重复的独立试验 称为重n贝努力试验。如果用X表示在这次 试验中成功的次数,则随机变量X服从二项 分布,其分布函数为 n
i P( X i ) p (1 p )n i , i 0,1, 2,..., n i
随机数分析(2)
4.1.2 正态分布的随机数
正态分布的随机变量是连续型随机变量, 它的可能取值是所有实数。数据分析的 许多模型和理论都要求数据服从正态分 布,因此正态分布的随机数在模拟中有 广泛的应用。
一、生成正态分布的随机数
第1步:设置随机数种子为123456 第2步:选择【转换】→【计算变量】, 应用函数RV.Normal(0,1)。
4.5 置 信 区 间
SPSS的许多过程都会给出相关统计量的置 信区间。例如在【描述】菜单中,它会给 出均值的置信区间;在回归分析中,它会 给出拟合值和预测值的置信区间,也可以 给出所估计的回归系数的置信区间。
描述 统 计 量 均值 均值 95% 置信区间 5% 修整均值 中值 方差 当前薪金 标准差 极小值 极大值 范围 四分位距 偏度 峰度 下限 上限 $34,419.57 $32,878.40 $35,960.73 $32,455.19 $28,875.00 291 578 214.453 $17,075.661 $15,750 $135,000 $119,250 $13,163 2.125 5.378 .112 .224 标 准 误 $784.311
SET SEED=123456. COMPUTE Rnorm01= RV.NORM(0,1). SAVE OUTFILE='D:\SPSSIntro\data\Sim_norm.sav' /COMPRESSED. EXECUTE
生成随机数示意图
二、分析这些正态随机数的性质
绘制随机数的序列图,有几种方法
频率
数据GSS2004.sav,它记录了美国2004年社 会调查的数据,有调查对象的年龄、性别、 受教育年限、最高学历、子女个数等。这 里我们考察调查对象子女个数的分布情况。
频率表
选择【分析】→【频率】,把变量 “CHILDS”选到右侧的“变量(V)”框中。
NUMBER OF CHILDREN 频率 0 1 2 3 4 有效 5 6 7 EIGHT OR MORE 合计 缺失 合计 DK NA 767 474 730 459 221 79 39 18 21 2 808 4 2 812 百分比 27.3 16.9 26.0 16.3 7.9 2.8 1.4 .6 .7 99.9 .1 100.0 有效百分 比 27.3 16.9 26.0 16.3 7.9 2.8 1.4 .6 .7 100.0 累积百 分比 27.3 44.2 70.2 86.5 94.4 97.2 98.6 99.3 100.0