当前位置：文档之家› SPSS数据分析教程-第4章-概率论初步

SPSS数据分析教程-第4章-概率论初步

Sample80.sps
INPUT PROGRAM. VECTOR X(80). LOOP #I = 1 TO 50. LOOP #J=1 TO 80. COMPUTE X(#J)=RV.NORMAL(50, 10). END LOOP. END CASE. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE.
本章学习目标

用仿真方法从总体中抽取随机样本：生成服从某种分布的随机数；得到观测值的理论分布、经验分布；理解抽样分布的形状；掌握如何求置信区间；学习如何从数据集中选择符合条件的个案。
4.1 离散型随机变量的仿真
4.1.1 均匀分布的随机数

假设我们有一个正方形，它被均匀的分为4个相同大小的小正方形。现在从正方形的中心上方随机地投掷一颗玉米粒1 000次，假设每次投掷的玉米粒都等可能的落在4 个小正方形中的一个之中。问题是：落在1号、2号、3号和4 号正方形中的情况如何呢？
1
2
4
3
模拟投掷的过程（1）

第1步：设置随机数种子选择【转换】→【随机数字生成器】，勾选“设置起点”，并在“固定值”下的 “值”中输入一个用户给定的数值。第2步：生成均匀分布的随机数,等可能的产生1，2，3和4这四个数共计1 000个. 选择【转换】→【计算变量】，在“目标变量”框中输入变量名 “Spinn”，在“数字表达式”框中输入 TRUNC(RV.UNIFORM(1,5))，然后单击【确定】按钮.

由上面（1）式计算出的为分布函数的值；如果是离散随机变量，（2）式给出的为概率值，它是随机变量X取各个离散值0，1， 2，…，10的概率。函数CDF.BINOM(x,10,0.25)用于计算n=10， p=0.25的二项分布下x的分布函数值或者称为累计概率。
二项分布的概率分布图
4.2.2 连续分布的随机变量—正态分布

CDF.BINOM(x,10,0.25)，该函数用于计算出x所对应的累计概率，即：
P( X ≤ x)

i 0
x
n i n i p (1 p ) i
（1）
这里[x]表示不大于的最大整数。。 PDF.BINOM(x,10,0.25)计算而X取某个特定值i的概率为： n i n i P( X i ) p (1 p ) i （ 2）

SPSS的CDF函数族给出的就是分布函数的值。 CDF.NORMAL(x,0,1)是给出均值为0，标准差为1的正态分布变量x的累计概率分布函数值。 PDF.NORMAL(x,0,1)是给出均值为0，标准差为1的正态分布变量x的密度函数值。

可以画出累计概率分布函数的线图

可以画出正态分布变量x 的密度函数的线图
SPSS数据分析教程
—《SPSS数据分析教程》
第4章概率论初步
目录

4.1 离散型随机变量的仿真

4.1.1 均匀分布的随机数 4.1.2 正态分布的随机数 4.2.1 二项分布的分布函数和概率 4.2.2 连续分布的随机变量—正态分布

4.2 理论分布

4.3 经验分布 4.4 抽样分布 4.5 置信区间

方法1：选择【图形】→【图表构建程序】,选择 “条” 方法2：选择【分析】→【预测】→【序列图】方法3：选择【图形】→【旧对话框】→【线图】
该样本数据的确是从正态分布的总体中随机抽取的呢？

绘制随机数的带有正态曲线的直方图
4.2 理论分布

除4.1中的均匀分布和正态分布外，常见的分布还有二项分布、负二项分布、泊松分布、指数分布、t分布等。SPSS软件中提供了这些常见分布的分布函数、概率分布函数和概率密度函数。 SPSS的PDF与非中心PDF函数族提供了相关分布的概率分布函数或者概率密度函数， CDF与非中心CDF函数族提供了相关分布的累积概率分布函数（或简称分布函数）。而逆DF函数族则给出了相应分布的分位数。

连续型随机变量的任何两个可能取值之间都有无限多个可能的取值，因此所有可能取值是不能列举的，也不能给随机变量的某可能取值赋给一个唯一的概率值。一般考虑连续型随机变量的分布函数（即累积概率函数（Probability Cumulative Function，CDF）和密度函数（Probabilitty Density Function，PDF）。
谢谢！
相对频率直方图
4.4 抽样分布

由于样本选择的随机性，样本统计量也是随机变量，不同的样本，样本统计量的取值也可能不同。每个随机变量都有其分布性质，例如描述性统计量均值、方差、分位数等。样本统计量的分布称为抽样分布。

模拟从同一个分布已知的总体中随机抽取若干不同的样本，然后观察样本统计量的分布情况。从一个均值为50、标准差为10的正态总体中随机抽取80个容量为50的ቤተ መጻሕፍቲ ባይዱ本。
模拟投掷的过程（2）

第3步：然后分析这四个数出现的次数和相对频率。选择【分析】→【描述统计】→【频率】
随机数分析（1）
Spinn 频 1.00 2.00 有效 3.00 4.00 合计 237 259 264 240 1 000 率百分比 23.7 25.9 26.4 24.0 100.0 有效百分比 23.7 25.9 26.4 24.0 100.0 累积百分比 23.7 49.6 76.0 100.0
比较不同参数的正态分布函数
4.3 经验分布

把观测到的样本数据的相对频率分布称为经验分布，根据概率的频率定义，当样本量足够大时，频率稳定到概率。实际问题中样本数据所服从的分布常常是未知的，我们只能通过样本数据的经验分布来了解数据的分布情况。 SPSS描述性统计菜单的的频率过程中把频率称为百分比，而把结果出现的次数称为频率。
4.2.1 二项分布的分布函数和概率

如果随机试验只有两个可能的结果，设该试验中成功的概率为p。如果将该试验独立地重复进行次n次，这一串重复的独立试验称为重n贝努力试验。如果用X表示在这次试验中成功的次数，则随机变量X服从二项分布，其分布函数为 n
i P( X i ) p (1 p )n i , i 0,1, 2,..., n i
随机数分析（2）
4.1.2 正态分布的随机数

正态分布的随机变量是连续型随机变量，它的可能取值是所有实数。数据分析的许多模型和理论都要求数据服从正态分布，因此正态分布的随机数在模拟中有广泛的应用。
一、生成正态分布的随机数

第1步：设置随机数种子为123456 第2步：选择【转换】→【计算变量】，应用函数RV.Normal(0,1)。
4.5 置信区间

SPSS的许多过程都会给出相关统计量的置信区间。例如在【描述】菜单中，它会给出均值的置信区间；在回归分析中，它会给出拟合值和预测值的置信区间，也可以给出所估计的回归系数的置信区间。
描述统计量均值均值 95% 置信区间 5% 修整均值中值方差当前薪金标准差极小值极大值范围四分位距偏度峰度下限上限 $34,419.57 $32,878.40 $35,960.73 $32,455.19 $28,875.00 291 578 214.453 $17,075.661 $15,750 $135,000 $119,250 $13,163 2.125 5.378 .112 .224 标准误 $784.311
SET SEED=123456. COMPUTE Rnorm01= RV.NORM(0,1). SAVE OUTFILE='D:\SPSSIntro\data\Sim_norm.sav' /COMPRESSED. EXECUTE
生成随机数示意图
二、分析这些正态随机数的性质

绘制随机数的序列图，有几种方法
频率

数据GSS2004.sav，它记录了美国2004年社会调查的数据，有调查对象的年龄、性别、受教育年限、最高学历、子女个数等。这里我们考察调查对象子女个数的分布情况。
频率表

选择【分析】→【频率】，把变量 “CHILDS”选到右侧的“变量（V）”框中。
NUMBER OF CHILDREN 频率 0 1 2 3 4 有效 5 6 7 EIGHT OR MORE 合计缺失合计 DK NA 767 474 730 459 221 79 39 18 21 2 808 4 2 812 百分比 27.3 16.9 26.0 16.3 7.9 2.8 1.4 .6 .7 99.9 .1 100.0 有效百分比 27.3 16.9 26.0 16.3 7.9 2.8 1.4 .6 .7 100.0 累积百分比 27.3 44.2 70.2 86.5 94.4 97.2 98.6 99.3 100.0

e商务文档

SPSS数据分析教程-第4章-概率论初步

相关文档推荐：