《数据统计分析》实验指导书彭志捌编写适用专业:信息与计算科学安徽建筑大学数理系(部)2012年10月前言本指导手册作为《数据统计分析》课程中部分的实验内容,因而对涉及的多元统计知识一般只做简要的概括而不作详细解释。
也不是SPSS 的使用说明书,并假设使用者已经掌握了基本的Windows和MS Office的操作知识,对基础的操作以及超出统计学原理范围的功能一般未作介绍。
涵盖了大部分常用的统计方法,包括了基本的数据处理技巧、描述统计、统计图和统计表、方差分析、回归分析、主成分分析、因子分析、判别分析、聚类分析等方面的内容。
为了使学生更好地理解和深刻地掌握这些知识,需要学生上机实际操作SPSS应用统计软件。
实验环境使用SPSS 版本为18.0系统或以上。
实验一描述性统计分析一、实验目的与要求统计分析的目的在于研究总体特征。
但是,由于各种各样的原因,我们能够得到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过对样本的研究,我们才能对总体的实际情况作出可能的推断。
因此描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。
通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。
本本实验旨在于:引到学生利用正确的统计方法对数据进行适当的整理和显示,描述并探索出数据内在的数量规律性,掌握统计思想,培养学生学习统计学的兴趣,为继续学习推断统计方法及应用各种统计方法解决实际问题打下必要而坚实的基础。
二、实验原理描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,通常用一些描述统计量来进行分析。
集中趋势的特征值:算术平均数、调和平均数、几何平均数、众数、中位数等。
其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。
离散趋势的特征值:全距、内距、平均差、方差、标准差、标准误、离散系数等。
其中标准差、方差适用于正态分布资料,标准误实际上反映了样本均数的波动程度。
分布特征值:偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。
三、实验内容与步骤下面给出的一个例题是来自SPSS软件自带的数据文件“Employee.data”,该文件包含某公司员工的工资、工龄、职业等变量,我们将利用此例题给出相关的描述统计说明,本例中,我们将以员工的当前工资为例,计算该公司员工当前工资的一些描述统计量,如均值、频数、方差等描述统计量的计算。
1.频数分析(Frequencies)1基本统计分析往往从频数分析开始。
通过频数分析能够了解变量取值的状况,1频数分析多适用于离散变量,其功能是描述离散变量的分布特征。
对把握数据的分布特征是非常有用的。
比如,在某项调查中,想要知道被调查者的性别分布状况。
频数分析的第一个基本任务是编制频数分布表。
SPSS中的频数分布表包括的内容有:(1)频数(Frequency)即变量值落在某个区间中的次数。
(2)百分比(Percent)即各频数占总样本数的百分比。
(3)有效百分比(Valid Percent)即各频数占有效样本数的百分比。
这里有效样本数=总样本-缺失样本数。
(4)累计百分比(Cumulative Percent)即各百分比逐级累加起来的结果。
最终取值为百分之百。
频数分析的第二个基本任务是绘制统计图。
统计图是一种最为直接的数据刻画方式,能够非常清晰直观地展示变量的取值状况。
频数分析中常用的统计图包括:条形图,饼图,直方图等。
频数分析的应用步骤在SPSS中的频数分析的实现步骤如下:选择菜单“【文件】—>【打开】—>【数据】”在对话框中找到需要分析的数据文件“SPSS/Employee data”,然后选择“打开”。
选择菜单“【分析】—>【描述统计】—>【频率】”。
如图1.1所示询问是否输出频数分布表图1.1 Frequencies对话框确定所要分析的变量,例如年龄在变量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对话框,如下图1.2所示,选择统计输出选项。
图1.2 统计量子对话框图1.3 Charts子对话框结果输出与分析点击Frequencies 对话框中的“OK”按钮,即得到下面的结果。
表1.4 描述性统计量Statistics表1.4中给出了总样本量(N),其中变量Gender的有效个数(Valid)为474个、缺失值(missing)为0。
表1.5中,Frequency是频数,Percent是按总样本量为分母计算的百分比,Valid Percent是以有效样本量为分母计算的百分比,Cumulative Percent是累计百分比。
图1.5变量Gender的条形图,图1.6变量Gender的饼图。
图1.5 变量gender的条形图图1.6 变量gender的饼图2.描述统计(Descriptives)2SPSS的【描述】命令专门用于计算各种描述统计性统计量。
本节利用某年国内上市公司的财务数据来介绍描述统计量在SPSS中的计算方法。
具体操作步骤如下:2描述统计主要对定距型或定比型数据的分布特征作具体分析。
选择菜单【分析】→【描述统计】→【描述】,如图1.7所示图1.7 描述对话框将待分析的变量移入Variables列表框,例如将每股收益率、净资产收益率、资产负债率等2个变量进行描述性统计,以观察上市公司股权集中度情况和负债比率的高低。
Save standardized values as variables,对所选择的每个变量进行标准化处理,产生相应的Z分值,作为新变量保存在数据窗口中。
其变量名为相应变量名前加前缀z。
标准化计算公式:s xxi Zi -=单击【选项】按钮,如图1.8 所示,选择需要计算的描述统计量。
各描述统计量同Frequencies命令中的Statistics子对话框中大部分相同,这里不再重复。
图1.8 选项子对话框在主对话框中单击ok执行操作。
结果输出与分析在结果输出窗口中给出了所选变量的相应描述统计,如表1.6所示。
从表中可以看到,我国上市公司前两大股东持股比例之比平均高达102.9,说明“一股独大”的现象比较严重;前五大股东持股比例之和平均为51.8%,资产负债率平均为46.78%。
另外,从偏态和峰度指标看出,前两大股东持股比例之比的分布呈现比较明显的右偏,而且比较尖峭。
为了验证这一结论,可以利用Frequencies命令画出变量z的直方图,如图1.9表1.6 描述统计量表Descriptive Statistics图1.9 变量Z的直方图3.探索分析(Explore)调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。
它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,对数据分析更进一步。
探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。
一般以图形方式输出,直观帮助研究者确定奇异值、影响点、还可以进行假设检验,以及确定研究者要使用的某种统计方式是否合适。
在打开的数据文件上,选择如下命令:选择菜单“【分析】—>【描述统计】—>【探索】”,打开对话框。
因变量列表;待分析的变量名称,例如将每股收益率作为研究变量。
因子列表:从源变量框中选择一个或多个变量进入因子列表,分组变量可以将数据按照该观察值进行分组分析。
标准个案:在源变量表中指定一个变量作为观察值的标识变量。
在输出栏中,选择两者都,表示输出图形及描述统计量。
选择【统计量】按钮,选择想要计算的描述统计量。
如图所示对所要计算的变量的频数分布及其统计量值作图打开“Plots对话框”,出现如下图。
结果的输出与说明(1)Case Processing Summary 表在Case Processing Summary 表中可以看出female 有216个个体,Male258个个体,均无缺失值。
(2)Descriptives 表DescriptivesGender Statistic Std. Error Current Salary Female Mean $26,031.92 $514.25895% Confidence Interval for Mean Lower Bound $25,018.29 Upper Bound$27,045.555% Trimmed Mean $25,248.30Median $24,300.00Variance 57123688.268Std. Deviation $7,558.021Minimum $15,750Maximum $58,125Range $42,375 Interquartile Range $7,013Skewness 1.863 .166 Kurtosis 4.641 .330Male Mean$41,441.78 $1,213.96895% Confidence Interval for Mean Lower Bound $39,051.19 Upper Bound$43,832.375% Trimmed Mean $39,445.87Median $32,850.00Variance 380219336.303Std. Deviation $19,499.214Minimum $19,650Maximum $135,000Range $115,350Interquartile Range $22,675Skewness 1.639 .152Kurtosis 2.780 .302 (3)职位员工薪水直方图显示(4)茎叶图描述茎叶图自左向右可以分为3 大部分:频数(Frequency)、茎(Stem)和叶(Leaf)。
茎表示数值的整数部分,叶表示数值的小数部分。
每行的茎和每个叶组成的数字相加再乘以茎宽(Stem Width),即茎叶所表示的实际数值的近似值。
Current Salary Stem-and-Leaf Plot forgender= FemaleFrequency Stem & Leaf2.00 1 . 5516.00 1 . 666666666677777714.00 1 . 8888999999999931.00 2 . 000000000000011111111111111111135.00 2 . 2222222222222222222223333333333333338.00 2 . 4444444444444444444444444455555555555522.00 2 . 666666666667777777777717.00 2 . 888888999999999997.00 3 . 00011118.00 3 . 222333338.00 3 . 444445555.00 3 . 667772.00 3 . 8811.00 Extremes (>=40800)Stem width: 10000Each leaf: 1 case(s)(5)箱图图中灰色区域的方箱为箱图的主体,上中下3 条线分别表示变量值的第75、50、25百分位数,因此变量的50%观察值落在这一区域中。