当前位置:文档之家› 数据分析方法与技术-描述性方法统计实验报告讲解

数据分析方法与技术-描述性方法统计实验报告讲解

电子科技大学政治与公共管理学院本科教学实验报告(实验)课程名称:数据分析技术系列实验电子科技大学教务处制表电 子 科 技 大 学实 验 报 告学生姓名: 学 号:指导教师:一、实验室名称: 电子政务可视化实验室 二、实验项目名称:描述性统计方法 三、实验原理通过调查或观察,采集到样本以后,常用一些统计量描述这些数据的分布状态,并通过这种认识,对数据的总体特征进行总结和归纳。

数据的分布状态常通过数据的进行描写。

本实验主要对数据统计分析的最基础分析——描述性统计分析进行实验,主要包括集中趋势和离中趋势分析,其主要算法原理如下:1. 描述集中趋势的统计(1) 算术平均值(Mean):样本数据的总和除以样本数据的个数即是算术平均值。

∑∑==⨯=n i ini iiff XX 11(2) 中位数(Median ,Me)首先将样本数据(假设有n 个数)按升序或降序排列,如果 n 为奇数,则数列中间的数值为中位数;如果n 为偶数,则中位数为其中两数值的均值。

(3) 众数(Mode ,Mo)样本数据中出现频数(次数)最多的那个数称为众数。

众数不易确定,与中位数一样,它不受极值影响。

但有时会出现两个甚至多个众数,有时又没有众数。

所以,众数的使用受到严格限制。

(4) 几何平均数(Geometric Mean)假定银行每年本利(本金加利率)为 X 1 有 f 1 年,年本利为 X 2 有f 2 年,银行年本利为X 3 有 f 3 年,⋯ ,年本利为X n 有 f n 年,则n 年银行平均本利为G ,银行平均年利率G -1。

∑=⨯⨯⨯⨯=∏=+++niiin n f ni f if f f f nf f f XX X X X G 1)(32121321(5) 四分位数(Quartiles)最低数与中位数之间的中位数是25分位数,原中位数与最高数之间的中位数是75分位数。

类似集中趋势的度量还有十分位数和百分位数。

2. 描述离中趋势的统计量 (1) 极差(Range)是样本数据中最大值与最小值的差值。

极值舍弃了最大值与最小值之间的其他数据信息,仅仅依靠端点值来确定,因而稳定性差。

(2) 平均差(Average Difference)指各样本数据与均值间差异绝对值的均值,也称为平均绝对差。

(3) n 个数据的方差(Variance)2σ 定义如下式,其中X 为这 n 个数的均值。

∑∑==-=ni ini ii ff X X1122)(σ(4) 标准差 (Standard Deviation, Std Dev)是方差的算术平方根 σ 。

标准差是变量与算术平均数的平均离差,也是最常用的反映数据离中趋势的统计量。

但是,在抽样调查中总体标准差往往未知,需要用样本标准差代替总体标准差,总体方差的无偏估计量应该为原方差乘以修正因子 (n / n -1),并由此得到无偏标准差的估计量。

四、实验目的掌握常用的描述性统计方法的原理及操作,包括:算术平均值、中位数、众数、几何平均数、调和平均数、极差、平均差、方差、标准差等。

五、实验内容及步骤使用“Analyze ” 莱单中的“Descriptive Statistics ”功能进行描述性统计分析。

1.频数分析“Frequencies ” 过程通过单个数据的频数分析(Frequencies )来达到整理数据的目的,利用该过程,得到一系列描述数据分布状况的统计量。

单击“Frequencies ”命令则可打开相应对话框(如图示),对对话框中各选项进行设置。

图 2(1)对话框左侧的源变量名列表框中,给出了当前数据文件中所有变量的变量名。

(2)“Variable(s)”列表框,在变量名列表框中单击变量名以后,单击对话框中间的右箭头按钮,将变量名移到该列表框中。

选定变量名以后,将对选定变量的数据进行频数分析。

(3)选择“Display frequency tables”选项,将在浏览器中显示频数分布表,否则只显示直方图,不显示频数表。

(4)若单击“Statistics”按钮,则打开统计量选择对话框,如图示,该对话框中各选项的意义如下。

图 3①“Percentile Values”选项区,可计算并显示如下内容: 四分位数(“Quartiles”)、等间隔n 分位数(“Cut points for”后文本框中输入数值为n ) 和不等间隔“Percentile(s)”分位数p%、q% 。

“Percentile(s)”选项后面的文本框中依次先后输人数值p、q,单击“Add”按钮,显示在文本框中,利用“Change”和“Remove”按钮,可以对文本框中列表进行修改。

②“Central Tendency”将显示样本的集中趋势,如计算并显示样本数据的均值“Mean”,数据的中位值“Median”,数据的众数“Mode”,数据的累加和“sum”。

③“Values are group midpoints”选项,表示假设数据已经分组,数据取值为组中值,选择此项,可计算百分位数统计和数据的中位数。

④“Dispersion”选项区将计算并显示数据的离中趋势,如计算并显示标准差“std. Deviation”,方差“Variance”,极差“Range”,最小值“Minimum”,最大值“Maximum”,和标准误(平均值的标准误差)“S.E. mean”。

⑤“Distribution”选项区设置描述数据样本分布的统计量。

如显示样本数据的偏度“Skewness”和偏度的标准误差,样本数据的峰度“Kurtosis”和峰度的标淮误差。

(5)“Charts”按钮是图形选择对话框,如图所示,各选项的意义如下。

图 4①“Chart Type”确定输出图形的类型。

不生成和显示图形选择“None”单选项(默认选项);生成和显示条形图(横坐标非等距坐标)选择“Bar charts”;生成和显示饼图选择“Pie charts”;生成和显示直方图(横坐标为等距坐标)则选择“Histograms”。

若选择“Histograms”后,“Show normaI curve”选项为可用,选择此项后,在生成和输出直方图时添加正态分布曲线。

②若选择“Bar charts ”或“Pie charts”单选项,对话框底部“Chart Values”选项区内的选项为可用,该选顼要求确定生成图形时所用的数据变量。

若用不同取值的样本数作为分类变量的度量,选“Frequencies”(默认项);若用不同取值对应样本数占总样本的百分数作为分类变量度量,选用“Percentages”选项。

(6)“Format”是频数分析表的输出格式选择对话框,如图所示,各选项的意义如下。

图 5①“Order by”选项区设置表中数据的排列、输出顺序。

若按照变量值的大小做升序排列(默认选项),选“Ascending values”单选项;若按照变量值的大小做降序排列,选“Descnding values”单选项;按照变量值出现的频数做升序排列、输出,选“Λ∞cIldlng cllun‘”单选项;按照变量值出现的频数做降序排列、输出,选“D岱ccnding counts”单选项。

②“Multiple Variables”选项区是多变量的表格显示格式。

若选择“Compare Variables”(默认选项),将对应于各变量的统计量显示在一张单独的表中。

若选择“Organize output by Variables”单选项,将对应于各变量的统计量分别列表显示。

③“Suppress tables with many categories”选项是限定频数表输出的范围,若选择此项,在后面的文本框中输入数值n ,即输出数据的组数不得大于窗口中输入的数值。

默认时该数值为10 。

2. 描述性统计分析在“Analyze”子菜单中单击“Descriptives Statistics”命令(如图示),打开“Descriptives ”对话框(如图55所示),可见如下选择项。

图 6图7①从左边的源变量中选择合适变量,用箭头按钮将其移到“Variables”选项框。

对选项框中所有被选中变量数据的分布特征进行描述。

②“Save standardized values as variables”选项,是将被选中变量的数据进行标准化处理(σXX ZX ii -=),变量名为原变量名前添加字母Z。

新生成的变量和数据保存到当前数据文件内,并显示在数据编辑器最后一列。

③若单击“Options”按钮打开对话框,如右图所示,各选项意义如下。

“Mean”选项、“Sum”选项、“Dispersion”选项区内的选项和“Distribution”选项区内选项意义与前面频数分析中“Statistics”对话框的内容相同。

“Display Order”选项区,用来设置描述表格中数据的显示顺序。

“Variable list”单选项为默认选项,是按照数据文件中变量排列的先后顺序显示表格中的描述统计量;“Alphabetic”单选项,按照变量名的字母顺序显示描述统计量;“Ascending meansⅡ单选项,是按照数据均值的升序显示描述统计量;“DescendiⅡgmeans”单选项,则按照数据均值的降序显示描述统计量。

六、实验器材(设备、元器件):计算机、打印机、硒鼓、碳粉、纸张八、实验数据及结果分析1. 频数分析结果在数据编辑器中打开数据文件“Employee.sav”,在“Frequencies”对话框中的“Variables"选项框中输人“jobcat”变量名,单击“Statistics”按钮,打开对话框,选择全部选项,“Percentile Values”选项区中选择“Percentile(s)”,并在后面文本框中输人数值10,20,25,30,40,50,60,70,75,80,85,90,95,其他对话框中的选项按默认情况设置。

设置完毕后,在“Frequencies”对话框中单击“oK”按钮,生成表格如表所示。

该表为变量“jobcat”数据的频数分析表和数据统计量描述表。

StatisticsEmployment CategoryN Valid 474Missing 0Mean 1.41Std. Error of Mean .036Median 1.00Mode 1Std. Deviation .773Variance .598Skewness 1.456Std. Error of Skewness .112Kurtosis .268Std. Error of Kurtosis .224Range 2Minimum 1Maximum 3Sum 669Percentiles 10 1.0020 1.0025 1.0030 1.0040 1.0050 1.0060 1.0070 1.0075 1.0080 2.0085 3.0090 3.0095 3.00Employment Category2. 描述性统计分析结果打开数据文件“Employee.sav”,在“Descriptive”对话框中的“Variables"选项框中输入变量名“salary”,选择“Options”对话框中的所有选项,单击“OK”按钮,生成九、实验结论SPSS在数据分析方面提供了强大的能力,可以快速地得到丰富的描述性统计分析结果供数据分析人员选用,重点在于理解各输出参量的含义及其与数据分析对象属性之间的关系。

相关主题