当前位置:文档之家› 第二章统计数据的搜集与整理

第二章统计数据的搜集与整理

第二章统计数据的搜集与整理一、教学目的与要求通过本章的学习,了解统计数据的计量尺度和数据的类型,了解绝对数和相对数的意义及比例和比率的计算方法;了解各种统计调查方式的特点和适用场合;掌握统计调查方案设计的内容,了解数据预处理的意义;掌握统计数据的分组方法,能够对原始数据进行适当的分组并编制频数分布表,绘制频数分布的直方图和茎叶图。

二、教学重点1、统计调查方案设计2、统计数据的分组3、变量数列的编制三、教学难点1、抽样调查、重点调查与典型调查的比较2、调查方案的设计3、次数分布的概念4、变量数列的基本术语及编制四、教学基本内容第一节数据的计量与类型一、数据的计量尺度(一)定类尺度按事物的某种属性对其进行平行的分类或分组。

(只能测度事物之间的类别差,其他差别无法得知)例:按照性别将人口分为男、女两类。

(二)定序尺度又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。

它不仅可以测度类别差,还可以测度次序差。

(不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算)例:考试成绩可分为优、良、中、及格、不及格。

(三)定距尺度又称间隔尺度,是对事物类别或次序之间距离的测度。

该尺度通常使用自然或物理单位作为计量尺度。

例:考试成绩80分与90分之间相差10分。

定距数据可以进行加、减运算,不能进行乘、除运算。

其原因为定距尺度中没有绝对零点(定距尺度中的“0”表示水平,不表示没有)。

(四)定比尺度又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,不存在)。

因此,不仅可以加减运算,还可以乘除运算。

例如,甲工资为600元,乙工资为1200元,则乙的工资为甲的2倍。

二、数据的类型统计数据大体上分为两种类型:定性的数据和定量的数据。

定性数据也称品质数据,它说明的是事物的品质特征,是不能用数值表示的,这类数据由定类尺度和定序尺度计量形成。

定量数据也称数量数据,它说明的是事物的数量特征,是能够用数值表示的,这类数据由定距尺度和定比尺度计量形成。

说明现象某种特征的概念称为变量,变量的具体表现称为变量值。

变量可分为连续型变量和离散型变量。

离散变量只能取有限个数,而且其取值都以整位数断开,如企业个数、职工人数等;连续变量可以取无穷个数值,其取值是连续不断的,不能一一列举,如零件尺寸、年龄、温度等。

三、统计数据的表现形式数量型统计数据通常有两种基本的表现形式,即绝对数与相对数。

(一)总量指标(绝对数)1、概念:反映客观现象总规模、总水平的指标。

2、种类按反映现象总体内容的不同,可分为:总体单位总量:反映总体所有单位总数的指标。

总体标志总量:反映总体中各单位标志值总和的指标。

按指标反映的时间状况不同时期指标:反映现象在一段时期发展变化的总量指标。

时点指标:反映现象在某个时点所达总量的指标。

(二)相对指标1、概念:两个相互联系的指标数值对比的比值(相对水平)2、作用:用一个抽象化了的数值来反映两个有联系的事物之间的数量关系3、种类计划完成程度相对数、结构相对数、比例相对数、比较相对数、强度相对数、动态相对数第二节统计数据的搜集一、统计数据的直接来源直接来源:专门组织的调查、科学试验;(一)统计调查方式1、普查专门组织的一次性的全面调查。

特点:(1)、一次性调查;(2)、全面性调查;(3)、是有关国情、国力的调查。

标准时点:对调查对象登记时所依据的统一时点。

标准时点的作用:(1)、避免调查数据的重复或遗漏,确保数据的准确性。

(2)、反映现象在该时点上的状况。

普查的组织方式(1)、通过专门组织的普查机构进行。

如人口普查(2)、利用企事业单位日常核算资料和报表资料进行。

如物资库存普查、快速普查等2、抽样调查从调查总体中按随机原则抽取部分单位进行调查,并根据其结果推断总体数量特征。

特点:(1)、根据样本资料推断总体数量特征;(2)、按随机原则抽取调查单位;(3)、抽样误差可以计算和控制。

3、重点调查从调查对象中选择一部分重点单位进行调查。

重点单位是指调查的标志值在总体标志总量中占有绝大比重的单位。

特点:(1)、调查目的是了解总体的基本情况;(2)、重点单位的重点位置是客观存在的;(3)、不可推断总体数量特征。

4、典型调查在对调查对象初步分析的基础上,选择几个有代表性的单位进行深入细致的调查。

特点:(1)、是深入细致的调查;(2)、典型单位的选择带有明显的主观因素;(3)、可以据以估算总体数值,但不能计算和控制调查误差。

5、统计报表制度自上而下布置任务,自下而上上报资料的统计制度或调查方法。

(二)数据的搜集方法1、访问调查2、邮寄调查3、电话调查4、座谈会5、个别深度访问(三)调查方案设计1、确定调查目的(Why)2、确定调查对象与调查单位(Who)调查对象:被研究现象的总体(即调查范围)。

调查单位:需要对它的标志进行登记的总体单位填报单位:填写、上报统计资料的单位。

注:调查单位与填报单位有时一致,有时不一致。

3、确定调查项目和调查表(What)调查项目:调查时应进行登记的标志。

调查表:具体可区分为单一表与一览表。

单一表:一个调查单位用一张表;一览表:多个调查单位共一张表。

4、确定调查时间(When)调查时间:资料所属时间(一段时期、某个时点)。

时期现象:资料所反映的起止时间。

时点现象:调查规定的时点。

调查期限:调查工作进行的起止时间。

5、组织实施计划(How)二、统计数据的间接来源第二手数据:主要有公开出版或公开报道的数据。

第三节统计数据的整理统计整理的概念:根据研究的目的和要求,对调查资料进行科学的加工处理,使之条理化、系统化,以反映总体特征的工作过程。

一、数据的预处理(一)数据的审核与筛选准确性审核(包括逻辑检查和计算检查)及时性审核(是否按时交统计数据)完整性审核(调查单位是否全包括?调查项目是否都回答?)(二)数据的排序二、数据分组与频数分布(一)统计分组1、统计分组的概念和作用概念:将总体按照一定的分组标志区分为若干个性质不同的组成部分的一种统计方法。

作用:(1)、划分现象的不同类型;(2)、揭示现象的内部结构;(3)、分析现象之间的依存关系。

2、统计分组的原则和关键原则:保持组内的同质性与组与组之间的差异性关键:选择分组标志和划分各组界限(二)、次数分布的概念及类型1、概念次数:分布在各组的单位数频率:各组次数与总次数的比重次数分布:反映总体单位数在各组间的分布(表、图)。

次数分布作用:显示现象的分布规律和分布特征。

2、类型属性分布数列:按品质标志分组所形成的分布数列。

体现现象质上的差别且较稳定。

变量分布数列:按数量标志分组所形成的分布数列。

体现现象量上的差别且有多种编制方法。

变量数列的构成:(1)变量及变量值;(2)次数或频率。

3、变量数列的编制组限:一组的数量界限。

组限的确定原则:确保组内的同质性,组间的差异性。

组距=本组上限-本组下限组数=全距/组距组中值=(上限十下限)/2开口组首组组中值=上限一邻组组距/2开口组末组组中值=下限+邻组组距/2次数密度=本组次数/本组组距对连续型变量,只可编制组距数列,且相邻的组限必须重叠。

记住:“上组限不在内”对离散型变量,可编制单项数列和组距数列。

编制组距数列时采用不重叠组限依据:遵循不重复、不遗漏的原则。

三、次数分布的图示和类型(一)直方图和折线图(1)直方图横轴:表示变量;纵轴:表示次数。

(2)折线图:将组中值用折线连接而成。

(二)茎叶图茎叶图可用于展示原始数据的分布,同时还保留原始数据在图形里面,相当直观。

从茎叶图中,可直接看出数据是否对称、是否有极端值以及数据的集中趋势和离中趋势。

茎叶图由“茎”和“叶”两部分构成,其图形由数字组成。

绘制茎叶图的关键是设计好树茎,通常是以该组数据的高位数值作为树茎。

树茎一经确定,树叶就自然地长在相应的树茎上了。

第三章数据分布特征的描述一、教学目的与要求通过本章的学习,要求学生熟练掌握数据分布特征的各种描述方法;掌握不同测度方法的特点、应用条件及应用场合;能利用所学的方法对统计数据作各种统计描述。

二、教学重点1、集中趋势测度的方法及应用场合2、离散程度测度的方法及应用场合3、分布偏态与峰度的测度三、教学难点1、集中趋势测度的方法及应用场合2、离散程度测度的方法及应用场合四、教学基本内容第一节分布集中趋势的测度集中趋势是指一组数据向分布的中心集中的现象。

数据分布集中趋势的测度指标又称平均指标。

一、众数众数是指总体中出现次数最多的标志值。

一般只有在总体单位比较多,且存在明显集中趋势的数列中才存在众数。

众数是根据标志值在数列中所处的位置来计算的,不受极端值影响。

在实际工作中,可以利用众数来表明现象的一般水平。

例如,某农贸市场某种蔬菜的单价有1.00、1.20、1.50、2.00元不等,在了解这种蔬菜的平均价格时,不需登记这种蔬菜所有的成交量和成交额来加以平均计算,只要掌握这种蔬菜成交量最大的价格就可以了。

(一)、由单项数列确定众数在单项数列中,出现次数最多的标志值就是众数。

(二)、由组距数列确定众数下限公式:上限公式:二、中位数把总体各单位标志值按大小顺序排列起来,处于中点位置的标志值就是中位数。

中位数不受极端值影响,当一个总体的大部分总体单位的标志值比较集中时,以中位数为代表值,比算术平均数还能更确切地反映次数分配的集中趋势。

(一)、根据未分组资料确定中位数当总体单位数为奇数时,处于中间位置上的那个标志值就是中位数;如果总体单位数为偶数,中位数则是位于中间位置的两个标志值的算术平均数。

(二)根据分组资料确定中位数1、由单项数列确定中位数。

第—步,根据中位数位置公式确定中位数所在组;第二步:中位数所在组的标志值,就是中位数。

2、由组距数列确定中位数。

第一步:根据中位数位置公式确定中位数所在组;第二步:在假定中位数所在组的次数是均匀分布的前提下,利用比例插值法推算中位数的近似值。

下限公式:上限公式:三、均值(算术平均数)(一)、简单算术平均数(适用于未分组资料):(二)、加权算术平均数(适用于分组资料):次数之所以具有权数的作用,是因为各组的次数不相等。

如果各组次数相同,那它对各组标志值来说,就失去了权衡轻重的作用。

用绝对数权数与用相对数权数计算的结果一致。

(三)、算术平均数的数学性质1、各个变量值与其算术平均数离差之和等于零。

2、各变量值与其算术平均数的离差平方和为最小值。

四、几何平均数几何平均数是N个变量值乘积的N次方根。

(一)、简单几何平均数当各变量值的次数不相同时,采用简单几何平均数。

(二)加权几何平均数当各变量值的次数不相同时,采用加权几何平均数。

用同一资料计算算术平均数、调和平均数和几何平均数的结果是:H≤G≤。

五、集中趋势测定指标的比较(一)、各种数值平均数的比较1、适用场合不同。

相关主题