统计学课件笔记整理详解
封闭型问题答案的设计方法主要有:两项选择法、多项选择法、顺序选择法、 评定尺度法、双向列联法等。
答案要穷尽。答案要互斥。 小结: 对使用者来说,数据的来源包括一手数据和二手数据。 实际中常用的统计调查方式主要有抽样调查、普查和统计报表。 常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样、整群抽样、 多阶段抽样等。 常用的非概率抽样方法有:方便抽样、判断抽样、配额抽样和雪球抽样。 抽样调查中的误差包括抽样误差和非抽样误差两部分。 非抽样误差主要包括抽样框误差、无回答误差和计量误差。 数据收集方法主要包括访问调查、邮寄调查、电话调查、电脑辅助调查、座 谈会、个别深访、直接观察等。 调查方案设计的好坏直接影响到调查数据的质量。问卷设计是科学与艺术的 结合。
第一章 统计与数据
描述统计(Descriptive Statistics):用表格、图形和数字来概括、显示数据特 征的统计方法
推断统计(Inferential Statistics):从总体中抽取样本,并利用样本数据来推 断总体特征的统计方法。
参数(parameter):描述总体数量特征的概念常用希腊字母。统计量(statistic): 描述样本数量特征的概念,常用英文字母表示
重复抽样的计算公式比不重复抽样简单,但误差也比不重复抽样略大 系统抽样(也称等距抽样):将总体 N 个单位按某种顺序排列,按规则确定 一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。主要适用场合: 总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的 总体内单位数过多,而抽取的样本又较多时 总体内的单位数不能确定时(例如抽取学号最后一位为 8 的学生进行调查) 分层抽样也称分类抽样或类型抽样。即先将总体所有单位按某种标志划分为 若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对 总体指标作出估计的一种抽样方式。总体方差等于层间方差和层内方差的加权和, 而抽样误差只受层内方差的影响。因此分层时应使层间方差尽可能大(从而层内 方差小)。 整群抽样:先将总体分为 R 个群(即次级单位或子总体),每个群包含若干 总体单位。按某种方式从中随机抽取 r 个群,然后对抽中的群的所有单位都进行 调查的抽样方式。总体方差等于群内方差和群间方差的加权和,而抽样误差只受 群间方差的影响。因此分群时应使群间方差小。
第三章 数据的描述
单变量值分组:将一个变量值作为一组,适合于离散变量,适合于变量值较 少的情况。
对不等距分组:纵轴必须表示为频数密度。等距分组可以是频数 频数密度=频数/组距 (面积之和=总频数) 列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变 量进行分组。 直方图与条形图的异同: 都是用来反映数据的分布状况,适用于不同类型的数据。 条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定 的。 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分 比,宽度则表示各组的组距,其高度与宽度均有意义。应该是不能够用于分类数 据的 直方图的各矩形通常是连续排列,条形图则是分开排列。 折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过 竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖 边中点连接到横轴。
各种抽样方式的特点要记下来呢 多阶段抽样,先从总体中随机地抽取若干初级单位,再从初级单位中抽取若 干二级单位,„„如此下去直至抽取所要调查的基本单位的抽样方法。 方便抽样,纯粹以方便基本着眼的抽样方法,事先不预定样本,碰到即问或 被调查者主动回答问题。也译为便利抽样、偶遇抽样。 判断抽样,调查者根据主观经验和判断从总体中选取有代表性的单位构成样 本。 配额抽样,是非随机抽样方法中最常用的一种抽样方法。分为两个步骤: 1.根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的 定额; 2.然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单 位。 雪球抽样,也译为滚雪球抽样。其原理是先找到最初的样本单位,然后根据 他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本 容量为止。
区分数据是时点数还是时期数的方法之一看其加总后的结果是否有意义。若 有意义则该指标必定是时期数。反之,则必定是时点数。
小结: 统计学是一门收集、分析、展示和解释数据的科学 描述统计和推断统计 总体和样本,参数和统计量 分类数据、顺序数据、间距数据和比率数据 定性数据和定量数据 横截面数据、时间序列数据、面板数据
定序数据也可以有负数,但是不可以计算算术平均值 根据较高层次的计量尺度可以获得较低层次的计量尺度。 定距数据:出生年月 也称间隔尺度,例如年份、摄氏温度,数据表现为“数值”,可以进行加减 运算,“0”是只是尺度上的一个点,不代表“不存在” 定比数据:体重 也称比率尺度,例如体重、身高、华氏温度,数据表现为“数值”,可以进 行加减、乘除运算,“0”表示“没有”或“不存在”, 变量是用来描述现象某种令人感兴趣的特征的概念。 横截面、时间序列和面板数据统计指标的概念和表现形式
第二章 数据的搜集
抽样单位的名单称为抽样框(Sampling Frame)。抽样框应尽可能与目标总体 相一致。例如名单抽样框、区域抽样框、时间表抽样框。
简单随机抽样也称纯随机抽样。直接从总体单位中抽选样本单位,每个个体 被选入样本的概率都相等。可分为有放回和无放回两种方式。通常有抽签法和随 机数法两种抽选方法。
离散系数是标准差与其相应的均值之比,表示为百分数。 计算均值时,根据原始数据和分组资料计算的结果一般不会完全相等,根据 分组数据只能得到近似结果。只有各组数据在组内呈对称或均匀分布时,根据分 组资料的计算结果才会与原始数据的计算结果一致。
茎叶图: 绘制统计图时的注意事项:长宽比例要适当 ,其长宽比例大致为 10:7。
一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可 以采取折断的符号将纵轴折断。
统计表的注意事项:表中的数据一般是右对齐,有小数点时应以小数点对齐, 而且小数点的位数应统一。对于没有数字、缺某项或免填的表格单元,应使用特 定符号标出。