当前位置:
文档之家› 第九章 资料的统计分析1--单变量分析
第九章 资料的统计分析1--单变量分析
第二节 单变量推论统计
1、总体均值的区间估计
2、总体百分数的区间估计
第二节 单变量推论统计
二、假设检验
假设检验实际上就是先对总体的某一参数作出假设, 然后用样本的统计量去进行验证,以决定假设是否为 总体所接受。其所依据的是概率论中的小概率原理, 即“小概率事件在一次观察中不可能出现”的原理。 假设检验的基本步骤是: 1、建立虚无假设和研究假设,通常是将原假设作为虚 无假设; 2、根据需要选择适当的显著性水平α(即小概率的大 小),通常有α=0.05, α=0.01等; 3、根据样本数据计算出统计值,并根据显著性水平查 出对应的临界值; 将临界值和统计值进行比较,以判定是接受虚无假设, 还是接受研究假设。
第一节 单变量描述统计
中位数和平均数的比较
平均数比中位数利用了更多的数据信息,对总 体的描述更全面和准确。 平均数很容易受到极端值变化的影响,而中位 值不会受到这种影响。 对于抽样调查来说,平均数是一种比中位数更 为稳定的量度,它随样本的变化比较小。
Hale Waihona Puke 第一节 单变量描述统计
三、离散趋势分析 离散趋势分析(dispersion tendency analysis),指的是用一个特别的数值来反映 一组数据相互之间的离散程度。常见的离散量 数统计量有全距、标准差、异众比率、四分位 差等。标准差、异众比率、四分位差分别与平 均数、众数、中位数相对应,判定和说明平均 数、众数、中位数代表性的大小。
第一节 单变量描述统计
5、离散系数(coefficient of variation)
变差系数,它是一种相对的离散量数统计量, 它使我们能够对同一总体中的两种不同的离散 量数统计量进行比较,或对两个不同总体中的 同一离散量数统计量进行比较。定义为:标准 差与平均数的比值,记为CV。
第二节 单变量推论统计
第一节 单变量描述统计
一、频数分布与频率分布
所谓频率分布(percentages distribution), 就是指一组数据中不同取值的频数相对于总数 的比率分布情况,这种比率在社会调查中经常 是以百分比的形式来表达。 频率分布表除了频数分布表的优点之外,还有 一个重要的优点就是十分方便地用于不同总体 或不同类别之间的比较。
(1)总体均值的假设检验 例:某单位职工上月平均收入为210元,本月调查了 100名职工,平均月收入为220元,标准差为15元,问 该单位职工本月平均收入与上月相比是否有变化?
(2)总体百分比的假设检验 例:一所大学全体学生中抽烟的比例为35%,经过学 习和戒烟宣传后,随机抽取100名大学生进行调查,结 果发现抽烟者为25名,问戒烟宣传是否收到了成效?
一、区间估计(interval estimation)
其实质就是在一定的可信度(置信度)下,用样本统 计值的某个范围(置信区间)来“框”住总体的参数 值。范围的大小反映的是这种估计的精确性问题,而 可信度高低反映的则是这种估计的可靠性或把握性问 题。 区间估计中的可靠性或把握性是指用某个区间去估计 总体参数时,成功的可能性有多大。对于同一总体和 同一抽样规模来说,所给区间的大小与作出这种估计 所具有的把握性成正比。反过来说,区间的大小所体 现的是估计的精确性问题,二者成反比。 在精确度与把握性之间寻找平衡,在社会统计中,一 般常用的置信度分别为90%、95%和99%。计算中, 置信度常用1-α来表示。
指的是一组数据中非众数的次数相对于总体全 部单位的比率。用VR表示。
其意义是指众数所不能代表的其他数值在总体 中的比重。异众比率越大,则众数代表性越小; 异众比率越小,则众数代表性越大。
第一节 单变量描述统计
4、四分位差(interquartile range)
指的是将一组数据按大小排序,然后将 其4等分,去掉序列中最高的四分之一和 最低的四分之一后,中间的一半数值之 间的全距。用Q表示。
2、标准差(standard deviation)
一组数据对其平均数的偏差平方的算术 平均数的平方根。用S表示。
第一节 单变量描述统计
2、标准差(standard deviation)
对于单值分组数据资料,计算标准差的 公式为
第一节 单变量描述统计
3、异众比率(variation ratio)
第一节 单变量描述统计
1、全距(range)
又叫极差,它是一组数据中最大值与最小值之 差。 其意义在于一组数据的全距越大,在一定程度 上说明这组数据的离散量数越大,而集中量数 统计量的代表性越低。反之,一组数据的全距 越小,则说明这组数据的离散量数越小,而集 中量数统计量的代表性越高。
第一节 单变量描述统计
本章思考题
1、名词解释:频数分布、频率分布、众 数、中位数、全距、标准差、异众比率、 离散系数、区间估计 2、课后练习题。
第一节 单变量描述统计
一、频数分布与频率分布
注意的是,对于一项有一定规模的调查 样本来说,一般不宜对如年龄、收入、 时间等定比变量做频数分布表或频率分 布表。因为,此时类别很多,而每一类 别中个案数不多,所得结果繁杂不适用。
第一节 单变量描述统计
二、集中趋势分析
集中趋势分析(centeral tendency analysis) 指的是用一个典型值或代表值来反映一组数据 的一般水平,或者说反映这组数据向这个典型 值集中的情况。最常见的集中趋势分析包括平 均数(均值)、众数和中位数。 1、平均数(mean):总体各单位数值之和除 以总体单位数目所得之商。
第一节 单变量描述统计
1、平均数(mean):总体各单位数值 之和除以总体单位数目所得之商。
第一节 单变量描述统计
2、众数(mode):是指一组数据中出 现次数最多的那个数值。 3、中位数(median),把一组数据按值 的大小顺序排列起来,处于中央位置的 那个数值就叫中位数。它所描述的是定 序变量以上层次的变量。
第九章 资料的统计分析(1) ——单变量分析
本章主要内容:
1、单变量描述统计 2、单变量推论统计
第一节 单变量描述统计
一、频数分布与频率分布
所谓频数分布(frequency distribution),就 是指一组数据中取不同值的个案的次数分布情 况,它一般以频数分布表的形式表达。 频数分布表的作用有两方面,一是简化资料, 即将调查所得到的一长串原始数据,以一个十 分简洁的统计表反映出来。二是从频数分布表 中,可以更清楚的了解调查数据的众多信息。