统计抽样与抽样分布概念
变异性:取很多样本时,统计量的值会离散到什么 程度。如果变异性大,说明不同样本的结果可能差 别很大。(技术不稳定)
一个好的抽样方法,应该要有小偏差、小变异性。 (象神射手一样)
两种误差
如何处理误差
减低偏差:利用随机抽样,用SRS的统计量来估计 总体参数。
降低SRS的变异性:只要样本足够大。
两种有偏的抽样方法
方便抽样,在总体中选择最容易取得的个体。例如,从每箱 桔子中拿上面的几个检查,但它们可能无法代表整箱桔子的 情况。
自发性回应样本:是经由对某一诉求的回应而自然形成的, 会导致高度偏差。
两种有偏的抽样方法
自发性回应样本:例如,专栏作家Landers问读者:“如果 可以重来一次,你还会要孩子吗?”她接到1万份答复,其 中70%说不要。难道70%的父母都后悔了吗?
选举结果是罗斯福获得62%的选票获胜。 此后,盖洛普研究所每年用1000~1500人的样本
快速准确的预测选举,误差在2%之内。
案例
盖洛普公司的网站 盖洛普民意调查举例:
抽样的基本概念
抽样调查,按照随机原则从全部研究对象中抽取一部分 单位进行调查,并以调查结果对总体数量特征作出具有 一定可靠程度的估计与推断,从而认识总体的一种统计 方法。
随机原则:指样本单位的抽取不受主观因素及其他系统 性因素的影响,每个总体单位都有均等的被抽中机会。
随机样本
与总体分布 特征相同
与总体分布 特征不同
总体
非随机样本
并非所有的抽样估计都按随机原则抽取样本, 也有非随机抽样。
抽样的基本概念
总体,要研究的调查对象的全体。 个体,组成总体的每个元素。 样本:从总体中随机抽取的部分个体。 样本容量:样本中所含的个体数量。
计算机模拟法:是将随机数字编制为程序存储在计算机 中,需要时将总体中各单位编上号码,启用随机数字发 生器输出随机数字。
简单随机抽样
大小为n的简单随机样本(SRS,simple random sample):使得总体中任一组n个个体,中选的概率 相同。
随机原则:用机遇选择样本。 1. 对每个个体指定一个数字代码; 2. 用随机数表选取。
抽样的误差问题
抽样误差:用于抽样的随机性所带来的误差,是一 种固有误差。
非抽样误差:调查过程中发生的误差,以及由于主 观因素破坏了随机性原则而产生的系统性偏差,是 可以避免的。
随机数表(部分)
用Excel表生成随机数
你玩乐透吗?
盖洛普研究所曾抽取了一个1523人的样本,其中有 868人在过去的12月中买了乐透,对于这个样本的 比率:
pˆ = 868 = 0.57(57%)
1523
如果取1000个样本呢?
大样本的变异性比小样本小
估计时的两种误差
偏差:统计量一直朝一个方向偏离总体的参数值; (瞄准有问题)
通常对某个论题有强烈感觉的人,尤其是负面感觉,比较会 不嫌麻烦地去回应。
写信回应和电话回应,一定会导致高度偏差。
随机原则的实现
抽签法,是将总体中每个单位的编号写在外形完全一致 的签上,将其搅拌均匀,从中任意抽选,签上的号码所 对应的单位就是样本单位。
随机数表法:将总体中每个单位编上号码,然后使用随 机数表,查出所要抽取的调查单位。
大致为 。1 n
盖洛普调查的1523人,对应的误差界限为 1 = 1 = 2.6% 1523 39.03
盖洛普当时公布的误差界限是3% 对于100人的样本的误差界限是多大?
置信叙述
盖洛普对于乐透彩票购买情况所做的结论: 精简版:调查发现57%的美国成年人在过去12个月
中曾购买彩票。我们有95%的信心,所有美国成年 人购买彩票的真正比例,在这个ቤተ መጻሕፍቲ ባይዱ本结果的正负3个 百分点之内。 超精简版:我们有95%的信心,所有美国成年人中, 有54%-60%曾在过去12个月里买过彩票。
误差界限
一个随机样本的结果,不会刚好估计出总体的真正 值。所以,用误差界限,表达我们的估计值距离真 正值有多远。
95%的置信度:所有样本中,有95%计算出的统计 量距离真正值的确有那么近,但是另外的5%,距离 真正值就超过误差界限了。
误差界限速算法
用大小为n的随机样本,对应95%置信度的误差界限,
本章的学习目的
本章的学习目的是为了认识到通过样本推断 总体的科学性。
当总体元素非常多,或者检查具有破坏性时, 需要进行抽样。
抽样必定伴有某种程度的不确定性,需要用 概率来表示其可靠程度,这是推断统计的重 要特点。
案例
1936年美国总统选举的预测,民主党罗斯福VS 共和党兰登。《文摘》邮寄了1000万份调查表; 收回240万份,预测兰登获得57%的选票获胜。 而盖洛普(Gallup)研究所仅仅随机抽取了2000 多 选民,预测罗斯福将得到54%的选票获胜。
观测研究和实验的区别
观测研究,在只观测不干扰的情形下搜集信息。 实验:会对个体做某件事情,然后观察个体如何反应。 例:经常运动是否可以降低心脏病发作的风险?
(观测研究和实验有什么不同,各自的优点)
观测研究和实验的区别
方法1:一位研究者找到2000名40岁以上的男士,他们都经常运 动,也未曾发过心脏病,他为每个人“配”了一名各方面条件接 近,但没有固定运动习惯的人,然后观察运动组和非运动组长达 5年时间。 方法2:另一位研究者找了4000名40岁以上的男士,他们都没有 发作过心脏病,也愿意参加这项研究。他安排其中的2000人参 加了一项有监督的定时运动计划,另外2000人依照原来的习惯 不变,观察5年时间。 (对于规律运动是否降低心脏病风险的问题,实验可以提供更多 有用的信息)
样本和总体(sample & population) 视频教学
应该随机吗?
随机选择并非永远都是好主意,有时候我们无法对所 有的人一视同仁,因为有的人或许更有资格。 1. 篮球比赛有400个座位,但有700个学生想要票,是 否应该在学生中随机选取400人? 2. 等着换肝脏的病人,人数远超能用于移植的肝脏数 目。在选择移植给谁时,应该完全用随机方式吗? 3. 越战期间,用抽签的随机方式,决定年轻男子谁上 战场,这是最好的方式吗?