当前位置:
文档之家› 管理定量分析第3章 抽样方法与抽样分布
管理定量分析第3章 抽样方法与抽样分布
候选人得票百分比% 戈尔 51 51 47 49 48 49 46 47 47 49 49 47 52 48 46 51 48 佩罗特 4 2 3 6 4 3 7 5 4 3 4 4 4 4 5 2 3 其他 1 1 2 0 2 1 2 1 2 1 0 1 1 1 1 0 1
• 猜想一下,这些民意调查专家访问了多少 受访者,使其对大约一亿选民的行为预测 的误差不超过两个百分点? • 不超过2000! • 概率抽样与非概率抽样
抽样框老化:
• 又称为“抽样框过时”或“不准确的抽样框”, 是指随着时间的推移,抽样总体与目标总体产生 极大的偏差,即原来的抽样框不符合实际情况, 必须进行更新。最典型的例子,就是随着城市建 设的大规模展开,许多地区已被改造,地址发生 了变化,如果仍按以前的抽样框去抽样,那么精 度就会难以控制。
减少抽样框误差方法:
4种非概率抽样方法:
• • • • 就近抽样 目标式或判断式抽样 滚雪球抽样 据现实情况,以自己 方便的形式抽取偶然遇到的人作为调查对 象,或者仅仅选择那些离得最近的、最容 易找到的人作为调查对象。
就近抽样举例:
• 为了调查某市的交通情况,研究者到离他们最近的公共汽 车站,把当时正在那里等车的人选作调查对象。 • 在街口拦住过往行人进行调查; • 在图书馆阅览室对当时正在阅读的读者进行调查; • 在商店门口、展览大厅、电影院等公众场所向进出往来的 顾客、观众进行的调查; • 利用报刊杂志向读者进行调查; • 老师以他所教的班级的学生作为调查样本的调查等等。
标准差(standard deviation )
• 标准差也称均方差,是各数据偏离平均数 的距离的距离,用σ表示。标准差是方差的 算术平方根。标准差能反映一个数据集的 离散程度。平均数相同的,标准差未必相 同。标准差计算公式
例:学生成绩的抽样
• 样本1:
75 70 73 69 81 68 76 77
滚雪球抽样
• 滚雪球抽样主要用于估计十分稀有的人物特征,例如名字 不能公开的信息,可利用政府或社会服务的人员;特别的 群体,如私家车车主等。 • 滚雪球抽样的主要优点是可以大大增加接触总体中所需群 体的可能性。而且可以根据某些样本特征对样本进行控制 ,适用于寻找一些在总体中十分稀少的人物。此外还可以 使调查费用大大减少,不过这种成本的节约是以调查质量 的降低为代价的。
• 样本2:
99 89
X1 =X 2 =73.625
44
1= 4.47
86
79
2 =26.82
67
25
100
•
抽样框
• 抽样框又称“抽样框架”、“抽样结构” ,是指对可以选择作为样本的总体单位列 出名册或排序编号,以确定总体的抽样范 围和结构。 • 常见的抽样框:大学学生花名册、城市黄 页里的电话列表、工商企业名录、街道派 出所里居民户籍册、意向购房人信息册 ……。
日期 小布什 11/5 11/5 11/5 11/5 11/5 11/5 11/5 11/5 11/5 11/5 11/6 11/6 11/6 11/6 11/6 11/6 11/7 Hotline/Battleground Marist College Fox Newsweek NBC/Wall St.Journal Pew ICR Harris Harris(on line) ABC IDB/CSM CBS Portrait of america CNN/USA Today Reuters/MSNBC 选举结果 43 46 47 46 45 46 44 47 47 46 47 48 43 46 48 45 48
分层抽样
• 分层抽样是在抽样之前将总体分为同质性的不同 群。 • 原理: • 抽样设计中有两个因素可以减少抽样误差。 • 首先,大样本比小样本产生的抽样误差小。 • 其次,从同质(homogeneous)总体中抽取样本比 从异质(heterogeneous)总体中抽取样本所产生的 抽样误差要小。分层抽样便是基于上述抽样理论 第二个影响因素的方法。
复合连接:
•
是指抽样框单元与目标总体单元不完全一一对应,而是存在一对 多、多对一或是多对多模式的现象。 • 在前一种模式中,若进行简单随机抽样,能保证每个目标总体单 位以同等的可能性被抽中。 • 在后两种模式中进行简单随机抽样,每个目的总体单位被抽中的 概率是不同的,从而使估计量产生偏斜。 • 例如:若某银行想了解其客户的情况进行一次抽样调查,则该行 所有客户构成目的总体。选择的抽样框是银行的来往帐目,这就构成 了多对一模式。若在这个框中进行抽样,则来往帐目多的客户被抽中 的可能性则较大,反之来往帐目少的客户被抽中的可能性很小,而两 种客户通常会有较大差异,从而造成样本的偏斜,使估计量产生偏差 。
• 第一,在抽选样本之前,要对抽样框加以检查, 发现可能存在的问题,进行识别、处理,并采取 一定措施加以补救。第二,连接遗漏单位法,就 是指把抽样样本遗漏的个体和抽样样本中的某个 值相连接,其链接规则必须在调查前明确规定。
简单随机抽样
• 例如:要调查居民对某项公共政策的态度,要从100户居民家庭中抽 选10户居民代表抽选样本。具体步骤如下: • 第一步:将100户居民家庭编号,每一户家庭一个编号,即01~00。 (每户居民编号为2数,00代表100), • 第二步:在附录的随机数表随机确定抽样的起点和抽样的顺序。假定 从第1行,第9列开始抽,抽样顺序从左往右抽。 • 第三步:依次抽出号码分别是:92、45、42、05、94、96、05、37 、36、02,共10个号码。由于05号码被抽了两次。再补充1个号码: 22。由此产生10个样本单位号码为:92、45、42、05、94、96、37 、36、02、22。 • 编号为这些号码的居民家庭就是抽样调查的对象。
• 是指在抽样框中既有丢失目标单位,也有包含 非目标单位。 • 在实际调查中,丢失目标单位不易被查觉和发 现,具有较大的隐蔽性,相比之下,包含非目标 单位的抽样框误差的威胁性要小些。因为在调查 过程中,非目标单位容易被发现,并予以剔除。 • 如果丢失目标单位和包含 非目标单位数量相 当,也相互抵消,估计量是否会产生偏差也难以 断定。这要取决于丢失目标单位和非目标单位的 数量特征是否有显著差异。
判断式抽样
• 判断抽样又称“立意抽样”或“目标式抽 样”,是指根据调查人员的主观经验从总 体样本中选择那些被判断为最能代表总体 的单位作样本的抽样方法。 • 例如:要对福建省旅游市场状况进行调查 ,有关部门选择厦门、武夷山、泰宁金湖 等旅游风景区做为样本调查,这就是判断 抽样。
滚雪球抽样
• 定义:滚雪球抽样是指先随机选择一些被访者并对其实施 访问,再请他们提供另外一些属于所研究目标总体的调查 对象,根据所形成的线索选择此后的调查对象。 • 例如,要研究退休老人的生活,可以清晨到公园去结识几 位散步老人,再通过他们结识其朋友,不用很久,你就可 以交上一大批老年朋友。但是这种方法偏误也很大,那些 不好活动、不爱去公园、不爱和别人交往、喜欢一个人在 家里活动的老人,你就很难把雪球滚到他们那里去,而他 们却代表着另外一种退休后的生活方式。
系统抽样
• 系统抽样 ( systematic sampling)是系统化 地选择完整名单中的每第K个要素组成样本 。如果名册包含10000个要素,而需要 1000个样本时,选择每第10个要素作为样 本。
系统抽样方法潜藏的危机
• 例一, • 研究人员从名册中每隔10个士兵抽出一个来进行研究。然 而士兵的名册是依下列的组织方式来编排的:首先是中士 ,接着是下士,其后才是二等兵;用一班一班的方式进行 编排,每个班10个人。 • 因此,此名册中每隔10个便是一位中士。如此系统抽样可 能会取得一个完全是中士的样本,同样的理由,此方式也 可能会取得一个完全不含中士的样本。
例二
• 假设我们想在一栋公寓建筑物内选择公寓样本。 • 如果样本是从每个公寓的编码(如101,102,103,104 ,201 ,202等等)中抽出的话,那么所使用的抽样间隔,可能刚 好等于每层楼的户数或是每层楼户数的倍数。如此所选到 的样本有可能都是属于西北角的公寓或都是接近电梯的公 寓。 • 假设这些形态的公寓有一些共同的特性(如月租费较高), 样本就会产生偏误。
抽样框误差来源
• 抽样框存在偏误,会对预测结果造成很 大影响,因此,需要对抽样框误差来源进 行分析。
丢失目标总体单位:
• 也被称为“涵盖不足”,是指抽样框没有 覆盖全部目标总体单位,有些目标单位没 有在抽样框中出现,因而也就没有机会被 选入样本,这些单位成为丢失目标单位。 • 对丢失的总体单位不能发现并纠正会造成 调查中对总量的估计偏低。(未装电话)
• 抽样就是悬着观察对象的过程,比如在繁 忙的街道上每隔10人就访问一个人就可以 称为抽样。 • 抽样调查与总统选举。 • 抽样调查的历史来源。
3.1非概率抽样
• 无法选择概率样本的情形下采用非概率抽样:
• 例:要研究无家可归者,不但没有一份所有无 家可归者的现成名单,也不可能造一份这样的 名册。
3.2概率抽样方法
• 有意识与无意识的抽样误差 • 举例:“随机”访问遇到的100名学生 • 概率抽样是根据概率理论来选择样本的方 法的总称。一些随机选择机制就是典型。 其背后的基本观念是:要对总体进行有用 的描述,从该总体中抽样出来的样本必须 包含总体的各种差异特征。
几个重要概念
• 总体 (population):是一个统计问题中所涉及个体 的全体。 • 样本(sample):按一定程序从总体中抽取的一 组个体。 • 均值 (mean):表示一系列数据或统计总体的 平均特征的值。 • 样本容量(Sample size):样本中所含个体的数量 。
第3章
抽样方法与抽样分布
管理定量分析
第3章:抽样技术
•
2000年的美国总统选举一波三折,出现了前所未有的激 烈场面,爆出了“难产”的世纪大新闻。11月7日美国第54届 大选投票后,本应在第2天宣布大选结果,• 却因两党总统候选 人对决定胜负的佛罗里达州的计票结果发生严重争执,双方由 政治竞争发展到“对簿公堂”,大小官司打了50多场,从地方 法院,州法院,巡回法院,一直打到联邦最高法院,从而使大 选战火四处蔓延,美国上下沸沸扬扬,全世界都在注视佛州关 于选票所引起的混乱。只是联邦最高法院12月12日对佛州人 工重新计票问题作出最后裁决,戈尔14日发表“退出”竞选之 后,大选才有了最终结果。大举结果显然变成了审判的结果。 因此,不少政治评论家认为,布什总统不是选出来的,而是 “判”出来的。与此同时,共和党以“极其微弱的优势”继续 控制国会参众两院。这是1954年以来,共和党首次同时控制 白宫和国会。美政治分析家认为,共和党在这次大选中获得了 “全面胜利”。