当前位置:文档之家› 数据采集方法1

数据采集方法1


C式选择表 家庭中18岁 以上人口数 1 2 3 4 5 6或以上 被抽选人的 序号为 1 1 2 2 3 3
3)调查员对每户家庭中的成年人进行排序和 编号。排序方法:男性在前,女性在后;年 纪大的在前,年纪小的在后。 4)调查员按照调查表上的编号找出编号相同 的“选择卡”,依据家庭人数从“选择卡” 中查出该选个体的序号。然后对这一序号对 应的该家庭成员进行访谈。
第二阶段从县市、标准都会统计区中抽取出街区。
首先标示出每个县市或标准都会统计区中的市区街区、 户政调查单位、或者乡村中的等值区域。 使用比例抽样法,从每个县市或标准都会统计区中, 抽出6个以上的街区。最后得到562条街区
第三阶段:抽取住户和访谈
依据街道上的住址随机抽取住户。 抽到地址后,访问员与该住户取得联系,从中抽 取合格的被访者。访问员查阅选取表找出可能的 被访者。总共联系上1934人。 展开访问,结果完成了75.9%,最终样本为1468 人。
子群3 子群 子群5 子群
子群2 子群
子群4 子群 子群7 子群 子群6 子群 子群1 子群
两种情境下要考虑采用整群抽样:
没有最终要素名册,也就是没有有关最终要素的抽 样框; 总体分散,取得样本的成本极其高昂。
步骤:
1)就是首先将总体划分为若干个小子群,这些子 群包含有最终抽样元素,或者经过多层后包含有最 终抽样元素。 2)然后以这些群为抽样单位,按照简单随机抽样 法或者系统抽样法从中抽出部分子群, 3)抽取出的子群的所有元素都构成样本元素。
界定总体 制定抽样框 决定抽样方案:抽样方式的选择、主要目标 变量的精度确定、样本规模的确定 实施抽样 样本质量评估
6. 2 概率抽样 (probability sampling)
简单随机抽样 系统抽样 分层抽样 整群抽样 多阶段抽样 概率与规模成比例抽样(PPS) 户内抽样
1)简单随机抽样 简单随机抽样 (simple random sampling)
1)随意抽样(haphazard sampling/accidental sampling):偶遇或方 便抽样 电视节目的街头访问;杂志的读者问卷。
1950年代BBC常 年聘请1,000多兼 职的调查人员了解 民众对广播和电视 节目的反应。(照 片:1955年)
盖洛普民意调查研究所 盖洛普
盖洛普的研究显示,在任何一个特殊场所,如商店、体 盖洛普 育馆、火车站等地找到的人都不能完全代表所有的人, 只有去人们家里向人们提问才能确保被提问的人代表了 所有的人。 30年代到80年代中期,在这50年的时间里,盖洛普 盖洛普民 盖洛普 意调查研究所对12次美国总统 美国总统选举的调查显示,盖洛普 美国总统 盖洛普 民意调查的准确率非常高。 1948年预测错误,杜鲁门 当选,杜威落败。 80年代中期以后,由于95%的美国家庭都拥有了电话, 使得利用电话进行调查成为可能。盖洛普 盖洛普民意调查研究 盖洛普 所的做法:1)利用计算机随机选电话号码;2)确保提 问方式的中立性,以防止对被提问者如何回答产生误导。
例如:2007年3月,湖北省员工数在100以下的企业。
抽样框(sampling frame):总体要素的列表或者准列 表。电话簿、户籍记录、税收记录、产业名录。抽样框 和总体之间不吻合是偏差的一个来源之一。
随机(random):任何元素都具有同等的、 独立于任何其他事件的、被抽到的概率。 抽样误差(sampling error):直观的说, 就是由于随机而造成的样本统计量与总体 参数之间的偏差。两个影响因素:样本规 模、样本元素之间的异质性。
A式选择表 家庭中18岁以 被抽选人的序 上人口数 号为 1 2 3 4 5 6或以上 1 1 1 1 1 1
B1式选择表 家庭中18岁以 被抽选人的序 上人口数 号为 1 2 3 4 5 6或以上 1 1 1 1 2 2
B2式选择表 家庭中18岁 以上人口数 1 2 3 4 5 6或以上 被抽选人的 序号为 1 1 1 2 2 2
抽样率=1468/1.5亿=0.01%。
几个调查网站
芝加哥大学“全国民意研究中心”(national opinion research center)——GSS 英国的社会态度调查(British Social Attitude Survey) 德国的全国大调查(German ALLBUS) 密歇根大学“政治与社会研究校际资料库”(interuniversity consortium for political and social research ,ICPSR)
例如:城市人口抽样
样 本
---------
街道n-1 街道2
街道1
---------
街道n
注意:
整群抽样比简单随机抽样花费较少,但是更不 精确。 一般来说,整群抽样的设计原则是:尽可能设 计较多的群,和抽取较多的群,而减少每个群 的抽样元素数量。人口调查常常是在每个社区 找5户,如果要抽取2000户的话,就需要400 个社区。 为了改进样本代表性,也可以在整群抽样的每 一阶段采取分层技术,而非简单随机抽样法。
3)当研究者感兴趣的层占总体的比例很小的 时候,若采用简单随机抽样方法就可能会漏 掉该层的元素,此时常用分层抽样。 4)在某些特殊情况下,研究者可能想让某个 层在样本中的比例不同于其在总体中的真正 比例,此时也常用分层抽样。 5)在3)与4)情境下,做推断的时候,要进 行处理。
(4)整群抽样(cluster sampling) )整群抽样(
(2)等距离抽样 等距离抽样 (interval sampling)
也称之为系统抽样(systematic sampling) 步骤: 1)首先将总体中的个体按照某种顺序排 列起来,编号。 2)按照某种规则确定一个随机起点,然 后,每隔一定的间隔抽取一个元素,直到抽 满n个元素形成一个样本为止。 值得注意的问题:如果样本的元素是按 照某种循环或模式组织起来的。则会出现周 期性问题。
抽样方法:一组复杂的多阶段概率抽样,将 多阶段抽样、分层抽样和PPS结合在一起。 第一阶段抽取县市和标准都会统计区
首先,制作一个全国性的抽样框,包括:全美各 县市、独立城市和标准都会统计区。每个抽样元 素包含有大约4 000户家庭。 使用4个主要地理区域、是否为都会地区两个变 量将抽样框进行分层。 依据每个县市或者标准都会统计区的住户数,应 用比例抽样法,从每个层中抽出样本。结果是一 组为48个县市或标准都会统计区的样本。
6)概率与规模成比例抽样 (Probability Proportionate to Size, PPS)
多阶段抽样暗含一个假定,在每一个阶段,其抽 样元素的规模大小是相同的,在此假定下,按照 简单随机抽样方法,每一个最终抽样元素被抽到 的概率相同。 如果这一假定违背了,也就是抽样元素的规模大 小不等,就不能再使用简单随机抽样方法了,必 须加以调整。 调整的方法就是:元素被选中的概率与其规模 (用所用子群数来衡量)成正比
7) 户内抽样 (within-household sampling)
从所抽中的每户中抽取一个成年人,已构 成访谈对象的样本。 Kish选择法步骤:
1)现将调查表编号:A、B1、B2、C、D、E1、 E2、F八种。要求每种编号的表的数量占总调 查表数量的比例为:1/6、1/12、 1/12、 1/6、 1/6、 1/12、 1/12 、1/6。 2)分配每个调查员一套“选择卡”,选择卡的 形式为:
问题
整群抽样与分层抽样有什么区别? 何时用整群抽样,和使用分层抽样? 当子群之间的差别较大,群内部差别不大的 时候,采用分层抽样。 当子群间的差别不大,而群内部的差别比较 大的时候,采用整群抽样。
5 )多阶段抽样multistage sampling
按照隶属关系或层次关系,一层一层分阶段 的往下抽样,一直抽到最基本的抽样元素位 置。 每一阶段的抽样都是按照简单随机抽样、系 统抽样或者分层抽样进行。 例如:CGSS2006的城市抽样
第6讲 抽样设计 Sampling
本讲内容
6.1抽样基本概念及一般过程 6.2概率抽样 6.3 非概率抽样 6.4 样本容量的确定
6.1 抽样基本概念及一般过程
抽样逻辑模型 ——纽曼(2ቤተ መጻሕፍቲ ባይዱ07)p275
你要研究什么: 你要研究什么:总体
抽 样 框
抽样过程
样本
概率抽样基本概念:
抽样元素(sampling element)就是资料收集的单位。 可以是个人、群体、组织、书面文件和符号信息、社会 行为。 总体(population)所要研究的元素的集合。 所谓定义总体就是指研究者对将被抽样的单位、地理位 置和总体在时间上的界限进行界定。
元素(个案) 1 2 3 丈夫 妻子 丈夫 妻子 丈夫 妻子 丈夫 妻子 丈夫 妻子 丈夫 妻子
周期循环问题
4 5 6 7 8 9 10 11 12
(3)分层抽样(stratified sampling) 分层抽样( 分层抽样
子样本2 子样本 子样本1 子样本
类型2 类型
类型1 类型
类型3 类型 类型4 类型
6.3 非概率抽样 (nonprobability sampling)
港大民调: 港大民调:大陆人与台湾人对美国认知的差异
原文出处:/Mil/Trends/200907/245532.html
随意抽样 配额抽样 立意抽样 滚雪球抽样 异常个案抽样 电影: 电影:《The Rise and Rise of Michael Rimmer 》
就是等概率抽样,每个个体以相同的概率被 抽中。这也可以分为重复抽样和不重复抽样两种 形式。 步骤:1)发展一个准确的抽样框; 2)把抽样框中的所有元素编号; 3)利用随机数表选择元素
随机数表使用方法 10819 85717 64540 95692 44985 28459 13687 50699 62110 49307 19105 52686 51336 53101 81842 35376 72734 13951 27528 36140 93818 84972 66048 83361 56465 35859 82675 87301 71211 78007 66241 89679 04843 96407 01970 -------------------------------------------------
相关主题