问卷设计和抽样调查
一个例子:退耕还林能持续吗?
问题:
– 经济上的可持续性?对农民收入的影响
假说:作为理性人,农民在补贴期结束后 必然会复垦,除非他们能从这些土地转出
– 补贴? – 林业收入能补偿农业收入? – 有没有其他新的收入来源?
研究目的与内容
研究目的
– 评估退耕换林对农民经济活动的影响,并评价 工程在农 定 样 本 大 小
抽 取 样 本
评 估 样 本 正 误
抽样方法
非概率抽样
偶遇抽样、判断抽样、配额抽样……
概率抽样
– 纯随机抽样:抽签法和随机数表法 – 等距(系统)抽样 – 整群抽样 – 分层抽样 – 多阶段抽样 – PPS抽样
退耕还林抽样
• 样本地区的确定
– 1999年最早试点的三地区:甘肃、陕西、四川
• 多阶段抽样
– 省->县->乡镇->村:分层抽样结合纯随机抽样 – 村->农户:等距抽样
问卷设计
• 面对面访谈问卷,个人发放问卷,邮寄问 卷,电子问卷 • 问卷构成 • 问卷的总体要求
问卷构成
• 前言
– 问卷标题、调查说明及填表要求
• 主体内容
– 问题及相应的选择项目组成
• 结束语
– 感谢,调查人员姓名、调查时间、地点等
xy
– Correl() – 工具 ->数据分析 ->相关系数
cov(x, y ) S x .S y
分组比较与差异检验
– 工具 ->数据分析 ->t-检验
均值差异检验的应用
退耕还林是自愿选择的,还是“强迫的”? – 退耕户和非退耕户的家庭特征,比如家庭人口, 人均耕地等,有没有系统差异?
经济调查研究的若干问题
—以评估退耕还林工程为例
中国科学院农业政策研究中心 二00六年十二月三日
报告内容
研究步骤的简单介绍
抽样调查和问卷设计
调查组织和数据收集 数据处理和简单分析
研究步骤
– 问题提出
– 研究假说、目标和内容 – 研究方案和方法 – 抽样调查与问卷设计 – 调查组织和数据收集 – 数据处理和分析 – 报告和论文撰写
– 对研究的了解 – 调查口径一致 – 引导性问题
调查安排
– 经费、人员、时间 – 前站
问卷检查
– 及时检查和电话回访
数据处理与简单分析
数据录入与清理
描述性分析 简单的假设检验
– 双总体均值差异检验 – 相关分析
数据录入与清理
注意事项
– 问卷编码 – 数据格式与调查表的对应 – 空格与零
检验设计: H0:退耕户特征与非退耕户没有系统性差异, 样本是随机的,或参与退耕不存在自选择问题; H1:退耕户与非退耕户有系统性差异,样本不 是随机的,或参与退耕是自选择的结果
检验:用样本均值制定t统计量
1999 年非退耕户 1999 年非退耕 非退耕户 退耕户 与退耕户基本特 与退耕户基本 征同方差 F 检验 特征差异 t 检验 1999 (1) 家庭人口 劳动力比例 (%) 户主年龄 户主受教育年限 (年) 户主是村干部虚拟变量 (1=是;0=否) 家庭人均土地拥有量 2 (公顷) 地块数量 坡度大于 25 度的土地比例 (%) 人均退耕补贴 3(元) 样本数 4.49 (1.43) 75.66 (21.41) 44.98 (12.25) 4.73 (3.73) 0.05 (0.21) 0.171 (0.18) 5.24 36.76 0 (0) 84 2002 (2) 4.44 (1.29) 74.25 (21.37) 47.98 (12.25) 4.73 (3.73) 0.05 (0.21) 0.167 (0.16) 5.24 36.76 0 (0) 1999 (3) 4.9 (1.64) 75.4 (20.75) 44.24 (11.13) 4.68 (3.35) 0.06 (0.25) 0.198 (0.13) 5.94 43.27 0 (0) 264 2002 (4) 4.88 (1.73) 74.34 (20.56) 47.24 (11.13) 4.68 (3.35) 0.06 (0.25) 0.204 (0.14) 5.94 43.27 68.68 (98.76) H0:同方差 (5) 1.33 1.06 1.21 1.24 1.32 2.02*** 1.24 1.21 H0:无差异 (6) -0.41 (-2.07)** 0.26 (0.10) 0.74 (0.51) 0.05 (0.12) -0.01 (-0.56) -0.027 (-1.27) -0.70 (-2.45)** -6.51 (-1.45)
研究内容
– 退耕还林对农民收入的影响 – 退耕还林对农民收入结构和就业结构的影响
研究方案与方法
研究方案
– 随机调查西部最早开展退耕还林的三个省份六 个样本县的300多农户(退耕和非退耕)的经 济活动和收入状况及变化
研究方法
– 要比较有和无(with vs without),不能比较前 和后(before vs after) – DID:difference in differences – 同趋势假设
数 据
调查对象
– 退耕户和非退耕户
主要变量
– 参与退耕还林状况 – 收入和结构 – 农户特征
抽样调查
基本概念、原理和方法
应用
抽样调查的优点与不足
• 通过总体中一小部分的调查研究,经济、迅 速、准确、深入、广泛地认识总体的特性。
– 优点:
• • • • 时间短、收效快 质量高、可信程度好 费用省,容易采用 应用范围广,所得资料内容丰富
问卷要求
紧紧围绕研究问题和关心的主要变量
问卷问题安排:由绕家常式的到专业性的, 由容易的到难的,由一般的到特殊的,由 不敏感的到敏感的 文字要表达准确、具体,不应有歧义,不 应使填卷人有模糊认识 便于对数据录入、处理和分析
预调查
发现新问题
完善问卷 应用判断抽样
调查组织与数据收集
调查培训
数据筛选清理
– 观测值的统计 – 异常值的清理
描述性分析
描述统计
– average(), stdev(), sum(), max(), min(), count(), countif() – 工具->数据分析->描述统计
数据透视分析
– 数据->数据透视表与图表报告
简单假设检验
相关分析
– 不足:
• 代表性问题:是否能够反映总体的结构、特征和关系 盖洛普美国民意测验1948年的失败
几个基本概念
• • • • • • 总体、研究总体和分析单位 样本 抽样、抽样单位和抽样框 变量 总体参数和统计值 抽样误差:样本代表性大小的标准
抽样调查的基本程序
界 定 调 查 总 体
选 择 抽 样 框
(2.10) (2.10)
(2.34) (2.34)
(38.40) (38.40) (34.88) (34.88)
工程对收入的影响
对种植业收入的影响
对畜牧业收入的影响
对非农业收入的影响
对总收入的影响
简单结论
报告撰写
• 研究背景与问题
• 研究目的、方法和数据 • 分析结果 • 结论
报告结束,谢谢大家的耐心!