第1题:基本统计分析1分析:本题要求随机选取80%的样本,因而需要选用随机抽样的方法,在此选择随机抽样中的近似抽样方法进行抽样。
其基本操作步骤如下:数据→选择个案→随机个案样本→大约(A)80 所有个案的%。
1、基本思路:(1)由于存款金额为定距型变量,直接采用频数分析不利于对其分布形态的把握,因而采用数据分组,先对数据进行分组再编制频数分布表。
此处分为少于500元,500~2000元,2000~3500元,3500~5000元,5000元以上五组。
分组后进行频数分析并绘制带正态曲线的直方图。
(2)进行数据拆分,并分别计算不同年龄段储户的一次存取款金额的四分位数,并通过四分位数比较其分布上的差异。
操作步骤:(1)数据分组:【转换→重新编码为不同变量】,然后选择存取款金额到【数字变量→输出变量(V)】框中。
在【名称(N)】中输入“存取款金额1”,单击【更改(H)】按钮;单击【旧值和新值】按钮进行分组区间定义。
存取款金额1频率百分比有效百分比累积百分比有效1.00 82 34.6 34.6 34.62.00 76 32.1 32.1 66.73.00 104.2 4.2 70.94.00 22 9.3 9.3 80.25.00 47 19.8 19.8 100.0 合计237 100.0 100.0(2)【分析→描述统计→频率】;选择“存款金额分组”变量到【变量(V)】框中;单击【图标(C)】按钮,选择【直方图】和【在直方图上显示正态曲线】;选中【显示频率表格】,确定。
(3)【数据→拆分文件】,选择“年龄”变量到【分组方式】框中,选中【比较组】和【按分组变量排序文件】,确定;【分析→描述统计→频率】,选择“存款金额”到【变量】框中,单击【统计量】按钮,选择【四分位数】→继续→确定。
统计量存(取)款金额20岁以下N有效1缺失0 百分位数25 50.00 50 50.00 7550.00 20~35岁N有效 131 缺失0 百分位数25 500.00 50 1000.00 755000.0035~50岁N有效 73 缺失0 百分位数25 500.00 50 1000.00 75 4500.0050岁以上N有效32缺失0 百分位数25 525.00 50 1000.00 752000.00结果及结果描述:频数分布表表明,有一半以上的人的一次存取款金额少于2000元,且有34.6%的人的存取款金额少于500元,19.8%的人的存取款金额多于5000元,下图为相应的带正态曲线的直方图。
统计量表格表明,年龄在20岁以下的人有1人,其存取款金额的四分位差是0(50-50)元,年龄在20~35岁之间的人有131人,其存取款金额的四分位差是4500(5000-500)元,年龄在35~50岁之间的人有73人,其存取款金额的四分位差是4000(4500-500)元,年龄在50岁以上的人有32人,其存取款金额的四分位差是1475(2000-525)元。
可见,20~35,35~50两个年龄段的离散程度比较大,其余两个年龄段的离散程度较小。
2、基本思路:本问题涉及到两个变量户口和物价趋势,考虑两者之间的联系,因而需要用到交叉列联表。
该列联表的行变量为户口,列变量为物价趋势,需要在列联表中输出各种百分比、期望频数、剩余、标准剩余,显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对城镇和农村储户对物价趋势的态度是否一致进行分析。
操作步骤:(1)【分析→描述统计→交叉表】,选择“户口”到【行】框中,选择“物价趋势”到【列】框中;并选中【显示复式条形图】(2)单击【单元格】按钮,选中【观测值】、【期望值】、【行】、【列】、【总计】各框→继续;(3)单击【统计量】,选中【卡方】框→继续;结果及其结果分析:户口* 物价趋势交叉制表物价趋势合计上升稳定下降户口城镇户口计数21 131 18 170期望的计数20.1 122.7 27.3 170.0户口中的 % 12.4% 77.1% 10.6% 100.0%物价趋势中的 % 75.0% 76.6% 47.4% 71.7%总数的 % 8.9% 55.3% 7.6% 71.7% 农村户口计数7 40 20 67期望的计数7.9 48.3 10.7 67.0户口中的 % 10.4% 59.7% 29.9% 100.0%物价趋势中的 % 25.0% 23.4% 52.6% 28.3%总数的 % 3.0% 16.9% 8.4% 28.3% 合计计数28 171 38 237期望的计数28.0 171.0 38.0 237.0户口中的 % 11.8% 72.2% 16.0% 100.0%物价趋势中的 % 100.0% 100.0% 100.0% 100.0%总数的 % 11.8% 72.2% 16.0% 100.0%上面交叉列联表表明,I 共有237名被访者,其中170名有城镇户口,67名是农村户口,占样本总数的71.7%,28.3%;认为物价趋势为上升、稳定、下降的人数分别为28、171、38,各占总数的11.8%,72.2%,16.0%。
II 对不同户口的人群进行分析:城镇户口的人数总共有170人,对物价稳定趋势为上升、稳定、下降的比例分别为12.4%、77.1%、10.6%,认为物价趋势稳定的人数多于总比例,认为物价趋势下降的人数少于总比例;农村户口的总人数为67人,对物价稳定趋势为上升、稳定、下降的比例分别为10.4%、59.7%、29.9%,认为物价趋势稳定的人数少于总比例,认为物价趋势下降的人数多于总比例;III 对物价趋势不同态度的人群分析:认为物价上升的人数总共有28人,其中城镇户口和农村户口所占比例分别为75%,25%,有城镇户口的比例略高于总比例;认为物价稳定的人数总共有171人,其中城镇户口和农村户口所占比例分别为76.6%,23.4%,有城镇户口的比例略高于总比例;认为物价下降的人数总共有28人,其中城镇户口和农村户口所占比例分别为47.4%,52.6%,有城镇户口的比例明显低于总比例;总体来说,不同户口的人群对物价趋势的态度存在一定的一致性。
从所得卡方检验结果来看,概率p值为0.001,小于显著性水平,因此拒绝原假设,认为行列变量具有较强的相关性。
3 、对居民一次存款金额分别按照收入水平进行分类,得到均值、中位数、方差和偏度。
3、基本思路本题中的分类变量为收入水平,因而需按照收入水平对数据进行拆分,然后分别计算一次存款金额的均值、中位数、方差和偏度。
操作步骤:【数据→拆分文件】,选择“收入水平”变量到【分组方式】框中,选中【比较组】和【按分组变量排序文件】,确定;【分析→描述统计→频率】,选择“存款金额”到【变量】框中,单击【统计量】按钮,选中【均值】、【中位数】、【方差】、【偏度】→继续→确定。
结果及其分析:统计量存(取)款金额300元以下N有效41缺失0 均值2043.17 中值300.00 方差30740437.195 偏度 4.066 偏度的标准误.369300~800元N有效137缺失0 均值4314.15 中值1000.00 方差134185788.508 偏度 6.490 偏度的标准误.207800~1500元N有效46缺失0 均值5687.67 中值1750.00 方差116385836.002 偏度 4.415 偏度的标准误.3501500元以上N有效13缺失0 均值11026.92 中值7000.00 方差197942756.410偏度 2.193偏度的标准误.616第2题:基本统计分析2用随机抽样中的近似抽样方法选取85%的样本,数据→选择个案→随机样本→大约(A)85所有个案的%。
第一问基本思路:①由于存款金额是定距型变量,考虑先进行数据分组再编制频数分布表。
②进行数据拆分,分别计算“300以下”、“300-800”、“800-1500”、“1500以上”收入的四分位数,并通过四分位数比较上述四者分布上的差异。
操作步骤:①【转换→重新编码为不同变量(R)】;选择“存款金额”到【数字变量→输出变量(V)】框中;在【名称(N)】中输入“存款金额分组”,单击【更改(H)】按钮;单击【旧值和新值】按钮进行分组区间定义。
存款金额分组频率百分比有效百分比累积百分比有效1.00 85 34.3 34.3 34.32.00 77 31.0 31.0 65.33.00 16 6.5 6.5 71.84.00 25 10.1 10.1 81.95.00 45 18.1 18.1 100.0合计248 100.0 100.0②【分析→描述统计→频率】;选择“存款金额分组”变量到【变量(V)】框中;单击【图标(C)】按钮,选择【直方图】和【在直方图上显示正态曲线】;选中【显示频率表格】,确定。
③【数据→拆分文件】,选择“收入水平”变量到【分组方式】框中,选中【比较组】和【按分组变量排序文件】,确定;【分析→描述统计→频率】,选择“存款金额”到【变量】框中,单击【统计量】按钮,选择【四分位数】→继续→确定。
统计量存(取)款金额300元以下N有效43缺失0 百分位数25 200.0050 300.0075 1000.00300~800元N有效148缺失0 百分位数25 500.0050 1000.0075 4475.00800~1500元N有效41缺失0 百分位数25 710.0050 2000.0075 6000.001500元以上N有效16缺失0 百分位数25 3000.0050 4450.0075 9750.00第二问基本思路:该问题中设计到两个变量,应采用交叉分组下的频数分析,行变量为“年龄”,列变量为“未来收入状况的变化趋势”,在列联表中输出观测频数、期望频数、各种百分比,显示各交叉分组下频数分布柱形图,并利用卡方检验,针对各年龄段对“未来收入状况的变化趋势”的态度是否一致进行分析。
操作步骤:①【分析→描述统计→交叉表】,选择“年龄”到【行】框中,选择“未来收入情况”到【列】框中;②单击【单元格】按钮,选中【观测值】、【期望值】、【行】、【列】、【总计】各框→继续;③单击【统计量】,选中【卡方】框→继续;④选中【显示复式条形图】→确定。
年龄* 未来收入情况交叉制表未来收入情况合计增加基本不变减少年龄20岁以下计数0 2 1 3 期望的计数.7 1.8 .5 3.0年龄中的 % 0.0% 66.7% 33.3% 100.0%未来收入情况中的 % 0.0% 1.3% 2.4% 1.2% 总数的 % 0.0% 0.8% 0.4% 1.2%20~35岁计数35 65 27 127期望的计数28.2 77.3 21.5 127.0年龄中的 % 27.6% 51.2% 21.3% 100.0% 未来收入情况中的 % 63.6% 43.0% 64.3% 51.2% 总数的 % 14.1% 26.2% 10.9% 51.2%35~50岁计数16 55 10 81期望的计数18.0 49.3 13.7 81.0年龄中的 % 19.8% 67.9% 12.3% 100.0% 未来收入情况中的 % 29.1% 36.4% 23.8% 32.7% 总数的 % 6.5% 22.2% 4.0% 32.7%50岁以上计数 4 29 4 37期望的计数8.2 22.5 6.3 37.0年龄中的 % 10.8% 78.4% 10.8% 100.0% 未来收入情况中的 % 7.3% 19.2% 9.5% 14.9% 总数的 % 1.6% 11.7% 1.6% 14.9%合计计数55 151 42 248 期望的计数55.0 151.0 42.0 248.0 年龄中的 % 22.2% 60.9% 16.9% 100.0% 未来收入情况中的 %100.0%100.0% 100.0% 100.0% 总数的 % 22.2% 60.9% 16.9% 100.0%第三问基本思路:首先按照户口对数据进行拆分,然后计算存款金额的统计量:均值、四分位数和标准差。