1 频数分析 (Descriptive Statistics - Frequencies)频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。
下面我们通过例子来学习单变量频数分析操作。
1) 输入分析数据在数据编辑器窗口打开“data1-2.sav”数据文件。
2)调用分析过程在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。
图3-4 “Frequencies” 对话框3)设置分析变量从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。
在这里我们选“三化螟蚁螟 [虫口数]”变量进入“Variable(s):”框。
4)输出频数分布表Display frequency tables,选中显示。
5)设置输出的统计量单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量:图3-5 “Statistics”对话框① 选择百分位显示“Percentiles Values”栏:Quartiles:四分位数,显示25%、50%和75%的百分位数。
Cut points for 10 equal groups:将数据平分为输入的10个等份。
Percentile(s)::用户自定义百分位数,输入值0—100之间。
选中此项后,可以利用“Add”、“Change”和“Remove”按钮设置多个百分位数。
② 选择变异程度的统计量“Dispersion”:(离散趋势)Std.deviation 标准差Minimum 最小值Variance 方差Maximum 最大值Range 极差S.E.mean 均值标准误③ 选择表示数据中心位置的统计量“Central Tendency”:(集中趋势)Mean 均值Median 中位数Mode 众数Sum 算术和④ 选择分布指标“Distribution”:Skewness 偏度Kurtosis 峰度6) 统计图形输出设置单击“Charts”按钮,将弹出如图3-6所示的对话框:图3-6 “Charts”对话框① Chart Type 图形选择栏:○ None:不输出图形;○ Bar charts:输出条形图;○ Pie charts:输出饼图;⊙ Histograms:输出柱状图。
若选中“√With normal curve”项,则在绘制柱状图中加绘一条正态分布曲线。
② 当用户选中条形图或饼图时,在“Chart Values”框的选项中可选择:⊙ Frequencies:绘制频数图。
○ Percentages:绘制频率图。
7)设置频数表格式在图3-4对话框中,单击“Format”按钮,打开如图3-7所示的对话框:图3-7 “Format”对话框① 设置排序的方法“Order by”:⊙ Ascending values:按变量值的升序排列。
○ Descending valus:按变量值的降序排列。
○ Ascending counts:按频数的升序排列。
○ Descending counts:按频数的降序排列。
② 选择多变量输出设置“Multiple Variables ”:⊙ Compare variables 选项,所有变量在一个图形中输出,以便进行比较。
○ Organize output by variables选项,为每一个变量单独输出一个图。
③ 设置在频数表中显示的组数选中此项,输入分组数,系统缺省为10组。
设置完成后,点击“Continue”按钮回到上一级对话框。
8)提交执行在图3-4 对话框里单击“OK”按钮,SPSS在输出窗口的输出结果如表1、表2和图1结果。
9)分析结果表1 统计量表Statistics三化螟蚁螟在表1中列出的信息有:有效观测值有124个,缺失值0个,平均数75.14,标准差7.024。
偏度系数(Skewness)及误差:-0.031和0.221,峰度系数(Kurtosis)及误差:-0.582和0.438。
表2 频数表三化螟蚁螟在表2中列出的信息有:Frequency 频数;Percent 百分比;Valid Percent有效观测值的百分比;Cumulative Percent 累积百分比。
图3-8 频数分布的条形图表示2 列联表分析(Crosstabs)列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。
SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。
其中卡方检验是分析列联表资料常用的假设检验方法。
例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。
预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。
数据如下表。
山东烟台历年观测数据分级表()注:摘自《农业病虫统计测报》 131页。
1) 输入分析数据在数据编辑器窗口打开“data1-3.sav”数据文件。
数据文件中变量格式如下:2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图3)设置分析变量选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”变量选入“Rows:”行变量框中。
选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。
4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。
Suppress table: 选中则不输出多维频数分布表。
5)统计量输出点击“Statistics”按钮,弹出统计分析对话框(如下图)。
Chi-Square: 卡方检验。
选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验(Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。
Correlations: 选中输出皮尔森(Pearson)和Spearman相关系数,用以说明行变量和列变量的相关程度。
Nominal: 两分类变量的关联度(Association)测量Contingency Coefficient: 列联系数,其值越大关联性越强。
Phi and Cramer’s V:Cramer列联系数,其值越大关联性越强。
Lambda: 减少预测误差率,1表示预测效果最好,0表示预测效果最差。
Uncertainty Coefficient: 不定系数Ordinal: 两有序分类变量(等级变量)的关联度测量Gamma: 关联度,+1表示完全正关联,-1表示负关联,0表示无联。
Somers’d:列联度,其取值范围和意义同上。
Kendall’s tau-b:Nominal by Interval: 一个定性变量和一个定量变量的关联度Eta:关联度统计量。
Kappa:吻合度系数,其取值-1至+1,其值越大吻合程度越高。
Risk:危险度分析。
McNemar:配对计数资料的卡方检验。
Cochran’s and Mantel-Haenszel statistics:检验在协变量存在下,两个二分类变量是否独立。
6) 设置列联表的显示单击“Cells”按钮,弹出列联表显示内容对话框(如下图)。
Counts: 频数Observed: 观测频数。
Expected: 期望频数。
Percentages: 百分比Row: 占本行的百分比。
Column: 占本列的百分比。
Total: 占全部的百分比。
Residuals: 残差分析Unstandardized: 非标准化残差分析。
Standardized: 标准化残差分析。
Adj. Standardized: 调整的标准化残差分析。
Noninteger Weights:⊙ Round cell counts: 临近列计算。
○ Truncate cell counts:。
○ Round case Weights临近记录度量○ Truncate case Weights○ No adjustments: 不调整。
7)设置输出格式单击Format按钮,弹出列联表输出格式对话框(如下图)。
Row Order: 频数⊙ Ascending: 行变量从小到大升序排列。
○ Descending: 行变量从大到小降序排列。
8)设置检验单击“Exact”按钮,弹出精确检验对话框(如下图)。
⊙Asymptotic only 近似的,系统设置。
○Monte CarloConfidence level: 99% 置信度,系统默认99%。
Number of samples: 10000 样本数量,系统默认10000。
○ExactTime limit per test: 5 minutes 限时检验时间,系统默认值5分钟。
9)提交执行设置完成后,在列联表分析对话框中,点击OK 按钮,计算结果输出在结果窗口中。
10)结果与分析在结果窗口中查看计算结果,主要输出内容如下。
五月气温 * 玉米螟卵高峰发生期CrosstabChi-Square Testsa 9 cells (100.0%) have expected count less than 5. The minimum expectedcount is 1.33.(其余的省约)结果分析:从交叉表(Crosstab)对角线中看出,只有“五月气温与玉米螟卵高峰发生期”对角线上出现的频数大于期望值(5>2.7,3>2.0,3>1.3)。
从卡方检验表得知,也只有“五月气温与玉米螟卵高峰发生期”能通过线性间的联合检验(Linear-by-Linear Association),双尾检验p<0.012。
因此,玉米螟卵高峰发生期与五月气温有密切的关系,五月气温越高,发生越早。