当前位置:
文档之家› 第七章属性数据与FREQ过程解析
第七章属性数据与FREQ过程解析
request-list:制表要求
•单向表由单个变量产生 如 tables a b c;
•双向交叉表用一个“*” 连接两个变量产生 如 tables a*b;
多项表由多个变量用星号连接产生 如 tables x1*x2*x3; 简洁表示形式: tables a*(b c); tables (a b)*(c d); tables (a b c)*d; tables a—d; 等价于tables a*b a*c; 等价于tables a*c a*d b*c b*d; 等价于tables a*d b*d c*d; 等价于 tables a b c d;
FREQ过程语句说明: (1)TABLES语句: 一般格式:TABLES request-list</option-list>; • FREQ过程中可包含任意多个TABLES语句 • 若没有TABLES语句,则生成输入数据集中每个变量的
单向频数表 • 若没有任何选项,则对tables语句中规定的变量的每个 水平计算频数,累计频数,占总频数的百分比及累计百 分数。
行列变量都是有序变量时
(4)Gamma ( )相关系数;
(5)Kendall' s tall b( b )相关系数;
(6)Stuart' s tall c( c )相关系数。
FREQ过程
主要功能
• FREQ过程是SAS系统中用于属性数据分析的主 要过程之一,可以生成单向到N向的频率表和交 叉表。 • 对于双向表(二维表),该过程计算检验统计量 和关联度。 • 对于N向表,该过程进行分层分析,计算每一层 和交叉层的统计量。
第七章
属性数据分析与FREQ过程
属性数据简介
• 在一个有三个主要大型商场的商贸中心, 调查476个不同年龄阶段的人信息一般是被调查 对象的分类信息,而不是定量变量的具体值。 • 从例子中我们看到对观测对象通过商场和调查对象的 年龄段进行了分类,得到一个二维表格。 • 那么从这个数据我们是否能看出顾客的年龄段与他 所去的商场有联系吗?
FREQ过程的一般格式
• • • • • PROC FREQ <option-list>; BY variable-list; TABLES request-list</option-list>; WEIGHT variable; OUTPUT<OUT=sas-data-set><output-statisticlist>;
</option-list>常见类型:
(1)ALL:求所有由CHISQ,MEASURES和CMH选项给出的 检验和度量;
2 (2)CHISQ:要求对每层的齐性或独立性进行 检验,
并计算依赖于 2检验统计量的关联度。
(3)CMH:计算Cochran-Mantel-Haenszel统计量,用于2 维以上表检验行、列变量的相关。 (4)EXACT:对于大于2×2维表进行Fisher精确检验。 (5)MEASURES:计算相关度量和它们的渐进标准差。 (6)ALPHA=P值:
• 分类变量和有序变量统称为属性变量,有时也称为字符型变量 或定性变量; • 而间隔变量和比率变量则称为数值型变量,有时也称为 定量变量或连续变量。 • 对属性变量进行的数据分析称为属性数据分析。
一般在属性数据分析中需要解决:
(1)产生汇总分类数据——频数表; (2)属性变量之间的独立性检验; (3)在属性变量之间存在关联的情况下,计算他们之间的关 联系数。
(2)连续修正 c2检验统计量;
(3)似然比 2检验统计量;
2 (4)Manel Haenszel MH 检验统计量;
(5)Fisher精确检验。
• 双向表中行变量与列变量相关性的检验 (1) 系数; (2)Contingency Coefficient 列联系数;
(3)Cramer' s V系数;
应用举例
例7.1 广告是否会显著影响消费者的购买意向
data ads; input ad$ plan$ number; cards; 看过 已买 60 看过 打算买 33 看过 没打算买 7 没看过 已买 25 没看过 打算买 40 没看过 没打算买 35 ;
(2) WEIGHT variable: 每个观测对频数为对应权数变量的值。
(3)OUTPUT语句: 一般格式: OUTPUT<OUT=sas-data-set><output-statistic-list>; 创建一个包含有PROC FREQ计算的统计量的SAS数据集。 OUT=sas-data-set:规定输出数据集的名字 output-statistic-list:输出统计量列表 可用的统计量是有PROC FREQ产生的关于双向交叉表的统计 量及概括性统计量。
• 数值变量就是能用数字来计量的变量;而不能用数字来计量 的变量则称为字符型变量,也称为属性变量。
• 区间型变量是指变量的取值可以为一个连续的数值区间,又可 分为比率变量和间隔变量。 名义型变量是指变量本身本质上不能用数值表示,用数字没有 真正意义,又可分为分类变量和有序变量。
• 按类型可以分为:字符型和数值型, 按测量水平可以分为:区间型和名义型。 分类变量和有序变量统称为属性变量,也称字符型变量 或定性变量。 间隔变量和比率变量则称为数值型变量,也称为定量 变量或连续型变量
属性数据分析中一些常见概念与检验统计量
• 单向表(一维表)
由一个属性变量进行分组构成的表。
• 双向表(二维表)
由两个属性变量交叉分组所得到的表。
• 多向表(多向交叉表或多维表)
由两个以上属性变量构成的表。
• 双向表无关联性检验的统计量
H0 : 行变量与列变量无关; H1 : 行变量与列变量有关
(1) 2检验统计量;
• 为了了解广告是否对消费者产生影响,某广告公 司在某地区连续广告一个月,和在没有进行广告 宣传的地区分别随机抽取了100名消费者(实际 的或潜在的)进行问卷调查,得到下表:
已购买
看过广告 没看过广告 60 15
打算购买 不打算购买
33 40 7 35
变量的类型
• 按类型可以分为:字符型和数值型, 按测量水平可以分为:区间型和名义型。