判别分析过程
12.限制输出选项 限制输出选项
Noprint, Short
15
Stdmean选项的输出结果: 选项的输出结果: 选项的输出结果
Total-Sample Standardized Class Means Variable x1 x2 x3 x4 n -0.255666997 -0.509917689 -0.498004403 -0.295116163 y 0.511333993 1.019835378 0.996008807 0.590232326
14
12.打印控制选项 打印控制选项
1) Bcorr, Pcorr, Tcorr, Wcorr; ; 2) Bcov, Pcov, Tcov, Wcov; ; 3) Bsscp, Psscp, Tsscp, Wsscp; ; 4) All, Anova, Distance, manova, Simple, Stdmean.
输入数据集, 输入数据集,后验概率和每个观测通过舍 一法被归入的类等. 一法被归入的类等
5
2. 输出数据集选项 4) Outd= SAS-data-set
包括输入数据和每个观测的类密度估计. 包括输入数据和每个观测的类密度估计
5) Testout= SAS-data-set
待判别归类的数据集,后验概率和每个观 待判别归类的数据集, 测被归入的类等. 测被归入的类等
11.错误率估计选项 错误率估计选项
Posterr----输出后验概率错误率估计 输出后验概率错误率估计. 输出后验概率错误率估计
注:后验概率错误率估计的方法在帮助系统中可以查到. 后验概率错误率估计的方法在帮助系统中可以查到 其原理是利用后验概率估计总的错判率和来自第i类而被 总的错判率和来自第 其原理是利用后验概率估计总的错判率和来自第 类而被 错判为其它类的概率,但该值可能为负值, 错判为其它类的概率,但该值可能为负值,因为是估计 后面有具体的解释. 值. 后面有具体的解释
6) Testoutd= SAS-data-set
包括待判别归类的数据和每个观测的类 包括待判别归类的数据和每个观测的类密 度估计. 度估计
6
3. 选择判别分析类型的选项 1) Method=normal|npar
缺省值为method=normal,假设每类样本 , 缺省值为 服从正态分布. 如指定method=npar时,采 服从正态分布 如指定 时 用非参数方法估计类密度, 用非参数方法估计类密度,所以必须指定 选项k= 中的一个. 选项 或 r= 中的一个
先把全部训练样本标准化,但与前面的表不同, 先把全部训练样本标准化,但与前面的表不同,这 里减总均值,除以合并的组内方差,而不是总方差, 里减总均值,除以合并的组内方差,而不是总方差, 然后分别计算每个类的均值, 然后分别计算每个类的均值,若均值差别大说明判 别是有意义的. 别是有意义的
17
Posterr选项的输出结果: 选项的输出结果: 选项的输出结果
λ =
*
∏
k =1
q
nk − 1 2
Ak A
n−q 2
⋅
q
(n − q )
( n−q ) p 2 ( nk − 1 ) p 2
∏n
k =1
∏ (n
k =1
k
− 1)
8
4. 有关非参数法的选项 1) K=k----为k最近邻规则指定一个 值. 最近邻规则指定一个k值 为 最近邻规则指定一个 2) R=r----为核密度估计指定一个半径 为核密度估计指定一个半径r. 为核密度估计指定一个半径 3) Kernal=Biweight|Epanechnikov|Norm al|Triweight|Uniform
先把全部训练样本标准化为均值为0,方差为 , 先把全部训练样本标准化为均值为 ,方差为1,然 后分别计算标准化数据每个类的均值, 后分别计算标准化数据每个类的均值,若均值差别 大说明判别是有意义的. 大说明判别是有意义的
16
Stdmean选项的输出结果: 选项的输出结果: 选项的输出结果
Pooled Within-Class Standardized Class Means Variable x1 x2 x3 x4 n -0.265674926 -0.738401846 -0.701069812 -0.315323488 y 0.531349852 1.476803692 1.402139624 0.630646975
2
基本语句
PROC DISCRIM < options > ; 必需的语句 CLASS variable ; BY variables ; FREQ variable ; ID variable ; PRIORS probabilities ; TESTCLASS variable ; 与testdata=的 的 TESTFREQ variable ; 数据集有关 TESTID variable ; VAR variables ; WEIGHT variable ; 3
19
Posterior Probability Error Rate Estimates for type1 Estimate n y Total Stratified 0.0541 0.0993 0.0767 Unstratified -0.2612 0.3995 0.0692 Priors 0.5000 0.5000
13
10.检验数据分类选项 检验数据分类选项
1) Testlist----列出 列出testdata=的数据集中全部观测的 列出 的数据集中全部观测的 分类结果. 分类结果 2) Testlisterr----仅当使用 仅当使用testclass语句给出检验集 仅当使用 语句给出检验集 中各观测所属类别时, 中各观测所属类别时,该选项要求列出 testdata=数据集中被错误分类的观测 数据集中被错误分类的观测. 数据集中被错误分类的观测
的含义是先把训练样本标准化, 注:选项stdmean的含义是先把训练样本标准化,然后计 选项 的含义是先把训练样本标准化 算每个类的均值,若均值差别大说明判别是有意义的. 算每个类的均值,若均值差别大说明判别是有意义的 Distance输出类之间的马氏距离 输出类之间的马氏距离. 输出类之间的马氏距离
11
8. 重新分类选项 1) List----输出重新分类结果 输出重新分类结果 2) Listerr----仅输出被错误分类的观测 仅输出被错误分类的观测 3) noclassify----不对输入 不对输入DATA=数据集进 不对输入 数据集进 行重新判别分类
12
9. 交叉确认 舍一法)分类选项 交叉确认(舍一法 分类选项 舍一法
4
2. 输出数据集选项 1) Outstat= SAS-data-set
各种统计量,比如均值,标准差, 各种统计量,比如均值,标准差,相关矩 阵及判别统计量等. 阵及判别统计量等
2) Out= SAS-data-set
输入数据集, 输入数据集,后验概率和每个观测重新被 归入的类等. 归入的类等
3) Outcross= SAS-data-set
10
7. 有关典型判别分析的选项
1) Can----进行典型判别分析 进行典型判别分析. 进行典型判别分析 2) Canprefix=name 为典型判别变量指定前缀,缺省时典型变量 为典型判别变量指定前缀, 名为CAN1,CAN2, … ,CANm. 名为 , , 3) Ncan=number 指定将被计算的典型变量的个数. 指定将被计算的典型变量的个数
18
The DISCRIM Procedure Classification Results for Calibration Data: WORK.EXAM3 Resubstitution Results using Linear Discriminant Function
Number of Observations and Average Posterior Probabilities Classified into type1 From type1 N Y Total Priors N 10 0.9459 0 . 10 0.9459 0.5 Y 0 . 5 0.9007 5 0.9007 0.5
2) Pool=no|test|yes
当 Pool=test 时,要求对组内协差阵的齐性 进行似然比检验, 进行似然比检验,然后根据检验结果建立 线性或非线性函数再进行判别归类. 线性或非线性函数再进行判别归类 缺省 值为yes(假定各类的协方差矩阵相等 假定各类的协方差矩阵相等). 值为 假定各类的协方差矩阵相等
7
3. 选择判别分析类型的选项 3) Slpool=p----指定协差阵齐性检验的显著
水平,缺省值为 水平,缺省值为0.1.
H 0 : Σ1 = Σ 2 = L = Σ q H 1 : Σ 1 , Σ 2 , L , Σ q 不全相等
λ=
∏
k =1
q
nk 2
Ak A
n 2
⋅
q
n
np 2 nk p 2 k
PROC DISCRIM语句的选择项 项) 语句的选择项(49项 语句的选择项 1. 输入数据集选项: 输入数据集选项: 1) Data=SAS-data-set 2) Testdata= SAS-data-set
指定待判别归类的数据集, 指定待判别归类的数据集,定量变量的变量 名必须与data=指定的建立判别函数的数据集 名必须与 指定的建立判别函数的数据集 中的变量名一致. 中的变量名一致
指定核函数,缺省为 指定核函数,缺省为Uniform|uni.
4) Metric=diagonal|full|identity
为计算平方距离时指定所选用的距离,缺省 为计算平方距离时指定所选用的距离, 为对角阵, 为单位阵, 为full. Diagonal为对角阵,identity为单位阵, 为对角阵 为单位阵 如method=normal,则metric=full. ,