北邮郭军web搜索第五章
d
ln Rl ln P(c1 ) ln P(c2 ) lnP(t j | c1 ) lnP(t j | c2 )
j 1 j 1
d
对数似然比:
朴素Bayes分类器
向量距离分类器
向量距离分类器可以看作是Bayes分类器的简化,它用 各类别数据的均值向量、方差向量、协方差矩阵等参 数近似描述它们的分布特性,利用向量之间的各种距 离进行分类,常用的距离尺度有:
和对应的特征向量 a i ,并构成矩阵
y At ( x x )
称为x的PCA变换(也称K-L变换)
PCA的性质
PCA变换后的变量y是零均值的随机变量,其协方差矩阵为:
y At x A
由于A是列为 x 的特征向量的正交矩阵,所以 y 是对角阵且对角线元素为 x 的特征值,即:
精度指标
分类与标注对应关系的频次
标注 为L类 判别为L类 判别为非L类 a c
标注为 非L类 b d
i) 准确率(Precision)表示 所有被分类器分到类L的数 据中正确的所占的比例
ii) 召回率(Recall)表示 所有实际属于L的数据被 分类器分到L中的比例
P
R
a ab
a ac
iii) 平衡点BEP(Break-even Point): P和R值是互相影响的: P会随着R的升 高而降低,反之亦然。因此,为了更全面地反映分类器的性能,一种做法 是选取P和R相等时的值来表征系统性能,这个值叫BEP iv) F值 一种把准确率和召回率综合考虑的评价方法,定义如下:
g ( x) w x b
x R d y 1, 1
D维空间中线性判别函数的一般形式为 分类超平面方程为
w x b 0
系统性能评价
评价指标主要包括分类器的精度和速度 速度取决于分类器算法的复杂程度,在实际应用中 与计算机的硬件性能关系很大 精度通过与人工标注结果(ground truth)进行比较来 计算 对于二元分类问题,常用的精度指标有 准确率 召回率 F-measure break-even点
最大特点是不需要训练类别模型,而是按某种合理的 比例从各类别中抽取样本,用所有抽出的样本构成分
类器的总体特征样本
对于一个给定的样本t,首先按照某种距离测度找出与 其最接近的k个样本,然后根据这k个样本所属类别进
行投票
SVM
SVM是一种以结构风险最小化为目标的二元分类器, 在寻找最优分类超平面时不但要求将两类数据隔离, 而且要求两类数据距超平面的平均距离最大 设线性可分数据集为 D {( xi , yi )}in1
第二步,在 Sb , Sw 上运用LDA
LDA/GSVD
通过广义奇异值分解GSVD,用Hb和Hw代替Sb和Sw
根据GSVD理论,正交矩阵Y∈Rc*c,Z∈Rn*n,以及 非奇异矩阵X∈Rd*d满足如下关系:
YT H T b X [ Σ b , 0] Z H X [ Σ w , 0]
T T w
LDA/QR
对Hb进行QR分解,得到一个正交矩阵Q和一个上三角 矩阵R,然后在Q张成的低维子空间内进行鉴别分析 算法分两步完成:
第一步,对Hb进行QR分解,Hb = QR
Q R d rb 的正交列张成了Hb的秩空间 R R rb c 是上三角矩阵
然后定义:
Sb QT SbQ, Sw QT SwQ
因此,如果 S w 是非奇异矩阵,最优的投影方向 Wopt 就是使得样本在变换空间的类间散度矩阵和样本类 内散度矩阵的行列式比值最大的那些正交特征向量
LDA的定义(3/3)
定义如下的准则函数:
J ( Wopt ) arg max
W
Sb Sw
arg max
W
WT Sb W WT S w W
容易证明,使J(.)最大化的变换矩阵W的列向量由下列 等式中的最大特征值对应的特征向量组成:
S w Si
i 1
其中 Si
样本类间散度矩阵定义为:
xCi
d t , m 为第 i 类样本的均值, x R ( x m )( x m ) i i i
Sb ni (mi m )(mi m )t
i 1
c
其中 m 为样本集的总体均值向量
LDA的定义(2/3)
降维变换
需要进行学习的降维变换是指变换核(基函数)随被 处理数据集变化以获得最佳变换效果的变换(自适应变 换)
主成分分析PCA(Principal Component Analysis)
独立成分分析ICA(Independent Component Analysis) 线性鉴别分析LDA(Linear Discriminative Analysis) 希尔伯特—黄变换Hilbert-Huang 自适应变换也存在生成式和区分式之分
主要方法:
正则化LDA PCA+LDA
PCA+NULL空间
LDA/QR LDA/GSVD
正则化LDA(RLDA)
一种简单的解决Sw矩阵奇异的方法是利用正则化思想 在Sw上加一个扰动量,数学表达为
S w S w I
其中 0,I为一个单位矩阵 这种方法的主要问题在于扰动量的选取有难度。如 果扰动量太小可能不足以解决奇异问题,太大又会使 Sw内包含的判决信息丢失
b
I b
Db
Ob
w
I w
Dw
Ow
Db diag (rt rw 1,
,rb )
Dw diag (rt rw 1,
T T b b ww I
, rb )
i2 i2 1
在应用中常遇到类内分散度矩阵Sw奇异的问题
当数据维数很高时,能够获得的样本数常常相对 不足,使得独立的训练样本数N小于数据维数d, 而这将导致Sw为奇异矩阵 信息过滤所处理的文本、图像、音频等一般都是 在高维数据空间中表达的 解决LDA奇异性问题时,常先用某种生成式算法 对数据进行降维
LDA奇异性的解决
X的列向量就是矩阵对[Hb,Hw]对应的广义奇异向量, 因此有 并将其作为基于GSVD的鉴别特征子空间
RDM
RDM的特点主要有两方面 1)将LDA问题转化为同时对角化类内和类间散度 矩阵问题 2)通过能量适应准则来近似估计
对类内散度矩阵Sw进行对角化,得:
Sw ΦΛΦT , Λ diag{1, 2 ,
Sb wi iSwwi
(i 1, 2,…,c-1)
这是一个广义特征值问题,如果Sw是非奇异的,W的 1 列向量就是由矩阵 S w Sb 的特征向量组成 其中
1 S w Sb W W diag{1 , 2 ,
, c1}
LDA的奇异性
LDA是信息过滤中数据降维的核心算法之一
由于
y
1 y d 的非对角元素都是零,所以随机变量y的各维之间是不相关的
LDA
LDA的思想是找一个投影方向,使得投影后在低维空 间里样本的类间散度较大,类内散度较小
x1
x’
x2
LDA的定义(1/3)
设Ci为第i类样本的集合,共有c类样本,则样本类内散度矩 c 阵定义为:
IF的研究重点
分类器的选择
针对特定的应用环境选择分类器模型 目前研究较多的是朴素Bayes模型、向量相似度(模
板匹配)模型、SVM、k-NN等
分类器的学习及优化
生成式算法、区分式算法 计算效率,类别模型的增量学习和自动演进,半监 督学习、特征降维技术
基本方法
信息过滤系统中常用的分类器 Bayes分类器 向量距离分类器 k近邻分类器 SVM 系统性能评价
PCA
d 设随机变量 x R ,存在一个样本集 X { xi }iN1
,则其均值可估计如下:
1 N x xi N i 1
协方差矩阵可估计如下:
1 N x (xi x )(xi x )t N i 1
求解
x 按降序排列的d个特征值 i A {a1,..., ad } ,则式
, n}
在对角矩阵上加上一个小的扰动量进行正则化,即
Λ Λ I ( 0)
σ的选择
RDM将Sw的能量谱用作选择σ的标准
* m , 其中J (m) min m m
m
i i 1 E ( ) n i i 1
Web 搜索 郭 军
北京邮电大学
第5章 信息过滤
基本方法
模型学习
垃圾邮件及垃圾短信过滤
话题检测与追踪系统
引 言
IR IF
•被检索的文档相对稳定 •用户查询需求不同 •信息资源动态变化 •用户需求相对固定
信息过滤的本质是“流环境”下的二元分类 流环境:过滤系统处于信息持续新生的环境之中,新的 数据源源不断地流经过滤系统 二元分类:一类是需要筛选出来的,一类是系统不关心 的 以模式分类为技术核心,高效高精度地处理数据流
( 2 1) P R F 2 P R
F1
2 P R PR
模型学习
生成式学习 典型应用:利用EM算法对GMM的参数进行估计 共同特征:每个类模型只用本类的样本进行估计, 估计的准则是使模型产生训练样本的可能性最大( 最大似然) 早期的模型学习主要采用生成式算法 区分式学习 典型应用: SVM的学习 共同特征: 由需要相互区分的各类样本共同构成一 个模型,通过多类样本的“角力”形成不偏不依的 分类面