当前位置：文档之家› 向量空间模型

向量空间模型

D1 D2 D3
Q
0
0
0
0
0
0.176
0
0
0
0.477
0.176
SC(Q, D1) = 0×0 + 0×0 + 0×0.477 + 0×0
类似地：
SC(Q, D2)
SC(Q, D3)
+ 0×0.477 + 0.176×0.176 + 0×0 + 0×0 + 0×0.176 + 0.477×0 + 0.176×0 = 0.1762 0.031
向量空间模型 ——构建向量
文档： A,I
D1
D2
A
D3
I
A,I
Q
文档向量： D1= < 1, 1 > D2 = < 1, 0 > D3 = < 0, 1 > Q = < 1, 1>
y
1
D3
D1, Q
D2
1
《网络信息内容安全》讲义/张华平/2010-10
x
向量空间模型 ——构建向量
二值表示方法并没有考虑一个词项在文档中出现的次数。通过扩展这种表示形式，我们将词项在文档中出现的频率作为向量中各个分量的值。在上例中，如果文档D2中A出现了两次，向量可以表示为<2, 0>。
max
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
文档向量： di
(di1, di 2 ,, dit )
查询向量： Q (wq1, wq 2 ,, wqt )
(1)内积（Inner Product）
SC(Q, Di ) wqj d ij
j 1 t
j 1
《网络信息内容安全》讲义/张华平/2010-10
t
向量空间模型 —构建向量（举例）
Q：“gold silver truck” D1：“Shipment of gold damaged in a fire” D2：“Delivery of silver arrived in a silver truck” D3：“Shipment of gold arrived in a truck”
2 [(lg tf 1 . 0 ) idf ] j 1 ij t
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
基于该思想的修订版本是在查询和文档中的词项使用不同的权重。 lnc.ltc词项权重计算模式非常有效。标签lnc.ltc是如下形式：qqq.ddd，其中qqq 指查询权重，ddd指文档权重。这三个字母： qqq或ddd是xyz的形式。
termn
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
新问题：在已知的查询和文档中，词频很高的匹配词项淹没了其他匹配词项的效果。为了避免这种现象，科研人员提出使用 lg(tf ) + 1来缩小词频的范围。新的权重：
wij (lg tf ij 1.0) idf j
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
最后一种调整是针对在特别长文档中出现的词频特别高的情况。首先，使用1+lg来限制词频。为了应对长文档，将每个词项权重除以平均词项权重。新的权重dij为：
1 lg tf d ij idf 1 lg( atf )
j
使用新权重，并且除以调整因子的新公式如下：
SC (Q, Di )
《网络信息内容安全》讲义/张华平/2010-10

t j 1
wqj dij
(1.0 s) p ( s)(| di |)
(2-2)
向量空间模型 ——相似度
然后我们计算给定文档集中每篇文档的词项的平均数量，并且将其作为临界点p。一旦计算完成，就可以使用文档集就上训练出一个很好的斜率。公式（2-2）被称为临界点唯一归一化（pivoted unique normalization）。实验表明，在公式（2-1）临界点余弦归一化的基础上检索效果得到了提高。修改后的归一化因子使得更可能检索到长文档，并且对于TREC查询，性能可以提高10%。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
除了简单地给出查询词列表外，用户通常还会给出权重，该权重表示一个词项比另外一个词项更重要。思想：不频繁出现的词的权重应该比频繁出现的词的权重更高。方法：人工赋值—在初始查询中用户人工指定词项权重来实现的。自动赋值—通过基于词项在整个文档集中出现的频率。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
然而这种简单的假设是不正确的（至少对于TREC数据）。拿50个TREC查询集所有查找到的相关文档来说，Singhal发现实际上在长文档集中更多文档被判断为相关的[Singhal，1997]。原因可能是长文档仅仅是有更多的机会包含那些与给定查询确实相关的词项。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
第一个字母x可以是n、l或a。n表示原始词频或指tf。 l表示通过取对数来降低权重，所以可以使用1+lg(tf)。 tf 0 . 5 0 . 5 a表示加强权重，所以权重为: tf 第二个字母y表示是否使用idf。n表示不使用idf，t表示使用idf。第三个字母z表示是否使用文档长度归一化。通过归一化文档长度，我们试着减小检索中文档长度的影响（见公式2-1）。在文献[Singhal, 1997]中，n表示不使用归一化，c表示使用标准的余弦归一化，u表示使用临界点长度（pivoted length）归一化。
向量空间模型
向量空间模型是最常用的检索模型（Salton 等人，1975年）思想：文章的语义通过所使用的词语来表达方法:每一篇文档用一个向量来表达，查询用一个向量来表达，通过向量的方式来计算相似度。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型
查询文档1
<q0, q1, q2, …qn,>
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 —构建向量（举例）
docid a 0 0 0 arrived 0 0.176 0.176 damaged 0.477 0 0 delivery 0 0.477 0 fire 0.477 0 0 gold 0.176 0 0.176 in 0 0 0 of 0 0 0 shipment 0.176 0 0.176 silver 0 0.954 0 truck 0 0.176 0.176
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
对于文档中词项的权重因素，主要综合考虑词频和逆文档频率。文档i对应的向量中第j个词条的值：
d ij tfij idf j
查询Q和文档Di的相似度可以简单地定义为两个向量的内积。
SC(Q, Di ) wqj d ij
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
(3)临界点余弦（Pivoted Cosine）
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
相似度为：
SC(Q, Di )

t j 1
wqj d ij
(1.0 s) p ( s)

t
2 ( w ) j 1 qj t
j Байду номын сангаас (dij )
2
条件假设：余弦方法中假定文档长度对查询没有影响。余弦方法通过将向量内积除以文档向量的长度来实现不同文档长度的归一化。除以文档向量长度就是不考虑文档长度。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
Dice系数：
SC(Q, Di ) 2 j 1 wqj dij
t 2 ( d ) ( w ) j 1 ij j 1 qj t 2 t
Jaccard系数：
SC(Q, Di )
2 ( d ) j 1 ij t

t j 1
wqj dij
t
t
2 ( w ) j 1 wqj dij qj j 1
= 0.954×0.477 + 0.1762 0.486
= 0.1762 + 0.1762 0.062
因此，检索结果顺序为D2, D3, D1。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 —倒排索引
term1 term2 term3
d1, 1
d10, 2
termi
dj, tfi,j
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
我们采用稍大一些的例子来展示如何使用基于数据集频率的权重。 t —— 文档集中不同词项的个数。 tfij —— 词项tj在文档Di中出现的次数，也就是词频。
df j
—— 包含词项tj的文档的篇数。
—— lg d ，其中d表示所有文档的篇数。 df j
《网络信息内容安全》讲义/张华平/2010-10
概率检索模型
Probabilistic Retrieval Model
《网络信息内容安全》讲义/张华平/2010-10
概率模型
概率模型通过计算文档与查询相关的概率来作为文档和查询的相似度。这就使相关性排序问题降为概率论应用问题。起源思想：基于一个词项分别在相关文档和不相关文档中出现的频率来估计该词项的权重。条件：独立性假设 ——词项间是独立的方法：查询中的词项可以看做文档相关的指示器。经过观察，我们发现词项A同时在文档和查询中出现时，文档相关的概率为x%。这样我们就为词项A赋值这个概率。所有权重的乘积是文档相关的概率。《网络信息内容安全》讲义 /张华平/2010-10

e商务文档

向量空间模型

相关文档推荐：