当前位置:文档之家› 向量空间模型

向量空间模型


D1 D2 D3
Q
0
0
0
0
0
0.176
0
0
0
0.477
0.176
SC(Q, D1) = 0×0 + 0×0 + 0×0.477 + 0×0
类似地:
SC(Q, D2)
SC(Q, D3)
+ 0×0.477 + 0.176×0.176 + 0×0 + 0×0 + 0×0.176 + 0.477×0 + 0.176×0 = 0.1762 0.031
向量空间模型 ——构建向量
文档: A,I
D1
D2
A
D3
I
A,I
Q
文档向量: D1= < 1, 1 > D2 = < 1, 0 > D3 = < 0, 1 > Q = < 1, 1>
y
1
D3
D1, Q
D2
1
《网络信息内容安全》讲义/张华平/2010-10
x
向量空间模型 ——构建向量
二值表示方法并没有考虑一个词项在文档 中出现的次数。 通过扩展这种表示形式,我们将词项在文 档中出现的频率作为向量中各个分量的值。 在上例中,如果文档D2中A出现了两次,向 量可以表示为<2, 0>。
max
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
文档向量: di
(di1, di 2 ,, dit )
查询向量: Q (wq1, wq 2 ,, wqt )
(1)内积(Inner Product)
SC(Q, Di ) wqj d ij
j 1 t
j 1
《网络信息内容安全》讲义/张华平/2010-10
t
向量空间模型 —构建向量(举例)
Q:“gold silver truck” D1:“Shipment of gold damaged in a fire” D2:“Delivery of silver arrived in a silver truck” D3:“Shipment of gold arrived in a truck”
2 [(lg tf 1 . 0 ) idf ] j 1 ij t
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
基于该思想的修订版本是在查询和文档中 的词项使用不同的权重。 lnc.ltc词项权重计算模式非常有效。 标签lnc.ltc是如下形式:qqq.ddd,其中qqq 指查询权重,ddd指文档权重。这三个字母: qqq或ddd是xyz的形式。
termn
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
新问题:在已知的查询和文档中,词频很 高的匹配词项淹没了其他匹配词项的效果。 为了避免这种现象,科研人员提出使用 lg(tf ) + 1来缩小词频的范围。 新的权重:
wij (lg tf ij 1.0) idf j
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
最后一种调整是针对在特别长文档中出现的词频 特别高的情况。 首先,使用1+lg来限制词频。为了应对长文档, 将每个词项权重除以平均词项权重。 新的权重dij为:
1 lg tf d ij idf 1 lg( atf )
j
使用新权重,并且除以调整因子的新公式如下:
SC (Q, Di )
《网络信息内容安全》讲义/张华平/2010-10

t j 1
wqj dij
(1.0 s) p ( s)(| di |)
(2-2)
向量空间模型 ——相似度
然后我们计算给定文档集中每篇文档的词项的平 均数量,并且将其作为临界点p。 一旦计算完成,就可以使用文档集就上训练出一 个很好的斜率。公式(2-2)被称为临界点唯一归 一化(pivoted unique normalization)。 实验表明,在公式(2-1)临界点余弦归一化的基 础上检索效果得到了提高。修改后的归一化因子 使得更可能检索到长文档,并且对于TREC查询, 性能可以提高10%。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
除了简单地给出查询词列表外,用户通常还会给 出权重,该权重表示一个词项比另外一个词项更 重要。 思想:不频繁出现的词的权重应该比频繁出现的 词的权重更高。 方法:人工赋值—在初始查询中用户人工指定词 项权重来实现的。 自动赋值—通过基于词项在整个文档集中 出现的频率。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
然而这种简单的假设是不正确的(至少对 于TREC数据) 。 拿50个TREC查询集所有查找到的相关文档 来说,Singhal发现实际上在长文档集中更多 文档被判断为相关的[Singhal,1997]。 原因可能是长文档仅仅是有更多的机会包 含那些与给定查询确实相关的词项。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
第一个字母x可以是n、l或a。n表示原始词频或指tf。 l表示通过取对数来降低权重,所以可以使用1+lg(tf)。 tf 0 . 5 0 . 5 a表示加强权重,所以权重为: tf 第二个字母y表示是否使用idf。n表示不使用idf,t表 示使用idf。 第三个字母z表示是否使用文档长度归一化。通过归 一化文档长度,我们试着减小检索中文档长度的影 响(见公式2-1)。在文献[Singhal, 1997]中,n表示不 使用归一化,c表示使用标准的余弦归一化,u表示使 用临界点长度(pivoted length)归一化。
向量空间模型
向量空间模型是最常用的检索模型(Salton 等人,1975年) 思想:文章的语义通过所使用的词语来表 达 方法:每一篇文档用一个向量来表达,查询 用一个向量来表达,通过向量的方式来计 算相似度。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型
查询 文档1
<q0, q1, q2, …qn,>
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 —构建向量(举例)
docid a 0 0 0 arrived 0 0.176 0.176 damaged 0.477 0 0 delivery 0 0.477 0 fire 0.477 0 0 gold 0.176 0 0.176 in 0 0 0 of 0 0 0 shipment 0.176 0 0.176 silver 0 0.954 0 truck 0 0.176 0.176
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
对于文档中词项的权重因素,主要综合考虑 词频和逆文档频率。 文档i对应的向量中第j个词条的值:
d ij tfij idf j
查询Q和文档Di的相似度可以简单地定义为 两个向量的内积。
SC(Q, Di ) wqj d ij
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
(3)临界点余弦(Pivoted Cosine)
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
相似度为:
SC(Q, Di )

t j 1
wqj d ij
(1.0 s) p ( s)

t
2 ( w ) j 1 qj t
j Байду номын сангаас (dij )
2
条件假设:余弦方法中假定文档长度对查 询没有影响。 余弦方法通过将向量内积除以文档向量的 长度来实现不同文档长度的归一化。除以文 档向量长度就是不考虑文档长度。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——相似度
Dice系数:
SC(Q, Di ) 2 j 1 wqj dij
t 2 ( d ) ( w ) j 1 ij j 1 qj t 2 t
Jaccard系数:
SC(Q, Di )
2 ( d ) j 1 ij t

t j 1
wqj dij
t
t
2 ( w ) j 1 wqj dij qj j 1
= 0.954×0.477 + 0.1762 0.486
= 0.1762 + 0.1762 0.062
因此,检索结果顺序为D2, D3, D1。
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 —倒排索引
term1 term2 term3
d1, 1
d10, 2
termi
dj, tfi,j
《网络信息内容安全》讲义/张华平/2010-10
向量空间模型 ——构建向量
我们采用稍大一些的例子来展示如何使用基于数据集频 率的权重。 t —— 文档集中不同词项的个数。 tfij —— 词项tj在文档Di中出现的次数,也就是词频。
df j
—— 包含词项tj的文档的篇数。
—— lg d ,其中d表示所有文档的篇数。 df j
《网络信息内容安全》讲义/张华平/2010-10
概率检索模型
Probabilistic Retrieval Model
《网络信息内容安全》讲义/张华平/2010-10
概率模型
概率模型通过计算文档与查询相关的概率来作为 文档和查询的相似度。这就使相关性排序问题降 为概率论应用问题。 起源思想:基于一个词项分别在相关文档和不相 关文档中出现的频率来估计该词项的权重。 条件:独立性假设 ——词项间是独立的 方法:查询中的词项可以看做文档相关的指示器。 经过观察,我们发现词项A同时在文档和查询中 出现时,文档相关的概率为x%。这样我们就为词 项A赋值这个概率。 所有权重的乘积是文档相关的概率。 《网络信息内容安全》讲义 /张华平/2010-10
相关主题