当前位置:
文档之家› 国科大现代信息检索第二次作业
国科大现代信息检索第二次作业
词 digital video cameras tf 1 0 1 wf 1 0 1 查 询 df idf 10 000 3 100 000 2 50 000 2.301 文 qi=wf-idf 3 0 2.301 tf 1 1 2 wf 1 1 1.301 档 di=归一化的wf 0.52 0.52 0.677
将结果填入表 6-1 的空列中。假定 N=10000000,对查询及文档中的词项权重(wf 对应的列)采用对数方法 计算,查询的权重计算采用 idf,而文档归一化采用余弦相似度计算。将 and 看成是停用词。请在 tf 列中 给出词项的出现频率,并计算出最后的相似度结果。 表6-1 习题6-19中的余弦相似度计算
文档ID 1 2 3 4 文档文本 click go the shears boys click clickclick click click metal here metal shears click here
为该文档集建立一个查询似然模型。假定采用文档语言模型和文档集语言模型的混合模型,权重均为 0.5。 采用 MLE 来估计两个一元模型。计算在查询 click、shears 以及 click shears 下每篇文档模型对应的概率,并 利用这些概率来对返回的文档排序。将这些概率填在下表中。对于查询 click shears 来说,最后得到的文档 次序如何? 查询似然模型: click 1/2 模型1 模型2 模型3 模型4 文档集模型 1 0 1/4 7/16 go 1/8 0 0 0 1/16 the 1/8 0 0 0 1/16 shears 1/8 0 0 1/4 2/16 boys 1/8 0 0 0 1/16 metal 0 0 1/2 1/4 2/16 here 0 0 1/2 1/4 2/16
排名靠前),相关性判定的情况如下所示: 系统 1 系统 2 a.
计算两个系统的 MAP 值并比较大小。
MAP(系统 1)=(1/4)*(1+2/3+3/9+4/10)=0.6 MAP(系统 2)=(1/4)*(1/2+2/5+3/6+4/7)=0.493 由于只有一个查询,MAP=AP。系统 1 的 MAP 值更大 b. 上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的 MAP 得分? 系统 1 返回的相关文档位置较分离,有的在前面有的在后面,系统 2 返回的相关文档较集中的中间位置。 系统 1 获得了较高的 MAP 值。 排名前面位置的相关文档数对 MAP 值的影响较大,相关文档排在靠前的位置可以获得较高的 MAP 得分。 c. 计算两个系统的 R 正确性值,并与 a 中按照 MAP 进行排序的结果进行对比。 R 正确率(系统 1)=2/4=0.5 R 正确率(系统 2)=1/4=0.25 虽然 R 正确率只度量了正确率-召回率曲线上的一个点, 但是经验上却证实它和 MAP 是高度相关的。 按照 R 正确率和 MAP 排序得到的结果一致。 8. 习题 9-3 假定用户的初始查询是 cheap CDs cheap DVDs extremelycheap CDs。用户查看了两篇文档 d1
值来计算所有词项 car、auto、insurance 及 best 的 tf-idf 值。
图 6-9
习题 6-10 中所使用的 tf 值
car 在三篇文档中的 tf-idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39.6 auto 在三篇文档中的 tf-idf 值分别为:Doc1:3*2.08=6.24;33*2.08=68.64;0*2.08=0 insurance 在三篇文档中的 tf-idf 值分别为:Doc1:0*1.62=0;33*1.62=53.46;29*1.62=46.98 best 在三篇文档中的 tf-idf 值分别为:Doc1:14*1.5=21;0*1.5=0;17*1.5=25.5 2. 习题 6-15 回到习题 6-10 中的 tf-idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其
国科大 2013 年秋季《现代信息检索》第二次作业(第六章到第十五章)
以下 1-16 每题 6 分,第 17 题 3 分,共计 100 分。
1.
习题 6-10
考虑图 6-9 中的 3 篇文档 Doc1、Doc2、Doc3 中几个词项的 tf 情况,采用图 6-8 中的 idf
Doc1 car auto insurance best 27 3 0 14 Doc2 4 33 33 0 Doc3 24 0 29 17
qi d i
1.56 0 1.558
相似度结果=1.56+1.558=3.118 4. 习题 7-1 图 7-2 中倒排记录表均按照静态得分 g(d)的降序排列,为什么不采用升序排列?
一篇文档 d 的最后得分定义为 g(d)和某个与查询相关的得分的某种组合,一些文档具有高的 g(d)值更有可 能具有较大的最后得分,降序排列有助于提高 top-k 检索的效率。在这种排序下,高分文档更可能在倒排记 录表遍历的前期出现。在实际受限的应用当中(比如,任意搜索需要在 50ms 内返回结果) ,上述方式可以 提前结束倒排记录表的遍历。 5. 习题 7-8 平面上的最近邻问题如下:在平面上给出 N 个数据中寻找与 Q 具有最短欧氏距离的点。很显然,如果我们希望能够避免计算 Q 和所 有平面上的点的距离时,簇剪枝就能够作为最近邻问题的一种处理方法。请给出一个简单的例子来说明: 如果只选择最近的两个先导者,那么簇剪枝方法可能会返回错误的结果(也就是说返回的不是离 Q 最近的 数据点) 。 如图所示,黄色圈代表查询,离查询最近的两个
中每个向量有 4 维,每维对应一个词项。 Doc1=(44.55,6.24,0,21),Len(Doc1)=49.6451 对其长度归一化得到 Doc1=(0.897,0.126,0,0.423) Doc2=(6.6,68.64,53.46,0) ,Len(Doc2)=87.2524 对其长度归一化得到 Doc2=(0.076,0.787,0.613,0) Doc3=(39.6,0,46.98,25.5) ,Len(Doc3)=66.5247 对其长度归一化得到 Doc3=(0.595,0,0.706,0.383) 3. 习题 6-19 计算查询 digital cameras 及文档 digital cameras and video cameras 的向量空间相似度并
������∈������ ������ ������ ������ ������ = 1 = ������������ (1 − ������������ )|������ |−������
∂P(D|R = 1) ������−1 ������ = s × ������������ (1 − ������������ )|������ |−������ − ������������ × ( ������ − ������)(1 − ������������ )|������ |−������−1 ∂������������ ∂ P(D|R=1) 令 = 0,得到������������ = ������/|������|
所有文档中有 s 篇文档包含词项 t, 即在这 s 篇文档中 Xt=1。 假定所观察到的数据就是这些 Xt 在文档中的分 布情况。请证明采用 MLE 估计方法对参数 pt ( X t 1| R 1, q ) 进行估计的结果,即使得观察数据概率最 大化的参数值为 pt= s/|R|。 设 D 是相关文档集,定义一个函数P D R = 1 =
b
对于表 13-2,为什么在绝大部分文本集中|||V| <||Lave 都成立?
b 0.5
假设大多数文档集的词条数都大于 100 万,根据 Heaps 定律,词汇表大小 V 是文档集规模 T 的一个函数, V=K*T ,典型的 K=44,b=0.49,V=K*T =44*(1000000) =44000 |D|Ld=文档集中的词条数=1000000,|C||V|=2*44000=88000 所以大多数文档集有|C||V|<|D|Ld 13. 习题 13-2[*] 表 13-5 中的文档中,对于如下的两种模型表示,哪些文档具有相同的模型表示?哪 些文档具有不同的模型表示?对于不同的表示进行描述。 (i) 贝努利模型。 (ii) 多项式模型。 表13-5 NB独立性假设存在问题的几个文档例子
和 d2,并对这两篇文档进行了判断:包含内容 CDs cheap software cheap CDs 的文档 d1 为相关文档,而内容 为 cheap thrills DVDs 的文档 d2 为不相关文档。假设直接使用词项的频率作为权重(不进行归一化也不加上 文档频率因子) ,也不对向量进行长度归一化。采用公式(9-3)进行 Rocchio 相关反馈,请问修改后的查询 向量是多少?其中 α = 1,β = 0.75,γ = 0.25。 ������������ = ������������0 + ������ 词项频率表格 词 CDs cheap DVDs extremely software thrills 1 |������������ | ������������ − ������
������ ������ ∈������������
1 |������������������ |
������������
������ ������ ∈������������������
原始查询 2 3 1 1 0 0
d1 2 2 0 0 1 0
d2 0 1 1 0 0 1
修改后的查询向量 q=(2.5,4.25,0.75,1,0.75,-0.25),如果向量中权重分量为负值,那么该分量权重设为 0。所 以最终 Rocchio 向量为(2.5,4.25,0.75,1,0.75,0) 9. 习题 11-3 [**] 令 Xt 表示词项 t 在文档中出现与否的随机变量。假定文档集中有 |R|篇相关文档,