当前位置：文档之家› 国科大现代信息检索第二次作业

国科大现代信息检索第二次作业

词 digital video cameras tf 1 0 1 wf 1 0 1 查询 df idf 10 000 3 100 000 2 50 000 2.301 文 qi=wf-idf 3 0 2.301 tf 1 1 2 wf 1 1 1.301 档 di=归一化的wf 0.52 0.52 0.677
将结果填入表 6-1 的空列中。假定 N=10000000，对查询及文档中的词项权重（wf 对应的列）采用对数方法计算，查询的权重计算采用 idf，而文档归一化采用余弦相似度计算。将 and 看成是停用词。请在 tf 列中给出词项的出现频率，并计算出最后的相似度结果。表6-1 习题6-19中的余弦相似度计算
文档ID 1 2 3 4 文档文本 click go the shears boys click clickclick click click metal here metal shears click here
为该文档集建立一个查询似然模型。假定采用文档语言模型和文档集语言模型的混合模型，权重均为 0.5。采用 MLE 来估计两个一元模型。计算在查询 click、shears 以及 click shears 下每篇文档模型对应的概率，并利用这些概率来对返回的文档排序。将这些概率填在下表中。对于查询 click shears 来说，最后得到的文档次序如何？查询似然模型： click 1/2 模型1 模型2 模型3 模型4 文档集模型 1 0 1/4 7/16 go 1/8 0 0 0 1/16 the 1/8 0 0 0 1/16 shears 1/8 0 0 1/4 2/16 boys 1/8 0 0 0 1/16 metal 0 0 1/2 1/4 2/16 here 0 0 1/2 1/4 2/16
排名靠前），相关性判定的情况如下所示：系统 1 系统 2 a.
计算两个系统的 MAP 值并比较大小。
MAP(系统 1)=(1/4)*(1+2/3+3/9+4/10)=0.6 MAP(系统 2)=(1/4)*(1/2+2/5+3/6+4/7)=0.493 由于只有一个查询，MAP=AP。系统 1 的 MAP 值更大 b. 上述结果直观上看有意义吗？能否从中得出启发如何才能获得高的 MAP 得分？系统 1 返回的相关文档位置较分离，有的在前面有的在后面，系统 2 返回的相关文档较集中的中间位置。系统 1 获得了较高的 MAP 值。排名前面位置的相关文档数对 MAP 值的影响较大，相关文档排在靠前的位置可以获得较高的 MAP 得分。 c. 计算两个系统的 R 正确性值，并与 a 中按照 MAP 进行排序的结果进行对比。 R 正确率（系统 1）=2/4=0.5 R 正确率（系统 2）=1/4=0.25 虽然 R 正确率只度量了正确率-召回率曲线上的一个点，但是经验上却证实它和 MAP 是高度相关的。按照 R 正确率和 MAP 排序得到的结果一致。 8. 习题 9-3 假定用户的初始查询是 cheap CDs cheap DVDs extremelycheap CDs。用户查看了两篇文档 d1
值来计算所有词项 car、auto、insurance 及 best 的 tf-idf 值。
图 6-9
习题 6-10 中所使用的 tf 值
car 在三篇文档中的 tf-idf 值分别：Doc1:27*1.65=44.55；Doc2:4*1.65=6.6；Doc3:24*1.65=39.6 auto 在三篇文档中的 tf-idf 值分别为：Doc1:3*2.08=6.24；33*2.08=68.64；0*2.08=0 insurance 在三篇文档中的 tf-idf 值分别为：Doc1:0*1.62=0；33*1.62=53.46；29*1.62=46.98 best 在三篇文档中的 tf-idf 值分别为：Doc1:14*1.5=21；0*1.5=0；17*1.5=25.5 2. 习题 6-15 回到习题 6-10 中的 tf-idf 权重计算，试计算采用欧氏归一化方式处理后的文档向量，其
国科大 2013 年秋季《现代信息检索》第二次作业(第六章到第十五章)
以下 1-16 每题 6 分，第 17 题 3 分，共计 100 分。
1.
习题 6-10
考虑图 6-9 中的 3 篇文档 Doc1、Doc2、Doc3 中几个词项的 tf 情况，采用图 6-8 中的 idf
Doc1 car auto insurance best 27 3 0 14 Doc2 4 33 33 0 Doc3 24 0 29 17
qi d i
1.56 0 1.558
相似度结果=1.56+1.558=3.118 4. 习题 7-1 图 7-2 中倒排记录表均按照静态得分 g(d)的降序排列，为什么不采用升序排列？
一篇文档 d 的最后得分定义为 g(d)和某个与查询相关的得分的某种组合，一些文档具有高的 g(d)值更有可能具有较大的最后得分，降序排列有助于提高 top-k 检索的效率。在这种排序下，高分文档更可能在倒排记录表遍历的前期出现。在实际受限的应用当中（比如，任意搜索需要在 50ms 内返回结果），上述方式可以提前结束倒排记录表的遍历。 5. 习题 7-8 平面上的最近邻问题如下：在平面上给出 N 个数据中寻找与 Q 具有最短欧氏距离的点。很显然，如果我们希望能够避免计算 Q 和所有平面上的点的距离时，簇剪枝就能够作为最近邻问题的一种处理方法。请给出一个简单的例子来说明：如果只选择最近的两个先导者，那么簇剪枝方法可能会返回错误的结果（也就是说返回的不是离 Q 最近的数据点）。如图所示，黄色圈代表查询，离查询最近的两个
中每个向量有 4 维，每维对应一个词项。 Doc1=(44.55,6.24,0,21)，Len(Doc1)=49.6451 对其长度归一化得到 Doc1=（0.897，0.126，0，0.423） Doc2=（6.6,68.64,53.46,0），Len（Doc2）=87.2524 对其长度归一化得到 Doc2=（0.076，0.787，0.613，0） Doc3=（39.6,0,46.98,25.5），Len（Doc3）=66.5247 对其长度归一化得到 Doc3=（0.595，0，0.706，0.383） 3. 习题 6-19 计算查询 digital cameras 及文档 digital cameras and video cameras 的向量空间相似度并
��∈�� = 1 = �� (1 − �� )|�� |−��

∂P(D|R = 1) ��−1 �� = s × �� (1 − �� )|�� |−�� − �� × ( �� − ��)(1 − �� )|�� |−��−1 ∂�� ∂ P(D|R=1) 令 = 0，得到�� = ��/|��|
所有文档中有 s 篇文档包含词项 t，即在这 s 篇文档中 Xt=1。假定所观察到的数据就是这些 Xt 在文档中的分布情况。请证明采用 MLE 估计方法对参数 pt ( X t 1| R 1, q ) 进行估计的结果，即使得观察数据概率最大化的参数值为 pt= s/|R|。设 D 是相关文档集，定义一个函数P D R = 1 =
b
对于表 13-2，为什么在绝大部分文本集中|||V| <||Lave 都成立？
b 0.5
假设大多数文档集的词条数都大于 100 万，根据 Heaps 定律，词汇表大小 V 是文档集规模 T 的一个函数， V=K*T ，典型的 K=44，b=0.49，V=K*T =44*(1000000) =44000 |D|Ld=文档集中的词条数=1000000，|C||V|=2*44000=88000 所以大多数文档集有|C||V|<|D|Ld 13. 习题 13-2[*] 表 13-5 中的文档中，对于如下的两种模型表示，哪些文档具有相同的模型表示？哪些文档具有不同的模型表示？对于不同的表示进行描述。 (i) 贝努利模型。 (ii) 多项式模型。表13-5 NB独立性假设存在问题的几个文档例子
和 d2，并对这两篇文档进行了判断：包含内容 CDs cheap software cheap CDs 的文档 d1 为相关文档，而内容为 cheap thrills DVDs 的文档 d2 为不相关文档。假设直接使用词项的频率作为权重（不进行归一化也不加上文档频率因子），也不对向量进行长度归一化。采用公式（9-3）进行 Rocchio 相关反馈，请问修改后的查询向量是多少？其中 α = 1，β = 0.75，γ = 0.25。 �� = ��0 + �� 词项频率表格词 CDs cheap DVDs extremely software thrills 1 |�� | �� − ��
�� ∈��
1 |�� |
��
�� ∈��
原始查询 2 3 1 1 0 0
d1 2 2 0 0 1 0
d2 0 1 1 0 0 1
修改后的查询向量 q=(2.5,4.25,0.75,1,0.75,-0.25)，如果向量中权重分量为负值，那么该分量权重设为 0。所以最终 Rocchio 向量为（2.5，4.25，0.75，1，0.75，0） 9. 习题 11-3 [**] 令 Xt 表示词项 t 在文档中出现与否的随机变量。假定文档集中有 |R|篇相关文档，

e商务文档

国科大现代信息检索第二次作业

相关文档推荐：