当前位置：文档之家› 信息检索导论-王斌第二次课后作业(6-12)

信息检索导论-王斌第二次课后作业(6-12)

1、习题6-10
tf-idf = tf * idf
car的tf-idf值在三篇文档中分别为：
Doc1:27*1.65=44.55；Doc2:4*1.65=6.6；Doc：24*1.65=39.6；auto的tf-idf值在三篇文档中分别为：
Doc1:3*2.08=6.24；Doc2:33*2.08=68.64；Doc：0*2.08=0；insurance的tf-idf值在三篇文档中分别为：
Doc1:0*1.62=0；Doc2:33*1.62=53.46；Doc：29*1.62=46.98；best的tf-idf值在三篇文档中分别为：
Doc1:14*1.5=21.0；Doc2:0*1.5=0；Doc：17*1.5=25.5；
2、习题6-19
所用公式：wf = 1+logtf t,d, tf t,d>0
0, ot erwise
idf=log N
df
归一化：12+12+1.3012=1.922
1/1.922 = 0.521301/1.922 = 0.677
最后的相似度结果为：1.56+1.558=3.118
3、习题7-2
胜者表是提出的一种更快获取得分较高文档的一种方法，基本思路是考虑r篇的tf值。

但在实际应用中，还应考虑到文档长度以及用户对搜索结果的关注程度等因素，并希望只关注那
些不仅相关度高并且权威度也大的文档。

如果只根据tf值来选取最后的结果文档，很可能导致的情况是，搜索结果和查询虽然相关，但会有文档长度过长且不是用户想得到的结果的问题。

因此在考虑到全局的情况下，引入了g(d)和tf-idf来对胜者表进一步扩展和精确。

这样高分文档更可能在倒排索引的前期出现。

4、习题7-8
5、习题8-8
b. 系统1的返回结果中相关文档比较集中，靠前两个，靠后两个。

系统2的返回结果中相关文档比较分散。

系统1比系统2获得较高的MAP值。

排名靠前的相关文档对MAP值影响较大，相关文档位置越靠前，系统能获得越高的MAP值。

c. R1=2/4=0.5
R2=1/4=0.25
按照R正确性值来看，与MAP的排序结果一致。

6、习题9-3
7、习题9-7
矩阵C里的元素表示该词项是否在这些文档中同时出现，1表示同时出现，0表示没有同时出现。

8、习题11-3
9、习题12-6
D=(<the, 2>, <martian, 1>,<has, 1>,<landed, 1>,<on, 1>,<latin, 1>,<pop,
1>,<sensation, 1>,<ricky, 1>,<martin, 1>)
a. P(the) = 2/11 = 0.182, P(martian) = 1/11 = 0.091
b. P(sensation|pop) = 1, P(pop|the) = 0
10、习题12-7
该文档集的查询似然模型为：
每篇文档模型对应的概率: P d q∝P(d)[1−λP t M c+λP(t|M d)]
t∈q
P(click|doc1)=1/2*1/2+7/16*1/2=15/32, P(click|doc2)=1*1/2+7/16*1/2=23/32
P(shears|doc1)=1/8*1/2+2/16*1/2=2/16,
P(click shears|doc1)=15/32*2/16=15/256
对于查询click shears来说，最后得到的文档次序为：doc4, doc1, doc2, doc3。

e商务文档

信息检索导论-王斌第二次课后作业(6-12)

相关文档推荐：

e商务文档

信息检索导论-王斌 第二次课后作业(6-12)

相关文档推荐：

信息检索导论-王斌第二次课后作业(6-12)