当前位置:文档之家› 多媒体搜索引擎DriveHQPPT课件

多媒体搜索引擎DriveHQPPT课件


tf-idf相关性计算准则下如何优化?
华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大
这个页面没人看?
2020/12/25
Multimedia Search Engine
15
查询结果处理
结果排序
2.tf-idf
SEO SPAM
隐藏文字 Meta Tag:<meta content=…> Image Tag: <img alt=…> HTML注释 超长标题 同色文字:文字与背景色相同
用户需要什么?
把结果按与查询相关的程度排序
如何度量文档和查询的相关度?
“华师大”
2020/12/25
Multimedia Search Engine
4
查询结果处理
结果排序
1.按词频
查询关键字在文档中出现的次数越多则越相关
查询关键字有多个? 相应词频相加
sq, d tft,d tq
11
查询结果处理
结果排序
2.tf-idf
文档矢量不一定是归一化的
2020/12/25
doc X 3
doc X 2 doc
simq, d Vq •Vd
Vq Vd
cosq,d
归一化因子
Multimedia Search Engine12源自查询结果处理结果排序
2.tf-idf
长文档的问题:如果把文档切割成几部分
Multimedia Search Engine
2
查询结果处理
查询的特征
缺乏耐心
85%的用户只看第一页结果 78%的查询不会被用户改进
要把用户需要的结果放在第一页
结果排序
2020/12/25
Multimedia Search Engine
3
查询结果处理
结果排序
理想情况:把结果按与用户的需求相关的程 度排序
结果排序
2.tf-idf
idf: inverse document frequency
逆文档频率?
idft
log
D Dt
词的权重
总文档数 包含词t的文档数
所有文档都出现的词(如“的”):D=Dt idft = log(1) = 0 在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
1 tft,d
max tft,d
td
2020/12/25
Multimedia Search Engine
6
查询结果处理
结果排序
1.按词频
非线性词频
布尔词频
1 bft,d 0
tft,d 0 tft,d 0
对数平均词频
Lft,d
1 log tft,d
1
log
avg
td
tf t ,d
tf: term frequency (词频)
重要性与词频一定是线性关系?
2020/12/25
Multimedia Search Engine
5
查询结果处理
结果排序
1.按词频
非线性词频
对数词频
wf t ,d
1 log tft,d
0
tft,d 0 tft,d 0
归一化词频
ntft,d
自动跳转页 包含大量关键字的页面自动跳转到真实页面
2020/12/25
Multimedia Search Engine
16
查询结果处理
结果排序
2.tf-idf
“王婆卖瓜自卖自夸”
文档的优劣程度不可能通过文档本身来评价 通过文档本身的内容对文档排序的方法不可靠 谁可以评价文档的优劣?
多媒体搜索引擎
查询结果处理
2020/12/25
Multimedia Search Engine
1
查询结果处理
查询的特征

英语:平均2.5词,80% < 3词
不精确
“华师大” 你想要什么?
只使用简单语法
有几个用户懂布尔代数?
大多数查询将返回大量的结果
“华师大”:174万
2020/12/25
用户评价 同行评议
2020/12/25
Multimedia Search Engine
17
查询结果处理
结果排序
用户评价
根据用户在查询结果中的点击来度量网站与关键 字的相关性
需要巨量的用户记录 跟踪较困难
同行评议
根据同行对文档质量的评价来度量网站与关键字 的相关性
谁是同行? Internet
单一主题 词频比例相对固定 词条相对固定
多主题 词频比例变化较大 词条变化大
2020/12/25
Multimedia Search Engine
13
查询结果处理
结果排序
2.tf-idf
长文档的问题
d1 d1+d2
文档集与集中单个文档 的相似度如何衡量?
FAQ文档及其查询
d2
2020/12/25
2020/12/25
Multimedia Search Engine
7
查询结果处理
结果排序
1.按词频
每个词重要性一样?
“北朝鲜的核试验” 北朝鲜 / 的 / 核试验
689万网页 ? 125万网页 词的重要性是不同的!
2020/12/25
Multimedia Search Engine
8
查询结果处理
Multimedia Search Engine
14
查询结果处理
结果排序
2.tf-idf
SEO SPAM (Search Engine Optimization SPAM)
出现在搜索引擎上对网站的访问量影响巨大 希望自己的网站总是出现在搜索结果的最前面
SEO: Search Engine Optimization 根据索引算法优化页面设计
2020/12/25
Multimedia Search Engine
9
查询结果处理
结果排序
2.tf-idf
用idf为权重的加权词频和
sq, d tft,d idft tq
文档中一个词的重要性
tft1 idft1 , tft2 idft2 ,..., tftn idftn
2020/12/25
2020/12/25
Multimedia Search Engine
18
查询结果处理
结果排序
同行评议
Multimedia Search Engine
文档矢量
10
查询结果处理
结果排序
2.tf-idf

? 查询

矢量空间模型 (vector space model)
2020/12/25
Multimedia Search Engine
相关主题