信息检索模型
countries =&grest 组合词: 北京大学 中文切词(word segmentation),或称分词,主要在中文信息处理中使用,即把一句话 分成一个词的序列。如,“网络与分布式系统实验室”,分词为“网络 与 分布式 系 统 实验室”。
2.依据共有词汇假设的信息检索
存在共有:如果 dj 有 q 含有的某些 ki , 则 relevant(q, dj )=1 全部共有:如果 dj 有 q 含有的所有的 ki , 则 relevant(q, dj )=1 比例共有:如果 q 和 dj 共有多于 m%的 ki , 则 relevant(q, dj)=1
sim(d j , q)
=
⎧1 ⎨ ⎩0
if ∃qcc | (qcc otherwise
∈ qdnf
) ∧ (∀ki , gi (d j )
=
gi (qcc ))
如果 sim(d j , q) = 1,则表示文献 dj 与 q 相关,否则为不相关。
sim(dj, q) 为该模型的匹配函数。
3.简单实例:
一、 布尔检索模型 这是一种简单的检索模型,它建立在经典的集合论和布尔代数的基础上。 遵循两条基本规则: 1)。每个索引词在一篇文档中只有两种状态:出现或不
出现,对应权值为 0 或 1。2)。查询是由三种布尔逻辑运算符 and, or, not 连接 索引词组成的布尔表达式。
1.可以将查询转化为一个主析取范式 DNF。
五、现代信息检索包括的主要内容
DB Manager Module
Text Databas
建模、文献分类、系统构建、用户界面、数据可视化、信息过滤和查询语言 等。
第二节 信息检索模型 一、相关概念
停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义词。例如在英 文中常用的停用词有 the,a, it 等;在中文中常见的有“是”,“的”,“地”等。 索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一般为名词或名词词组. 词干提取:
•将信息获取看成是一个过程:用户提交一个查询,系统提供给用户它所认为的相关结果列 表;用户考察这个集合后给出一些辅助信息,系统再进一步根据这辅助信息(加上以前的信 息)得到一个新的相关结果列表;如此继续。 •如果每次结果列表中的元素总是按照和查询相关的概率递减排序的话,则系统的整体效果 会最好。 •其中概率的计算应该是基于当时所能得到的所有信息。
4. 要求很好的掌握: 文档向量的构造:tf,idf,tf*idf,索引词权值 提问向量的构造: 匹配函数: 夹角余弦
5.举例:
综合题(19 分):按照下述描述和要求完成相关工作
给定文档语料:
D1: 北京安立文高新技术公司
D2: 新一代的网络访问技术
D3: 北京卫星网络有限公司
D4: 是最先进的总线技术。。。
q = 病毒 AND (计算机 OR 电脑)AND NOT 医 •d1: …据报道,计算机病毒近日猖獗… •d2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近发明了一种… •d3: …计算机程序发现了爱滋病病毒的传播途径…
哪些文档会被检索出来?
4. 布尔检索模型的特点:简单、易理解、简洁的形式化。 缺点:准确匹配,信息需求的能力表达不足。
–此时,变量 wi 称为权值,非负;表示对应词项 ki 对于判断 d 和查询 q 相 关性的重要程度(注意,这里的 q 是一般的,而 d 是具体的) •q=<v1,v2,…vm>–变量 vi 的含义类似于 wi•两个基本问题:如何定义 wi 和 vi; 如何计算 R(d,q)?
•让 wi 和 vi 为对应的词分别在 d 和 q 中出现的次数,于是我们有了两个 m 维向
二、 向量空间模型(Vector Space Model, VSM): 1. 相比于布尔模型要求的准确匹配, Salton 在 60 年代末提出的 VSM 模型采用 了“部分匹配”的检索策略(即:出现部分索引词也可以出现在检索结果中)。
通过给查询或文档中的索引词分配非二值权值来实现。 具体地
•词典, ∑={k1,k2,…km} •d=<w1,w2,…wm >
D5: 北京/ 升/ 平/ 卫星/ 技术/ 有限/ 公司/ 的/ 新/ 技术/ 有。。。
你的任务是设计一个针对这些文档的信息检索系统。具体要求是:
(1). 给出系统的有效词汇集合(说明取舍原因)。 (2). 写出 D1 和 D2 在 VSM 中的表示(使
用 tf*idf,写出各项的数字表达式,具体数值不必实际计算出来)。 (3). 画出系统的倒排文
D5: 北京升平卫星技术有限公司的新技术有。。。
利用中文切分词软件,分别得到用“/”分开的一些字词:
D1: 北京/ 安/ 立/ 文/ 高新/ 技术/ 公司/ D2: 新/ 一/ 代/ 的/ 网络/ 访问/ 技术/
D3: 北京/ 卫星/ 网络/ 有限/ 公司/
D4: 是/ 最/ 先进/ 的/ 总线/ 技术/ 。。。
标题:以某种方式得到的网页内容的标题。最简单的方式就是从网页的 <TITLE></TITLE>标签中提取的内容。(尽管在一些情况下并不真正反映网页的内容)。
URL:该网页对应的“访问地址”。有经验的 Web 用户常常可以通过这个元素对网页内 容 的 权 威 性 进 行 判 断 , 例 如 上 面 的 内 容 通 常 就 比 (某个假想的个人网站)上的要更权威些(不排除后者上的内容更有 趣些)。
二、 实例:搜索引擎
1.搜索引擎(search engine,SE),Web 上的一种应用软件系统,它以一定的策 略在 Web 上搜集和发现信息,对信息进行处理和组织后,为用户提供 Web 信息 查询服务 2.搜索引擎三段式工作流程
搜集
预处理
服务
3.在某一搜索引擎如天网(),用户提交了查询词“伊拉克战争”,系统返 回一个相关信息列表。这个列表中的每一条目代表一篇网页,至少有 3 个元素:
备课笔记
第四章 信息检索模型
主要内容:
1. 信息检索
2. 信息检索模型 IR 模型的形式化表示 IR 模型的分类
3. 经典信息检索模型
第一节 信息检索
一、概念
定义:信息检索(information retrieval,IR), 将信息按一定的方式组织和存储起来,并根
据用户的需要找出有关信息的过程。
发展的几个阶段 手工检索(早期,情报检索) 穿孔卡片检索(1950s) 计算机检索(面向主题,1960s) 联机检索(1970s,1980s) Web 检索(1990s)
例如:查询为 q = ka ∧ (kb ∨ ¬kc ) ,进一步表达为 qdnf = (1,1,1) ∨ (1,1, 0) ∨ (1, 0, 0)
即:每一个分量都是三元组 (ka , kb , ka ) 的二值向量 2. 定义:用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分量。文献dj 与查询 q 的相似度为
对文档向量的构造,考察:
局部权值 tf_ij=f_ij / max{f_ij}, (ki 词频,并规格化)
全局权值 idf_i=log(N/ni)
(ki 的倒排文档频率)
索引词权值: wij= tf*idf
查询向量的构造:索引词权值: wij= (0.5+ 0.5 * fij / max{f_ij})* idf
量,用夹角的 cos 表示“接近度”,即 •R(d,q) = cos(d,q) = d·q/|d|×|q|
•认为:–cos(di,q) > cos(dj,q),则 di 比 dj 与 q 更相关。
•通常系统就会取前若干个结果返回给用户 –例如天网返回 3000,虽然可能查出了几十万
2. 权值 w_ij 的选取方法:
3. VSM 是一项重要的学术贡献,用了几十年
–G. Salton and M. E. Lesk, “Computer evaluation of indexing and text processing,” Journal of the ACM, 15(1):8-38, January 1968. –G. Salton, The SMART Retrieval System – Experiments in Automatic Document Processing. Prentice Hall Inc., 1971. •实践证明,尽管 VSM 在许多方面依然和“现实”都不符,但实际效果不错(至少比布尔模型 好很多)
二、 IR 模型的形式化特征 1.文档逻辑视图: 用一组索引词或关键词来表示一篇文档。索引词既可以自动提取,也
可以是由人主观指定。
2.信息检索模型(IR model),
依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表 示为一个四元组< D, Q, F, R(qi,dj) >,其中D是一个文档集合,Q是一个查询集合,F是一个对 文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予 一个排序值。常用的信息检索模型有:集合论模型、代数模型、概率模型等。
给定一个用户查询,存在一个文档集合,该集合只包括与查询完全相关的文 档而不包括其他不相关的文档,称该集合为理想结果集合。
如何描述这个理想结果集合?即:该理想结果集合具有什么样的属性?
(基于相关反馈的原理,需要进行一个逐步求精的过程)。
2.PRP (probability ranking principle)
其中, D 通常由文档逻辑视图来表示。Q 一个查询集合,是用户任务的表达,由查 询需求的逻辑视图来表示。F 是一个框架,用以构建文档,查询以及它们之间关系的模型。
R(qi,dj) 是一个排序函数,它给查询 qi 和文档 dj 之间的相关度赋予一个排序值。即: IR 模 型由上述四个要素组成 < D, Q, F, R(qi,dj) >