当前位置:文档之家› 第二节 信息检索模型

第二节 信息检索模型

sim(dj , q) P(dj | R) P( R) / P(dj | Rc) P( Rc)
第二节 信息检索模型
• 文档dj可以表示为平面上的一点,对于提示式q= kxor ky 可以使用点(0,0)到点(x,y)之间的距离作为任一文档d 和提问q的相似性度量;而对于合取提问式q= kxand ky 来 说,它与文档的相似性则可以通过点(1,1)和点(x,y)之 间的距离来测度。因此,适用于析取提问式和合取提问式 的一种正规化相似度计算公式分别如下所示:
ni,nj分别表示集合D中含有索引词ki和kj的文档数,nij表示集合D中同时有ki 和kj的文档数
(1 c )
il
文档dj隶属于集合Di的程度,由dj中所含有的索引词和索引词ki的关联强度所 决定。
第二节 信息检索模型
• 三、基于内容的检索模型 1、集合论模型 (3)扩展布尔模型 在布尔模型的基础上,加入向量空间模型的局部匹配、索 引词加权等思想。 • 文档dj可以表示为dj=(wxj,wyj),其中, wxj,wdj分别表示 kx,ky在文档dj中的权重。 • 计算提问式与文档的相似度。文档dj可以表示为平面上的 一点,对于提示式q= kxor ky 可以使用点(0,0)到点(x,y) 之间的距离作为任一文档d和提问q的相似性度量;而对 于合取提问式q= kxand ky 来说,它与文档的相似性则可 以通过点(1,1)和点(x,y)之间的距离来测度。因此,适 用于析取提问式和合取提问式的一种正规化相似度计算公 式分别如下所示:
第二节 信息检索模型
• 三、基于内容的检索模型 1、集合论模型 (2)模糊集合模型 • 对元素属于集合的概念模糊化,承认论域上既不完全 属于某集合,又不完全不属于某集合的元素,即变经典的 “绝对属于”为“相对属于”。 • 集合运算由满足集合的词间关系及其隶属度值决定 词间关系距阵 c ij nij /(ni nj nij) 文档的隶属度 uij 1
第二节 信息检索模型
• 一、信息检索的形式化表达 system=(D,Q,F,R(dj,q)) 其中: D,Q,F和R(dj,q)分别表 示信息检索系统的信息资源集合、用户信 息需求集合、信息资源与信息需求处理框 架及型分类 1、基于内容的检索模型 集合论模型 代数论模型 概率论模型 2、基于结构的数学模型 非重叠链表 邻近接点 3、浏览型数学模型 平台 结构导航 超文本
第二节 信息检索模型
• 三、基于内容的检索模型 1、集合论模型 (1)布尔检索模型 • 遵循两条基本规则 : 每个索引词在一篇 文档中只有两种状态:出现或不出现, 对应权值为 0 或 1 。 • 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。 • 存在问题:只有0和1,在OR方式中,包含很多查 询词的文档和包含少数词的文档是等同的;在 AND方式中,即使缺少一个词,结果也是0,等 于一个词也没有。没有排序,布尔表达非友善性。
第二节 信息检索模型
• 2、代数检索模型 (1)向量空间模型 文档向量的构造
第二节 信息检索模型
• 2、代数检索模型 (1)向量空间模型 词频权值计算
第二节 信息检索模型
• 2、代数检索模型 向量空间模型 匹配函数的选择及相似度域值的确定
第二节 信息检索模型
• 3、概率模型 P( B | A) P( A) P( A | B) P( B) 贝叶斯定理 词条的独立假设:P(AB)= P(A) P(B) 当且仅当 A与 B相互独立。对一篇文档而言,若文档中的各个 词相互独立,则有 P(dj)=P(k1)…P(kt) 相似度计算: sim(dj, q) P( R | dj ) / P( Rc | dj ) 根据贝叶斯公式计算为:
相关主题