当前位置:文档之家› 信息检索相关性研究综述及发展趋势_王雅坤

信息检索相关性研究综述及发展趋势_王雅坤

1975 年 Saracevic [15]借 助 香 农 的 信 息 论 提 出 基 于 通信的信息检索相关性模型, 该模型试图利用信息 交流的代码模型来解释相关性问题, 模型将信源与
89
王雅坤 成 全:信息检索相关性研究综述及发展趋势
信宿之间的信息交换作为通信, 同时考虑到通信过 程受到噪音的干扰和相关反馈机制的影响。 在信息 检索的交互过程中,排除这种通信的不确定性,相关 性被理解成如何在系统与用户之间建立一种有效的 通信方式。 相关性在系统与用户之间建立起了某种 关联, 这种关联的影响因素从系统的角度看包含主 题知识、主题文档、系统文件以及文档的表示;从用 户的角度看则包括信息需求、需求的表达、用户的认 知结构、信息需求的用途及其价值。这些因素所形成 的 关 联 Saracevic 称 其 为 “ 相 关 性 的 不 同 视 角 ” , 如 从 主题文档的视角来看, 相关性是指查询主题与文档 主题之间的关联度;而从系统的视角来看,相关性则 成为检索系统中系统文件与文档操作与用户的信息 需求表达之间的关联度。
通信相关性模型从通信交流的广义框架层次给 相关性作了定位, 但对于信息检索相关性的交互性 及动态性特征不能给予充分的体现。 3.3 情境相关模型
上 世 纪 70 年 代 末 到 80 年 代 初 的 近 十 年 时 间 是 相关性模型研究的冬眠时期, 这段时间理论界并未 出现新的相关性理论框架模型, 学者们大多依赖于 原有的模型体系研究检索系统的相关性问题, 直到 80 年 代 中 期 相 关 性 模 型 的 研 究 才 开 始 复 苏 。 1990 年 意 大 利 锡 拉 库 扎 大 学 的 学 者 Schamber 、Eisenberg 和 Nilan [16] 提 出 了 情 境 相 关 性 模 型 , 该 模 型 将 情 境 关 系、用户关联性、多维性、时间依赖性和动态性特征 全部纳入到相关性的基本特性当中。 考虑到信息交 换和信息通信的动态变化特征, 相关性被学者们理 解为对某一特定时间信息与信息需求之间相互关系 质量评价的动态概念。
Saracevic 将 这 些 成 果 划 分 成 为 系 统 相 关 、 通 信 相关、情境相关、心理相关和交互式相关这五种类型 的相关模型。 这些不同种类的相关模型在信息检索 相关性问题的描述方法及解决思路上各有优劣。 3.1 系统相关模型
系统模型是出现得最早也是应用最广泛的模 型 , 自 上 世 纪 50 年 代 系 统 模 型 出 现 以 来 , 已 被 广 泛 认同并逐渐演化为我们所熟知的 “传统信息检索模 型”。 系统模型将信息检索描述成对应的两极元素: 系统和用户。 系统端将给定的数据信息按一定的数 据结构组织起来以便于与用户的信息提问进行匹 配,匹配的过程遵照系统预先定义的算法进行;用户 端则将信息用户的问题和信息需求转化成系统所能 理解的检索提问式; 信息检索的过程就是文档与信 息需求提问式相互匹配的过程。 系统模型对相关性 的描述和评价主要依托文档与信息需求提问间的匹 配来实现, 而系统的相关反馈机制则对于用户信息 需求提问式的修正具有良好的指导作用。
见“相关性”在信息科学中的重要地位。 当前, 各国学者已对信息检索的相关性问题展
开了深入研究,就其主题领域来看,主要包括相关性 的基本概念研究、理论模型研究、用户认知研究、影 响 因 素 研 究 以 及 当 前 基 于 Web 的 相 关 性 研 究 新 发 展 等 [4]。 各 个 领 域 在 相 关 性 研 究 的 不 同 时 期 都 有 所 侧重, 本文即就上述五个方面对相关性研究的现有 成果进行分析并指出该领域研究未来的发展趋势。
系统相关性模型的着眼点集中在检索系统中文 档的获取、表达、组织与匹配,关注的是系统内部操 作方面的问题。由于检索系统实现的方法多种多样, 因而, 从系统角度评价信息检索则更多地依赖于寻 求与系统构成相适应的不同的方法和算法从而达到 提高信息检索相关度的目的。 传统的信息检索模型 和与之对应的系统相关性模型从最初的布尔逻辑精 确匹配开始, 一直致力于寻求最优的相关性匹配算 法,基于概率的、向量空间的、逻辑的、自然语言处理 的相关性匹配在系统模型研究的各个阶段发挥着重 要 的 作 用 。 对 于 信 息 检 索 相 关 性 的 评 价 研 究 从 20 世 纪 50 年 代 末 60 年 代 初 到 1990 年 的 TREC 评 价 一 直 都植根于系统模型。 3.2 通信相关模型
·信息技术与系统·
信息检索相关性研究综述及发展趋势 *
王雅坤 1 成 全 2 (1. 河 北 大 学 期 刊 社 保 定 河 北 071002 ) (2. 国 家 图 书 馆 研 究 院 北 京 100081 )
摘 要:文章从相关性的基本概念 、理论模型、用户认知、影响因素以及 当 前 基 于 Web 的 相 关 性 等 方 面 对 信 息
* 本文系国家社会科学基金项目“馆藏资源元数据的语义描述及关联网络构建研究(项目编号:11CTQ002)研究成果之一。 收稿日期:2011-12-12;责任编辑:魏 志 鹏
88
2012 年第 1 期
接有效性的一种测度, 并试图用数学方法证明相关 性 (Relevance)与 关 联 性 (Relation)之 间 具 有 等 价 关 系 [ 6 ] ; Saracevic (1970 ,1975 ,1976 ) 则 建 议 从 文 档 、 词 与 文 献 引用等各种文献特征上来定义检索的相关性; Cooper (1971 ) 利 用 数 理 逻 辑 给 相 关 性 做 了 一 个 明 确 的 定 义 ,Wilson(1973)则 在 Cooper 研 究 的 基 础 上 对 数 理逻辑相关性描述做了进一步扩充,并将“情境相关 性”的概念首次引入到相关性的研究中,这些成果成 为 第 二 阶 段 研 究 工 作 的 基 础 [7]。
在 第 二 阶 段 (1977 至 今 ) , 由 于 相 关 性 各 领 域 研 究成果的相继出现, 使相关性的概念描述也呈现出 许多新的时代特征。 首先是从面向用户及认知方法 的观点重新审视相关性, 认为相关性是个多维的认 知概念, 在很大程度上依赖于用户个人对信息的理 解以及信息需求的情境;相关性是一个动态的概念, 它依赖于信息与用户某一特定时间所需信息之间关 系质量的评价;以用户的观点来看,相关性是个复杂 的 、系 统 的 、可 测 度 的 概 念 [8]。 其 次 是 一 些 学 者 试 图 给信息检索定义一个逻辑模型来理解相关性概念, 这 项 工 作 由 Rijsbergen (1986 ,1989 ) 开 创 , 之 后 又 吸 引 了众多学者的参与。
2 信息检索相关性基本概念研究
对信息检索相关性基本概念方面的研究工作始 于 20 世 纪 50 年 代 末 , 各 国 学 者 借 助 数 学 工 具 及 各 种概念提取方法从各个角度对“相关性”的含义及内 容 进 行 了 深 入 剖 析 [5]。 而 相 关 性 的 基 本 概 念 研 究 以 1976 年 为 边 界 经 历 了 前 后 两 个 阶 段 。核心研究 内 容 之 一 , 其 概 念 的 起 源 可 以 追 溯 到 17 世 纪 的 早 期 图书馆用户认识到查找相关信息的问题, 但由于客 观原因, 相关性只是作为一种朦胧意识停留在人们 头 脑 中 , 直 到 20 世 纪 20 年 代 少 数 学 者 (Lotka (1926 ) ,Zipf (1949 ) ,Urquhart (1959 ) ,Price (1965 ) ) 才 陆续从各个领域开始了相关性的研究工作。 在信息 科 学 界 ,Saracevic [1] 认 为 Bradford [2] 是 最 先 使 用 相 关 性 一 词 的 学 者 , 其 在 20 世 纪 30 年 代 发 表 的 “ 文 献 的 混沌状态”一文中首次提出“主题相关”的概念。 而 此后关于“相关性”的探讨并未引起学界更大范围的 关 注 , 直 到 1958 年 国 际 科 学 信 息 会 议 (ICSI ) 的 召 开 , “ 相 关 性 ” (Relevance ) 才 作 为 信 息 科 学 领 域 的 一 个 重 要 概 念 被 学 术 界 认 可 [3], 至 此 “ 相 关 性 ” 逐 渐 成 为信息科学尤其是信息检索领域经久不衰的研究课 题 , 甚 至 知 识 交 流 学 派 的 代 表 人 物 Saracevic 认 为 信 息科学之所以成为独立学科, 而不再隶属于图书馆 学或文献学的原因就在于它开展了相关性的研究, 也在于相关性能够解释科学交流中的诸多问题,足
第 一 阶 段 (1959 -1976 ) 的 主 要 成 果 有 :Maron 和 Kuhns (1960 ) 利 用 概 率 论 定 义 相 关 性 的 概 念 , 提 出 相 关 性 并 非 只 是 简 单 的 是 / 非 选 择 问 题 ;Rees (1966) 认 为相关性受文档所包含的信息概念的影响, 认为相 关信息是对用户原来所具备的知识而言有用的信 息 ;Goffman (1970 ) 和 Newill (1967 ) 把 相 关 性 当 成 连
3 信息检索相关性理论模型研究
从 20 世 纪 70 年 代 开 始 , 信 息 科 学 界 开 始 尝 试 建立相关性的理论框架, 在诸多理论框架研究的学 者 当 中 Saracevic 和 Mizzaro 的 研 究 成 果 较 全 面 系 统 。 Saracevic (1970 ,1975 ,1996 ) [9] [10] [11] 从 直 觉 、 哲 学 、 交 流科学以及基本属性等方面阐述了相关性的广义框 架, 阐述了信息科学框架中的涉及相关性本质四种 模型,即系统、通信、情境以及心理模型,在基于信息 检索交互的分层模型的基础上, 提出了第五种模型 即交互式模型,并列举出相关性的所有可能的层次, 该模型借用了人机交互研究中阐释理论以及语言学 中 的 分 层 理 论 ;Mizzaro [12] 提 出 了 四 维 框 架 以 描 述 相 关 性 , 即 : ① 信 息 资 源 , 包 括 文 献 (document ) 、 文 献 的 替 代 品 (surrogate ) 以 及 信 息 (information ) ; ② 用 户 信 息需求的描述,包括信息问题、信息需求、查询请求 以 及 查 询 表 达 式 ;③时 间 ,时 间 维 非 常 典 型 地 体 现 了 相 关 性 判 断 的 动 态 性 ;④构 件 ,信 息 资 源 和 用 户 信 息 需求的描述以及二者结合中的所有元素都可以分解 为 主 题 (topic ) 、 任 务 (task ) 和 背 景 (context ) 等 三 个 组
相关主题