【精品】信息检索第五章课件
12
第5章 计算机检索概述
后截词,又称右截词、前方一致,允许检索词尾部有 若 干 变 化 形 式 。 例 如 , 检 索 式 comput ? 将 检 出 包 含 computer 、 computing 、 computerized 、 computerization等词汇的结果。
中间截词,允许检索词中间有若干变化形式,例如 wom*n就可同时检索到含有woman和women的结果。
前截词,又称左截词、后方一致,允许检索词的前端 有 若 干 变 化 形 式 , 例 如 检 索 * physics 就 可 检 得 包 含 physics、astrophysics、biophysics、chemophysics、 geophysics等词的结果。
13
第5章 计算机检索概述
5.2.2.4 限制检索表达式 限制检索表达式指用限制符限定检索词出现范围的检 索式。 常 用 的 字 段 限 定 代 码 有 : 标 题 ( TI , Title ) 、 作 者 (AU,Author)、主题词(SU,Subject)、年代(PY, Publication Year)等。 一些网络检索工具也允许用户采用限制检索表达式, 可把检索范围限制在标题、统一资源定位地址(URL)或 超链等部分。
根据所检索媒体对象的不同,基于内容的多媒体检索技 术又可分为基于内容的图像检索技术、基于内容的视频检索 技术和基于内容的音频检索技术等。
20
第5章 计算机检索概述
5.3.2.1 基于内容特征的图像检索技术CBIR (Content-based Image Retrieval)
主要依据图像固有的特征来标引和检索。所谓图像特征 包括:图像的画面内容特征;图像描述对象特征;图像的 相关信息及其他物理特征,图像的移动和组合特征等。
5.2.4.2 提高查全率和查准率的方法 1.提高查全率的方法 (1) 降低检索词的专指度 (2) 增加同义词、近义词或相 关词的逻辑或运算 (3) 选用截词检索 (4) 增加和调整检索途径17第5章 计算机检索概述
2.提高查准率的方法 (1) 提高检索词的专指度,增加或换用下 位词和专指性较强的关键词进行检索 (2) 用AND连接一些进一步限定主题概念的 相关检索项,增加相互的制约 (3) 用NOT来排除一些无关的检索项 (4) 采用限定检索,缩小检索范围
9
第5章 计算机检索概述
5.2.2.1 逻辑表达式 逻辑表达式是指利用布尔算符,对检索词的关系进行 表达,又称布尔逻辑表达式。 有 逻 辑 与 “ AND” 、 逻 辑 或 “ OR” 、 逻 辑 非 “NOT”。
10
第5章 计算机检索概述
5.2.2.2 位置检索表达式 位置检索表达式,也称邻近检索。通过位置算符来表 示两个检索词(或短语)之间的距离和位置关系。不同的 检索系统可能会采用不同的位置算符,目前应用广泛的主 要是:
18
第5章 计算机检索概述
5.3 信息检索技术
5.3.1 全文检索技术
全文检索(Full Text Retrieval),就是以 各类数据诸如文字、声音、图像等为主要处理 对象,根据数据资料的内容,而不是外在特征 来实现的信息检索技术。
与其他检索技术相比,全文检索技术的新 颖之处在于,它可以使用原文中任何一个有实 际意义的词作为检索入口,而且得到的检索结 果是源文献而不是信息线索。
W nW
nN N
11
第5章 计算机检索概述
5.2.2.3 截词检索表达式 截词检索表达式指在检索式中用专门截词符号表示检索 词的某一部分允许有一定的词汇变化 。
截词检索表达式在西方语言检索中应用比较广泛,在 中文信息检索中也有一定的应用。
不同检索系统采用的截词符不完全相同,一般常采用 “?”、“*”等。
14
第5章 计算机检索概述
5.2.3 检索策略的构造步骤
信息检索策略的构造步骤如图:
15
第5章 计算机检索概述
5.2.4 检索策略的反馈与调节
5.2.4.1 影响查全率和查准率的主要因素 1.主题分析是否准确、全面 2.检索词选择是否准确 3.检索词之间逻辑关系的配置是否合适
16
第5章 计算机检索概述
19
第5章 计算机检索概述
5.3.2 基于内容的多媒体检索技术
基于内容的多媒体检索技术突破了传统的基于文本描 述和检索的局限,直接对图像、视频、音频内容进行分析, 利用媒体对象的语义、媒体的视觉和听觉特征来进行检索。 也就是依据图像中的颜色、纹理、形状,视频中的镜头、场 景、镜头的运动,声音中的音调、响度、音色等内容特征建 立索引并进行检索。基于内容的检索还融合了模式识别、计 算机视觉、图像理解等技术,是多种技术的合成。
目前,比较成功应用基于内容的图像检索技术的系统 有IBM公司的QBIC系统、MIT媒体实验室的Photobook 系统、新加坡国立大学的CORE系统、美国哥伦比亚大学 的VisualSEEK系统等。
1
2
3
4
5
6
7
第5章 计算机检索概述
5.2 计算机 检索策略
6.2.1 检索策略的含义和作用
所谓检索策略,即在分析检索 课题内容实质基础上,选择检索系 统、检索途径、确定检索词及其相 互间的逻辑关系等的信息检索方案。 信息检索策略的实质是对检索过程 的科学规划。其中关键在于构造能 够确切表达信息需求的检索式。
信息检索第五章
第5章 计算机检索概述
计算机信息检索是随 着计算机的出现而发展起 来的。计算机检索经历了 脱机检索、联机检索、光 盘检索及网络信息检索等 阶段。计算机检索以其检 索效率高、检索效果好而 在信息检索中得到了广泛 的使用。
本章要点
●计算机信息检索的含义和类 型
●计算机信息检索的特点 ●计算机信息检索策略 ●提高计算机信息检索效率的方法 ●计算机检索技术
8
第5章 计算机检索概述
5.2.2 检索表达式
检索表达式是检索策略的具体体现,简称检索式。检 索式一般由检索词和各种逻辑运算符组成,具体来说,它 将检索词之间的逻辑关系、位置关系等用检索系统规定的 各种算符连接起来,成为计算机可以识别和执行的命令形 式。检索式构造的优劣关系到检索策略的成败。
检索表达式主要有逻辑表达式、加权表达式和其他表 达式。其中,最为常用的是逻辑表达式。