信息检索原理
检索语言的类型:按照表达文献的特征划分表述文献外表 特征的语言 (与文献一一 对应关系) 表述文献内容 特征的语言 (与文献模糊 对应关系)题名 责任者 代码,如ISBN、ISSN等 引文 出版项 出版年检 索 语 言 的 类 型分类语言:分类法主题语言:关键词、叙词等。
文献信息的内外部特征内容特征 表达文献信息主题内容的检索标识 内容特征 文献?模糊对应外表特征 与文献主题内容没有关系或关系不大的信息 外表特征 文献?一一对应
1.4文献信息检索的类型:按检索内容文献检索 (相关性检索) 检索结果为文献原文或线索 全文检索 书目检索 数据检索 (确定性检索) 检索结果为数值、数据 事实检索 (确定性检索) 检索结果为事实、概念
书目检索(directory) ,是以文献线索为检索内容的文献检索。
即检索系统中存贮的是书目、索引、 文摘等二次文献,检索结果获得的是与检索课题有 关的一系列文献线索。
1.3 文献信息检索一般原理存储 选择和收集文献 提取文献信息的内外部特征 标引,整理,形成检索系统(工具) 检索 分析信息需求 确定检索课题 构建检索提问式 从检索系统中查获所需信息
检索系统文 献 源 文献 选择 收集 分 析 用 户 信 息 需 求 检索 课题 文献 特征 标 识 语 言 标 引匹配数据库检 索 结 果检索 提问式反馈
1.2 检索语言(Retrieval Language)是用 来描述信息源特征和进行检索的人工语言。
作用:它是沟通信息存储与信息检索两个过程的桥梁。
在信息存储过程中,用它来描 述信息的内容和外部特征,从而形成信息标 识;在检索过程中,用它来描述检索提问, 从而形Байду номын сангаас检索标识;当检索标识与信息标识 完全匹配或部分匹配时,结果即为命中文献。
信息检索原理
第三章 信息检索原理及检索步骤本章要点: 文献信息检索基本概念 文献信息一般检索步骤 检索概念的分析、提取和扩展 检索策略的构成
1. 信息检索基本概念 信息检索的定义 文献信息的内外部特征 文献信息检索的一般原理 文献信息检索的类型 检索效果评价
1.1信息检索定义狭义:从任何信息集合中查找 所需信息的活动、过程和方法。
事实检索(fact) ,是以具体事项为检索内容的信 息检索,要求从检索系统存储的各种原始信息资 源中查出专门的事实材料。
如,某一人物的查找,某一事件的查找等
1.4 文献信息检索的类型:按检索手段手工检索 与检索工具直接“对话”,依靠检索者手翻、眼看、 脑子判断而进行的检索。
特点:方便灵活,判别直观,查准率高、检索效率 低,漏检现象比较严重 计算机检索 利用计算机和一定通信设备查找文献信息的检索 特点:速度快,效率高,查全率较高、成本高, 回溯年份有限,查准率不尽如人意
包括技术效果和经济效果。
克兰弗登(Cranfield)评价系统性能的指标:? 收录范围 ? ? ? ? ? 查全率 查准率 响应时间 用户负担 输出形式
?查全率 是指检出的相关文献量与检索系统中相关文献总量的 比率,是衡量信息检索系统检出相关文献能力的尺度。
可 用下式表示:?查准率 它是指检出的相关文献量与检出文献总量的比率 ,是衡量信息检索系统检出文献准确度的尺度。
灵活方便、可进行各种组合检索 较多 覆盖多学科和多种文献类型,范围较大检索限制更新周期受时空限制长不受时空限制短 专业知识、计算机检索知识 查全率高,通过逻辑组配可提高查准率 高 高对用户要求 专业知识、工具书使 用法 检索效果 检索费用 综合效率 查准率高 低 低
1.5 检索效果的评价 检索效果(Retrieval Effectiveness)是指 检索系统检索的有效程度,它反映了检索系统 的能力。
?1.4 按检索手段划分即手工信息检索, 是利用各种印刷型检 索工具来查找文献的 一种方法。
?传统信息检索?现代信息检索即计算机信息检索, 是指利用计算机和网络 来处理和查找文献信息 的检索方式。
手工检索与计算机检索的比较项目 手工检索 计算机检索总体特征检索速度 检索功能 检索方式 检索途径 检索范围手翻、眼看、大脑判 断较慢 简单 单一 较少 有限检索策略、机器查询、数据匹配很快 多样、可链接全文、可打印结果、可进 行定题服务等。
可用 下式表示:查全率和查准率在一定程度上成反比关系。
应根据具 体课题的要求,合理调节查全率和查准率,保证检索效果。
R90 70 60 A C D理论上,C和D之间 即检索的最佳效果40B20405090P查全率(R)和查准率(P)关系曲线图
2 信息检索系统印刷型信息检索系统: 目录、题录、文摘、索引 计算机信息检索系统: 文献信息数据的处理和维护子系统 词表和标引子系统 检索子系统
3. 文献信息的一般检索步骤分析研究课题,明确检索要求 选择检索工具或检索系统 确定检索途径 实施检索,记录和阅读文献线索 索取原始文献
3.1 研究课题的分析分清课题性质 前沿探索性 调查研究性 面象应用性 课题背景知识的获取 利用网络搜索引擎 查阅图书馆相关馆藏,专著、工具书 询问专业人员 概念(检索词)提取 主要检索词、辅助检索词、禁用词 例如:关于中国唐诗的韵律研究 Study on the market management in China
广义:信息的检索包括信息存 储。
合并称为信息存储与检索.
信息检索(information retrieval)信息检索广义上是指将杂乱无序的信息 按一定的方式组织和存储起来,并根据信息 用户的需求找出相关信息的过程和技术,全 称是”信息存储与检索”(Information Storage and Retrieval).狭义的信息检索指的是后一过程.
全文检索(full article) ,是以文献所含的全部信息作为检索内容的文献检索。
即检索系统存贮的是整篇文章或整部图书的全部内容。
数据检索(data) ,又称数值检索,是以具有数 量性质,并以数值形式表示的数据为检索内容的 信息检索。
即检索系统中存储的是大量的数据, 包括物质的参数、电话号码、观测数据、统计数 据等,也包括图表、化学分子式、物质的各种特 性等非数字数据。