当前位置:文档之家› 计算机信息检索概述

计算机信息检索概述


逻辑与(逻辑乘)
用运算符号:AND 或 * 连接检索词 例 查 “有关计算机在图书馆中的应用”的文 献, 检索式=计算机 * 图书馆
A B A AND B
逻辑或
用运算符号 “OR” 或 “+”连接两检索词 例1 查“苹果或梨”方面的文献 检索式=苹果 + 梨 它在同义词检索中使用,能提高查全率。 例2 查“计算机或机器人”方面的文献 检索式=计算机 + 机器人
计算机信息检索概述
1 计算机信息检索理论基础 2 计算机信息检索的发展历史 3 计算机检索技术与实现 4 计算机检索策略与实施技巧
1 计算机信息检索理论基础
使用计算机检索信息,是专业人员在开 展科学研究中不可或缺的一项基本技能。一 个具有这方面能力并善于从电子信息源中获 取所需信息者,将在今后的信息社会中获取 更多的成功机会 。
终端系统
终端系统是人与系统的接口设备。它能 将字符、声音以及人类的信息表现形式转换 成系统的机器代码。反之,将系统的结果还 原成字符、声音等形式,传送给终端用户。
国际联机检索
70年代中后期。(联机检索基础上的扩充到 国际)
优点:这种方式可以边检索边修改检索策 略,而且检索速度快,多用户可同时检索, 检索不受地理位置限制,检索功能多样化, 打印输出灵活,检索结果可进行多种分析 处理,大大方便检索用户和提高检索质量。
源数据库
又称为数据银行。它是能够直接为用户提 供原始资料或具体数据的一类数据库。 源数 据库又分为: 数值型数据库 文本—数值型数据库 术语数据库 图像数据库 全文数据库 超文本数据库
数值型数据库
是指专门提供以数值方式表示的调查数据 和统计数据的一类数据库。
文本文本-数值型数据库
nN
功能:两词相邻,顺序可以颠倒,两词中间 可以插入0~n个词 表达式:Education(1N)school 检索结果:Education school school of education Education and sic school school of music and education
2 计算机信息检索的发展历史
脱机批处理检索 联机情报检索 国际联机检索 光盘检索 网络信息检索
脱机批处理检索
1954一64。定期由专职检索人员把许多用 户课题汇总,批量处理提问要求,并把结 果提供给用户。直接在计算机旁检索,不 需要远程终端设备及通信网络。用户在计 算机处理成批检索课题之后才知道检索结 果,不能直接、及时修改检索策略,查全 率和查准率受到一定限制。
PRE
功能:两词相邻,按输入顺序排列 表达式:Education PRE school 检索结果:Education school Education schools
N、NEAR、ADJ NEAR、
功能:两词相邻,顺序可以颠倒 表达式:Education(N)school Education NEAR school 检索结果:Education school Education schools School of Education
数据库
“一组文件的集合”,就是以一定的组织方 式存贮在一起的相关数据的集合。
数据库的概念
数据库的定义 数据库的类型
数据库的定义
数据库是至少由一种文档组成,并能满足 某一特定目的或某一特定数据处理系统需 要的一种数据集合。通俗地说,数据库是 在计算机存储设备上按一定方式存储,并 提供给确定范围内的各类用户共享的相互 关联的数据集合。数据库是计算机技术与 信息检索技术相结合的产物。它既是现代 人们从事信息资源管理的工具,同时也是 计算机信息检索的基础。
A B A OR B
逻辑非
用运算符号“NOT”或“—”连接两检索词 A NOT B 例1 查“玉米但不是甜玉米”方面的文献。 检索式=玉米—甜玉米 例2 查“不是铬合金”方面的文献。 检索式=合金—铬
A B A NOT B
位置算符检索
文献记录中词语的相对次序不同,所表达的 意思就可能不同。同样在检索式中,检索词 的相对次序不同,表达的检索意图也不一样, 布尔逻辑运算符有时难以表达某些检索课题 的确切提问要求,用词间位置算符来限定和 组配检索词,可弥补布尔逻辑算符只是定性 规定检索词的范围,而没有限定检索词位置 关系,易造成误检的不足。
联机检索系统由三个部分组成: 主机系统 通讯系统 终端设备
主机系统
主机系统是联机检索系统的核心,它具备处 理速度快、多道程序和分时功能,内存容量 大,多样化的输入输出设备。
通讯系统
通讯系统是指终端设备与主机系统进行 通信的设备。通信线路分为两种:专用的直 达线路;通过拨号选择对方的交换线路。前 者是特定通信线路,后者使用电话网和用户 电报网,联机系统使用的通信线路就属于后 一种。
光盘检索
80年代初期,其全称为高密度光盘 (Compact Disk),主要是利用激光、计算机 及光电集成等技术实现信息存储的数字化。 以光盘为介质的光盘数据库检索系统由于 信息存储量大,简单易用而取胜。
优点:一次购买,无限制使用,不必考虑 检索时间,远程通信费用等因素;存贮容 量大;检索途径多;适用于通信不发达, 联网较困难的地区,是联机检索、网络检 索的有效补充。
1 计算机信息检索理论基础
计算机信息检索的定义 计算机检索系统的构成 数据库的概念
计算机信息检索的定义
所谓计算机信息检索,就是在计算机和人 的共同作用下,按照一定的方法组织和存 储信息,并通过人机对话从计算机存储的 大量数据中自动输出用户所需的那部分信 息的过程。
计算机检索系统的构成
硬件 软件 数据库
缺点: 注重系统自身工作效率的提高,如改进算 法、改进存储结构与存取技术等;让用户去 适应、配合系统,很少分析、考虑用户对使 用系统的要求。 面向检索专家或中介机构。要求检索者熟 悉系统的一整套检索指令和检索技术,用户 的提问必须采用规范化的检索语言,从而依 赖于专业检索人员,用户自己完成检索必须 受过系统培训。 人机交互界面不友好,且费用较高。
联机情报检索
20世纪70年代投入商业运营。用户在计算 机检索系统的终端上,通过通信网络,使 用特定的指令和算符,以人机对话方式, 查询远程计算机检索系统核心的数据库, 从中获取所需信息的计算机检索系统。
联机系统的诞生,使许多相互独立的终端 实现了“对话”方式的信息检索。所谓对 话方式,就是用户利用系统提供的、为数 不多且简单易记的检索 系统方面则每次显示出可能的信息,帮助 用户选择下次该用的命令或表达式,用户 通过与系统双向对话,可不断改变或完善 检索策略,直至获得满意的检索结果为止。
网络信息检索服务的特点:
信息检索服务的开放性 超文本的多链接性 用户界面友好且操作方便 具备良好的导航和编辑功能
信息检索服务的开放性
网络信息系统中包含信息资源、信息设备、 信息通道、信息检索软件及信息终端等子 系统,各个子系统都是开放的,其信息资 源面向所有用户。
超文本的多链接性
以超文本技术为基础链结构将不同地方的 相关信息有机联系起来,使用户可通过点 击文本或图表中的超文本链接点访问另一 个相关的文档。
3 计算机检索技术与实现
布尔逻辑检索 位置算符 截词检索 词组检索 括号检索 字段限制检索
布尔逻辑检索
即运用布尔逻辑算符(Boolean operators)对 检索词尽心逻辑组配,表达两个概念之间的 逻辑关系。 布尔逻辑算符主要有:AND OR NOT 在中文数据库里,布尔逻辑运算符又是用 AND、OR、NOT表示,有时用 “*“、 ” +“ 及 ”-“ 。
混合数据库
这类数据库兼有源数据库和参考数据库的特点, 按载体形式它又可分为以下四种类型: 磁媒体数据库 光盘数据库 多媒体数据库:是一种能够对文字、数值、声音 和图像等不同性质的媒体进行一体化处理和管理的 新型数据库 超媒体数据库。通过外部树形的链接将多种类型 的媒体连成一个集合,该集合称为超媒体数据库。
是指能够同时提供文本信息和数值数据的 一类数据库。
术语数据库
是指专门存储和检索名词术语、词语信息 等的一种源数据库。
图像数据库
是指用来存储和检索各种图像或图形信息 及有关文字说明资料的一种源数据库。
全文数据库
是指存储和检索文献全文或其中主要部分 的一种源数据库。
超文本数据库
这种数据库存储时将存储内容分割为若干 独立利用的结点,使用链路连接结点等方 式进行存取,从而构成一个不拘泥于形式 逻辑推理,不遵循某种正规模式的一种网 络框架结构,因而具备了类似于数据库又 优于一般数据库的特点。
网络信息检索
是通过标准通信方式将世界各地的计算机 网络连接起来,形成一个基于客户机-服务 器模式的网络分布数据库结构。它在全球 范围内把科技信息、商贸信息、经济信息、 时事新闻以及日常生活信息通过互联网络 合在一起,向亿万联网用户提供广泛的信 息检索与服务。它是信息化社会应用最广 泛、最活跃的领域。
位置算符检索就是利用一些特定的位置 算符来表达检索词之间的位置关系,并且可 以不用叙词表而直接使用自由词进行检索的 方法。有的书上还把这种检索称为原文检索。 这种检索在利用TI和AB途径检索时,对检索 质量影响很大。 常用的位置算符有:W、W/N、WITH、 WITHIN、nW、PRE、N、NEAR、ADJ、nN、 F、SAME
用户界面友好且操作方便
采用客户机/服务器结构,通过交互式的图 形界面,为用户提供友好的信息查询要求, 检索途径多,可保留检索历史。正是这一 特点,使Internet能广泛深入学校、家庭、 办公室乃至每一个人。
具备良好的导航和编辑功能
网络信息检索一般都可以引导读者在复杂 的网络信息资源中漫游而不致迷失方向, 用户可以利用导航机制,了解其所在网络 图中的位置。网络信息检索具有良好的编 辑功能,包括修改、增加、删除节点和链 的能力,此外对节点内的信息也具有良好 的编辑能力,可进行多窗口编辑。
相关主题