当前位置:文档之家› 第二章 信息检索概述

第二章 信息检索概述

第二章 信息检索概述
一 信息与信息源
1、信息 信息的含义:信息原指消息的传递,现指应用文字、
数据或信号等形式通过一定的传递和处理,来表现 各种相互联系的客观事物在运动中所具有的特征性 内容的总称。信息不是指事物本身,而是事物存在 的方式和运动状态的表现形式,是客观事物经过感 知或认识后的再现。
信息的特征
信息。 信息是知识的基础,知识是信息的核心。
情报:是人们在一定时间内为一定目的而传递的有 使用价值的知识或信息,它有明确的接受对象,属 于人工知识或信息的范畴,它来源于信息与知识, 是激活了的知识、动态的信息。
文献:是记录知识或信息的一切载体。即用文字、 图形、符号、声频、视频等技术手段记录人类知识 的一种载体。实际上文献是由知识内容、信息符号 和载体材料三个不可分割的基本要素构成。知识是 文献的实质内容,符号、文字、声音是人体感觉信 息的媒介,载体是文献的外在形式。
非文献信息源可分为实物信息、口头信息和 实情信息
实物信息就是现实存在的物化了的各种物质 形态的信息。包括实物、样品或展览会的展 品。
口头信息是指存在于人脑记忆中,通过交谈、 谈论、报告等方式交流传播的信息
实情信息是现实存在的自然现象和社会现象的信息。 它的表现形式不是实物,而是自然现象或者社会现 象的状态及其发展过程。
它们之间的逻辑关系和范畴关系
思考题
偶尔从别人那里听到一个未经证实的事,是不是信 息?为什么?
农谚是直接关系农业的耕种、收获和其他农事的谚 语,它们是长期以来劳动人民农业生产知识、经验 的总结。下面看几条有关气象的农谚:
朝霞不出门,晚霞走千里/蜘蛛结网,雨必晴;蚂蚁 搬家,雨必下/天上钩钩云,地下雨淋淋/天上鲤鱼 斑,明天晒谷不用翻/云往东,刮阵风;云往西,披 蓑衣
时效性:由于事物是在不断变化着的,因此表征事物存在方 式和运动状态的信息也必然会随之改变
共享性:信息可以多次传播,不失其内容,与实物交易不同。
信息 知识 情报与文献 知识:人类在改造世界的过程中所获得的认识和经
验的总和。 信息被人类所感知并被提炼加工即成为知识。 知识是信息升华的结果,是一种浓缩的系统化的
二、信息检索的基本内容
1、概念: 1)信息检索(information retrieval) 是指将信息按一 定的方式组织和存储起来,并根据信息用户的需要 找出有关信息的过程。所以,它的全称又叫信息存 储与检索(information storage and retrieval), 这是 广义的信息检索。狭义的信息检索则仅指该过程的 后一步,即从信息集合中找出所需要信息的过程。 相当于我们所说的信息查询(information search)。
(3)国际联机检索:70年代中后期 国际联机检索是指用户利用终端设 备,通过通信网与地球上任何地方 的大型计算机信息检索系统的主机 进行直接人机对话式的计算机检索 。
国际联机检索系统一般由通信网络、国 际联机检索中心、用户终端等三部分组 成。
国际联机检索系统的服务方式有:回溯 检索、定题服务、联机订购原文、电子 邮件服务以及光盘服务五种方式。
客观性:信息不是虚无飘渺的事物,它的存在可以被人们感 知、获取、传递和利用
依附性:信息必须依附于一定的载体(如声波、纸张、化学 材料、磁性材料等)才能流通和传递。
可传递性:不同载体的信息可以通过计算机、人际交流、文 献交流或大众传媒等手段传递给信息用户,最大化的利用信 息
可塑性:信息在流通和使用过程中,人们借助于先进的技术, 可以对其进行综合、分析及加工处理
速度快、多道程序和分时功能,内存容量大,多样 化的输入输出设备。
通讯系统是指终端设备与主机系统进行通信的 设备。通信线路分为两种:专用的直达线路;通过 拨号选择对方的交换线路。前者是特定通信线路, 后者使用电话网和用户电报网,联机系统使用的通 信线路就属于后一种。
终端系统是人与系统的接口设备。它能将字符、 声音以及人类的信息表现形式转换成系统的机器代 码。反之,将系统的结果还原成字符、声音等形式, 传送给终端用户。
3C:Computer(计算机)、Communication(通 讯)、Control(控制)
3A:Factory Automation(工厂自动化)、Office Automation(办公自动化) Home Automation(家庭自动化)
3R:Material Revolution(材料革命)、Energy Revolution(能源革命)、 Information Revolution(信息革命)
ORBIT
ORBIT的全称为online retrieval of bibliographic information timeshared即文献目 录信息分时联机检索。是第二大国际联机检索系统, 拥有200多个数据库。以化工、石油、生物、化学、 环境科学、医学、运动科学和安全科学等深入文献 比较齐全而著称。其特色数据库有SAE(汽车、飞 机等交通工具)TULSA(石油、天然气开采与勘探) 等30多个数据库,为该系统独有。
检索策略: 所谓检索策略,就是在分析课题内容具有哪
些概念单元的基础上,确定检索系统、学科领域、 检索文档、检索途径和检索词,并科学安排各检 索词之间的位置关系和逻辑关系以及查找步骤等。 也就是为满足信息需求所制定的一系列检索方案。
5)检中结果、查全率、查准率(第四章详细介绍) 检中结果又称检索结果集,是数据库中满足(检索式 (即符合检索条件)的那些记录的集合 查全率:是指检出文献中合乎需要的文献数量占数 据库中存在的合乎该需要的所有文献的比例 查准率:是指检出文献中合乎需要的文献数量占检 出文献全部数量的比例
数据型信息检索(Data Retrieval):以数值 或数据为对象的一种检索,包括文献中的某一 数据、公式、图表,以及某一物质的化学分子 式等,数据检索分为数值型与非数值型。完成 数据型信息检索主要借助于各种数值数据库和 统计数据库。
事实型信息检索(Fact Retrieval):以某一 客观事实为检索对象,查找某一事物发生的时 间、地点及过程的检索,其检索结果主要是客 观事实或为说明事实而提供的相关资料。如: 2001年7月通过的奥运会主办城市的结果与过 程。完成事实型信息检索主要借助于各种指南 数据库和全文数据库。
3、信息检索的发展历程 3.1基本方向:手工检索向计算机检索(如 穿孔、缩微、自动化)发展,但是手工检 索与计算机检索将长期并存。因为计算 机检索有其缺陷:(1)硬件条件不足:没 有计算机,不能上网,(2)数据库不完善, (3)网络慢或网络故障等等。
3.2计算机信息检索的的产生和发展,分 为五个阶段: (1)脱机批处理检索:1954一64。定期由 专职检索人员把许多用户课题汇总,批量 处理提问要求,并把结果提供给用户。直 接在计算机旁检索,不需要远程终端设备 及通信网络。用户在计算机处理成批检索 课题之后才知道检索结果,不能直接、及 时修改检索策略,查全率和查准率受到一 定限制。
1)通过以上案例你得到什么启示? 2)例子中日本从世界各地带回来的摩托车是否属 于信息?如果不是请说明理由,如果是请说明属于 什么类型的信息?
3)如果你是试验小组成员,除了摩托车你还会搜 集哪些信息?为什么?
3、信息社会的基本内容:3I、3C、3A、3R
3I: Information(信息)、Intelligence(智能)、 Integration(集成、综合)
(2)联机情报检索:20世纪70年代投入商业 运营。用户在计算机检索系统的终端上,通 过通信网络,使用特定的指令和算符,以人 机对话方式,查询远程计算机检索系统核心 的数据库,从中获取所需信息的计算机检索 系统。
联机检索系统由三个部分组成:主机系统、通讯系统 和终端设备
主机系统是联机检索系统的核心,它具备处理
案例分析:
为了在极短的时间内尽快开发出一系列驰骋全球的名牌 摩托车产品,1968年日本集中了全国各摩托车修理厂200名 具有丰富专业知识和研究能力的工程技术人员和情报人员, 分成12个小组,用了一年的时间,走遍世界上所有重要的摩 托车生产厂家,对世界摩托车工业进行了有史以来最广泛的 全球性调查。在订货、帮助建厂的幌子下,他们搜集了大量 的信息,并带回170多部样机。他们每种样机购回两部,一 部解剖,一部做运行试验,并结合搜集到的信息,对全部厂 家各种型号的摩托车及其零部件的质量、优缺点等进行比较、 分析和综合,博采众家之长,最后设计出一种轻便耐用、性 能优良、价格便宜的摩托车,并迅速占领国内市场。
我国气象专家根据多种信息,预测出2008年可能出现像 1998年那样的大洪水,结果该年自6月中旬以来,浙江、福 建、江西、湖南、广东、广西等地部分地区遭受强暴雨袭击, 造成严重洪涝、山体滑坡和泥石流灾害,预言变成现实。请 问专家预测可能会用到哪些信息?分别属于什么信息类型?
“信息分析与预测”是竞争情报领域一项很重要的手 段。例如:通过检索竞争对手在某一技术领域的专利 申请,并对其信息内容进行深入分析,便可以判断出 竞争对手的R&D(研究与发展)方向、经营策略、产 品和技术优势。请问专利属于什么类型的信息源?为 什么可以通过搜集和分析所掌握的信息预测出竞争对 手的发展状态和趋势?
自然现象(气候、水文、物理、化学、生物等的演 进和反应的状态和过程)
社会现象(政治法律事务、军事行动、企业、商业 和事业机构运行状态、工程现象、演出现场、经济 交易的实时交互过程、人机运动过程等)
思考题
以下词条可代表不同类型的信息源,请按文献信息源和非文 献信息源为他们分类
汽车、敦煌石窟、四库全书、一年内的天气变化数据、上市 公司年报、经济新闻、地震仪测得的数据、图书缩微胶片、 甲骨文、古时候的陶片、记录片、古籍
2)检索语言:检索语言是把信息的存储与检 索联系起来,把标引人员与用户联系起来,以 便取得共同的理解、实现交流的语言。有人工 语言(主题语言和分类语言)、自然语言之分。 (第三章详细介绍) 3)检索方法:常用法、追溯法和循环法 (第四章详细介绍)
相关主题