第一章信息检索基础知识
1)逻辑“与”:它用于两个或两个以上概念之间的相交 关系或限定关系运算,表示检索结果必须满足两个或两 个以上条件的单元集合。例如,查找“计算机控制啤洒 生产过程”课题的相关信息。则检索的文献记录中必须 同时含有 计算机、控制 、啤洒,才算命中,其检索式 为:计算机 与 控制 与 啤洒。或 计算机*控制*啤洒。
2)逻辑“或”:它用于两个或两个以上概念之间的并列 关系运算,表示检索结果必须满足两个以上条件之一的 单元集合。例如,查找国外有关电视机的资料,则检索 式为television+TV(television OR TV),检得的文献记录 中只要有television或TV、或者二者兼有均符合检索条件。
二.按信息的加工深度和结构等级
(1)零次文献:是指未经过任何加工的原始文献, 如实验记录、手稿等,零次文献是原始文献的保 存、原始数据的核对、原始构思的核定等方面有 着重要的作用。 (2)一次文献:是指作者以本人的研究成果为基 本素材而创作或撰写的文献如图书、期刊论文、 科技报告等。一次文献的论述一般都比较具体详 尽和系统。具有独创性 , 具有较高的理论和应用 价值。
一个记录
பைடு நூலகம்
3)文档
文档:由某一类型的若干条记录组成的信息集合称 之文档。它是数据库的基本形式,包括顺排文档 和倒排文档。 (1)顺排文档:指文档中的记录按序存放。记录 的存取按时间顺序进行。 (2)倒排文档:是将每篇文献记录中的标识抽取 出来 ,同时记录下该检索标识出现过的文献记 录号,再按先后顺序组织起来成为可以用作索引 的文档。
直接检索:指直接从信息源和文献载体中获取信息, 它是信息用户常用的检索方法,用这种方法检索时可以 明确判断检索到的信息是否符合需要,但很难广、快、 精、准地查到所需的全部信息。 间接检索:它把信息资料加上多种检索标志,并按 照这些标志把信息有效的组织起来,在检索时利用这些 标记可以查到所需信息的线索或信息本身。所以我们学 习信息检索的方法和技巧,主要指间接检索方法,掌握 使用检索工具和检索系统的技巧以提高检索的效率。
(2)截词技术
截词技术:在英语中常常有词语的单、 复数表示形式不同,英美拼写方式不同, 词根相同、含义相近而词尾形式不同等 情况,为使检索时不遗漏相关词,提高 检索效率,一般信息检索系统都发展了 截词技术,利用截词符来屏蔽未输入的 字符。截词符根据检索系统的不同而不 同。“?”为 DIALOG 联机检索系统的 截词符。
3)逻辑“非”它用于在某一检索范围中排除不 需要的概念运算,表示必须满足条件A但不满 足条件B的单元集合。例如,查找“除了蛋白 酶的各类酶制剂”的相关资料,则检索的文献 记录中必须含有A(酶)而不含有B(蛋白酶) 才算命中,其检索式为A-B(A NOT B) P30, 图中表示。利用布尔逻辑三种算符检索时,有 时会同时用上,计算机会按优先顺序自动完成 算符运算,其中NOT优先级最高,AND次之, OR最低,要改变优先级可在检索式中添加括 号。
例如
点击篇名
文摘出现
3)指南、数值型数据库
指南数值型数据库:是记录关于一些机构、 公司、企业、名人、结构、主要产品及其产量、 价格等信息描述,通过这些数据库可以查到公司、 机构的地址、产品目录、研究项目等信息。如万 方数据公司的中国企业、公司及产品数据库。
例如
4)全文型数据库
全文型数据库:数据库存储文献内容全文或 其主要部分的数据库。如:中国学术期刊(全文 版)数据库。维普科技期刊数据库。
11)报纸:报纸以及广播、电视等大众传播信息 快、信息量大,现实感强,传播面广,具有群众 性和通俗性,是重要的社会舆论工具和信息源, 对社会经济和政治生活有着广泛的影响。
四.按电子文献载体形式划分
1)磁性型文献:它是通过编码和程序设计把文献 变成计算机可识别的数字语言,储存在磁带、磁 盘等载体上。 2)光盘型文献:光盘是一种利用激光技术在特制 圆盘上记录和再现信息的载体。 3)网络型文献:通过网络的传播,并经过组织、 制作成有序的数字信息文档。
例如
点击PDF原文下载
例如
三.检索功能
计算机检索过程中,为保证检索结果的全面 准确,仅靠一个检索词是难以满足的,有时需要 若干个检索词利用各检索系统提供的各种不同的 检索逻辑式来完成。
(1)布尔逻辑检索
利用布尔逻辑算符将一些具有简单的、表达 某一主题概念的检索单元组配成一个具有复杂概 念的检索式,以满足课题检索的要求。布尔逻辑 算符是布尔逻辑检索中表达概念之间关系的一类 运算符。基本的布尔逻辑算符有三种:逻辑“与” (AND或*)、逻辑“或”(OR或+)、逻辑 “非”(NOT或-)。
7)学位论文:是高等院校或研究机构的学生为获取某种 学位而撰写的学术论文。按学位不同可分为学士论文、 硕士论文和博士论文。学位论文的水平差异较大,但 探讨的问题比较专一,硕士和博士论文具有一定的学 术性、独创性、系统性和完整性,具有重要的参考价 值。 8)产品资料:一般是指产品样本说明书,是厂商或贸易 机构为宣传和推销其产品而印发的免费赠给消费者的 资料。 9)技术档案:是在生产或科研活动中形成的,是具体工 程和研究对象的技术文件的总称,包括任务书、协议 书、技术经济指标、研究计划、方案、试验设计、实 验记录、调查材料、总结报告等所有应入档的资料。 10 )政府出版物:指各国政府部门及其所属机构颁发出 版的文献。
(3)二次文献:指将分散的、无组织的一次文献进行搜 集、提炼浓缩、加工、整理,并按一定的科学方法组织 编排、编辑出版的文献,是为了更有效地管理和利用一 次文献而编辑的工具性文献。如目录、题录、文摘、索 引。
(4)三次文献:是指对有关的一次文献和二次文献进行 广泛、深入的分析、研究、对比、综合、评述、概括而 撰写的文献,其特点是文字精炼,叙述简明扼要,具有 系统性综合性、知识性和工具性等特点。如字典、词典、 百科全书,年鉴、手册等。
4)文献类型
一.按信息存储载体的物质形态划分
( 1 )印刷型:它主要是指以纸张为载体,以印刷、手写 为记录手段,把信息内容固化在纸上的形式。 (2 )缩微型:以感光材料为载体,以缩微照象为记录手 段而产生的一种载体形式。 ( 3 )声像型:以磁性和感光材料为载体,借助特殊的机 械装置直接记录声音和图像信号的信息载体。 ( 4 )电子型:它是指釆用电子手段并以电子形式存在, 利用计算机及现代通讯方式提供信息的一种新兴载体, 其前身是机读型。
1.2信息检索
一.定义:指运用检索工具或数据库等情报集合, 从中查找所需信息的过程。广义的信息检索包括 两个方面:其一,将信息按一定的方式组织、存 储起来,其二,根据用户的需要找出有关信息。 狭义的信息检索,指从信息集合中找出所需要的 信息的过程,就是人们通常所说的信息查询。
1)直接检索与间接检索
2)检索工具
检索工具:是用来报道、存储和查找信息的工具。 存储,就是将无序的一次文献加工成为有序的二次文献 的过程。检索:指通过检索工具,按照一定的方法,查 找所需要的文献线索的过程。 检索工具必须具备以下四个条件: (1 )对所收录的信息资料的各种特征(包括外部特征和 内容特征)要有详细的描述 ( 2 )每条描述记录都要标明可供检索用的标识,以便按 某种方式将这些描述记录组织起来,为编制各种索引做 准备。 ( 3 )全部描述记录都要科学地组织成一个有机的整体, 使这些记录存放有序,方便存取。 (4 )具有多种必要的检索手段以满足用户从多种角度查 找信息的要求。
3)科技报告:是各学术团体、科研机构、高校的研究报 告及研究过程中的记录。科技报告一般每份单独成册, 篇幅长短不等, 4 )会议文献:在科技会议上科技工作者发表的论文,指 学术会议文献,包括会前、会中和会后文献。 5)专利文献是专利制度的产物,在实行专利制度的国家, 凡是本国或外国的个人和企业有了创造发明,都 可以 根据专利法的规定向本国或外国专利局提出申请,经审 查合格,批准授予在一定年限内享有创造发明成果的专 有权利。 6)技术标准和规范:主要指包括技术规范、技术标准、操 作规程、建议、准则、术语、专门名词等在内的各种技 术文件。在标准实践领域里,技术标准和规范在适用范 围方面是有区别的。
3)检索工具和检索系统的相同点
检索工具和检索系统的相同点:都是服务于信息检 索,都是传播信息的重要媒介和实现情报检索的主要手 段。检索工具属于传统的检索设施,而检索系统是在手 工检索工具的基础上发展起来的是信息检索机械化和自 动化的必然产物,在信息检索中逐渐起主导作用。占据 了支配地位。 不同点:主要表现在内部结构、信息表示方式和匹 配机制等方面。检索工具的结构较为简单,以纸介质为 记录材料和存贮设备,用自然语言描述信息特征,依靠 人的智力和知识来进行信息比较选择,功能也相对较弱。 检索系统的构造通常较复杂,包含有多个功能子系统和 多种设备。
三.知识
知识:是人们对客观对象规律性的认识。知识来源 于实践,通过实践,客观事物反映到人的大脑中来,随 着反映的深入,认识也就深化,从现象到本质,从感性 到理性,从而掌握了事物的规律,这就产生了知识,知 识是人类在改造客观世界的实践中所获得认识与经验的 总结,是人类的主观世界对客观世界的如实概括和如实 反映,人类既要通过信息感知世界,认识世界和改造世 界,而且又要根据获得的信息组成知识,人类生活环境 中普遍存在的信息是知识的原料,这些原料经过人脑的 接收、选择处理,才能组成新的信息系统,这样就产生 了新的知识。
1.3计算机检索系统
一.计算机检索系统的组成:由硬件、软件和数据 库组成。 数据库:由字段、记录和文档组成。 1)字段:书目数据库中基本的信息单位著录项目 在数据库中称作字段。它是文献 著录加工的最 基本单元,描述的是文献 外部特征和内容特征。
点击
例如
列出字段
2)记录
记录:在数据库中的一篇文献称为一个记录,它是 由若干个不同的著录单元(字段)组成的。在数 据库中一条记录都有一个记录号,惟一地标识这 条记录。
二.计算机检索系统的数据库 类型