名词解释
1、数字图书馆
数字图书馆就是由现代高新技术所支持的数字信息资源系统,是下一代因特网信息资源的管理模式,它将从根本上改变目前因特网上信息分散、无序、不便使用的现状。
基本要素:1)数字化馆藏2)先进的信息存储与检索系统3)便捷的电子服务
2、信息组织
人们根据信息本身的特点,运用适宜的工具和方法,依据一定的标准和规则,对其进行加工整理,排列组合,使之有序化、系统化、规律化、高级化,增强信息对象的表现效能和运用效能,以满足人们信息需求的过程和活动。
3、标题法
标题法是用规范化了的自然语言的语词做标识,直接表达文献的主题内容,通过参照系统揭示各主题之间的各种关系而按字顺排列的主题标识系统。
4、叙词法
所谓叙词,是取自自然语言,经过规范化处理的,以基本概念为基础的表达文献信息主题的词或词组,我国称为主题词。
5、单元词法
单元词又称元词,是从文献中抽取出来并经过控制处理的,能表达文献主题最小、最基本的在概念上不能再分解的,并能独立描述文献所论及或涉及的事物——主题的词汇单位
10、分类标引
就是将文献主题的自然语言形态,转换为分类语言形态的一种标引,也就是将文献主题转换成分类号的一种标引。
11、信息标引
又称文献标引,有根据文献的特征,赋予文献检索标识的过程。
信息标引所根据的文献特征一内容特征为主,外部特征为辅。
信息标引包括两个过程,1、主题分析2、转化标识。
简答分析
1、组配式方法在信息分类中的应用
组配式分类:将概括文献、信息、事物的主题概念组成“知识大纲-分面-亚面-类目”的结构,按一定的规则,通过各个分面内类目之间的组合来表达文献主题的一种分类方法。
(在宏观上与列举式分类相同,但在微观结构方面则有较大的差异)
也像体系分类法一样设置若干个基本大类,但其基本大类的展开不像体系分类法那样形成等级列举结构,而是在各基本大类下列出若干个分面、亚面,各面内类目相互组配,从而形成组配式结构
2、叙词法中概念组配的类型
概念组配是在概念分解的基础上,根据概念的分析和综合原理,用以揭示概念本质的一种组配方式。
即将一个专指、复杂的概念按其语义分解为两个或两个以上较为宽泛的概念概念组配的类型:1交叉组配,使用两个或两个以上具有交叉关系的同性质叙词的组合表示一个复合概念词的组配2限定组配:方面组配,将表示某一事物的叙词和表示事物某一属性、某一方面的问题的叙词所进行的组配。
3联接组配:两个概念之间一定联系的一种组配。
只揭示参加组配概念之间的某种关系,并不形成新概念。
3、基于理解的自动文摘技术
基于理解的文献方法是以人工智能,特别是自然语言理解技术为基础而发展起来的文摘技术。
这种方法与自动摘录的明显区别在于对知识的利用,它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。
基本步骤:语法分析,语义分析,语用分析和信息提取,文本生成
不足:1)面向大规模真实语料的语法语义分析技术尚未完全成熟,因此要想获取高质量的语言分析结果就必须将待处理的语料限制在某个范围内
2)理解文摘方法的基础是框架等知识表示,框架需要根据领域知识预先拟定,因此如果想把适用于某个领域的理解文摘系统推广到另一领域,则需要重新拟定框架,这种填充12、标题法中参照系统的作用
标题语言显示标题词之间的相互关系
标题词间的相互关系可分为等同关系、等级关系和相关关系。
标题语言显示标题词之间的相互关系的方法有:利用字面成族原理,将相关联的标题汇集在一起,利用倒置标题形式,显示一部分具有等级关系的标题词,利用“标题-子标题-次子标题”多级标题形式,在一定范围内构筑微型分类体系,显示标题词之间的等级关系。
建立参照系统
1、“见”和“见自”这对参照显示标题词的等同关系,用于标题词与非标题词之间
2、“参见”“参见自”这对参照显示标题词的等级关系和相关关系,用于标题词与标题词之间。
13、词典分词法原理
词典分词法是通过构造一个机内词典(部件词词典、主题词典、关键词词典),并将其与被标引的信息进行匹配,当从待处理的信息中得到词典词汇时,即把它作为备选标引词记载下来。
词典法主要用于主题相对集中的信息库,如某一专业信息库。
否则,词典将会非常庞大而难以构造。
根据匹配方法不同,有最大匹配法、长短结合匹配法、词首匹配法分词
二、简答
1.信息组织的方法。
①系统原理方法;②语言学原理方法;③逻辑学原理方法;④知识分类原理方法;⑤事物分类原理方法
4.基于理解的自动文摘技术。
基于理解的文摘方法是以人工智能,特别是自然语言理解技术为基础而发展起来的文摘方法。
这种方法与自动摘录的明显区别在于对知识的利用,它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。
通常有以下基本步骤:(1)语法分析;(2)语义分析;(3)语用分析和信息提取;(4)文本生成。
理解文摘的不足在于领域严格受限,
7.信息组织中标题法的参照系统。
标题词间的相互关系可分为等同关系、等级关系和相关关系。
标题语言显示标题词之间的相互关系的方法有:①利用字面成族原理,将相关联的标题汇集在一起;②利用倒置标题形式,显示一部分具有等级关系的标题词;③利用“标题-子标题-次子标题”多级标题形式,在一定范围内构筑微型分类体系,显示标题词之间的等级关系。
由此建立参照系统。
8.组配式方法在信息分类中的运用。
组配式分类是将概括文献、信息、事物的主题概念组成“知识大纲-分面-亚面-类目”的结构,按一定的规则,通过各个分面内类目之间的组合来表达文献主题的一种分类方法。
它主要用到的是分面分析法,即将整个知识领域和一个个知识领域按不同的属性分解为若干个不同的分面,每个分面再分解为若干个亚面,每个亚面还可以分解为若干个更小的子面,面内列出所属各子目。
/***所谓组配就是把几个主题词汇按一定的组合方式合理地组合在一起,用来表示打到更专指的主题,它是主题词法的重要方式,是提高检索效率的重要措施之一
主要有概念组配和字面组配
1控制词汇量2扩大检索途径3改变检索范围4及时反映新事物、新科学
9.概念组配的类型。
①交叉组配:是使用两个或两个以上具有交叉关系的同性质叙词的组合来表示一个复合概念词的组配。
②限定组配:又叫方面组配,将表示某一事物的叙词和表示事物某一属性、某一方面问题的叙词所进行的组配。
③联接组配:是两个概念之间有一定联系的一种组配,只揭示参加组配概念之间的某种关系,并不形成新概念。
11.著录在信息组织中的作用。
揭示功能:通过对文献全面系统的分析,揭示其内容和形式特征,将其浓缩于只言片语中,从而表达文献的基本信息。
组织功能:通过对文献内容特征形式的分析进行选择记录后形成款目或记录,这不仅是编制目录的基础,也是组织数据库数据的基本单元。
检索功能:存储是检索的第一个阶段,即将表达文献特征的检索标识通过记录组织成手工检索工具或计算机数据库,而著录则记载了表达文献特征的各种标识。
12.分类主题一体化词表的原理。
①采用了共同的认识论方法——分类方法
②二者的结合有着共同的情报学基础
③二者基本构建的实质相同
④二者的结合可强化彼此功能,共同满足社会需求
1、自然语言在信息组织中应用
自然语言处理及其在信息组织和检索中的应用
自然语言处理是自然语言得以应用所要解决的核心问题。
自然语言处理是人工智能领域的一个重要分支,主要研究计算机对输入的自然语言文本的分析、理解和生成。
自然语言处理一般应用于机器翻译、信息检索、入机接口、篇章理解
目前,自然语言处理技术在信息检索中的应用主要有:基于理解的自动标引技术和自然语言检索技术。