当前位置:文档之家› 信息组织与存储复习知识点

信息组织与存储复习知识点

名词解释1、数字图书馆数字图书馆就是由现代高新技术所支持的数字信息资源系统,是下一代因特网信息资源的管理模式,它将从根本上改变目前因特网上信息分散、无序、不便使用的现状。

基本要素:1)数字化馆藏2)先进的信息存储与检索系统3)便捷的电子服务2、主题标引主题标引是依据一定的主题词表或主题标引规则,将信息资源中具有检索意义的特征转化成相应的主题词,赋予信息资源与此标识的过程3、UDC 国际十进分类法1905,比利时目录学家保罗奥特勒在杜威《十进分类法》基础上编制。

首先将全部科学知识分为10类,用数字0-9加以分类,每大类又可以添加新的数字0-9,并以此再进行细分。

4、DDC杜威十进分类法,DDC 是用传统的学科来分类,总共以10 个主要的学科 (main classes ) 来涵括所有的知识体系,每个大类下细分10 类( divisions ),接着又再分成10 小类( sections )。

DDC 中每个学科都会给予特定范围的数字来表示,DDC 除了主要的分类表外,另有六个复分表5、分类主题一体化词表是指分类系统与主题系统实现完全兼容,既能充分发挥各自特有的功能,又能互相配合,发挥最佳的整体效应。

6、信息组织人们根据信息本身的特点,运用适宜的工具和方法,依据一定的标准和规则,对其进行加工整理,排列组合,使之有序化、系统化、规律化、高级化,增强信息对象的表现效能和运用效能,以满足人们信息需求的过程和活动。

7、标题法标题法是用规范化了的自然语言的语词做标识,直接表达文献的主题内容,通过参照系统揭示各主题之间的各种关系而按字顺排列的主题标识系统。

8、叙词法所谓叙词,是取自自然语言,经过规范化处理的,以基本概念为基础的表达文献信息主题的词或词组,我国称为主题词。

9、单元词法单元词又称元词,是从文献中抽取出来并经过控制处理的,能表达文献主题最小、最基本的在概念上不能再分解的,并能独立描述文献所论及或涉及的事物——主题的词汇单位10、分类标引就是将文献主题的自然语言形态,转换为分类语言形态的一种标引,也就是将文献主题转换成分类号的一种标引。

11、信息标引又称文献标引,有根据文献的特征,赋予文献检索标识的过程。

信息标引所根据的文献特征一内容特征为主,外部特征为辅。

信息标引包括两个过程, 1 、主题分析2、转化标识。

简答分析1、信息组织的基本方法可概括为,以信息外部特征和内容特征为基础的信息序化方法和信息优化方法。

信息序化的基本方法: 1 、语法信息虚化法2、语义信息序化法3、语用信息序化法信息优化主要包括信息的优选,浓缩,重新表述以及三者的综合运用。

信息的优选正是实现社会信息由相对贫集向信息富集转化的优化过程;信息浓缩是是社会信息由博而约、由粗而精的一个信息加工过程,信息的重新表述是是某些信息由不便利用向便于利用转换的加工过程。

2、信息自动聚类的方法和原理自动聚类是指从待分对象中提出特征,再将提出的全部特征进行比较,并根据一定的原则将具有相同或相近特征的对象定义为一类,设法使各类中包含的对象大体相等。

一般是在语词共现的基础上,通过词频统计、相似性比较,将相关文献聚集在一起。

自动聚类可以分为基于语词特征的自动聚类和基于非语词特征的自动聚类基于语词特征的自动聚类通过标引词描述文献主题,如果描述文献内容的词汇相同或相近,就把这些文献归为一类。

两篇文献所拥有的共同标引词越多,说明这两篇文献的距离越近,通过计算两篇文献的相似度,生成待进行聚类分析的文献集基于非语词特征的自动聚类文献分类还可以在非语词特征的基础上形成,尤其是基于各种形式的引文链接1)利用直接引文进行文献聚类(A、X、Y ;因为X、Y都引用了A,这三者及有可能涉及共同的主题领域)2)运用“引文耦合”原则进行文献聚类(文献X、Y 紧密连接是因为它们都引用了文献A、B、C; Z 和X 、Y 连接不是太紧密)3)利用共同被引进行文献聚类(A、B、 C 共同被X、Y 引用)3、信息标引的方式依揭示文献内容的方式分:整体标引、全面标引、对口标引、综合标引、分散标引、分析标引、互见标引依标引深度分:深标引、浅标引依所用标引与主题概念的对应性分:专指标引、组配标引、上位标引、依附标引、暂定标引依组配标识是否组合分:先组标引、后组标引依所用标识受控程度分:受控标引、自由标引、混合标引依标引的自动化程度分:人工标引、自动标引、半自动标引依标引的实施方式分:独立标引、统一标引、联合标引、在版标引4、组配式方法在信息分类中的应用组配式分类:将概括文献、信息、事物的主题概念组成“知识大纲-分面-亚面-类目” 的结构,按一定的规则,通过各个分面内类目之间的组合来表达文献主题的一种分类方法。

(在宏观上与列举式分类相同,但在微观结构方面则有较大的差异)也像体系分类法一样设置若干个基本大类,但其基本大类的展开不像体系分类法那样形成等级列举结构,而是在各基本大类下列出若干个分面、亚面,各面内类目相互组配,从而形成组配式结构5、叙词法中概念组配的类型概念组配是在概念分解的基础上,根据概念的分析和综合原理,用以揭示概念本质的一种组配方式。

即将一个专指、复杂的概念按其语义分解为两个或两个以上较为宽泛的概念概念组配的类型: 1 交叉组配,使用两个或两个以上具有交叉关系的同性质叙词的组合表示一个复合概念词的组配 2 限定组配:方面组配,将表示某一事物的叙词和表示事物某一属性、某一方面的问题的叙词所进行的组配。

3 联接组配:两个概念之间一定联系的一种组配。

只揭示参加组配概念之间的某种关系,并不形成新概念。

6、基于理解的自动文摘技术基于理解的文献方法是以人工智能,特别是自然语言理解技术为基础而发展起来的文摘技术。

这种方法与自动摘录的明显区别在于对知识的利用,它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。

基本步骤:语法分析,语义分析,语用分析和信息提取,文本生成不足:1)面向大规模真实语料的语法语义分析技术尚未完全成熟,因此要想获取高质量的语言分析结果就必须将待处理的语料限制在某个范围内2)理解文摘方法的基础是框架等知识表示,框架需要根据领域知识预先拟定,因此如果想把适用于某个领域的理解文摘系统推广到另一领域,则需要重新拟定框架,这种填充和组织领域的沉重负担使理解文摘难以移植。

7、信息组织实施的必要性和可能性必要性:①信息的激增和泛滥需要实施信息组织首先,过去的信息缺乏已经变成了信息过剩。

其次,信息污染严重。

今天,信息获取与筛选成本日益增大,用户的时间成本将大于信息服务的价值。

如果任其发展下去,社会将步入一个可怕的陷井。

信息浓度,序化和清洁度常常比信息总量更重要,也使得信息组织显得更重要,其难度也越来越大②日益显著的差异化需求需要实施信息组织信息社会不仅促进信息用户的需求与日俱增,而且使信息的有用性、多样性、时效性、精确性、多媒体性与全面性越来越明显。

人们迫切需要从信息组织学科建设的高度,系统探讨高速序化大量信息资源与有效过滤信息噪声的理论与技术,需要人们从信息组织学科建设的高度建立其理论与技术框架。

社会信息需求的增长热情呼唤着信息组织学的诞生。

信息需求的全方位和综合化、信息开放性和社会化、信息需求的电子化和网络化、信息需求的集成化和高效化③不断变化的信息检索环境需要信息组织与之相适应信息检索环境的变化不仅体现在信息检索的对象、方式上,而且还体现在信息检索的机制、工具和技术上。

④社会信息化进程的推进需要大力发展信息组织工作信息化是信息活动的规模相对扩大及其在国民经济和社会发展中的作用相对增加的过程。

信息化包括许多内容,其核心是信息资源的共享和利用,其显著标志是信息技术的广泛应用。

信息的生产、传播、利用都离不开信息组织,而且信息组织也是信息活动的形式之一。

可能性:国内外专业人员对信息组织各个领域进行了全方位的理论研究,一系列反映信息组织理论技术与方法的专门概念也应运而生。

特别是计算机科学、网络技术、现代存储技术、网页组织、网站组织、数据库开发、主题树组织、智能组织、数据仓库、自动抽词、自动分词,这些丰富多彩的信息组织技术与信息组织原理相互结合,形成了现代信息组织学发展的强大优势。

有关信息组织的理论也成为软件开发研究领域、管理学界、生产领域等共同关注的课题,信息组织已从图书馆、情报所等信息机构走向社会8、自然语言在信息组织中应用自然语言处理及其在信息组织和检索中的应用自然语言处理是自然语言得以应用所要解决的核心问题。

自然语言处理是人工智能领域的一个重要分支,主要研究计算机对输入的自然语言文本的分析、理解和生成。

自然语言处理一般应用于机器翻译、信息检索、入机接口、篇章理解目前,自然语言处理技术在信息检索中的应用主要有:基于理解的自动标引技术和自然语言检索技术9、著录的作用在编制文献目录时,对文献信息的各种特征进行分析、选择和记录的过程,也就是说,按照一定的条例或标准,将文献的内容特征(分类、主题)、外表特征(题名、著者、来源出处、出版地、出版者、出版时间等)和物质特征(文献类型、页册数、表图、开本、装订、价格等)加以描述、并记录于目录载体上的工作称谓文献信息著录。

10、复分表在信息组织中的作用复分表:在编表时可以把这些相同的子目汇集起来,配以号码,编列成表,附在详表的后面,作为有关类目进一步区分的共同子目,这种表成为复分表或共同区分表复分表按其应用范围,可以分为通用复分表,适用于类目表的任何一级类目;另一种是专类复分表,只适用于某一大类或专门学科。

此外,类目中某些被仿分的子目,也起着专类复分表的作用。

11、分类主题一体化词表的原理分类主题一体化词表的结构原理① 采用了共同的认识论方法——分类方法② 二者的结合有着共同的情报学基础③ 二者基本构建的实质相同④ 二者的结合可强化彼此功能,共同满足社会需求12、标题法中参照系统的作用标题语言显示标题词之间的相互关系标题词间的相互关系可分为等同关系、等级关系和相关关系。

标题语言显示标题词之间的相互关系的方法有:利用字面成族原理,将相关联的标题汇集在一起,利用倒置标题形式,显示一部分具有等级关系的标题词,利用“标题-子标题-次子标题”多级标题形式,在一定范围内构筑微型分类体系,显示标题词之间的等级关系。

建立参照系统1、“见”和“见自”这对参照显示标题词的等同关系,用于标题词与非标题词之间2、“参见”参“见自” 这对参照显示标题词的等级关系和相关关系,用于标题词与标题词之间。

13、词典分词法原理词典分词法是通过构造一个机内词典(部件词词典、主题词典、关键词词典),并将其与被标引的信息进行匹配,当从待处理的信息中得到词典词汇时,即把它作为备选标引词记载下来。

相关主题