当前位置:文档之家› 情报检索语言研究综述

情报检索语言研究综述

情报检索语言研究综述80国家图书馆学刊2004年第3期(总第49期)画被瀛情报检索语言研究综述沙淑欣摘要从人工语言研究,自然语言研究,网络情报检索语言研究,自然语言与人工语言一体化研究,兼容与互换问题研究及其他方面问题的研究六个方面对2000年至今有关检索语言方面的文章进行梳理,以呈现新世纪情报检索语言研究的全貌.参考文献36.关键词情报检索语言人工语言自然语言网络环境兼容分类号G254.0检索语言是信息交流的工具,是知识组织的中心环节,是信息用户开启信息资源的钥匙,其重要性得到学术界及全社会的普遍重视.有关检索语言的研究一直是图书情报学,语言学,计算机科学共同关注的领域.现对2000年至今有关检索语言方面的120余篇(不包括《中图法》方面的文章)学术论文进行梳理,以明确新世纪情报检索语言研究的现状,成就,热门研究课题及其发展趋势.1人工语言研究对于高要求的检索来说,控制是绝对必要的.人工语言就是对概念及其标识系统实施严格规范的检索语言.人工语言按其结构原理可分为主题语言,代码语言三分类语言, 种类型.近四年来对这方面研究的文章较少,且主要集中在网络环境下的知识分类组织,情报检索语言发展趋势,分类主题一体化以及对《中图法》的研究上.1.1分类法理论与实践研究情报检索语言中的受控语言最初是为克服很早就被纳入了情报检索语言系统的自然语言的不足而产生的?.自汉代刘向,刘歆的《七略》算起,图书分类法已经有2000多年悠久的历史,而且分类语言是现今所有情报检索系统中使用最普遍的一种检索语言.新世纪,除少量文章对国内外其他分类法做比较粗浅概略的介绍外,大多数文章围绕《中图法》展开.据不完全统计,相关文章有360多篇,包括《中图法》与其他分类法的比较研究; 各学科文献分类研究;《中图法》类目复分,组配技术,标记体系,类目修订,类目注释等研究.韩立栋在《<中图法>(第四版)问题述评》一文中,分析了《中图法》(第四版)中存在的类名问题,仿分问题,沿革注释问题,总论复分号问题及印刷中的错误,并指出了相应的解决方案及措施.罗雅琴在《(中图法)第四版研究述评》中对《中图法》进行了内容分析和重点问题述评.指出,《中图法》第四版从总体上看是《中图法》实施以来修订最成功沙淑欣:情报检索语言研究综述81的,其科学性,实用性都有很大的提高.情报检索语言,尤其是分类表的电子化是当前检索语言发展和应用的关键领域,它不仅直接影响到分类法在网络环境中的使用能力,同时也关系到分类理论和技术的探讨. 检索语言联机显示的方法主要有:按字顺显示词和词频;合成词表显示;按等级关系显示词族;图形显示;类号和主题显示.对我国第一部电子分类法——《中国图书馆分类法》电子版的介绍是一个热点.《中图法》电子版的问世标志着我国分类法的研究和应用进入了一个崭新的阶段,必将对我国文献信息处理自动化系统的发展起到巨大的推动作用. 《中图法》电子版的特点主要有:完整的数据格式;方便的显示和浏览功能;完备的检索和统计功能;通用的编目接口;实用的评注功能;方便友好的用户界面;为主题检索的兼容留有余地J.在《中国法》电子版的各项功能中,其强大的检索功能尤其是印刷版所无法比拟的,它提供两种检索方式:一是通过类目树直接进行浏览检索,二是通过在检索栏中输入相关项来检索.《中图法》电子版的问世虽然是我国分类法研究和应用的一个里程碑,但它也存在临近类目框编排格式;”剪贴板链接口”的使用说明问题.开发,研制《中图法》web版有其现实意义及有利条件, 可在《中图法》电子版的基础上,增加Web接口,将原有界面形式更改为能在网络环境下使用的HTML形式.对《中图法》数字化的研究是其未来发展走向,一方面要采用现代化的改造技术,克服其目前已呈现出来的各种弊端,另一方面还要博采众家之长,从整体上达到最佳效果-s.1.2分类主题一体化研究分类主题一体化语言,实质是人工语言内部的一体化,是检索语言发展的重要趋势之一.基于共同点结合的这一体系,不但能从学科分类的角度揭示主题概念的系统关系和等级关系,而且能从主题角度充分揭示主题概念的相关关系,同一关系及组配关系,实现概念的扩检和缩检功能,使得一体化词表的整体功能高于它的各个部分(如分类表,叙词表)功能的总和.分类主题一体化词表包括分面叙词表,分类主题词表,集成词表?...分类表——叙词表对照索引式一体化检索语言的实现成果是《中国分类主题词表》;分类法主题法一体化新模式的实现成果是《社会科学检索词表》…,分类主题检索语言两者结合的优势使互联网上也需要向用户提供分类主题一体化的检索功能,即在特定的知识范畴内进行字顺检索和用特定的类限定字顺检索.此外,不少文章还讨论了分类主题一体化理论的可行性,必要性,优越性及其研究态势.2自然语言研究自然语言在情报检索中的应用是情报检索语言领域在受控语言占绝对统治地位时代的重大变革.文榕生指出,”回顾检索语言的嬗变,十分突出的一点就是存在螺旋上升形式的返朴归真现象o,,[133自然语言的重新被重视及其快速发展是与计算机技术,网络环境密不可分的.”利用自然语言和计算机技术的结晶,实现检索语言的智能化,将是21 世纪情报语言学的发展方向.”…网络环境下,检索语言必朝着自然语言,用户界面友好的方向发展.”在研究自然语言的文献中,对自然语言优缺点的介绍是其必不可少的一部分.自动标引在打破了词表的桎梏的同时也加大了选词的盲目性,尤其是给集体标引和联机标引中的标引一致性带来了麻烦,也为文献的交流造成了障碍?.自然语言在情报检索中有无标引,自动标引,人工标引三种方式.但由于自然语言自身的缺陷,其在情报检索中面临两个难题:一是如何从自然语言文本中抽出最能准确,充分地表达文献有价值内容的词,以及这些词与检索课题有效匹配的问题.二是克服自然语言由于不规范和缺乏语义关联性而对检索不利的问题.面对82国家图书馆学刊2004年第3期(总第49期) 难题,此时,情报检索的基本原理——对词汇的控制,成为提高信息检索质量的重要手段. “受控的自由化结构是情报检索语言实现结构发展的必然方向.”“现阶段理想的网络情报检索模式如下:以自然语言检索为主,同时辅以必要的先控制手段和后控制方法”.先控制是在自然语言检索要求输入系统之前和输入时进行控制,目的在于改善自然语言“先天词汇控制不足”的问题.包括:粗标引, 利用自然语言接口用对应词表.后控制是指在自然语言检索要求过程中和输出时进行引导和控制所采取的手段和方法?加,即”自由标引+后控词表”有机结合的混合系统,或“简略的人工语言标引+自然语言检索+较完善的后控技术控制结果”模式.后控制词表的性质类似于入口词表,是一种转换工具,是一种扩检工具,是一种罗列自然语言检索标识供选择的工具.薛山顺在《网络时代的文献检索与后控词表》中对后控制词表的作用,建立及其对检索词的控制做了介绍. 此外,姚佳梅在《基于自然语言理解技术的网络检索》一文中指出,解决自然语言检索的核心技术是自然语言理解技术,分析了这项技术与网络检索相结合中存在的问题.3网络情报检索语言研究信息网络化与全球信息化是情报检索语言在当前面临的新的社会环境,在这种环境下,资源依然需要组织,整理,描述和控制. 面对新环境,情报检索语言需开拓研究思路.3.1网络信息分类组织研究分类法与主题法是各种网络信息资源最主要的组织和揭示工具,其中尤以分类法的应用前景更为看好.对网络信息分类体系的研究多从搜索引擎自身分类体系的不完善引入,这种不完善主要与分类标准不统一, 网络术语不规范有关.网络信息检索系统使用的分类法类型基本可划分为两种:一种是采用文献信息工作中所使用的文献分类法, 另一种是由各检索系统依据自身的特点自行编制.由此,对网络信息分类体系进一步发展的意见,建议及设想成为这一专题研究的重点.傅欣,李伟指出,”搜索引擎的分类只有在分析用户检索需求的基础上,适应计算机网络化发展的趋势,并充分汲取已有的传统分类体系的优点,不断改进,提高目录分类式搜索引擎分类体系的科学性,使其日臻完善,才能更好地为广大客户提供方便,快捷的服务.”陈树年认为,建立网上信息的知识分类系统,必须遵循面向网络信息资源,面向网络技术环境,面向网络用户的原则,突出其实用性和易用性.王知津,肖洪论述的网上信息知识分类体系包括,有一个涵盖各知识领域,结构清晰,层次简明,能满足网上信息组织需要的分类体系;采用等级结构展示知识的系统联系,构成枝干分类的主题树或脉络清晰的地图;采用对用户最有利的排列次序J.刘延章在对1998--2002年间涉及网络信息分类组织的162篇文章进行研究的基础上,汇总各家的意见和看法,并陈述自己的观点.他认为,《中图法》不适合用于组织网络信息;建立全国统一的中文通用网络信息分类法是当务之急;编制网络信息分类法必须把实用性和易用性放在第一位;只有将自然语言和人工语言有机地结合在一起, 才能编制出高质量的网络信息分类法.设计网络信息分类体系方案是对网络信息分类组织研究的深化和理论与实践相结合的表现.虽然其实用性尚待考证,但无疑为网络信息分类的统一和规范提供了可资借鉴的参考.梁树柏在文献语言因特网民化思想上,设计了一个因特网简明分类法参考大纲. 该大纲坚持全球范围内求同存异原则和客观发展原则,列出70多个一级类目,涵盖今后存现的各种学科,分别归入9个门.这个参考大纲期于既适合一般用户,又适合学术和技术用户J.吴丹在科学性,易用性,针对性,动态性原则指导下的网络信息分类大纲包括18个一级类目.陈树年的适用于面向一般用户的综合性中文搜索引擎的网上中沙淑欣:情报检索语言研究综述83文信息分类大纲包括22个一级类目.分类法在网络信息组织与揭示中的应用,还有待解决以下方面问题:机读化;兼容性和国际通用性;分类主题一体化;利用新技术,新方法改造原有的分类法,提高分类法描述网上信息主题的能力;分解和分段标记化分类法的先组类号;情报语言易用性的研究圳.3.2其他网络检索语言的研究按事物的概念(主题)组织,按语词查询是主题语言的特点,它包括标题词语言,单元词语言,叙词语言,关键词语言.主题检索语言的前三种因庞大,繁杂及标引难度大逐渐失去了手工检索时代的魅力,只有关键词语言(即自然语言)日益受到网络信息检索工具的重视.对引文语言介绍的文献也非常少, 只有丛石在《三种信息检索语言的功能及其应用》一文中提及.4自然语言与人工语言一体化的研究满足系统内部高度规范化与外部用户接口高度自由化的语言是自然语言与人工语言结合的一体化语言,有学者将其称为第四种情报检索语言.张琪玉老师指出,“情报检索用语言发展的大趋势,是情报检索语言的自然语言化和自然语言的情报检索语言化,是两者的初级结合到完全融合的过程.”严峰也认为,”人工创制的检索语言与自然语言的和谐统一是一种检索语言变化趋势.”对自然语言与人工语言一体化的探讨,是当前情报检索语言研究最热门也最有发展前景的领域.第四种情报检索语言的产生是人工语言向易用方向发展的必然,是用户在网络环境中浏览——检索式检索行为的客观需求,有自我学习的知识库及完善的专家系统功能的该语言恰恰满足了用户信息需求的变化引. 人工语言与自然语言和谐统一是人工语言的“回归”,同时也是自然语言向人工语言的”回归”.二者和谐统一的实质是对概念词汇控制的科学性,规范化程度上及方法上的研究与创新J.固定的概念代码是第四种情报检索语言系统的主体,其最典型的两个范例是《军用主题词表》应用管理系统(EMT)和一体化医学语言系统(UMI_S).EMT是我国也是世界上最大的一部系列化的《军用主题词表》应用管理系统,由于《军用主题词表》的字顺表与5个索引(范畴,词族,轮排,英汉对照, 主题释义词典)的对应表编制完善,使互联显示浏览得以实现;同时,由于词素数据项的增加,使EMT中用自然语言标引和检索得以实现.UMLS是由美国国立医学图书馆(NLM)主持,有多学科专家参与研制的一个自然语言处理系统.柏J.此外,林青还从关键词法和叙词法二者的理论逻辑关系出发,提出建立“关键词法一叙词法链接模型”,该模型主要是在二者之间建立一个包括转换程序软件和词库的非控词系统.在分类法与主题法一体化,自然语言与人工语言一体化基础上提出的分类语言,主题语言与自然语言一体化是张琪玉老师对检索语言领域的又一贡献.三种语言一体化的原理是在类名(或分类号),主题词,关键词之间建立对应关系,以便互相转换,互相控制. 编制关键词一主题词一类名对应表是实现三种语言一体化的核心技术.其可能的模式有以等级体系型分类检索语言(体系分类法)作为标引用语言的一体化模式;以主题词型主题检索语言(叙词法)作为标引用语言的一体化模式;以自然语言(关键词法)作为标引用语言的一体化模式;以使用关键词抽词词典自动抽取的关键词作为标引用语言的一体化模式,从标识的专指度,灵活修改的自由度, 标引质量综合考虑,第三种模式是较好的选择].在文章的最后.张琪玉老师还对三种语言一体化检索系统的实例《中国财经报刊数据库》进行了介绍.5兼容与互换问题研究实现检索语言的兼容就是要找到一种方84国家图书馆学刊2004年第3期(总第49期) 法,使具有不同标识,结构,物质载体的类表和词表的成分互相联系起来.兼容与互换,是提高检索效率,实现资源共享的一个重要条件.分类主题一体化,人工语言与自然语言一体化,三种语言一体化都属于检索语言兼容的研究.佘诗武,江汶认为,”如果把情报检索语言当作一个系统来加以研究,开发出专业化情报检索语言系统,再在此基础上结合各系统,各环境的特点开发出相应的应用程序,则能很好地解决情报检索语言兼容性差的问题.”4王建平提出,务实的研究大多集中在实现各种情报检索语言的相互兼容,实现兼容的方法主要有两种:一是创造兼容的词表或词库,二是利用计算机系统的功能,实现机读词表的联合和混合显示J.郑贵宇在介绍国内外检索语言兼容现状后,提出检索语言国际兼容对策,包括翻译国外流行的检索语言,编制多语种检索语言,编制中外主要检索语言之间对应转换工具,积极采用国际标准,编制中外主要自然语言之间的对应转换工具.计算机网络环境下的兼容与互补已不是传统意义上的兼容与互补,表现在:在手工操作环境的题名与分类两个检索途径基础上实现检索语言量的扩展;文献数字化根据对等与并列原则就可实现兼容.对兼容互换工具的设计,侯汉清,薛春香在《中文搜索引擎分类体系兼容互换工具的设计》一文中指出,”虽然我们不能要求各系统采用统一的分类体系,但是能够通过采用一定的中介系统实现不同体系之间的转换,这对于用户和搜索引擎服务提供商都是能够接受的.”他们设计以《中图法》类号作为兼容互换基础,建立各个体系间的对应关系.6其他方面的研究6.1学科建设研究情报语言学学科的框架体系通过张琪玉先生的《情报检索语言》这一理论专着的产生而构建.当前,情报检索语言的生存环境出现网络化发展趋向,研究的领域,前沿问题也随之发生变化,必须把网络信息组织的情报语言问题纳入情报语言学的学科体系之中蚰.此外,情报检索语言还应在概念更新,拓展研究对象,改进研究方法基础上加强学科建设.6.2研究方法的研究传统检索语言研究多使用定量,定性,分析,综合,比较等方法,为全面研究,系统探讨组织知识与揭示信息,还应将归纳法,演绎法,语言分析,矩阵算法,控制论,逻辑方法, 实验比较,计算机科学分析,面向对象,人工智能原理与方法等引人情报语言研究J. 6.3新技术的研究计算机技术的应用是情报检索语言发生深刻变化的主要动力.借助于计算机,语言学,统计学,认识论等学科和领域的知识,继续加强自动标引,自动分类,自动摘要,自然语言理解,智能情报检索等方面研究的力度是重中之重.6.4创新的研究创新是科学研究的灵魂,情报检索语言亦需在创新中不断发展.梁树柏借鉴ontolo—gY思路,提出大众分类板——分类口岸设想,以应急于信息检索的过渡性需要.具体做法是:设计一个人口式信息界面,在信息文献进互联网前,也就是在计算机及信息家电开启时,先出现一个说明,即以其内容为根据的分类号和版权两项说明的简单对话框,让网页作者填写,经过这个对话框注册的信息才能进入网络.分类口岸是从源头人手,有效地控制信息泛滥的一种设想.伴随新世纪的到来,国内学者已越来越重视对情报检索语言的研究,特别是检索语言的一体化,网络信息分类组织,兼容与互补的研究,并不断扩大研究的范围,注重理论创新与实践应用相结合.但从总体来看,研究的深度和系统性仍待加强.今后,随着计算机网络的进一步发展,自动标引,自然语言理解,智能情报检索,国外先进理论技术介绍方沙淑欣:情报检索语言研究综述85面的研究需引起重视.同时,需以现有检索语言专业学生和核心作者为基础,培养一支高水平的研究队伍,并积极争取国家有关部门的重视与支持,以将理论研究成果更好地应用于实践,加强规范,服务社会.参考文献l,20陈晶.论网络环境下情报检索语言的发展.情报杂志,2o02(6)2罗雅琴.《中图法》第4版研究述评.图书馆学研究,2o02(1)3,44王建平.网络(联机)环境中情报检索语言的几个问题.情报科学.2000(4)4陈树年.我国第一部电子分类法——《中国图书分类法》电子版的功能与特点.图书情报工作,2002(3)5柳丽花.《中图法》电子版的检索功能.国家图书馆学刊,2003(1)6周欣,于新国.《中图法》电子版的应用技巧与问题续谈.图书馆学研究,2003(9)7贺定安.论我国Web版分类法的研制开发.中国图书馆学报,2o03(3)8黄筱玲,宋少华.对《中图法》未来发展走向的思考.图书馆,2003(3)9,39,43佘诗武,江汶.网络环境下情报检索语言的发展趋势初探.情报杂志,2001(10)l0,l2武琳.网络环境下分类法主题法一体化的发展.津图学刊.2003(4)ll,47余晓寒.对于中国情报检索语言发展脉络的探究.国家图书馆学刊,2002(1)l3文榕生.论网络与数字化环境的检索语言发展趋势.四川图书馆学报,2002(6)l4纪纯.自然语言在情报检索中的作用和地位. 高校图书馆工作,2002(3)l5吴慰慈.网络环境下信息存贮与检索技术的发展.四川图书馆学报,20o3(1)l6郭晓兰.文献数字化过程中的受控词与自由词标引.图书馆学研究,2003(8)l7,2l,24,33,48,5l包冬梅.2l世纪情报语言学研究面临的新课题.图书馆学刊,2001(3)l8,36张琪玉.网络信息检索用语言的发展趋势.图书馆杂志,2001(3)19余晓寒.受控的自由化结构是情报检索语言宏观结构发展的必然方向.贵图学刊,2002(1)22林茵.关于情报检索语言的控制问题.情报科学,2001(3)23薛山顺.网络时代的文献检索与后控制词表. 图书与情报,2000(3)25丛石.三种信息检索语言的功能及其应用.图书情报知识,2003(3)26傅欣,李伟.网络信息分类组织发展趋势探析. 图书情报工作,2002(3)27,32陈树年.搜索引擎及网络信息资源的分类组织.图书情报工作,2000(4)28王知津,肖洪.网络信息组织对传统信息组织的借鉴.图书馆工作与研究,2003(4)29刘延章.关于网络信息分类组织研究中的几个问题.中国图书馆学报,2003(5)30梁树柏.文献语言的因特网民化.图书馆建设,2002(6)3l吴丹.网络信息分类体系设计.图书情报知识, 2002(5)34,49,50张自然.新形势下情报检索语言研究. 图书与情报,2000(4)35,38,40吕娟,袁相琴.论第四种情报检索语言系统.中国图书馆学报,2002(1)37严峰.论现代信息条件下检索语言的应用及检索效率变化.中国图书馆学报,2001(6)4l林青.关键词法——叙词法链接模型——自然语言与人工情报检索语言的结合.情报探索,20o3(2)42张琪玉.分类语言,主题语言与自然语言一体化检索系统与《中国财经报刊数据库》的实践. 现代图书情报技术,2002(1)45郑贵宇.我国检索语言国际兼容初探.情报学报,2001(8)46文榕生,闻桦.兼容与互补——论检索语言的发展趋势.图书情报工作,2003(2)47侯汉清,薛春香.中文搜索引擎分类体系兼容互换工具的设计.中国图书馆学报.2003(1)52梁树柏.检索语言创新的实践——以分类口岸为例.图书情报工作.2003(10)(沙淑欣硕士研究生南开大学商学院图。

相关主题