网络信息检索方法与应用摘要随着Internet在全世界范围内迅猛发展,使人们获得有用信息越来越困难,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。
因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。
本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。
关键词检索方法工具重要性翻译summary With the rapid development of Internet in the world, to make people more and moredifficult to obtain useful information, online information and huge numbers of people to obtain information contradiction between the increasingly prominent.Therefore, the retrieval of information technology and its development trends of the network to explore and research, is both urgent and practical issues.In this paper, the basic principle of network information retrieval techniques and tools of network information retrieval, information retrieval network status and other aspects of analysis, and the development trend of network information retrieval predicted, the network aims to find ways to improve information retrieval by means of and effective way to approach, and ultimately improve the effect of network information retrieval, making the network information resources can be fully effective use.Keyword Retrieval means Importance一信息检索技术信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。
1 信息检索的广义含义对于专门从事信息检索及其系统的研究、开发和设计的少数人来说,“信息检索”可以用英文Information Retrieval来表达,其完整的含义是“信息存储与检索”,即Information Storage and Retrieval。
也就是说,所谓信息检索,是指将有用信息按照一定的方式组织存放起来,当用户需要这些信息时,再把它们从存放的地方查找和提取出来。
因此,广义的信息检索是包含存储和检索这样两个阶段和过程,缺一不可。
2 信息检索的狭义含义对于数量庞大的广大信息用户来说,在大多数情况下,“信息检索”可以用英文Information Searching来表达,其准确含义是“信息查找”或“信息搜索”。
也就是说,所谓信息检索,是指按照一定的方式从现有的信息集合或数据库中,找出并提取所需要的信息。
可见,狭义的信息检索仅指检索这一个阶段或过程。
人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。
这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。
其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段。
网络信息检索的基本技术主要包括以下几种技术:(1).信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。
所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。
因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户。
(2).信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。
其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。
(3).Web挖掘技术Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW 相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。
Web内容挖掘。
Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。
(4).信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。
这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。
这就是人们经常谈论的“信息过载”、“信息超载”现象。
信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。
3、信息检索的工具.web信息检索其检索方式有:浏览器方式和搜索引擎方式。
(l)浏览器方式(Br,singsystelns)。
只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过Web页面提供的检索方式访问数据库。
(2)搜索引擎方式(SearehEngines)。
搜索引擎是intemet提供公共信息检索服务的Web 站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。
搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。
搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。
网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。
按著录信息特征分按著录信息的特征分,检索工具可以分为目录、索引、文摘、参考工具书、搜索引擎、数据库。
(1)目录型检索工具一切可供检索使用的目录均可称为目录型检索工具。
它主要报道信息的外表特征,著录具体出版事宜及其收藏信息。
常见的目录按其收录范围可以分为国家目录、联首目录、馆藏目录;按报道的范围分为综合性目录和专题性目录。
(2)索引型检索工具将信息的外部特征或内部特征(例如题名、著者、主题、分类等)用各种检索语言进行描述,并将它们按照一定的方法组织起来,用户根据查处的线索可以进一步查找原始信息内容的工具。
索引与目录的区别在于它不仅能揭示信息的外部特征,还能揭示信息的内部特征。
常见的索引有主题索引、分类索引和关键词索引。
(3)文摘型检索工具文摘一般由题录和内容摘要两部分组成,它在描述信息外部特征的基础上,还增加有揭示内容特征的摘要部分,是系统地报道、积累和检索信息的主要检索工具,也是传统检索工具的核心。
按文摘的目的和用途划分,它可以分为报道性文摘、指示性文摘、报道—指示性文摘、评论性文摘和转用文摘。
(4)参考工具书这是分析和著录大量具体而常用的科学数据库与事实以备查用的各种常用工具书的总称。
其中包括字典、词典、年鉴、百科全书、指南、手册、名录等。
(5)搜索引擎将网络信息分门别类地组织起来,通过搜索网址的方式来实现信息检索的工具就是搜索引擎。
它是一种网络检索工具,检索到的既可以是一般的信息线索,也可以是原始信息全文,既可以是一般的文本信息,也可以是多媒体信息。
(6)数据库严格来讲,数据库包括了目录、索引、文摘、搜索引擎等工具的内容,但是由于其组织的特殊性,也可以认为是一种检索工具3.按收录范围分按收录范围分,检索工具可以分为综合性检索工具、专业性检索工具和单一性检索工具。
(1)综合性检索工具收录的学科范围较广,涉及的信息种类和语种也比较多。
例如,美国的《工程索引》。
(2)专业性检索工具收录的学科范围比较窄,仅限于报道某学科或专业的信息,但收录该学科信息的类型比较全。
例如,美国的《化学文摘》。