现代网络信息检索未来的发展趋势姓名:学号:班级:摘要:随着信息技术的飞速发展,信息已成为全社会的重要资源,对信息的占有程度及信息处理水平的先进程度已成为衡量一个国家或地区现代化程度的重要标志,而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。
【关键词】网络信息信息检索搜索引擎资源共享1 网络信息检索简介随着信息化工程的整体推进, Internet是当今世界上规模最大、覆盖面最广、信息资源最丰富、发展最为迅速的信息网络,基于Internet的网络信息检索的研究,无论对研究人员还是一般用户来说,都有着很强的现实性和实用性。
1.1 信息检索概念信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。
人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。
1.2 网络信息检索的原理网络信息检索工具是网络信息检索技术的实物体现。
目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。
①布尔逻辑模型这是一种简单而常用的严格匹配模型。
用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。
标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。
利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。
②模糊逻辑模型它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。
③概率模型它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。
2 搜索引擎搜索引擎是目前使用最为频繁的一种网络信息检索工具。
与其他工具相比,它的检全率和检准率都比较高,具有很强的使用价值和广泛的应用前景。
2.1 搜索引擎的工作原理作为一种www站点资源和其它网络资源进行组织和检索的检索工具,搜索引擎的检索机制一般包括数据采集和标引机制、数据组织机制和用户检索机制,基本构成如图1所示。
①数据采集标引机制按照一定规律和方式对网络上www站点进行搜索,并将搜索到的www页面信息存入搜索引擎的临时数据库中。
②数据组织据组织机制的主要功能是对www页面信息进行整理以形成规范的页面索引,并建立相应的索引数据库。
③索引数据库是用户进行检索的基础,它的数据质量直接影响到检索效果,而搜索引擎的数据采集标和标引机制又是决定数据库质量的关键技术。
④用户检索机制帮助用户以一定方式检索引擎的索引数据库,以获得符合用户需要的www站点或页面。
2.2 搜索引擎的分类按照用户查找的途径划分,可将搜索引擎分为如下几种:①基于关键词的搜索引擎主要通过使用自动采集软件来对网络上的数据进行采集标引,建立成索引数据库。
它主要采用自动搜索和标引方式来建立和维护其索引数据库,供用户查询使用。
②基于分类目录的搜索引擎一般依赖于按照某种分类标准进行人工编排的分类体系。
③联合式搜索引擎是基于关键词的搜索引擎的另外一种表现形式,是后者与基于类目的搜索引擎的一种结合。
2.3 搜索引擎的功能目前Internet上的搜索引擎种类繁多,虽然各种搜索引擎都有自己的不同信息采集标引机制,在其他一些方面各具特色,但其基本功能却是相似的。
①布尔逻辑检索这一功能使得用户能使用AND、OR和NOT来进行关键词的搭配检索。
②模糊检索在用户进行检索的过程中,系统会对跟用户提供的关键词相似的词语进行检索,并返回包含关键词或是这些相似词的检索结果。
③截词检索这种检索形式利用检索词的某一部分来进行检索。
在搜索引擎中,用户提供包含“?”或是“*”通配符的检索项来进行检索。
④限定词检索这种检索加减号检索,它用来规定检索项中必须出现或是必须不出现某些关键词。
3 大量相关信息检索叶继元等教授认为,信息检索是从大量相关信息中利用人—机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。
“人—机系统”,“各种方法”是指利用关键词、主题词、概念分析方法等人工或自动将信息有序化;“及时找出用户所需部分信息”是指一切以用户为,本全方位、多角度提供检索入口和检索结果。
信息检索包括存储与检索两个部分。
存储是对有关信息进行选择、并对信息特征进行著录标引和组织,建立信息数据库;检索则根据提问制定策略和表达式,利用信息数据库。
这里要理解概念分析。
概念分析即将概念转化成系统语言,是存储与检索共有的过程,因此从这个意义上说,信息存储是信息检索的逆过程,两者是不可分割的一个整体。
信息检索的发展主要是和谐社会,促进社会协调发展,对社会的进步有积极地推动作用,它同时丰富了人们的视野,为社会科学研究提供了丰富的材料和强有力的说服力,使查找资料更容易方便。
索引的研究、编制与文献流通形式变化息息相关。
以计算机为主体的新技术在信息流通领域广泛应用,对索引理论研究及编制形成冲击,同时也带来变革的要求。
索引理论研究和编制要适应新形势、新情况,使索引编制更好地为社会服务。
索引是利用文献的工具,与文献流通形式的变化息息相关。
10年来在索引编制理论研究方面发生了波动,说明我们关于索引编制的理念正随着文献整理现代化进步而发生深刻地变化。
以往文献以纸质载体为主,索引编制靠人工,编排技术百多年没有发生多大改变,理论研究相对稳定。
自从计算机及其相关电子技术应用于文献领域并成为新流通载体后,索引编制手段及索引形式发生了巨大变化,对传统理念产生很大冲击,这是造成索引研究波动的根本原因。
它的发展体现在以下几个方面:3.1 智能化智能化包括网络搜索软件的智能化和搜索引擎的智能化。
搜索信息方法有两种:由Web 站点及页面的创建者在搜索引擎站点上为其页面登记的URL地址;由网络搜索软件自动收集上新信息得到的URL地址,后一种搜索信息的方法就表现了搜索软件的智能化。
智能化的搜索引擎具有一定的推理能力,会考虑用户年龄、性别、地域、文化程度等差异,根据用户的网络行为来判断他们的爱好,并决定信息的取舍。
智能化是网络信息检索未来发展的主要方向。
3.2 可视化可视化指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。
它具有交互性、多维性、可视性等特点。
信息检索中的可视化,就是将数据库中不可见的语义关系用图像形式可视化显示,并表达用户检索过程。
3.3 多样化信息检索多样化表现在可以检索的信息形态有文本、声音、图像、动画;检索工具向多国化、多语种化方向发展;网上检索工具的服务多样化等。
3.4 简单化搜索引擎的发展,网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体等技术逐步完善,都将使信息检索变得越来越简便快捷。
3.5 深入化信息检索深入化包括:提高检索深度,即由相关性检索向直接性检索发展;检索内容向综合化与专业化发展。
用户可以预先选择自己的信息源,向各种用户满意的信息源提问索取特定类型的信息,还可以对命中结果进行进一步限定,要求只提供权威性的可靠结果以提高查准率。
3.6 友好化友好化包括用户检索界面友好化和检索结果提供方式友好化两种,以方便用户进行浏览、选择和利用。
3.7 多语种化提供多种语言的检索服务,满足全世界各种语言用户的需要,是信息检索的一大发展方向。
除组织学术活动外,更应该在索引理论研究方向上起导向作用,介绍世界上先进的编制技术和索引研究动态,引进成果,翻译有影响的学术著作,加强学术交流,使社会各界了解索引的新发展。
学会也应吸收工商界有关技术人员参加,使索引研究更加实用化,直接与工农业生产和国家的经济建设挂钩,更好地服务于国民经济建设。
4 信息多样化——我国网络化信息服务的发展趋势在网络环境下,用户可获得信息的量和种类随着局域网和广域网的不断发展而巨增,面对分散、无序、更选变换的信息海洋,太多数用户不像以往那样关心信息文献量的问题,而是越来越重视图书馆(或情报中心)所提供的网上信息的浓度。
精品化的信息服务是以信息的浓缩加工使之成为高质量的信息产品为保证,使用户一旦进入自己的业务之中,就不再寻找替代物。
4.1 信息服务社会化信息服务社会化,主要是指用户信息需求的社会化及越来越多的信息在网络环境中广泛交流。
4.2 信息服务一体化信息服务一体化,对信息用户而言,主要是指能够集参考咨询功能、文献检索功能和文献提供功能为一体的最理想的信息服务体系。
4.3信息服务集成化其一是指提供服务的网络化信息资源的全面性和丰富性;其二是指能够满足用户对信息类型和信息媒体多样化的需求。
4.4 信息服务精品化是指向用户提供浓缩化、综合化的高质量的信息服务。
5 虚拟馆藏——因特网上信息的组织管理网络化最大的优势就是信息资源丰富,但因特网上的信息具有在地理上分散、组织上松散、数据类型多、随机变化大等特点,使得网上信息的查询、组织和管理,成为人们最关心的问题。
如何为读者提供更加便利的网上信息服务,是用户与管理层最关心的问题。
因而,未来网络化图书馆的发展和建设,不能忽视网络信息资源的查询、组织管理利用。
5.1 因特网上信息资源的种类和特点通过国际互联网可以利用的各种信息资源是因特网最重要的资源,根据网络发展的实际情况,从信息内容看,几乎无所不包:既有学术、教育、产业和文化等领域的各种重要信息也有与大众工作和生活息息相关的多样化信息;有严肃主题的知识性和教育性信息,也有体育、娱乐方面的实时信息:更有经济、金融和商业信息等等。
从时效性看,可以分为五大类:实时信息;动态信息;全文期刊;书目数据库;电子报纸。
5.2 因特网信息查询工具为了有效地查询和利用网上信息,人们研制了许多查询工具。
概括地说,主要有四大类,以下列出查询工具的类型,主要的查询工具服务器名以及特点:5.2.1 Gopher菜单式检索系统:主要查询工具是Vcronlca系统。
它包括许多 Gopher 服务器,如:sci] ,特点是菜单指引式检索,使用简单明了。
5.2.2 Ftp匿名文件查询工具:主要的查询工具如Archie等。
它有许多匿名ftp服务器,如:,Ftp 服务器出现较早,使用广泛,下载文件方便。
5.2.3 关键词数据库检索:主要的查询工具 Wais。
服务器如,对索引查询和按内容找文章有较强的功能。
5.2.4 超级文本检索系统:查询工具 Yahoo Infosc-ck.等。
有许多WWW服务器如JJJ4)7649J ,特点是利用超媒体技术,功能强大,使用最方便和广泛的检索工具。