资源检索技术摘要:信息时代信息膨胀,资源的种类和形式多种多样。
不同类型的资源,搜索和检索的技术也有不同,本文整合了不同类型的信息资源的搜索和检索技术,其应用领域及特点。
一、信息检索技术(一)、含义:指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻。
(二)、信息检索的对象1、文献检索:是以文献(包括题录、文摘和全文)为检索对象的检索。
可分为全文检索和书目检索两种。
2、数据检索:是以数值或数据(包括数据、图表、公式等)为对象的检索。
3、事实检索:是以某一客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索。
(三)、检索手段1、手工检索:指利用印刷型检索书刊检索信息的过程,优点是回溯性好,没有时间限制,不收费,缺点是费时,效率低。
2、光盘检索:光盘在文献信息领域的应用对信息的存储介质(纸、磁介质、缩微胶片等、CD-ROM为代表的光盘技术具有易用、存储容量大等独特的特点并很快发展成为一种新的检索系统——光盘检索系统,光盘数据库检索系统以它存储数据量大、操作简单、检索效率高、成本低廉、运行环境要求简单等特性。
3、联机检索:用户借助通讯线路,通过终端设备同检索系统联机所进行的文献与数据检索。
这种计算机系统一般设有较多的数据库,而一个数据库可以包括几十万、几百万条文献的书目款目或科技数据。
每检索一个课题只需数十秒钟,检索到的题录、文摘或数据还可立即在终端上显示和打印出来。
联机检索的实现,对于图书馆传统的收集、查找与提供资料的方式来说,是一次革命。
世界上已投入运行的联机情报系统很多。
4、网络信息检索:也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。
计算机检索、网络文献检索将成为信息检索的主流。
(四)应用领域1、传统的图书情报检索,如图书馆信息系统;2、互联网信息检索。
(五)、特点1、与人们的思维习惯一致2、表达直观清晰、结构化强3、方便扩检和缩检4、易于计算机实现二、图像检索技术(一)、含义:从20世纪70年代开始,有关图像检索的研究就已开始.CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。
在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。
(二)、图像检索技术的分类1、基于文本的图像检索技术基于文本的图像检索沿用了传统文本检索技术,回避对图像可视化元素的分析,而是从图像名称、图像尺寸、压缩类型、作者、年代等方面标引图像,一般以关键词形式的提问查询图像,或者是根据等级目录的形式浏览查找特定类目下的图像,如Getty AAT使用近133,000个术语来描述艺术、艺术史、建筑以及其它文化方面的对象,并推出30多个等级目录,从7方面描述图像的概念、物理属性、类型和刊号等。
又如Gograph将图像分为动态图像、照片、图标、背景、艺术剪辑图、插图、壁纸、界面、成套图像8个一级类,下设数量不等的子类。
在图像数字化之前,档案管理者、图书管理员都是采用这种方式组织和管理图像。
图像所在页面的主题、图像的文件名称、与图像密切环绕的文字内容、图像的链接地址等都被用作图像分析的依据,根据这些文本分析结果推断其中图像的特征。
2、基于内容的图像检索技术基于内容的图像检索根据图像、图像的内容语义以及上下文联系进行查找,以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。
因为图像的规模一般要大于纯粹的文本信息,因此,基于内容的图像检索在检索的速度和效率上要求更高。
目前已有不少应用于实践环境的基于内容图像检索系统,如由IBM公司开发的最早商业化QBIC系统,以及由哥伦比亚大学研发的WebSeek系统、麻省理工学院研发的Photobook系统等。
通过基于内容的技术检索Web图像,首先需要从Web中剥离图像,组成图像集,对图像集中的各个对象进行基于内容的特征分析、相似度匹配。
基于内容的图像检索系统一般包括图像处理模块、查询模块、对象库和特征库和知识库(三)、查询方法:1、关键词查找:关键词查找输入关键词对查找图像进行描述,大多数网络搜索引擎提供的是关键词查找的方式检索,例如,希望查找山水风景的图片,可以输入“山水画”;又如希望查找关于猫的图片,可以直接输入“猫”。
2、浏览查找:浏览查找是指通过等级式类目组织的图像检索人口,图像按照不同的主题进行归类,用户在查找自己希望的图像时,通过点击层层类目的链接,到达自己所希望的类目下的图像。
3、特征输入查找:对图像的特征参数进行设置,如希望图像中的色彩比例为“R:128 ;G:128;B:64”,或者是对图像的明亮度在0~100%之间加以调节。
4、草图查找:用户亲自动手绘制希望查找的图像特征,以用户描绘的草图为训练样本,查找与之相似的其它图像。
5、示例查询:包括系统随机给出样本和用户提交样本两种,由系统随机给出一组图像训练样本时,让用户对这组图像进行评价,选择与自己的检索需求相似的图像,然后根据用户选择的图像进行分析,检出与之相似的其它图像。
另外,也可以由用户提供一副图像的地址信息,由图像检索系统即时抓取、即时分析。
(四)、基于内容的图像检索技术的应用1、基于内容的图像检索技术在军事侦察中的应用:从大量的军事侦察图像中获得我们所需要的信息显得非常重要。
要从图像中获得所需要的信息,必须从大量的图像中找到我们感兴趣的图像,并从中识别出目标,这需要运用到图像分割技术和特征匹配技术。
将图像分割技术和特征匹配技术用于军事目标识别。
图像预处理技术:图像平滑、中值滤波和图像锐化;以及两种图像分割技术:基于直方图分析的分割方法和改进主动轮廓模型的边缘提取算法。
2、基于内容的图像检索技术在医学方面的应用:文本、视觉特征等图像检索结合数据挖掘技术应用于医院检索系统3、基于内容的图像检索技术在多类别商品图像检索中的应用:用条理特征较之颜色特征来检索多类商品性能。
4、基于内容的图像检索技术在农业信息化中的应用。
(五)、研究方向1、立足于文本,对图像进行检索;2、立足于图像内容,对图像进行分析和检索;3、结合文本和内容,进行融合性研究;三、网络资源信息检索技术(一)含义:指利用现代信息检索系统,如联机数据库、光盘数据库和网络数据库检索有关信息而采用的相关技术,主要有布尔检索、词位检索、截词检索和限制检索。
(二)、检索方式1、布尔检索:布尔检索是数据库检索最基本的方法,是用逻辑“或”(+、OR)、逻辑"与"(×、AND)、逻辑"非"(-、NOT)等算符在数据库中对相关文献的定性选择的方法。
(1)逻辑"或"(+、OR):用来组配相同概念的词,文献中凡含有"A"或者"B"检索词或者同时含有检索词"A"和"B"的文献均为命中文献。
组配方式:A+B,表示检索含有"A"词,或含有"B"词,或同时包含"A"、"B"两词的文章。
这样的组配可以放宽范围,扩增检索结果,提高查全率。
(2)逻辑"与"(*、AND):检索时,数据库中同时含有检索词"A"和检索词"B"的文献才是命中文献。
组配方式:A×B,表示检索必须同时含有"A"、"B"两词的文章。
这样的组配增加了限制条件,即增加检索的专指性,以缩小范围,减少文献输出量,提高检准率。
(3)逻辑"非"(-、NOT):数据库中凡含有检索词"A"而不要检索词"B"的文献,为命中文献,是用来检索中排除某些词的。
组配方式:A-B,表示检索出含有"A"词而不含有"B"词的文章,用于排除不希望出现的检索词,能够缩小命中文献范围,增强检索的准确性。
2、词位检索(或词组检索):词组检索是将一个词组(通常用双引号""括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。
词组检索实际上体现了临近位置运算(Near运算)的功能,即它不仅规定了检索式中各个具体的检索词及其相互间的逻辑关系,而且规定了检索词之间的临近位置关系。
几乎所有的搜索引擎都支持词组检索,并且都采用双引号来代表词组,如"信息教育"。
但在Infoseek 中,除了用双引号外,还使用了短横线"-"来代表词组,如digital-library-definition,区别在于以"-"表示的词组不区分大小写。
3、截词检索:截词检索也是一般数据库检索中常用的方法。
但在一般的数据库检索中,截词法常有左截、右截、中间截断和中间屏蔽4种形式。
而在搜索引擎中,目前多只提供右截法。
而且搜索引擎中的截词符则通常采用星号*。
如educat*。
相当于education+educational+educator。
4、限制检索: 字段检索和限制检索常常结合使用,字段检索就是限制检索的一种,因为限制检索往往是对字段的限制。
在搜索引擎中,字段检索多表现为限制前缀符的形式。
如属于主题字段限制的有:Title,Subject,Keywords,Summary等。
属于非主题字段限制的有:Image,Text等。
作为一种网络检索工具,搜索引擎提供了许多带有典型网络检索特征的字段限制类型,如主机名(host);域名(domain);链接(link);URL(site);新闻组(newsgroup)和E-mail限制等。
这些字段限制功能限定了检索词在数据库记录中出现的区域。
由于检索词出现的区域对检索结果的相关性有一定的影响,因此,字段限制检索可以用来控制检索结果的相关性,以提高检索效果。
在著名的搜索引擎中,目前能提供较丰富的限制检索功能的有AltaVista,Lycos和Hotbot等。
(三)、应用一个是传统的图书情报检索,如图书馆信息系统,另一个就是互联网信息检索。