图像数据挖掘相关概念和应用摘要:图像挖掘是数据挖掘领域中新兴的领域。
随着数字照相技术的发展和在多学科中的广泛应用,对大量图像数据的分析和研究越来越重要。
图像挖掘的对象、内容不同于传统数据,方法上也不同于传统技术。
本文旨在介绍图像挖掘的基本概念。
在此基础上,还介绍了近年来图像挖掘领域在卫星遥感、医学影像研究的相关应用。
关键词:数据挖掘;图像挖掘Abstract:Image mining is an emerging field in data mining.Along with the wild use of large scale digital photo technology,it becomes more and more important to devise powerful tools for analyzing tremendous image data and grasping the contents inside.there is a large gap between traditional data mining and image mining in data formation and content,and the methods and algorithms are also different.In this paper,we focus on illustrating basic concepts of image mining.At last,applications of such techniques as satellite photo,medical X-rays,are introduced.Keywords:data mining;image mining1引言随着信息技术的迅猛发展,数据库应用的规模、范围和深度不断扩大,各行业都积累了大量的数据资料,但是人们无法理解并有效地利用这些大量的数据,从而导致”数据太多而知识太少”的尴尬局面。
在这样的背景下,数据挖掘和数据库中的知识发现(Knowledge Discovery of Database)应运而生。
KDD最早是在1989年举行的第11届美国人工智能协会学术会议上提出的。
数据挖掘只是KDD的一个处理过程,但却是KDD最重要的环节。
数据挖掘是按照既定的业务目标,对大量数据进行探索,揭示隐藏其中的规律性并进一步将之模型化的先进的、有效的方法。
在实际工作中,数据挖掘和知识发现这两个词经常混用,不加区分。
如今数据挖掘思想已经开始向交通管理、医学影像诊断、城市规划、金融风险分析、图像识别等领域扩展。
数字图像处理(Digital Image Processing)起源于20世纪20年代,当时通过海底电缆从英国伦敦到美国纽约采用数字压缩技术传输了第一幅数字图片。
由于CT的发明、应用以及获得了备受科技界瞩目的诺贝尔奖,使得数字图像处理技术大放异彩。
目前数字图像处理学科已经成为工程学、计算机科学、信息科学、统计学、物理、化学、生物学、医学甚至社会科学等众多领域的各个学科之间学习和研究的对象。
数字化时代产生大量的图像数据,如数码照片、医学图像等。
对这些图像利用图像挖掘技术进行自动分析以获取大量有用知识的需求日益增加。
图像挖掘(Image Mining)远不只是检索相关图像,更要在大图像集中发现有意义的图像模式。
由于数字图像具有一下几个特点:图像中信息是隐含的;对图像信息可有多种解释,依赖于图像表示方法和应用领域知识;图像信息中包含图像对象的空间关系信息,所以图像挖掘不同于传统的数据库挖掘技术,挖掘的是在图像数据库中隐含的、未知而潜在有用的知识和建立图像数据模型的过程。
图像挖掘是多媒体数据挖掘的一个重要组成部分,其研究内容是在图像数据集中,提取隐含的知识,包括图像之间的关系、图像与字符数据之间的关系、图像中各实体之间的相互关系以及其他模式或关系等,是涉及计算机视觉、图像处理、图像检索、数据挖掘、机器学习、数据库和人工智能等学科的交叉研究领域。
具体地说,图像挖掘是从图像中提取能代表区分该图像结构内容的特征向量,在这些特征向量所在的空间中比较、分析它们之间的距离或相似关系。
通过对图像内容的分析、索引、摘要、分类和检索等操作,进一步发现感兴趣的知识或模式。
2数据挖掘与图像挖掘由于图像数据库和传统的关系型数据库存在巨大差异,导致了很多现有的数据挖掘技术无法应用在IM领域。
第一,在关系数据库中,数据值在语义上是有意义的,例如年龄值35,这是容易理解的。
然而在图像数据库中,如同灰度值为46这种信息,没有背景资料的支持就难以理解。
第二,图像中包含的空间信息对研究图像内容至关重要,但在关系数据库中却并非如此。
比如,为了识别出图像中的某一特别形状或模式,必须考虑位相近位置上的一系列象素点,而在关系数据库中,数据挖掘更关注的是某一条记录的特征,而不是它跟上一条记录或下一条记录之间的关系。
所以,为了在图像挖掘中使用数据挖掘的方法,挖掘器的首要工作是从图像中提取不依赖于位置属性的特征,之后再挖掘有用模式。
第三,传统的数据挖掘关联算法无法使用图像问题,所以针对挖掘图像中的有价值模式需要开发新的算法。
3图像挖掘相关技术3.1目标识别通过先验知识概括的目标模型(object models)的使用,目标识别系统可以从图像中找到知识。
这是IM的主要任务之一。
自动机器学习和智能信息提取只能在那些目标可以被计算机明确辨别出来的情况下实现。
一个目标识别系统由4部分组成,包括模型数据库,特征探测器,hypothesizer 和hypothesis verifier。
模型数据库包含所有系统已知的模型,这些模型概括了目标的重要特征。
探测器主要针对象素层面,hypothesizer标识出图像中出现目标的似然性(likelihood)。
Verifier使用模型来验证假设并改进目标的似然性。
最后,系统选择具有最高似然性的目标作为正确目标。
3.2目标检索IM要求图像能够按照一定准则被检索。
这些准则可以被归纳为三个复杂性递增的类:(1)包含颜色、材质、形状或者空间位置等特征,比如“检索那些右上角有红色长条形状的图片”;(2)包括能够检给定的种类或个体,人的逻辑特征,比如“检索内容包含桌子的图片”或,“检索Jimmy的图片”;(3)通过提炼的属性检索,包括目标或场景的高级因果关系,比如“检索足球比赛的图片”。
Kazman和Kominek提出了图像检索的三种查询方式:关联属性查询,描述查询,图像内容查询。
通过关联属性查询实最简单的,通过输入的文本找到相关图像信息,找到的图片应比较符合查询所要求的属性。
而描述查询的基础实记录下每张图片的描述性信息,这里面,图像描述又常称作标签或关键词。
这些标签通常是手动生成并在图像处理阶段加入图片的。
理想的描述应该有区分效度、具体化和明确的。
在实践中,这种方法由于“词汇问题”和非可测性而受到限制。
基于图像内容的查询对上述问题有一定的改进。
在这方向上包含了研究性和商业性的尝试。
商业应用中的IBM的QBIC system可能是最知名的图像内容检索系统。
它提供颜色、材质和形状以及其组合的文本关键字检索,使用R*-tree 作为索引以提高搜索性能。
其新版本包括更有效的检索技术,改进的交互界面和搜索灰度图片的功能。
Virage也是商用系统,它包含一系列的独立模块,让使用者能够加载自己的程序。
Excalibur依靠于其公司的模式识别技术,能够提供多种图像检索和匹配查询技术。
3.3图像索引对于不同层次的信息需求,也需要一个快速而有效的索引系统来支持图像检索。
典型的图像数据库都非常庞大,图像的特征向量维度也很高。
对于这问题,有两种解决办法:降维或对高维数据做索引。
降维的实现可以用两种著名的方法:Singular Value Decomposition(SVD)改进算法和聚类算法。
后者通过把相近特征归为一组而减少维度数。
高维索引技术包括SR-tree,TV-tree,X-tree和iMinMax。
其他的索引技术也都是基于相似的思想,试图改进针对大数据量的检索性能。
目前的图像体统检索都从相似性出发。
一个主要的方法是先执行降维之后使用恰当的多维索引技术支持相似性测量。
Guttman在Oracle平台上用多层过滤器索引开发出一套图像检索系统,该过滤器对代表图像的高维数据进行近似化并减少搜索空间,针对这样建立的子库进行计算,开销会大大减少。
3.4图像分类和图像聚类图像分类和聚类分别是监督的和非监督的图像分类。
在有监督的分类中(通常称为分类),我们给类别加以标记,解决的问题是对新遇到的对象进行类别判定。
而在无监督的分类(或叫做聚类)中,所有的图片都没有给定的类别,因而必须根据图像自身的特点进行分类。
根据内容的智能图像分类是获得有价值信息的重要手段。
这种分类模块被称为分类器。
目前,有两种主要的分类器,参数分类器和非参数分类器。
图像聚类常配置在挖掘过程的早期阶段。
最受关注的特征属性包括颜色、材质和形状。
一般的,无论三者之一还是其组合都能被加以应用。
聚类技术的丰富算法也为图像聚类提供了广阔的发展前景,当图片被聚类完成后,专家就可以根据类别加以标记。
3.5关联规则挖掘关联规则挖掘在数据挖掘中是很常用的技术。
关联规则已经被用在大规模图像数据库中。
目前主要应用两种方法,第一种是从大量独立图片中挖掘,第二种是将图片和文字数字数据结合起来。
第一种的例子包括从卫星照片中寻找美国的各个城市之间是否存在一些共同的模式。
第二种方法的例子是对医疗图像和病人记录的结合应用。
在图像数据库中,将所有图像进行人工标记,然后使用传统的关联规则挖掘方法是不可能的,只有开发自动或半自动的系统对图像内容进行分析。
这里分析和描述的基础依然是图像的颜色形状等属性。
3.6神经网络人工神经网络是由简单处理单元组成的一种大型的并行分布处理系统,神经网络的容错和模式认识以及趋势预测能力都很好。
ANN在图像方面的挖掘研究相对较晚。
Gardner and Keating使用人工神经网络的自动图像分析和即时病人分类工作,一种基于模糊ARTMAP神经网络的站点挖掘工具被提出,以上的工作为图像分析提供了一个新的发展方向。
4图像挖掘的实际应用4.1遥感图像人工神经网络挖掘方法遥感图像数据挖掘是图像数据挖掘的一个重要分支,遥感图像具有图像数据的一些主要特征,其中包括颜色、纹理、形状、空间特征等。
近几年来,逐渐成熟的人工神经网络信息处理技术,已经广泛地应用于遥感图像数据挖掘中,为遥感信息处理提供了一个崭新的技术手段。
人工神经网络用于遥感数据挖掘可以分为有导师监督和无导师自适应竞争分类;前者是特征模式输出,所获取的知识是明确的;而后者输出的是一个相对于输入信息特征的分类,所获取的知识需要结合研究对象进一步明确。