英文文献:(4000+)基于相似性的可视化的图像采集G.P.阮M.吴霞感官智能信息系统,阿姆斯特丹大学,Kruislaan403,1098SJ荷兰阿姆斯特丹电子邮件:fgiangnp,worringg@science.uva.nl摘要在很多文献中,很少有内容是基于利用可视化作为探索工具集合的多媒体的检索系统,。
然而,在搜寻影像时没有实例,需要探索数据设置。
截至目前,大多数可用的系统只显示图像的二维网格形式的随机集合。
最近,先进的基于相似技术已被开发用于浏览。
然而,他们没有分析可视化视觉大片集合时出现的问题。
在本文中,我们明确提出这些问题。
开始之前,我们建立了三个总体要求:概述,可见性和数据结构保存。
解决方案是为每一个需求提出了建议。
最后,系统被提出并给出了实验结果,以证明我们的理论和方法。
1引言多媒体技术的发展和廉价的数码相机,可用性图像和视频集规模大幅增长。
为了管理,探索并通过搜索并且收藏,可视化系统是必不可少的。
许多工程已促成了这一有趣的领域[ 18 ] 。
在基于内容检索的这一主要问题是系统的自动标注功能之间的语义鸿沟和在集合的概念上的存取条件与用户的要求。
提高了系统的性能可从系统的角度,或从用户侧和从这些的组合中进行。
在任何方式的集合中可视化是一个重要的元素,因为它是建立在用户之间的联系的最好方式和系统。
在文献中,很少有基于内容的多媒体检索系统利用可视化作为探索的工具集合。
然而,在搜寻影像时没有从实例入手,设置需要探索数据。
截至目前,大多数可用的系统只显示图像的二维网格形式的随机集合。
并且浏览是依赖于图像之间的关系。
因此,应根据相似性。
对于描述,查询,搜索等基本特征或例子是最适当的方式就是可视化浏览。
最近,更多先进的技术已被开发用于浏览基于相似性。
然而,他们没有分析可视化可视化集合时出现的特殊问题。
例如,作为图像集的大小需要的空间是非常大的,从集合随机选择一组图片不能被认为是一个正确的做法。
用户使用此选项设置,只能得到数据库里面的能是什么的感觉。
在另一方面,显示(即无论大小或分辨率)的限制,不允许任何系统,以显示整个集合。
此外,显示所有图像时甚至不给用户提供更多的信息,而且还容易让图像迷失在拥挤的网络图像中。
有些系统取得了一个电子,通过展示剩余来缓解这种限制。
并整个收集到用户中作为一个点集。
然后,每个图像由显示器上的一个点来表示,并且一旦用户选择了一点,他们将得到的实像的可视化。
但是从实际的角度看来,这种做法是不容易的,因为用户在看一千多个点。
此外,每一个图像都是一个可视对象,因此其总含量多少应对用户是可见的。
在本文中,我们提出的所有问题都得到明确。
本文的结构如下。
在第2节中,我们分析出一些要求用于可视化大图像集合。
然后在第3节,为每一个需求得出解决方案。
最后,第4所示的实验结果与真实的数据。
2问题分析在本节中,我们更详细地分析一个可视化视觉大片集合时出现的问题。
从为了一个共同的可视化系统存在的一般要求是去NED。
在可视化的大集合的RST的问题是,由于其在尺寸和分辨率的限制,以显示他们的设备的有限显示尺寸,这就是所谓的可视空间。
同时,该大小集合通常比可视空间的所能承受的能力小大要大得多。
其次,由于图像是视觉对象的任何可视化工具的最终目的是要显示图像的内容。
由于空间限制,只有一小部分的图像可以在同一时间被显示。
随机选择这些图像的肯定不是一个好方法,因为它是不能够显示整个集合的分布。
为了克服这个问题,所选择的集合应该能够代表整个集合或者至少给用户一组,他感兴趣的概述。
这个问题已经被研究出,在这里笔者指出,在设计信息可视化系统中概述是最重要的标准。
因此,在RST标准的最佳可视化工具是概述的要求。
在收集影像的过程中通常又把他们当作同日或由相互关系的同一作者,或者共享相同的视觉特征。
这意味着,每个图像被表示为特征向量。
为实例中,如果每个图像的RGB直方图与32bins为每个颜色通道提取,特征向量是一个96维的向量。
因此,整个收集建立了一个高维特征空间。
通常情况下,特征的维数比3大很多,人类视觉尺寸的最大数目内是能够捕捉。
一个映射算法在特征空间的可视化空间中是必要的。
一些知名映射技术比如:PCA (主成分分析),MDS (多维缩放),或更近的方法ISOMAP (等距),SNE (随机邻居嵌入),液液萃取(本地线性嵌入)。
例如,作者用PCA进行数据映射到二维,同时在ISOMAP中被使用。
然而,数据驱动的距离和一般屏幕之间的距离精确匹配是不可能的。
此外,在特征空间,图片收藏往往遵循一定的非线性结构。
例如,给定的视频序列,该组的序列的帧将具有直链结构,如果相机捕捉车沿街,或环状结构移动,正如视频捕捉器在一个时钟或一小时的指针移动。
因此,将数据映射投入到可视化空间时,集合的结构,应予以保留。
这就是第二个要求,所谓的结构保护要求。
最后,在显示一组图像时,即使系统使用缩略图,以更小的尺寸相比原来的图像往往会有部分或完全地彼此重叠。
图像之间的重叠到现在还没有被认为是正常,即使它可以在可视化工具的质量上做很大改变。
如有一个例子,从用户的角度来看,在当它们被其他图像重叠,可能丢失图像的可能性很大,从而抑制了用户和系统之间的通信。
在这里必须强调指出,图像是视觉对象,因此它们之间的重叠应减少越多越好。
这是另一项要求,我们称之为可视性的要求。
综上所述,我们有三个总体要求:概述,结构保存和可视度。
但是,这里应该指出的是,三个要求是不完全相互独立的。
特别是,为了增加可见性,图象应彼此散开。
此外,更多的图像被选择为代表,因为在可视化的限制中得到更好的概述,但能见度空间有所降低。
图1示出的要求之间的关系。
因此,需要有一个均衡功能间的要求。
这意味着我们要保持原有的关系以及提高知名度和一个很好的概述,连同能见度保持。
在下面的章节中,我们将介绍每个方法要求。
然后为每个解决方案我们定义一个成本函数。
从那里,提出了均衡功能以达到最佳视觉效果。
3方法3.1从高维到2维空间假设每个图像被表示为特征空间中的一个点的映射,并且需要这些点映射到可视化空间。
用于这一目的的许多方法是存在的。
对于整个数据的一个很好的概述,以及保持映射后的数据的真实结构,我们需要一个算法,保留所有的数据之间的关系积分。
像PCA和MDS常见的技术是专为线性流形嵌入。
更近期的技术采取的数据集的非线性结构考虑在内。
例如,ISOMAP 与RST重新计算在高维空间中任意两个点的最短路径的长度的点之间的相似性,然后应用在MDS上,计算新的距离。
LLE适用在保持数据集的局部几何于本地的邻居旨。
SNE 是在这两种方法某种程度上的中间。
此方法计算该两点考虑彼此在高邻居和较低的概率维度,然后尝试两个概率分布间的匹配。
因此,它适用于局部几何结构保存,但也保持遥远点在可视化的高维空间的遥远空间。
因为它的优势的,在本文中,我们采用了SNE算法。
此外,为了克服该问题的直线距离计算,在ISOMAP算法的距离和计算步骤相结合,来提取基于图形的距离的组合称为ISOSNE 。
在原ISOMAP,有三个主要步骤。
首先,算法生成的邻域图采用k-近邻或近邻每一个点。
如果存在的所有点之间的边缘,该距离它们之间被设定为两个相应的对象之间的相异度值。
第二步使用Dijkstra的算法。
每对点之间第二最短路径,它们之间的距离,然后忠告定义为在总和所有链接从一个点到另一个的边缘。
之后的距离重新计算,MDS应用到新的距离矩阵。
图2示出的ISOMAP方法的优点的示例。
假设一个图像采集如下,对于一个正常的距离计算(左GURE),S-曲线在3维空间。
例如欧几里得距离,该数据的非线性歧所示右图像将被忽略。
这意味着,远离彼此并沿着所述歧管可以产生短的距离。
在对图像进行去NES距离下面的ISOMAP算出歧管的结构,这是在此歧管的两点之间的真实距离。
在ISOSNE,对于任何给定的数据集,类似于在ISOMAP的前两个步骤,我们重新计算的距离图像之间。
最后,用SNE计算,然后应用到新的距离矩阵。
该SNE的工作原理描述如下。
给定一个相异矩阵D ={dij},用于在原始空间中的每个对象中的算法计算概率的一个点,P = {pij}:与PII= 0。
假设每个图像被表示为一个点。
在可视化空间中,SNE初始化所有点随机位置。
I =1。
感应概率Q = {qij}然后计算每对点:最后,使用两个概率分布P和Q之间的的距离,该SNE旨在最小化下面的函数:我们尝试用一些ISOSNE合成非线性歧管套,以及真实数据集来证明了该算法的性能。
显示了测试的一些合成的数据的结果。
该ISOMAP往往会因此保持全局数据,在某些情况下未能在确保局部结构保存。
因此,该SNE本身使用点之间的直线距离,失去了数据的真实结构。
ISOMAP的组合和SNE采用了两种方法的优点并提供了最好的结果。
我们还尝试用LLE,但它不会产生令人满意的结果。
对于实际数据,图像集取自不同的宏的视频序列。
图映射的视频示出的结果由Lab颜色直方图(96维),以可视化空间中表示帧。
图4a是示例性一个用照相机拍摄车的移动沿着一条街道线性结构中,视频序列则具有线性结构。
图4b所示的重复结构,其中视频捕捉两个人之间的对话。
RST显示了两个人交谈,然后从一个人的摄像机移动到其他整个场景,并应再次显示整个场景。
显然,测绘成果确实保持原来的结构。
3.2概述如上所讨论的,显示的所有图像的用户是不恰当的,因为可视化的空间是有限的,用户将迷失在拥挤的网络图像中。
因此,我们需要选择一组图片作为代表显示给用户。
为此,我们采用K-means算法,聚类的数据集。
为了保持数据的结构,点之间的距离是使用基于图形的距离计算。
有了这个,k-means与我们的要求相适应。
假设我们集合分成k个簇。
K-均值为RST与随机位置对于k初始化中心点。
每个中心点是在数据集中的现有点之一。
一旦中心点去NED,然后我们第二点属于同一群集。
每个集群mi,为下一次迭代的新中心点mi (T +1)被计算为重复该过程,直到得到最大数目为止。
以下,我们展示的一个例子使用K-均值和改进的k-means初始距离。
给定的数据具有螺旋形式。
作为结构,该数据是使用ISOMAP保藏,改进的聚类也如下数据结构,因此,执行得比原来的好。
聚类的评价当然依赖于簇的给定数量,以及如何使中心点覆盖整个数据集。
对于以后的目的,我们需要一个标准化的评价功能,因此我们使用了作案版休伯特统计量作为聚类的措施。
它由下式给出:3.3能见度到目前为止,我们只考虑点集。
当各点表示为一个图像,我们需要服从可视性的要求。
在本节中,我们将展示如何给图像显示可视性的。
重叠依赖于显示的图像的数量,以及它们之间的关系。
在接近可视化空间表示的图像的相似性比较大。
这是因为结果从高维到2维空间(第3.1节)的映射。