当前位置:文档之家› 基于径向坐标可视化的高维数据分析方法

基于径向坐标可视化的高维数据分析方法


2.3
本征维数的最大似然估计 设在高维空间 ℜ p 中有 n 个样本 X1 , X2 ,", Xn , 可在低维空
间 ℜ m 中近似表示,即 Xi=g(Yi), m ≤ p ,其中, Yi 为 ℜ m 中未 知平滑密度函数 f 上的采样值, g 为映射函数,未知参数 m 称为本征维数。本征维数的最大似然估计基本思想是确定一 个点 x,使在 x 周围较小范围内半径为 R 的球 Sx(R)内 f(x)常 数,并将观测值看做 Sx(R)内的均匀泊松过程。考虑到不均匀 过程 { N ( t , x ) , 0 ≤ t ≤ R} ,由 N ( t, x) = ∑1{ Xi ∈ Sx ( t ) } 计算 t~x 的
第 36 卷 Vol.36
第1期 No.1
计 算 机 工 程 Computer Engineering
文章编号:1000—3428(2010)01—0035—03 文献标识码:A
2010 年 1 月 January 2010
中图分类号:TP18
·软件技术与数据库·
基于径向坐标可视化的高维数据分析方法
样本数
(2)
xij , j = 1, 2," , ni 其中, c 为类别数; ni 为第 i 类包括的观测数量;
c c n i 为观测值, μi = (1 n )∑ n x , n = ∑ ni , μ = (1 n )∑ ∑ i xij 。 j =1 ij i =1 j =1 i =1
这种定义与 LDA 分类器原理相似,因此,可通过 LDA 分类器的分类性能对投影评分。对一种属性子集,径向坐标 可视化根据锚点在单位圆上不同位置的改变计算所有可能性 投影。为计算某一特定映射的评分,使用映射点在平面映射 中的横向坐标 (x) 和垂直坐标 (y) 这 2 个定位特征连同其类标 签,并将这种构造的位置数据集输入 LDA 分类器。该映射的 评分即为用留一法验证的 LDA 分类器的精度。 当数据维数较高时,寻找 n 维数据的排序优化是很耗时 的。而高维数据往往可通过低维流形近似表示。因此,可通 过本征维数估计得到较少数量的属性子集。本文采用最大似 然原理估计高维数据的本征维数。 —36—
1
目前几乎所有科学、 工程和商业领域的数据都是高维的, 即数据集通常都包含多于三维的变量。高维数据的产生,迫 切需要开发处理这些数据的工具和方法 [1] 。可视化是高维数 据分析的重要且必不可少的工具,它可以观测到数据的复杂 结构和模式 [2] 。许多数据处理方法实质上是基于可视化的, 如散点图和直方图,但多数可视化方法只能同时表示 2 个变 量。数据的高维性使研究者必须寻求将多个维数映射到二维 空间的方法 [3-6]。 径向坐标可视化是一种灵活方便的高维数据可视化方 法 [7]。它能够揭示隐藏于数据中的模式,发现数据集中的重 要属性,建立对类别结构的直观理解,从而有利于领域专家 理解分析的过程。但当属性较多时,可能的映射数量会随属 性数目的增多呈指数上涨,因此,发现有价值的映射是困难 且耗时的。本文基于最大似然原理 [8] 估计数据属性的本征维 数,从而缩小了径向坐标可视化坐标寻优空间,能在较短的 时间内发现径向坐标的最优映射,并结合现代模式分类方法 对典型高维数据集进行分类验证,得到了较好的可视化分类 结果。
Sw =
T 1 c ni xij − μi )( xij − μi ) ( ∑∑ n i =1 j =1
⎛ V ' ( m) ⎞ e V ( m) R ⎜ lg R + ⎟=0 ⎜ V ( m) ⎟ ⎝ ⎠
θ
m
(6)
将式 (5)代入式 (6)得到本征维数 m 的最大似然估计为
N ( R, x) Λ ⎡ 1 R ⎤ mR ( x) = ⎢ lg ⎥ ∑ N R , x T ( ) ( x) ⎥ j = 1 ⎢ j ⎣ ⎦ −1
High Dimensional Data Analysis Method Based on Radius Coordinate Visualization
MENG Hui1, WANG Li-qiang2, HONG Wen-xue1
(1. Institute of Electrical Engineering, Yanshan University, Qinhuangdao 066004; 2. Institute of Vehicles and Energy, Yanshan University, Qinhuangdao 066004) 【Abstract】According to the requirements of visual analysis of high dimensional data, this paper proposes a radius coordinate visualization method that can analyze high dimensional data in the reduced space by maximum likelihood estimation of intrinsic dimension so as to apply a few attributes in radius coordinate visualization. The radius coordinate visualization can reveal interesting relations between classes and features, integrate various machine learning methods to classify dataset in optimal projection that obtained from different variable arrangement. Experimental results applied on the six datasets in UCI database show good performance of accuracy and visualization. 【Key words】visualization; radius coordinate; high dimensional data; estimation of intrinsic dimension
ηi = [η1i ,η2i ]T 为目标空间中第 i 个映射 第 j 个特征锚点的坐标; 点的坐标。则此弹簧上的弹簧力为 f ij = eij sij ,其中, sij 表示
对应于第 i 个映射点的弹簧刚度标量常数。 由于第 i 个映射点 处于稳定时弹簧合力为 0,即 ∑j=1 fij = 0 ,因此,第 i 个映射点
' ∂ L ⎛ 1 V ( m) ⎞ R =⎜ + ⎟ N ( R) + ∫0 lg t dN ( t ) − ∂θ ⎜ m V ( m) ⎟ ⎝ ⎠
(5)
图1
Wine 数据集的径向坐标可视化
由图 1 可以看出,虽然径向坐标可以反映数据的类别分 布情况及对类别分布具有较大影响的属性,但是按照数据集 原始属性顺序得到的径向坐标可视化不一定是最优的映射。 为寻求由径向坐标可视化表示的最佳属性排序,可以对不同 的属性排序进行评分,分值最高的属性排序即为最优的径向 坐标可视化映射。 径向坐标映射优化 对于高维数据分类问题,可以根据有标签数据的潜在特 性规划可视化映射的属性排序,使不同类别的数据在径向坐 标可视化映射中得到明确区分。本文根据径向坐标可视化中 数据点的类内聚集度和对不同类别数据的类间分离度定义映 射的性能。 类内聚集度 Sb 定义为 [5] 1 c T (1) Sb = ∑ ni ( μi − μ )( μi − μ ) n i =1 类间分离度 S w 定义为 2.2
n
坐标为 ηi = ∑ j =1 wij A j ,其中, w = ij
n
(∑
n
j =1 ijs)−1sij。需要将弹簧
刚度标量常数 sij 归一化到 [0, 1]区间以保证映射点处于单位 圆内。设第 i 个映射点的第 j 个特征值表示为 xij ,则
sij = xij − min( xkj ) max( xkj ) − min( xkj )
i=1 m
观测值数目。由泊松过程近似此二项式过程并且暂不考虑 x 的影响,则可将过程 N(t)的抵达率 λ (t ) 表示为
λ (t ) = f (x )V (m ) mt m −1
(3)
m
其中, V ( m ) mt
L ( m, θ ) =
=d⎡ ⎣V ( m ) t ⎤ ⎦ / d t 是球 S x (t ) 的表面积。设 θ = lg f ( x ) ,将 N (t ) 写为对数形式:
孟 辉 1,王立强 2,洪文学 1
(1. 燕山大学电气工程学院,秦皇岛 066004;2. 燕山大学车辆与能源学院,秦皇岛 066004) 摘 要: 针对模式分类算法不直观的问题, 提出一种基于径向坐标可视化分析高维数据的方法。 由最大似然原理估计高维数据的本征维数, 用较少的变量结合径向坐标可视化方法对高维数据进行可视化降维分析。在径向坐标中揭示高维数据集中类别和特征间的关系,寻找基于 不同特征排列顺序的最优映射,并结合多种机器学习方法对数据集进行分类。应用于 UCI 数据库中的 6 个数据集的结果表明,该方法具有 较好的可视化和分类效果。 关键词:可视化;径向坐标;高维数据;本征维数估计
表1
数据集 promoters Ionoshpere Wdbc Wine anneal Brown-selected 106 351 569 178 898 186
实验结果及分析
实验数据集
类别数 2 2 2 3 5 2 属性数 57 33 20 13 38 79 本征维数 12 11 5 5 8 9
(7)
实际上,固定近邻数目 k 比固定球半径 R 更易计算,则 式 (7)的估计可改写为
相关主题