当前位置:文档之家› 数据可视化技术分析剖析

数据可视化技术分析剖析


返回
大数据环境下数据可视化
研究者提出了大量网络可视化或图可视化技术,Herman 等人 综述了图可视化的基本方法和 技术,如图所示.经典的基于节点和边的可视化,是图可视化的主要形式.图中主要展示了具有 层次特征的图可视化的典型技术,例如 H 状树 H-Tree、 圆锥树 Cone Tree、 气球图 Balloon View、 放射图 Radial Graph、 三维放射图 3D Radial、双曲树 Hyperbolic Tree 等.
大数据环境下数据可视化
大规模网络中,随着海量节点和边的数目不断增多,例如规模达到百万以上时,可视化界面中会出现 节点和边大量聚集、 重叠和覆盖问题,使得分析者难以辨识可视化效果.图简化(graph simplification) 方法是处理此类大规模图可视化的主要手段: • 一类简化是对边进行聚集处理,例如基于边捆绑(edge bundling)的方法,使得复杂网络可视化效果 更为清晰,下图展示了 3 种基于边捆绑的大规模密集图可视化技术.此外,Ersoy 等人还提出了基于骨 架的图可视化技术,主要方法是根据边的分布规律计算出骨架,然后再基于骨架对边进行捆绑;
随着大数据的兴起于发展,互联网、社交网络、地理信息系统、企业商业智能、社会公共服务 等主流应用领域逐渐催生了几类特征鲜明的信息类型,包括文本、网络或图、时空、多维数据 返回 等,这些与大数据密切相关的信息类型,将成为大数据可视化的主要研究领域。
大数据环境下数据可视化
文本信息是大数据时代非结构化数据类 型的典型代表。如图所示,典型的文本 可视化技术是标签云。
可视化的主要方法
3 平行坐标技术 平行坐标技术是最早提出的以二维形式表示 n 维空间的数据可视化技术之一。它的 基本思想是将 n 维数据空间用n 条等距离的平行轴映射到二维平面上,每条轴线都 对应于一个属性维。坐标轴的取值范围,从对应数据维属性的最小值到最大值均匀 分布(名词性属性依次在数据维上标出即可),这样数据库中的每一条数据记录都 可以转换成为图形的形式,都可以用一条折线表示在 n 条平行轴上(图 6)。
数据挖掘的可视化
数据挖掘中的可视化可分为以下三类:
(1)数据可视化。数据库和数据仓库中的数据可看作具有不同的粒度或不同的抽象级别。离散点 图可能是数据挖掘中用的最广泛的可视化工具,帮助人们分析数据聚类,观察数据的分布,有 无奇异点。对于只有两个或三个属性的数据,可采用平面或立体的表现形式,多个属性的数据 集,要用到离散点矩阵,矩阵的每一单元为数据基于某两维的表示。
返回
数据挖掘的可视化
可视化技术在数据挖掘中可以起到以下作用: (1)通过提供对数据和知识的可视化,可以利用人类的模式识别能力评估和提高挖掘 出的结果模式的有效性。 (2)利用可视化技术建立用户与数据挖掘系统交互的良好沟通通道,使用户能够使用 自己丰富的行业知识来规整、约束挖掘过程,改善挖掘结果。
(3)提供对挖掘结果的可视化显示,使用户对结果模式能够有深刻直观的理解,从而 打破传统挖掘算法的黑盒子模式,使用户对挖掘系统的信赖程度大大提高。
大数据环境下数据可视化
文本中通常蕴含着逻辑层次结构和一定的叙述模式,为了对结构语义进行可视化,如图前 者DAViewer将文本以树的形式进行可视化,同时展现了相似度统计,修辞结构以及相应的 文本内容。如图后者DocuBurst以放射状层次圆环的形式展示文本结构。 返回
大数据环境下数据可视化
文本的形成和变化过程与时间属性密切相关。如图前者(Theme)用河流作为隐喻,河流从 左至右的流淌代表时间序列,文本主题按不同颜色带表示,频度以色带宽窄表示。基于 河流的隐喻研究者又提出了后者(TextFlow),进一步展示了主题的合并和分支关系。 返回
返回
大数据环境下数据可视化
对于具有层次特征的图,空间填充法也是常采用的可视化方法,例如树图技术 Treemaps 及其改进技术,如图 所示是基于矩形填充、Voronoi 图填充 、嵌套圆填充的树可视化技术. Gou 等人综合集成了上述多种图可视化技术,提出了 TreeNetViz,综合了放射图、基于空间填充法的树 可视化技术.这些图可视化方法技术的特点是直观表达了图节点之间的关系,但算法难以支撑大规模 (如百万以上)图的可视化,并且只有当图的规模在界面像素总数规模范围以内时效果才较好(例如百万 以内),因此面临大数据中的图,需要对这些方法进行改进,例如计算并行化、图聚簇简化可视化、多尺 度交互等. 返回
返回
数据挖掘的可视化
在数据挖掘算法所生成的大量的模式中,最终只有 少量的信息能够以文字形式解释和评估。 因而可视化技术作为服务于计算机与用户之间的沟 通纽带,为用户提供关于数据和知识的直观信息。 传统的数据挖掘过程不可见、不可观,用户无法干 预挖掘过程,对用户来说好像一个黑箱子。使用适 当的可视化技术,帮助用户更紧密地与整个过程结 合,解决挖掘系统中的存在的一些问题。 传统的数据挖掘过程如图1所示,是以机器为中心 的;而新的吸纳了可视化技术的数据挖掘过程是以 人为中心的,如图2所示。以人为中心的数据挖掘 过程,将数据挖掘与可视化技术完美结合,提高了 数据挖掘过程的灵活性、有效性、与用户的交互性。 返回
返回
大数据环境下数据可视化
大数据可视分析是指大数据自动分析挖掘方法的同时,利用支持信息可视化的用 户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和 人的认知能力,以获得对于大规模复杂数据集的洞察力。 返回
大数据环境下数据可视化
上图是经典的信息可视化参考模型 大数据分析将掘取信息和洞悉知识作为目标,根据信息的特征把信息可视化技术分为一维信息、 二维信息、三维信息、多维信息、层次信息、网络信息、时序信息可视化。
数据挖掘的可视化
如图3(a)所示。作为观察”数据山“的第一步,应 用于数据预处理阶段。以图形方式提供一个数据可 视印象,给用户一个大体直观感受,帮助用户确定 从何处着手挖掘。 如图3(b)所示。作为直接执行数据挖掘的一种方法, 应用于数据挖掘实施阶段,允许用户借助人脑的探 索分析功能寻找发现模式。当人脑可以对显示的图 形做出判断时,这种方式较使用计算机的自动数据 挖掘技术有效的多。 如果3(c)所示。作为挖掘结果和预测模型的一种方 式,应用于数据挖掘的最后阶段,使最终用户能够 更好地理解挖掘出的结果模式。
研究背景及意义
一幅图胜过千言万语.人类从外界获得 的信息约有 80%以上来自于视觉系统, 当大数据以直观的可视化的图形形式 展示在分析者面前时,分析者往往能够 一眼洞悉数据背后隐藏的信息并转化 知识以及智慧. 如图 所示是互联网星际图,将 196 个 国家的 35 万个网站数据整合起来,并根 据 200 多万个网站链接将这些星球通 过关系链联系起来,每一个星球的大小 根据其网站流量来决定,而星球之间的 距离远近则根据链接出现的频率、强 度和用户跳转时创建的链接. 我们可以立即看出,Facebook 以及 Google 是流量最大的的网站。 返回
返回
可视化的主要方法
2 几何图技术 1)星型图:每个星型标记的构造方法如下:任选空间的某一点作为一 个 星型标记的中心点,由中心点作出 n 条线段来代表 n 个数据 维,这 n 个线段把平面平均分成 n 份。一般地,每一个线段 长度代表一个数据维的值的大小。把一个星型标记线段的终点全部用直 线连接起来,就构成了一个星型图(图 4)。每一个星型图都代 表数据库中一条记录,这样一组数据就用一组星型来代表。 2)雷达图:类似于星型图的构造方法。 3)Andrew’s Gurves:对于多维数据的数据点 x=(x1,x2,*,*,*,*,xn),被周期函数 Fx(t)= X1/sqrt(2)+ X2sin(t)+ X3cot+ X4Sin(2t)+cos(2t)作用于一个多维数据点或者(一个多维)数据集 合,被显示成为一组曲线,曲线的分布情况反映了数据的性质。 4)shapecoding 技术:主要思想是每一个数据点位于一个已经分解成 n 个细胞表格的长方形中, 而且每一个细胞表格的颜色由每一维来控制。 5)Grand-tour 技术:从不同的视角看待多维数据,投影数据在可能的 d-planes 通过泛化的旋转。 返回
(2) 数据挖掘过程可视化。数据挖掘的过程的各个环节用可视化的方式表现出来,用户可从中直 观的看到内容。易于理解并有助于知识的运用。
(3)数据挖掘模型可视化。有些模型很难被解释,模型可视化可从两个方面考虑:1,让模型输出 可视化,模型用一种有意义的方式表示。2,交互,允许用户操纵模型,改变模型输入以观察模 型输出的变化。 返回
可视化的主要方法
人类的认知系统可以识别空间三维物体,对于抽象的无线识别很困难。目前对于构 成可视化的方法中主要的方法,有以下几个方面。 1) 空间三维图形:通过图形的密度颜色分布,大致能够了解数据的分布,数据之间 的相似性和数据之间的关系。 2) 颜色图:分为彩色图和灰度图。彩色图的每一种颜色,对应着不用的属性维,灰 度图可以利用颜色的深浅来标记数据量的属性值的大小,颜色越深数值越大。 3) 亮度:对于特定的区域,用不同的亮度来辅助人眼对视点的观察。 4) 数学的方法:利用数学中统计的方法,先对数据关系进行分析,得到数据的大体 分布信息,然后再结合其他可视化方法来进行细节数据分析。或者利用数学统计 方法对数据中的关系进行映射,映射成为图形图像关系来帮助分析。
大数据环境下数据可视化
网络关联关系是大数据中最常见的关系,例如互联网与社交网络,层次结构也属于网络 信息的一种特殊情况。基于网络节点和连接的拓扑关系,直观地展示网络中潜在的模式 关系,例如节点或边聚集性,是网络可视化的主要内容之一。对于具有海量节点和边的 大规模网络,如何在有限的屏幕空间中进行可视化,将是大数据 时代面临的难点和重点.除了对静态的网络拓扑关系进行可视化,大数据相关的网络往往具 有动态演化性,因此,如何对动态网络的特征进行可视化,也是不可或缺的研究内容.
数据可视化技术分析
相关主题