当前位置:文档之家› 基于关联分析的网络数据可视化技术研究综述

基于关联分析的网络数据可视化技术研究综述

on
techniques.We
raised
an
implement
framework of network data visualization technology
association analysis including the association rules mining,topic mining and visualization and other techniques, help people understand quickly in the limited time and analyze massive data

引言
随着万维网、社会关系网等网络的迅猛发展,可获得的网
并辅助数据分析的作用。 进入21世纪,单一的可视化已不能满足人们日益增长的 对于挖掘数据中存在的关联关系的需求,可视化逐渐发展为 一个涉及数据挖掘、人机交互、计算机图形学等的交叉学科。 数据挖掘技术可以帮助人靠1从海量数据中获取有效的信息。 于是,将数据挖掘技术与可视化技术相结合起来,利用人类的 认知能力来对大型多维数据集进行数据挖掘是目前人们从海 量数据中提取信息极其有效的方法。 Card认为:信息可视化是从原始数据到可视化形式再到 人的感知认知系统的可调节的一系列转换过程。目前已经有 很多的可视化系统,例如文献[3]设计实现了一种由多条博文 的历史传播数据构成的传播网络可视化系统。由Jiawei
第42卷第6A期
2015年6月
计算机科学
Computer
Science
V01.42 No.6A
June 2015
‘基于关联分析的网络数据可视化技术研究综述
孙秋年饶元 (西安交通大学软件学院
摘要
西安710054)
当今万维网、社会关系网等网络的规模迅速发展,海量高维的网络论坛数据给论坛管理员和其他分析人员提
图1
网络论坛数据的层次模型
(3)交互性高。在论坛上,人们通过发帖或跟帖发表意 见,发表的内容任何人任何时间都可以看到。一个帖子往往 会引来成百上千的回帖。传播者和受众之间有着灵活的沟通 交流机制,即使兴趣不同的网络群体在不同的网络论坛空间 中仍然可以相互分享信息、展开讨论,获得彼此的认同。 2.1.2数据可视化定义 数据可视化可以描述为依据数据的属性特征,借助图形 化手段,清晰有效地传达与沟通信息,使通过数据表达的内容 更容易被理解。不同数据集的特性不同,选择合适的显示方 式和技术,能达到更好地展示出数据本身的结构特征的目的。 2.1.3关联规则的相关定义 关联规则形式简单,有助于人们发现数据之间的联系和 许多其他有趣的模式,因此利用关联规则挖掘网络论坛数据 中的关系。有必要先给出关联规则的定义。 定义1设J一{,,,J:,…,L}是帖子的属性集,称为项 (Item)。给定一个存储大量网络论坛数据的数据库D,其中 每个帖子T是项的对应数据集合,满足Tc£-I。每个帖子都有 一个标示符,称为TID。X是,的子集,如果x∈T,则称T 包含X;如果x的元素个数为K,则可以称X为K一项集(K-
Itemset)。
一西
阶段。

可视化@据可视D(鬻)@糍
图2关联分析的网络数据可视化技术实现框架
关联分析的网络数据可视化技术实现框架分为以下几个
(1)数据抓取:通过网络爬虫技术从多个网络论坛上抓取 数据,并将其保存到本地的数据库。 (2)数据预处理: 1)数据选择:选出与本次数据分析相关的数据; 2)数据清洗:对选择出的数据进行数据清洗,将数据转变 成“干净”的数据; 3)数据转换:将清洗后的数据转换成关联规则算法所需 要的格式。 (3)关联规则挖掘:使用合适的关联规则算法,对网络论
网络数据可视化的相关定义、目标及实现框架
关联规则及网络数据可视化的相关定义 网络论坛数据
Board
网络论坛也被称为BBS(BuIlletin
System)论坛,是
发现数据中的规律。在充分利用信息资源,发掘数据中的关 联关系和规律方面,关联规则挖掘技术以其可以从数据集中 发现属性间隐藏的、有趣的关联关系的优势脱颖而出。 (3)挖掘过程与挖掘结果可视化 数据挖掘和可视化技术的有机结合,可以弥补传统数据 挖掘过程的缺陷,加强数据挖掘的处理过程。可视化的方法 使数据挖掘技术的应用更具形象性和直观性,挖掘过程加入 更多的人的参与和指导,可以有效地提高数据挖掘结果的可 信度、可理解性和可用性。可视化贯穿了挖掘过程和挖掘结 果,有利于用户对挖掘算法中的参数及时做出调整。 (4)合适的交互操作 设计一种关联规则与其对应数据的交互,用户对某一规 则或者某几个规则感兴趣的时候,可以通过下钻找到其对应 的数据集,了解数据的详细信息;也可以通过上卷返回到关联 规则界面。 (5)快速掌握和了解关联规则下数据的主题思想 主题挖掘可以快速地发现数据集中主要的观点和话题, 可以让分析人员快速地对关联规则进行合理的筛选和过滤, 选择出人们需要的有意义的规则。 2.3关联分析的网络数据可视化技术实现框架 关联分析的网络数据可视化技术实现框架如图2所示。
Survey of Network Data Visualization Technology Based
SUN Qiu-nian
(School of Software,Xi’an
on
Association Analysis
RAO Yuan
Jiaotong University,Xi’an 710054,China)
・485・
定义2如果项集X∈J,yEJ,并且Xny一0,则形如
)by的蕴含式称为关联规则,其中,x是规则的前项集,y
是规则的后项集,它表示包含X项集的帖子T也很有可能会 包含y项集。如果包含X的帖子有c%也包含y,那么规则 x辛y的置信度为c%;如果D中有s%的帖子包含xUy,那 么规则)0亨y的支持度为s%,其计算表达式分别为
出了巨大的挑战,人们很难对隐藏着丰富信息资源的网络论坛数据进行管理和分析。关联规则可以挖掘数据中隐藏 的关联关系并预测其发展趋势,可视化技术则能将数据清晰直观地展示,辅助用户决策。于是,针对数据量大、结构复 杂的网络论坛数据,将关联分析与数据可视化结合,阐述关联规则和网络数据可视化相关定义及总体目标,并对相关 技术进行综述,提出了包含关联规则挖掘、主题挖掘、可视化等技术的基于关联分析的网络数据可视化技术实现框架, 以帮助人们在有限的时间内快速理解和分析海量论坛数据集。最后,对数据可视化目前存在的问题与挑战进行探讨。 关键词可视化,关联规则,网络数据,论坛数据,数据挖掘 中图法分类号TP391 文献标识码A
our
help
display data and
decisions clearly.By combining the correlation analysis and data visualization,we focused
on
forums with files
of data and complex structure.illustrated related definition of association rules and data visualization and its overall tar— get,and summarized related based which

2.1 2.1.1
Supportபைடு நூலகம்X=》Y)一P(XUy) Conf/dence(X='Y)=P(X
y)
(1) (2)
2.2网络论坛数据可视化的目标 相对于传统的可视化模型,基于关联分析的网络论坛数 据可视化需要实现以下目标。 (1)网络论坛数据可视化 由于论坛数据量很大,一次性显示全部信息可能导致界 面混乱与重叠,不能达到期望的可视化效果,而且需要计算的 数据量会比较大,可能导致系统执行时间较长。 (2)挖掘网络论坛数据中隐藏的有价值的信息和规律 由于网络论坛数据交互性高,产生的网络关系复杂,很难
set
can
from forums.Finally,we dis—
cussed the prime problems and challenges Keywords
e如stlng
in data visualization.
Visualization,Association rule,Network data,Forun]data,Data mining
形学、计算机图像处理、计算机信号处理等方法对数据、信息、 知识的内在结构进行表达L2]。可视化借助于入眼快速的视觉 感知和人脑的智能认知能力,可以起到清晰有效地传达、沟通
孙秋年(1988一),男,硕士生,主要研究方向为关联分析、数据可视化技术,E-mail:330244581sun@163.corn;饶元(1973一),男,副教授,博士 生导师,主要研究方向为社会网络条件下的服务计算、数据挖掘。 ・484・
Han
络数据规模逐渐增大,以致人们无法通过传统的技术和方法 来管理这些数据。论坛以其门槛较低、聚众能力强的特点成 为了网络数据主要的组成部分。这些海量的网络论坛数据给 论坛管理员和其他分析人员提出了巨大的挑战。 网络论坛数据结构复杂,数据量又大,人们理解起来非常 困难。“一图胜千言”这句谚语告诉我们:一张图像传达的信 息等同于相当多文字的堆积描述[1]。海量数据无法直接分 析,通过可视化,町以更容易、更快速地从中获得想要的知识。 可视化技术起源于20世纪80年代出现的科学计算可视化
Abstmct
With
the rapid development of world wide web and social relationship networks。forum administrator and confronted with great challenge from massive high-dimensional forum data.It is difficult for people
相关主题