当前位置:文档之家› 基于云计算的分布式数据挖掘平台架构.

基于云计算的分布式数据挖掘平台架构.

第26卷第5期 2011年lO月

北京信息科技大学学报

Journal of Beijing Information Science and Technology University

V01.26No.5 Oct.2011

文章编号:1674—6864(201105—0019—06

基于云计算的分布式数据挖掘平台架构

王小妮l’2,高学东2,倪晓明1

(1.北京信息科技大学理学院.北京100192;2.北京科技大学经济管理学院,北京100083

摘 要:针对互联网上数量众多的网站带宽资源长期浪费或突发资源短缺、响应时间 长、服务器宕机、网站受到黑客攻击等问题,提出了基于“云”的分布式web安全系统及基于云计算 的分布式数据挖掘平台架构,并在此基础上提出了一种新型的分布式数据挖掘模式,利用云计算 技术,可以方便地通过网络获取强大的计算能力和存储能力,将消耗大量资源的复杂计算通过网 络路由优化和资源约束自适应策略分布到多节点上进行,然后通过组合不同数据站点上的局部数 据模型,最终得到全局数据模型。

关键词:云计算;数据挖掘;分布式

中图分类号:TP 399文献标志码:A

Architecture of distributed data mining platform based on cloud computing WANG

Xiao—nil 2,GAO Xue—don92,NI Xiao-min91

(1.School of Applied Science,Beijing Information Science and Technology

University,Beijing 100192,China; 2.School of Economic and Management,University of Science and Technology

Beijing。Beijing 100083,China

Abstract:In order to solve the problems with many sites on the Internet including

long-term waste of bandwidth or unexpected shortage of resources,long response

times,server downtime and hacker’S attacks a cloud—based distributed web security

system and the architecture of distributed data mining platform based on cloud computing

are put forward.A new distributed data mining model is then proposed.By cloud

computing technology,computing power,and storage capacity can be obtained easily

through networkand,and complex calculation consuming large amount of resources is

distributed to multi-

node through the network routing

optimization

and self-adaptive strategy.Finally,through a combination of local data model on

different sites,the global data model is obtained.

Key words:cloud computing platform;data mining;distributed

O 引言

随着物联网和无线互联网的飞速发展,传统的 IT信息管理系统和计算资源就显得越来越捉襟见 肘,需要资源更加强大,灵活性、安全性更高,易于部 署而且价格便宜的IT支持,这正是云计算…。云计 算恰恰满足了这些需求,恰逢其时地出现了。云计 算通常的定义是:云计算是一种商业计算模型,它将 计算任务分布在大量计算机构成的资源池上,使各 种应用系统能够根据需要获取计算力、存储空间和 各种软件服务。从这个定义上讲,可把云计算看成 是存储云与计算云的有机结合。存储云对第三方用 户公开存储接口,用户通过这个接口可以把数据存 储到云。计算云通过并行计算和虚拟化技术给用户 提供计算力心J。云计算的出现,给各个行业带来了 巨大的发展机遇。而当大家正在讨论各个应用领域 如何向首先应用云计算的互联网行业学习云计算部 署的时候,互联网行业有可能再一次走到云计算应 用的前沿。

目前,用户访问的网站大多采用网站托管方式。 一个典型的网站用户购买一台服务器,托管在一家 IDC(Intemet Data Center,互联网数据中心,然后根 据用户的增长情况购买相应的带宽资源。网络托管 流程如图1所示。

收稿日期:2011-09—13

基金项目:北京市教委科技发展计划面上项目(KM201110772018

作者简介:王小妮(1977一。女,山东威海人,讲师。博士研究生,主要从事信息系统安全技术、嵌入式系统研究。 万方数据

北京信息科技大学学报 第26卷

用户访问

Jr

网址

DNS域名解析

Jr

IP地址

服务器

图1网络托管流程 一个典型的IDC可托管几千个上述的典型网 站。IDC为网站提供机房、带宽、管理维护众多的公 司,是为互联网提供部分或者全部服务的载体,它的 发展促成了互联网行业的整体性发展。国内的IDC 一般分为3类:一类是运营商级别的,如网通、电信, 以及最近的移动;一类是大型的商业IDC;还有一类 是数量众多的小型商业IDC。由于IDC的商业模式 是以出售机柜和带宽为主,所以,在这种情况下,每 个网站用户都会面l临如下许多问题:

1多数情况下,购买的带宽都处于空闲状态, 或者是不饱和状态,造成了资源的浪费;

2在资源浪费的同时,少数情况下还表现出资 源短缺,比如突发流量。互联网网络活动的不确定 性,使得这种突发流量的情况普遍出现;

3随着网站服务用户数量的增加,用户的体验 (响应时间明显下降;

4一些常规的不可靠、不可用的问题,如服务 器宕机、网站受到黑客攻击等。

文献[3]提到一种基于云计算架构的分布式数 据挖掘,该框架能有效解决物联网分布式数据挖掘 中所遇到的问题。但针对上述网站受到黑客攻击等 情况没有相应的解决方案。为了解决以上问题,应 用云计算平台的新一代互联网平台应运而生,并为 广大的网站用户带来革命性的变化。

1云计算平台架构

云计算首要的任务当然是为企业提供所需要的 rr基础设施,但是难能可贵的是,一些超前的IT厂 商适应了时代发展,推出了基于云计算平台的安全、 ERP等云服务,如图2所示。近年来,云计算已经成 为一个泛概念,它几乎包含了rI'产业的各个方面。 目前被公众普遍接受的云计算定义是:并行计算、分 布式计算和网格计算的发展及商业化实现。它是虚 拟化、效用计算、基础设施即服务(IaaS、平台即服 务(PaaS、软件即服务(SaaS等概念经过各支持厂 商和机构混合演进并跃升的结果。

图2电子商务技术支撑原理图 云计算的特点是:超大规模、虚拟化、高可靠性、 通用性、高可扩展性、按需服务以及极其廉价。 Google云计算已经拥有100多万台服务器;云计算 支持用户在任意位置、使用各种终端获取应用服务; “云”使用了数据多副本容错、计算节点同构可互换 等措施来保障服务的高可靠性,使用云计算比使用 本地计算机更可靠;云计算不针对特定的应用,在 “云”的支撑下可以构造出千变万化的应用,同一个 “云”可以同时支撑不同的应用运行;“云”的规模可 以动态伸缩,满足应用和用户规模增长的需要; “云”是一个庞大的资源池,所有用户按需购买; “云”可以像自来水、电、煤气那样计费;由于“云”的 特殊容错措施可以采用极其廉价的节点来构成。 “云”的自动化集中式管理使大量企业无需负担日 益高昂的数据中心管理成本,“云”的通用性使资源 的利用率较之传统系统大幅提升,因此用户可以充 分享受“云”的低成本优势,只要花费几百美元、在 几天时间内就能完成以前需要数万美元、数月时间

万方数据

第5期 td,妮等:基于云计算的分布式数据挖掘平台架构 2l

才能完成的任务。图3所示为一个“云”的分布式

web安全系统,它由很多子系统和相关开源软件组

合而成。

图3云计算平台架构

2分布式数据挖掘平台架构

一种新型的云计算互联网平台能够从云计算的 2个参与主体(一个是云,一个是端来彻底改变原 来的架构,为互联网网站和网站访问者带来更多的 价值,如图4所示。

2.1内容分发网络实现云计算的技术流派 内容分发网络(content delivery network,CDN 尽可能避开互联网上有可能影响数据传输速度和稳 定性的瓶颈和环节,把核心内容“分发”到互联网的 核心节点,使内容传输更快、更稳定。从商业模式上 讲,CDN可以简单理解为带宽和机柜等资源的批发 转零售过程。换句话说,大型用户为了分散性能压 力瓶颈而在互联网多数节点添置新资源的动作外包 给了CDN厂商,后者从各地IDC以优惠价格批发了 资源,然后以零售价格出售给前者,从而发挥了规模 效益。事实上也发挥了减少性能瓶颈,提高分发内 容安全和稳定性的功效。

图4基于云计算的分布式数据挖掘平台架构

2.2DINS网关级的超级代理

新型云计算互联网平台通过DNS的智能切换 来实现对众多网站进行的代理。通过这样一个超级 代理,可以从目前普遍采用的cs(client—server结构 的两端分别采取智能手段,达到更快速、更智能、更 优化的新一代基于云计算的互联网应用平台。DNS 服务器集群采用云计算的方式构建。

2.3网站访问日志分析

各网站都会对访问进行日志记录,一条标准的 日志如下:

“119.191.183.}一一l 02/Sep/2011:09:32:

3l+0800]”GET/bbs/DV_getcode.aspHTYP/1.1”

4041308”/bbs/reg.asp? action=apply””MoziUa/4.0f

compatible;MSIE 6.0;Windows NT 5.1;SVI””一””一” 121.101.214.10180”

对应的格式内容为:“源地址一访问时间一访 问方式一访问网址一返回类型一浏览器类型一操作 系统一目的地址”。

把所有网站和用户的访问日志加人数据仓库, 对其进行数据挖掘,根据结果来决定网站的新部署 或者内容分发的方式;从用户端,根据详细的用户行 为,定制特定的查询和反馈模式,从而达到更加优化 的效果。

相关主题