当前位置:文档之家› 云计算监控运维平台建设方案

云计算监控运维平台建设方案


应用
服务器 数据库 Web服务/SQA 应用服务器
Windows, linux, unix, IBM, Solaris MySql, SqlServer, Oracle Apache, IIS, 网站监测(URL) Tomcat等
可视化的云监控平台
可视化、整合的性能监控展示界面
云环境中,服务器、应用、业务、网络更为集中,企业IT环境复杂多样 只有通过综合的、可视化的展示界面,才能实时掌控云环境整体架构 的综合状况和云下业务及其功能要素的实时性能
监视服务器各性能 指标和阈值、程序 组的性能指标
服务器管理
历史性能、实时性能
性能管理 、性能分析、性能阈
值、性能公式设置
安全管理
云平台的虚拟化安全技 术,提供无插件、无代 理的云安全服务
模块划分
运维管理
为管理人员提供管理入 口,进行设备资源管理 和、IP资源管理
环境管理、模板管理、轮 询设置、Trap设置、采样 周期设置、数据维护
海量数据的处理支持
云计算的底层需要面对各类众多的基础软硬件资源;上层需要 能够同时支持各类众多的异构业务;而具体到某一业务,往往也 需要面对大量的用户。由此,云计算必然需要面对海量信息交互 ,需要有高效、稳定的海量数据通信/存储系统作支撑,并需要 实现对云环境下海量数据的监控。
虚拟化资源的管理
云计算监控运维平台建设方案
什么是云计算 Wikipedia的定义,云计算(Cloud Computing) 是一种动态的、易扩展的、且通常是通过互联网提供虚拟化的资源计算 方式。其主要特点是能够快速部署资源或获得服务,能够按需扩展和使 用,能够按使用量付费,并且通过互联网提供服务。
• 云计算的提供者:以租代售
云计算简易架构图
云计算的关键技术
数据安全 技术
并行计算
分布式计算
云计算 关键技术
虚拟化技术
数据管理 技术
数据存储 技术
上节标题中可详细说明
云计算在信息产业中的层次
云计算使用现状
云计算使用目的对比分析
多数中国企业使用云计 算的目的是: 希望云计算为企业节省 成本,增加灵活性, 并非创新或市场增长
平衡采集流量负载均衡
云环境下的集群可能有万台服务器,需要对大量服务器进行界面展示,因而需
要采集大量服务器的数据
神州泰岳通过建立平衡采集流量的调度方法,保证监控采集服务器的负荷均衡

Tomcat
Tomcat
···
Tomcat
Proxy
Proxy
Proxy
监测采集负载均衡处理系统
配置数据 库
系统1
减少人员
ERP
CR
数据仓
M

资源自动供应
启动
自动化的步骤
数据库 邮件和消息通信
整合的资源信息
文件, 打印, 基础设 施
管理
(一个完整的应用基础 设施启动和运行)
(工作流自动启动)
企业级的云计算监控运维解决方案
云计算集群服务器监控
监视各种中间件、数据库、web应用
应用管理
业务管理
以业务视图的形式展示了业务的构成( 网络链路、服务器、程序组、端口和监 视器),及时了解服务的状态和告警
管理客户端
监测管理服务器
监测管理服务器
服务器集群
服务器集群
服务器集群
服务器集群
管理客 户端1
单套系统1000 台服务器管理 能力,数据轮 询间隔5分钟。
管理客 户端2
管理客户 端100
WEB服务器
管理客户 端500
负载均衡处理系统
支持多达500 个客户端同时
在线。
配置数据 库
系统1
DB
数数数 据据据 采采采 集集集
神州泰岳云计算监控运维思路
网络监控
系统管理
基于捆绑式的网络监管架构 可扩展的监控系统 可视化的网络监控管理
云监控调度方案 虚拟化资源管理 云平台安全管理
运维服务
基于云端的运维服务 业务视角的运维管理 基于智慧库的自动化运维 自动化的流程服务
基于捆绑式的监控架构
采用分布式架构,各个管理服务器分别监控各个服务器集群 下的子服务器; 通过将多套系统进行捆绑,结合负载均衡处理器,连接各个 系统,实现万台级别的管理能力; 管理客户端具有单一登录,统一显示界面,节点管理权限设 置的功能,部署方式灵活,可根据数据中心的规模灵活扩展。
业务视角的运维管理
通过从业务视角统一管理服务器、应用、网络状态,对业务及其下软硬件 资源进行高效的运维管理
在故障发生时,通过颜色、声音邮件等方式进行报警通知;同时按照业务 逻辑进行多层次管理,准确解决业务中出现的问题
基于智慧库的自动化运维 云计算能力与规模越来越大,人工管理资源越来越不实际。这些新特 性对IT管理自动化能力提出了更高要求 部署基于智慧库的自动化运维管理模块,自动化管理云平台 智慧库从历史操作中积累运维知识,当发生事件或监控数据触发规则 时,基于智慧库中存储的历史方案,由决策引擎提供自动化解决方案, 节约人力,同时提高响应速度
被监控对象
系统2
DB
数数数 据据据 采采采 集集集
被监控对象
系统N
DB
数数数 据据据 采采采 集集集
被监控对象
多平台、可扩展的监控系统
神州泰岳通过预置、整合各类服务器和应用的监控功能模板,可以有效兼容不 同种类硬件和软件的基础资源
既可以兼容旧有设备和原有软件系统,又便于随时扩展监控新设备和新软件系 统,使云监控系统具有更高的兼容性和更好的可扩展性
实现效果
实现可用性,健康 度量化指标,建立 可量化的IT系统评 估指标,提高服务 质量。
自动化监控大量服 务器,降低劳动强 度,节省人力。
提供容量规划参考 ,有效提高服务器 利用率,节约购置 成本。
安全管理模块
无插件、无代理的虚拟化云安全服务
WebUI
实时防护 安全查杀 批量查杀 修复漏洞 定制安全策略 历史记录
监测各个物理服务器的硬件指标,了解物理服务器的负载状况 监测对集群的响应延时,据此调节集群下的资源与服务 泰岳的调度方案
虚拟机动态迁移调节负载均衡 对集群监控访问实现负载均衡 平衡采集流量保证负载均衡
虚拟机动态迁移负载均衡
泰岳系统通过监测各个物理服务器的硬件指标来了解物理服务器的负载状况, 当负载过低或者过高时,对云计算集群服务器中的虚拟机进行动态迁移,使各个 服务器的负载保持均衡
网络环境三大主要资源:
计算(服务器) 存储 (存储设备) 网络(交换机、路由器等设备)
云环境下不仅包含物理设备, 还包含虚拟化技术形成的逻辑虚 拟设备
传统的网络管理软件大多只考 虑对物理设备的管理
只有实现对虚拟设备的管理, 才真正实现云集群服务器的网络 运维管理
对安全的更高要求
不安全的接口和API 针对云端的恶意攻击 共享产生的数据安全 问题 数据泄漏 未知的风险场景 对云平台提出更高的 安全要求
镜像处理
策略 模块
升级 模块
日志 模块
配置管理
事件管理
事件通知、集中展示、查 询统计、事件设置及关联 事件设置、行为及级别管 理等
项目目标
用户群
专门针对数据中心的 系统监控和分析系统
实现云计算环境下大 量服务器监控
中间件、数据库以及 业务系统监控
虚拟机的监控和管理
数据分析和容量预测
提供云服务器 的IT企业
IDC企业
企业集团和政府 的大型数据中 心
减少初期投资,降低管理开销
云计算是分布式计算( Distributed Computing)、 并行计算(Parallel Computing)和网格计算 (Grid Computing)的发展 ,是这些科学概念的商业 实现
云计算也是一种新的基 础架构管理方法,是一种 有效资源的合理共享,它 能够把大量的、高度虚拟 化的资源管理起来,组成 一个庞大的资源池,统一 提供服务
元数据存取模块
利用元数据搜索和定位存储资源
客户端先通过与元数据集群交互,获取文件的元数据信息 获取元数据信息后,客户端直接和存储集群进行交互,以并行 I/O的方式 访问文件数据
控制路径与数据路径相分离 ,避免服务器成为数据传输路径上的瓶颈
元数据操作
客户端
文件操作
元数据服务器
存储集群
元数据I/O
ห้องสมุดไป่ตู้
云计算环境下监控运维的挑战
云计算环境下网络与系统的监控、运维,存在以下新特 点与新挑战:
多种异构平台组成
需要处理海量数据
虚拟化资源的管理
对安全的更高要求
多种异构平台组成
云计算可以构建在不同的基础平台之上 横向维度:可采购不同厂商的软硬件,有效兼容不同种类硬件 和软件基础资源 纵向维度:既可兼容当下采购的新设备和新软件系统,也可兼 容旧有设备和原有软件系统——在有效利用老资源的同时,保证 新老资源平滑过渡
云计算IT运维服务把数据乃至应用程序全部集中到云端,大量本地的运维工 作转移到云服务器端
基于云计算的IT运维管理服务模式以各种监控、告警、日志、报告服务工具 为依托,结合部署在云端的运维服务,可实现全网的统一运维管理
不仅打破传统的本地式运维的地域限制,还能及早发现故障隐患,从而可以 建立起主动式IT运维,同时运维总体工作量大大减少,运维成本大幅降低
集中式数据处理能力的不足 ,资源 利用率不平衡(单机能力)
ICT产业由卖产品变为卖服务,从自 给自足小作坊到规模化运营
使用云计算,企业无 需增加硬件基础设施 投资,训练员工成为 专业人员或购买新软 件,就能实现增加资 源容量或提升计算性 能等IT方面的需求
• 云计算的使用者:按需使用
相关主题