云计算监控运维
云计算环境下监控运维的挑战
云计算环境下网络与系统的监控、运维,存在以下新特 点与新挑战:
多种异构平台组成 需要处理海量数据 虚拟化资源的管理 对安全的更高要求
多种异构平台组成
云计算可以构建在不同的基础平台之上 横向维度:可采购不同厂商的软硬件,有效兼容不同种类硬件 和软件基础资源 纵向维度:既可兼容当下采购的新设备和新软件系统,也可兼 容旧有设备和原有软件系统——在有效利用老资源的同时,保证 新老资源平滑过渡
配置数据 库
系统1 DB
数 据 采 集 数 据 采 集 数 据 采 集 数 据 采 集
系统2 DB
数 据 采 集 数 据 采 集 数 据 采 集
系统N DB
数 据 采 集 数 据 采 集
被监控对象
被监控对象
被监控对象
完整的虚拟化资源管理
虚拟化 网络管理平台
虚拟化 计算管理平台
虚拟化 资源管理
基于元数据存储的 虚拟存储管理平台
管理客户端
监测管理服务器
监测管理服务器
服务器集群
服务器集群
服务器集群
服务器集群
管理客 户端1
管理客 户端2
管理客户 端100
管理客户 端500
支持多达500 个客户端同时 在线。
WEB服务器
单套系统1000 台服务器管理 能力,数据轮 询间隔5分钟。
负载均衡处理系统
配置数据 库
系统1 DB
数 据 采 集 数 据 采 集 数 据 采 集 数 据 采 集
业务视角的运维管理
通过从业务视角统一管理服务器、应用、网络状态,对业务及其下软硬件 资源进行高效的运维管理 在故障发生时,通过颜色、声音邮件等方式进行报警通知;同时按照业务 逻辑进行多层次管理,准确解决业务中出现的问题
基于智慧库的自动化运维
云计算能力与规模越来越大,人工管理资源越来越不实际。这些新特 性对IT管理自动化能力提出了更高要求 部署基于智慧库的自动化运维管理模块,自动化管理云平台 智慧库从历史操作中积累运维知识,当发生事件或监控数据触发规则 时,基于智慧库中存储的历史方案,由决策引擎提供自动化解决方案, 节约人力,同时提高响应速度
实时升级的杀毒软件病毒库
面向虚拟机的离线安全监测技术
传统方式
为每个虚拟机安装杀毒 软件,根据需要单独对 各个虚拟机进行病毒查 杀,分散、耗时、效率 低下 只能对单一虚拟机进行 查杀,无法统一管理
创新方式
虚拟机病毒查杀采用最 近最久未使用算法,提 高查杀效率 批量查杀管理:查找关 闭状态、自上次杀毒后 启动过的虚拟机,全部 记录后依次杀毒
监视服务器各性能 指标和阈值、程序 组的性能指标
业务管理
以业务视图的形式展示了业务的构成 (网络链路、服务器、程序组、端口和 监视器),及时了解服务的状态和告警来自服务器管理性能管理
历史性能、实时性能、 性能分析、性能阈值、 性能公式设置
安全管理
云平台的虚拟化安全技 术,提供无插件、无代 理的云安全服务
网络环境三大主要资源:
计算(服务器) 存储 (存储设备) 网络(交换机、路由器等设备)
云环境下不仅包含物理设备, 还包含虚拟化技术形成的逻辑虚 拟设备
传统的网络管理软件大多只考 虑对物理设备的管理
只有实现对虚拟设备的管理, 才真正实现云集群服务器的网络 运维管理
对安全的更高要求
不安全的接口和API 针对云端的恶意攻击 共享产生的数据安全 问题 数据泄漏 未知的风险场景 对云平台提出更高的 安全要求
模块划分
运维管理
为管理人员提供管理入 口,进行设备资源管理 和、IP资源管理
配置管理
环境管理、模板管理、轮 询设置、Trap设置、采样 周期设置、数据维护
事件管理
事件通知、集中展示、查 询统计、事件设置及关联 事件设置、行为及级别管 理等
项目目标
用户群
实现效果
专门针对数据中心的 系统监控和分析系统 实现云计算环境下大 量服务器监控 中间件、数据库以及 业务系统监控 虚拟机的监控和管理 数据分析和容量预测
云计算简易架构图
云计算的关键技术
分布式计算
并行计算
数据安全 技术
云计算 关键技术
数据存储 技术
虚拟化技术
数据管理 技术
上节标题中可详细说明
云计算在信息产业中的层次
云计算使用现状
云计算使用目的对比分析
多数中国企业使用云计 算的目的是: 希望云计算为企业节省 成本,增加灵活性, 并非创新或市场增长
虚拟机动态迁移调节负载均衡
对集群监控访问实现负载均衡 平衡采集流量保证负载均衡
虚拟机动态迁移负载均衡
泰岳系统通过监测各个物理服务器的硬件指标来了解物理服务器的负载状况, 当负载过低或者过高时,对云计算集群服务器中的虚拟机进行动态迁移,使各个 服务器的负载保持均衡
平衡采集流量负载均衡
云环境下的集群可能有万台服务器,需要对大量服务器进行界面展示,因而需 要采集大量服务器的数据 神州泰岳通过建立平衡采集流量的调度方法,保证监控采集服务器的负荷均衡。 Tomcat · · · Tomcat Tomcat Proxy Proxy Proxy 监测采集负载均衡处理系统
网络IP管理
按需为虚拟机分配公网 IP 地址 虚拟机关闭公网IP地址回收,提高利 用率
基于元数据的虚拟存储管理
元数据是提供关于信息资源或数据的一种结构化的数据,是 对信息资源的结构化的描述。通过将虚拟化整合的云计算存储 资源以元数据的形式进行管理,将能非常方便地对整合的资源 进行定位和存取。
用户方便使用,不需要专业知识, 设备无需专业人员维护 减少初期投资,降低管理开销
云计算是分布式计算 (Distributed Computing)、 并行计算(Parallel Computing)和网格计算 (Grid Computing)的发展, 是这些科学概念的商业实 现 云计算也是一种新的基 础架构管理方法,是一种 有效资源的合理共享,它 能够把大量的、高度虚拟 化的资源管理起来,组成 一个庞大的资源池,统一 提供服务
提供云服务器 的IT企业
实现可用性,健康 度量化指标,建立 可量化的IT系统评 估指标,提高服务 质量。 自动化监控大量服 务器,降低劳动强 度,节省人力。 提供容量规划参考, 有效提高服务器利 用率,节约购置成 本。
IDC企业
企业集团和政府 的大型数据中 心
安全管理模块
无插件、无代理的虚拟化云安全服务
根据新的事件
进行知识积累
策略管理
从智慧库
决策引擎
检索解决方案
智慧库 (XML)
选择自动/手动处理
服务器 管理对象
应用 管理对象
业务 管理对象
强大的自动化管理流程
业务部门选择应用
访问自助服务 门户
挑选应用基础 设施模板
工具确定资源
(验证资源分配)
(选择合适的规模 合适的应用)
(可用的资源和何时使用)
减少人员 自动化的步骤 整合的资源信息
资源自动供应
ERP CR M 数据仓 库
启动
数据库 邮件和消息通信 文件, 打印, 基础设 施
管理
(工作流自动启动) (一个完整的应用基础 设施启动和运行)
企业级的云计算监控运维解决方案
云计算集群服务器监控
监视各种中间件、数据库、web应用
应用管理
分层次的云网络拓扑展示方式
云下的服务器集群众多,集群下的服务器又多达成千上万个,泰岳系统将传统 网络拓扑图分为根图与子图,便于查看与管理
强大的云监控调度功能
云计算环境下对于集群服务器的监控和负载调度的评判分为 两种类型:
监测各个物理服务器的硬件指标,了解物理服务器的负载状况 监测对集群的响应延时,据此调节集群下的资源与服务 泰岳的调度方案
可视化的云监控平台
可视化、整合的性能监控展示界面
云环境中,服务器、应用、业务、网络更为集中,企业IT环境复杂多样 只有通过综合的、可视化的展示界面,才能实时掌控云环境整体架构 的综合状况和云下业务及其功能要素的实时性能
直观、可自定义的性能评估指标
需要监视的服务器和应用的性能指标,可以根据不同主机/应用,以及不同的环 境需要,进行自定义配置
神州泰岳云计算环境下 的系统监控、管理和运维
Wikipedia的定义,云计算(Cloud Computing) 是一种动态的、易扩展的、且通常是通过互联网提供虚拟化的资源计算 方式。其主要特点是能够快速部署资源或获得服务,能够按需扩展和使 用,能够按使用量付费,并且通过互联网提供服务。
什么是云计算
虚拟化计算管理平台
虚拟化网络管理平台
VLAN 管理
不同用户虚拟机之间的网络安全隔 离 不同物理服务器上的用户虚拟机安 全连接、通信
网络流量控制和监控
获得整个云平台网络资源利用率 根据各种监控数据提前做出预判 充分保证云平台网络可靠性
虚拟防火墙管理
实现自定义虚拟防火墙,提升管理便利 性
使用云计算,企业无 需增加硬件基础设施 投资,训练员工成为 专业人员或购买新软 件,就能实现增加资 源容量或提升计算性 能等IT方面的需求
•
云计算的提供者:以租代售
•
云计算的使用者:按需使用
集中式数据处理能力的不足 ,资源 利用率不平衡(单机能力) ICT产业由卖产品变为卖服务,从自 给自足小作坊到规模化运营
系统2 DB
数 据 采 集 数 据 采 集 数 据 采 集
系统N DB
数 据 采 集 数 据 采 集
被监控对象
被监控对象
被监控对象
多平台、可扩展的监控系统
神州泰岳通过预置、整合各类服务器和应用的监控功能模板,可以有效兼容不 同种类硬件和软件的基础资源 既可以兼容旧有设备和原有软件系统,又便于随时扩展监控新设备和新软件系 统,使云监控系统具有更高的兼容性和更好的可扩展性 服务器 数据库 应用 Web服务/SQA 应用服务器 Windows, linux, unix, IBM, Solaris MySql, SqlServer, Oracle Apache, IIS, 网站监测(URL) Tomcat等