数据中心基础设施管理系统资源管理与展现方案(DCIM)目录1.项目概述及需求理解 (4)1.1.项目背景简介 (4)1.2.项目管理范围 (4)1.3.项目建设原则 (5)1.4.项目建设目标 (6)1.5.解决方案概述 (7)2.系统架构及实现原理 (11)3.1.系统架构 (11)3.1.1.采集层 (12)3.1.2.处理层 (12)3.1.3.管理层 (13)3.1.4.交互展现层 (13)4.DCIM系统功能实现 (14)5.1.基础设施管理 (14)5.1.1.资产管理 (14)5.1.2.容量管理 (19)5.1.3.能耗管理 (20)5.2.集中展现 (24)5.2.1.展现系统集中化 (24)5.2.2.展现方式多样化 (30)5.2.3.集中监控展示 (33)6.系统部署方案及软硬件配置要求 (39)6.1.分布式部署方案 (39)6.2.服务器硬件 (41)6.3.服务器软件 (43)1.项目概述及需求理解1.1.项目背景简介伴随着数据中心规模的不断扩大,业务量的逐渐增大,对数据中心的运维管理也变的越来越重要。
一旦基础设施系统出现问题,而没有及时地得到妥善解决,常常会给企、事业造成很大的损失。
怎样能7x24小时保证设备系统的正常运行,避免各种故障的发生,优化和改进传统的运维模式,提高客户服务的及时性和满意度就显得非常重要。
因此,建设一套数据中心基础设施管理系统势在必行。
一个完备的运维管理系统能够提供7x24小时检测基础设施运行状态、各种资源状态的信息。
运维管理人员依靠流程管理系统可以及时排除故障避免造成重大损失,控制运维质量提高服务水平。
1.2.项目管理范围项目内容:➢设施故障发现与警报;➢记录日常运维日志信息;➢设施故障统计;➢设施软硬件信息统计;➢服务进程管理;➢将数据信息存储备份,并采用不同方式直观的展示出来;➢服务人员绩效、考核管理;➢将数据生成报表;1.3.项目建设原则数据中心基础设施管理系统建设指导思想是:“统一规划、分步实施、已有纳入、新建遵循”。
数据中心基础设施管理系统项目建设是要建设一个集中管控资源的运维平台,所以需充分考虑对已有各种产品组件做针对性的开发、整合工作。
在项目建设过程中,除满足系统功能需求外,遵循如下原则:●安全性原则:系统设计注重安全方面的设计,确保系统的安全运行。
系统提供安全认证技术,确保登录身份认证安全性、有效性。
●稳定性原则:保证系统不间断运行,系统执行监控及操作任务时或出现自身故障,绝不能影响被监控及操作对象的正常稳定运行。
●开放性原则:系统遵循行业主要的标准化组织所提供的标准或建议,采用标准的、开放性的技术,能够实现与其他厂商的产品无缝地连接;采用国际标准化组织及工业界广泛接受的有关标准和基于标准的通用软硬件平台。
●可扩展性原则:在保持系统的基本体系结构长期稳定的前提下,可以有效地容纳和支持基础设施规模的不断扩大和复杂、业务种类的增多。
同时,能够在应用体系结构和软件模块划分两个方面支持整个应用的良好扩展性。
在体系结构方面采用多层结构划分,实现各层的高聚合和层间低耦合。
尽量使用模块化和插件化,使得扩展时对原系统的影响最小化。
●用户体验优化原则:具有较高的易用性,界面友好,美观统一,并对人机交互进行优化设计。
●灵活性原则:系统各子系统及子系统内功能模块具有一定的独立性,同时具有系统相关性和整体一致性。
系统提供自动化升级维护功能,系统的维护及拓展灵活、方便。
●规范性原则:统一接口标准,规范数据字典。
定义监控接入标准,规范未来新建系统的监控。
1.4.项目建设目标加强数据中心的维护平台建设,提高数据中心的运行管理水平,通过运维体系的建设,结合构建集中式的服务热线、运维流程、系统监控和综合展示系统,通过系统联动,及时、准确、全面反映与掌握数据中心的运行状态,保障各业务系统的正常运行,并达成如下目标:(1) 强化主动监控,实现集中管理。
以设施资源可用性监控为主线,构建数据中心统一集成的设施资源及应用服务监控平台,能够主动、及时地发现问题,并调度资源解决问题,形成数据中心运维管理主动服务的新局面。
(2) 帮助定位故障,快速恢复系统运行。
建立集中的告警分析及展现平台,提供灵活、自动化的事件处理能力。
当故障产生时,可以进行故障的快速定位,发现故障原因,调度资源快速恢复系统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性。
(3) 掌握运行质量与效率,合理利用资源。
建立数据中心基础设施管理系统平台后,可以实时了解数据中心全部资源的负载与使用情况,根据需要从整体角度考虑资源的使用,同时可以根据业务高峰期的不同来调剂业务系统对资源的使用。
(4) 规范运行管理,有序开展维护。
参照数据中心运维规范,对运维管理工作进行优化,对服务管理进行改善,将管理数据电子化,管理过程规范化。
根据相关制度进行运行维护管理,对内完善流程,对外提高服务,加强管理,使流程更规范更合理,使技术人员具备更高的工作效率,提高业务技术能力和解决实际问题的能力。
(5) 共享运维经验,完善知识库。
把运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立知识的共享机制,提供信息共享和交流的平台,提高数据中心运维人员的工作效率。
1.5.解决方案概述DCIM系统是在在分析了国内数据中心管理现状和需求后,自主研发而成。
秉承以客户为中心、流程为导向的理念,实现对基础设施资源的全面管理,完美整合了人员、技术和流程三大要素,帮助用户以较低的成本提供稳定、优质的服务,共同实现基础设施服务的目标。
DCIM系统提供了“无缝式基础设施监控系统”功能,其系统架构清晰,采用模块化的设计理念,各功能模块既可独立运行、松散耦合;亦可整体功能无缝衔接覆盖整个业务系统,灵活的自由组合真正实现个性化的基础设施无忧运维。
DCIM系统提供一个图形化、可定制、统一的监控管理平台。
通过它实现对基础架构性能和告警数据的直接监控与展示,实现对用户环境的整体运行状态的监控管理。
1.故障预警和管理前瞻性地发现系统的故障和性能问题,能够快速识别、隔离、诊断和修复生产中出现的问题。
1)前瞻性发现基础设施和应用系统的故障。
2)前瞻性检测复杂的应用性能问题。
3)基于业务的性能影响分析报告4)快速识别、隔离和诊断问题的起因,事故根本原因分析。
5)对一些简单的故障问题,提供自动化修复故障的功能;对复杂的故障和性能问题,尽可能提供修复故障和改善性能的建议。
6)提供的丰富的事件通知功能,事件通知方式包括:-Mail 自动向指定邮箱发送告警邮件。
-短信自动向指定手机发送告警短信。
-声音自动产生声音告警。
-图像自动以图标形式显示告警事件。
-其它通过二次开发可实现特殊要求的告警方式。
7)提供监控参数化配置管理,参数超过设定阀值,产生报警信息。
2.多层次的视图展示直观、准确地体现各层面的系统和业务运行状态,分别展示不同管理层次和范围的系统运行状态。
根据企业的业务特点和管理习惯,可将展示视图分成一级视图、二级视图和三级视图,分别展示不同管理层次和范围的系统运行状态(如下图所示)。
3.集中统一的管理界面用户在统一监控管理平台上可查看所有视图,提供直观的图形用户界面。
1)基于上下文环境和组合视图,降低用户诊断问题的时间。
2)基于角色和权限的控制,增强管理的安全性。
3)提供可定制化的工作区和视图,提高操作的灵活性。
4.开放的接口能够集成第三方监控工具,实现将第三方监控(例如BA、安防、柴发、电力或特定应用管理工具等)完全变为监控系统的一部分。
5.丰富的报表展示功能提供统一的报表界面,具备强大的数据展现能力:1)提供网络、系统、数据库、网络、中间件、应用和业务运转状况的集中统一报表2)提供实时与历史性能报表3)提供数据分析、展现和用户报表定制功能4)预制报表模板5)自动周期性报表,如日报、周报、月报、季报、年报等6)支持PDF、HTML、Excel等报表格式2.系统架构及实现原理3.1.系统架构本次提供的数据中心基础设施管理系统涵盖较多被监控的对象,覆盖面较广,功能复杂,系统设计遵循模块式开发、部署,系统从底层到最上层的图形用户接口共分为四层,每一层实现不同的功能,系统整体的架构如下图所示:整个系统管理架构分为采集层、处理层、管理层、交互展示层四个层次。
3.1.1.采集层包括数据中心环境中的机房环境、暖通设备、电力设备、安防设备等被管理实体,是需要被实时监控的对象,是原始信息的来源。
所有的被管理对象通过标准协议或私有协议方式向管理端提供各种性能和事件数据。
3.1.2.处理层包含两个功能,一是对管理实体中的数据进行数据采集;二是根据要求对数据进行必要的整合。
除了采集到的数据外,还可能包括各种管理数据,系统汇总后的数据、文档数据等。
系统管理的数据采集方式支持以下几种:➢采用定时轮循机制获取被监测设施的数据;➢监听代理端的TRAP消息实时获取数据;➢通过设备厂家提供的监控工具获取数据;➢通过读取日志文件获取数据;➢通过其他厂商监控平台获取数据。
3.1.3.管理层数据中心基础设施管理系统所使用的各种业务逻辑,集中管理和协调各子系统之间的服务调用,是系统管理的核心管理平台,主要有如下功能要点:1. 性能管理,对基础设施实时监控,采集各种指标数据,并与告警模块关联,在产生异常时及时发出警告2. 告警管理,提供告警主动通知、告警统计、告警相关性分析等功能3. 统一事件处理,集中收集基础设施事件与告警,并提供告警相关性分析,辅助管理员排除故障4. 基于运维服务管理则实现运维管理功能,包括服务台、事件管理、问题管理、变更管理、配置管理、发布管理、知识库管理、SLA管理等模块。
3.1.4.交互展现层展现层是DCIM系统与运维人员之间的人机交互接口,本次系统采用全WEB化的客户端界面,运维人员只需使用浏览器即可在网络中任意一台电脑上随时接入系统,系统支持portal功能,可以根据用户的需要呈现不同的功能和数据。
此外,系统支持email、短信、声光等多种方式的事件通知形式。
通过北向接口及标准协议,系统可将监控、采集数据推送至第三方管理平台及3D 展示平台。
4.DCIM系统功能实现5.1.基础设施管理5.1.1.资产管理3.2.1.1资产台账管理IT设备基本信息管理:单台设备的基本信息包括设备名称、固定资产号、供应商、供应商电话、保修到期时间、技术状况、设备位置、资产类型、IP地址,购买日期,设备所使用的操作系统,供应商信息等,要便于管理员编辑查询;能够对物理资产信息按照需求字段进行导出或导入。
3.2.1.2设备出入管理管理员可以根据设备出入机房门的动作,在系统中录入相应信息,可以在数据模型基础上完成规划合理性的检验,从而达到资产配置的最优化。