当前位置:文档之家› 数据中心机房综合监控系统解决方案_路宗雷

数据中心机房综合监控系统解决方案_路宗雷


障原因。 (2)发电机设备监控的实施方法 : 大型 机房的 24 小时不间断供电系统中,可配备 UPS 提供恒压恒频的不间断电源,保护服务 器和计算机在瞬间断电时的正常工作和数据 备份 ; 为了提高供电等级,做到供电系统的 万无一失,可配备自动化程度高的柴油发电 机组,保证交流同步发电机适应 UPS 这一非 线性负载的特性,使其在无市电的情况下保 证 UPS 对负载可靠供电。 (3)配电设备监控的实施方法 : 可为配 电设备加装传感器,通过智能采集模块监视 电源的供电品质,包括电源进线的电压、电 流、 频率、 电度等, 并把相应数据存入数据库, 显示重要参数的曲线。当电压、频率超越限 值时,监控系统可自动进行报警,并将其作 为故障事件存入数据库。 (4)空调设备监控的实施方法 : 可通过 智能协议转换器以软件的方式对空调实施监 控,可显示空调的重要参数(温度、湿度) , 显示其历史曲线,并将其存入数据库。空调 各部分工作状态通过动画显示。用户可对空 调进行远程开关操作和参数设置,一旦空调 出现故障,用户可得到相关处理信息,以便 及时采取措施解决故障。 (5)温度、湿度监测的实施方法 : 机房 的主要设备工作间均需安装温度和湿度传感 探头,对温度、湿度进行实时检测,在监视 屏上显示各测点温度、湿度值。当检测值超 过各工作区规定的温、湿度上、下限值时, 在监视屏的相应数据旁用醒目标志符的闪动 来提示该值的超限报警。为在总体上监视整 个机房的温度、湿度状况,可在新风机的进 风口和主空调机的回风口,分别检测温度和 湿度。 (6)电缆温度监测的实施方法 : 遥测并 实时显示所设定主进线电缆的温度。 (7)新风系统监控的实施方法 : 可实时
化 的 特 点, 支 持 随 时 随 地 通 过 网 络 查 看 机 房内的情况。 传统的机房环境监控把重点放在了对机 房整体环境、空调及配电柜的监控上,忽视 了对设备内部的监控。另外,传统的机房环 境监控系统也缺少丰富的阈值、预警方式和 预警流程设置,不能在真正意义上实现预警 功能。完善的数据中心机房综合监控系统应 具有以下功能 : (1)设备内部监控 机房监控的目的在于保护机房内 IT 系统 的正常、有效运行,在事故发生之前侦测出 潜在危机,并通过各种方式将警情信息发送 给相关人员及时处理。因此,机房监控的核 心应该是对 IT 系统运行状态的监控,而最直 接有效的监控应该是对 IT 设备运行状态进行 监控。 (2)多层次的机房监控 完善的机房监控系统应该能够实现从设 备运行情况到机柜微环境,再到机房整体环 境的多层次监控,并能重点实现对设备内部 的监控。 (3)机房监控的预警功能 预警是在事前,即故障或危害发生之前 向管理人员报告潜在危机,提示相关人员进 行处理,可以防止事故的发生。有效的预警 可以增加系统平均无故障工作时间,并可以 根据危机情况自动延伸到报警,即当危机出 现,可立刻将信息发送给相关人员直至危机 得到有效处理,实现真正意义上的预警功能, 最大程度地保护系统的运行。
3 结束语
综上所述,完善的数据中心机房综合监 控 系 统 应 该 具 备 三 大 特 点 :能 够 实 现 从 设 备 运 行 情 况 到 机 柜 微 环 境, 再 到 机 房 整 体 环 境 的 多 层 次 监 控 ;有 丰 富 的 阈 值 设 置 以 便 监 测 出 危 机 的 存 在, 且 有 丰 富 的 预 警 方 式和预警流程以保证相关人员能够收到警 讯, 达 到 预 警 的 目 的 ;具 备 网 络 化、 智 能
2.2.2 数据中心机房 IT 监测系统监控的实 施方式
建立 IT 综合管理平台,实现对硬件系统 (如网络设备、服务器)和软件系统(如数据 库软件、中间软件、应用软件)运行状况的 监控。 (1)硬件系统监测的实施方法 ①网络设备监测的实施方法 网络设备监测的主要目的是监测网络设 备的可用性和性能。网络设备的可用性和性
Intelligent Building & City Information 2010
8
No.165
9
Our Eyes 本期关注
显示新风机的工作状态及参数,一旦新风机 停止工作或出现故障,由监控主机进行告警 ; 同时监视过滤网堵塞报警。 (8)漏水报警的实施方法 : 可通过点式 或线式漏水探测器准确反映出漏水区域。 (9)消防信号监测的实施方法 : 由机房 消防系统给出烟感等消防报警信号,通过采 集设备上传至控制主机。 (10)防雷信号监测的实施方法 : 机房配 电系统配置的避雷器系统,当受到雷击后给 出报警信号,通过采集设备上传至控制主机。 (11)门禁系统监测的实施方法 :环境 监测主控机能与门禁装置进行通信,可收集 并显示每个门禁装置内储存的数名持卡人出 入工作间的磁卡号和时间日期 ; 同时可设定、 消除或修正门禁装置内的识别密码和允许出 入时间等。 (12)安全防破坏监视的实施方法 : 在主 要设备工作间都安装双鉴红外探头,当非常 管制时期内发生破坏性入侵,双鉴探头即发 出信号,监视器即时显示破坏性入侵发生位 置,并驱动报警装置进行声光报警。 (13)视频监控系统的实施方法 : 通过网 络视频监控设备将远程机房视频音频传回中 心,使远程专家可以通过视频及语音对本地 的技术人员进行指导 ; 通过图像监控报警联 动功能,起到对突发事件及时预警和及时处 理的作用。
能主要表现为网络设备接口的相关状态信息, 包括接口状态、接口流量、接口丢包率等, 除此之外,网络设备的可用性还包括 CPU 利 用率、内存利用率、当前连接数、会话数、 防火墙的性能指标等。 监测系统不仅要对各种网络设备的可用 性和性能进行监测,还要对网络进行实时统 计,保证能够以各种数据指标、性能报表和 性能趋势图为网络的容量规划、趋势分析以 及数据优先级划分的依据。 当机房网络设备出现异常状况时,监测 系统能够实现以下异常状况管理功能 : ◆ 能够对触发事件(告警事件)进行记 录,由管理人员根据需求对各类事件进行分 类,实现对事件的过滤 ; ◆ 能够通过定义(根据事件的来源、类 型、报警级别等)实现对事件的过滤和分析, 按照事件的关联设置功能,自动区分和抑制 重复事件,减少系统负载 ; ◆ 可以按照设置,自动识别与新生成的 事件相关的旧事件,从而直接反应当前的最 新状态,使管理员不被过时的信息所干扰 ; ◆ 可在网络设备出现故障,发出异常日 志时帮助管理人员及时接收、发现异常日志, 在配置发生改变时及时报警。 ②服务器监测的实施方法 服务器监测应包括以下内容 : ◆ 监测服务器运行状况,包括服务器 CPU、内存、磁盘的使用情况,监测的系统 平台应包括 Windows、主流的 UNIX 等 ; ◆ 监 测 Windows 平 台 和 UNIX 平 台 上 运行的相关进程、服务的运行状况 ; ◆ 监测服务器网卡的运行状况,如网卡 的流量、状态和丢包率等 ; ◆ 对系统的日志变化情况进行监测,支 持通过匹配查询、设置过滤条件等方式进行 更深层次的分析。 (2)软件系统监测的实施方法
◆ 机房设备盗窃案频频发生,报警、监 控、记录功能的缺失导致犯罪分子逍遥法外 ; ◆ 维修人员的巡检过程无法实施规范化 的监督管理,维护工作(何时、何人、多长 时间完成)没有客观的记录 ; ◆ 没 有 机 房 门 禁 安 防 系 统 的 情 况 下, 在 无 人 值 守 时 出 了 问 题 无 法 及 时 发 现, 运 营商的安保部门不得不为此承担很多额外 的责任 ; ◆ 在供电系统没有监控的情况下,停 电、 市 电 异 常、 通 信 电 源 的 状 态 无 法 及 时 掌 握, 严 重 时 可 能 导 致 停 电 后 后 备 电 池 放 电损坏 ; ◆ 机房空调常年打开, 造成运营电费过高; ◆ 在机房环境没有监控的情况下,出现 水浸、起火等无法及时处理等。
8
No.165
1 背景综述
随着信息技术的发展和普及,各行业数 据中心机房数量与日俱增,其配套的环境设 备也日益增多,使数据中心机房的安全越来 越受到重视。一旦数据中心机房设备出现故 障,就会影响计算机系统运行,若事故严重 又不能及时处理就可能造成严重后果。因此, 目前许多数据中心机房的管理不得不采用 24 小时专人值班来定时巡查机房场地设备的方 法,这样不仅加重了管理人员的负担,而且 往往不能及时排除故障。再加上目前国内普 遍缺乏数据中心机房场地设备的专业管理人 员,更加凸显出了对数据中心机房进行综合 监控管理的重要性。除此以外,数据中心机 房所s 本期关注
数据中心机房 综合监控系统解决方案
文|北京捷通机房设备工程有限公司 路宗雷 李 涛
【摘 要】本文针对数据中心机房设备密集、维护人员多、管理与监控困难的特点,以 确保数据中心机房实现集中管理、统一监控和快速反应,降低机房监控维护成本,提 高运行维护质量等为目标,介绍了一套数据中心机房综合监控系统整体解决方案。 【关键词】数据中心 机房综合监控系统
1 Telecommunications Infrastructure Standard for Data Centers(ANSI/TIA-942-2005) 2 《电子信息系统机房设计规范》 (GB 50174-2008) 3 《安全防范工程技术规范》 (GB 50348-2004)
Intelligent Building & City Information 2010
10
智能建筑与城市信息 2010年 第8期 总第165期
①数据库软件监测的实施方法 在应用层面,监测系统应可以直接了解 数据库执行一段 SQL 语句花费的时间,例如 让程序定时执行一些重要的与关键应用相关 的 SQL 语句,如果查询时间超过阀值或查询 结果不正确,即表明数据库出现问题 在系统资源层面,监测系统应可以监测 到数据库服务器和客户端的通信端口和数据 库的关键进程,当出现问题的时候能够及时 告警,使管理员能够迅速发现问题。 ②中间软件监测的实施方法 监测系统应能够对服务器上运行的支撑 服务的中间软件进行监测,应支持市场主流 的中间软件吞吐量、执行队列长度、空间使 用率等关键参数的监控。 ③应用软件监测的实施方法 监测系统应能够对 Lotus Notes 等应用软 件进行监测,能够通过对各个业务服务进行 定时和实时的监测,提供业务的服务水平数 据, 包括 OA、 Mail 系统所经路径的延迟、 丢包、 流量、网络停顿时间和网络可用率,以及视 频会议的时延、延迟抖动、丢包情况。
相关主题