当前位置:文档之家› 智能IT运维监控平台-技术白皮书V2

智能IT运维监控平台-技术白皮书V2

目录一、背景与需求 (3)1、背景 (3)2、需求要点 (3)二、解决方案与系统构架 (5)1、解决方案 (5)2、系统构架 (6)三、系统及运维监控功能与特点 (7)3.1 系统功能特点 (7)3.1.1 IT资源集中监控管理 (7)3.1.2、IT资源运行状态统一展示 (7)3.1.3、IT资源告警事件管理 (7)3.1.4、IT设备智能巡检 (8)3.1.5、业务维度监控 (8)3.1.6、业务维度的拓扑展示 (9)3.1.7、应用性能分析 (10)3.1.8、IT资源使用分析 (10)3.2 监控功能 (10)3.2.1、IT资源监控类型 (10)3.2.2、网络设备状态监控 (11)3.2.2、服务器状态监控 (12)3.2.3、数据库监控 (13)3.2.4、Web中间件监控 (14)3.2.5、虚拟设备监控 (17)四、部署与配置 (17)4.1、部门级部署 (17)4.2、企业应用部署 (18)4.3、集团应用部署 (19)4.4、部署要求 (20)4.5、运行环境 (20)五、效益与价值 (20)5.1、产品价值 (20)5.2、效益体现 (21)一、背景与需求1、背景随着我国工业企业及组织机构信息化建设的快速发展,越来越多的企业核心业务及机构工作的开展已经高度依赖于信息系统的应用,随着信息化的不断深入,信息系统越来越多,各类系统越来越复杂,系统间的关联度也越来越高,使得企事业单位的IT运行环境日趋复杂,各类IT设备的运行监控难度加大,由于IT系统的运行环境更加复杂,造成了机房管理、系统监控和运行维护工作变的十分困难。

目前单个的IT设备初步具有自监控的手段和方法,但由于设备的种类数量众多且分属不同的平台和厂商,导致运维监控工作各自为政,运维监控缺乏一个集中、统一的运维监控平台,使得各类设备运行事件无法做到实时统一。

由于缺少一个IT统一的监控运维平台,任何一个IT设备资源出现故障时都需要IT运维人员手工查找与排查故障产生原因和定位故障,使得运维人员对于日常的运维工作还是处于被动等待“救火式”状态之中,运维事件的发现收集操作为传统手工方式,往往是故障事件发生后,运维人员被动告知后去处理问题,严重制约IT运维的响应速度和执行效率,影响企事业单位的IT信息系统的顺利使用。

通过建立智能IT运维监控平台,对网络、硬件、安全设备、操作系统、数据库、中间件、应用系统、机房空调、UPS等资源实时监控采集,能够自动地收集信息系统中各类IT资源设备运行状态、数据库状态、中间件运行状态和网络状态等,发现各类IT 资源运行过程中的异常。

依据业务视角和设备视角分析发现已发生和潜在的各类资源问题,及时通知相关责任人和启动相关运维流程。

2、需求要点智能IT运维监控平台实现对网络、应用服务器、业务系统、各类主机资源和安全设备等运行状态的全面监控,建立对各类IT资源的各类运行状态参数的采集、分析,及时发现和定位IT设备故障,启动相关的故障解决流程。

智能IT运维监控平台可从IT视角完成对各类IT资源监控的同时,也提供从业务系统的视角对IT资源监控运维方法。

智能IT资源集中监控平台系统必须做到:●强化主动监控,实现集中管理。

以应用性能和应用系统为监控主线,集成各类监控工具,构建统一集中的IT系统资源监控平台,能够主动及时发现问题,解决被动服务的局面。

同时以自主运维为目的,主动监控,自动更新,自动实现IT运维监控管理。

●帮助定位故障,快速恢复系统运行。

建立针对IT资源的集中告警分析机制和故障预警机制,提供自动化故障处理能力,当故障产生时,可以进行故障的快速定位,很快发现问题根源并找到相应的解决方案,从而缩短故障解决时间,减少维护成本。

●提高运行效率,合理利用IT资源。

建立统一IT资源监控平台后,可以实时了解全部IT资源的使用和运行情况,根据IT业务需要从整体角度考虑资源的使用,甚至可以根据业务高峰期的不同来调剂业务系统对资源的使用。

●提供统计分析和决策支持。

通过提供各类资源的性能分析报表、资源统计报表和运维分析报表,从各个侧面、各个角度反映系统的运行状况、性能情况和运维人员工作情况,为系统升级、改造、扩容提供科学依据。

●全面直观的系统展示。

通过一个统一的门户系统,有效的展示内部的IT资源运行情况、性能状况、服务工单情况等,使得领导、管理者、技术人员能迅速了解自己关心的问题。

二、解决方案与系统构架1、解决方案智能IT资源集中监控平台以企业的实际在用IT资产和业务系统来构架监控管理的对象,建立网络管理、主机系统管理、应用服务管理和虚拟设备等IT资源的统一监控管理平台。

各项管理数据共享集中,互通互融。

IT运维监控平台即可根据IT资源类型分类监控各类IT资源,也可按照业务信息系统所依赖的IT资源建立模型,实现对业务资源模型的运维监控。

通过业务监控模型能够简化IT资源运行状态监控,提高企业IT运维的总体服务品质。

通过统一的管理系统对管辖内IT对象的运行状态和系统性能进行实时的监控,并以图形化的方式直观地展示出来。

对于系统运行的异常表现及时报警,提供故障修复功能;同时预设性能监控闸值,以帮助在系统出现问题之前提前向管理人员发出预警。

从而可以积极主动地发现问题,改变被动管理的局面,保障系统的高可用性。

整个系统以事件为核心,可将IT资源监控管理系统与ITIL运维流程系统有机地结合在一起,采用统一事件管理系统,对整个系统内的所有事件进行收集、关联分析和处理。

部分事件自动采取修复动作,同时可以有选择的将事件发送给运维流程管理系统,并按照不同类别事件预先定义的处理流程控制事件的处理。

通过事件问题管理的有效执行,将整个运维服务模式由被动支持转为主动服务。

2、系统构架如上图所示,智能IT运维集中监控系统以各种IT硬件设备的监控信息和日志信息做为数据源,以各类数据的流转和处理为功能划分依据,将总体功能分为4大类别:⏹数据采集功能:根据平台指定的运维策略,数据采集层负责从网络设备、安全设备、业务系统、服务器等采集各类运行信息、日志信息、流量信息,经过数据格式标准化、数据归并、数据压缩等处理后,提交给上层数据处理平台。

采集后的信息经过归并汇总后可在系统中进行查看和编辑。

⏹数据处理功能:平台将采集到的原始数据按照业务系统数据、IT资源状态数据、网络数据、日志数据进行分门别类,经过基于统计、基于资产、基于规则的关联分析后,科学合理的定义运维事件的性质和处理级别,作为展示平台的数据基础。

⏹数据分析功能:以丰富的报表展示手段对各类数据进行直观显示,辅助以网络拓扑图形化功能为平台用户提供方便快捷的信息获取途径。

对于运维数据分析,也会借助知识库提供的分析策略,提高数据分析的准确性。

⏹监控预警功能:实现整个平台的灵活展示和配置管理。

一方面通过丰富的图形化展示方式呈现IT资源、业务网络系统的整体运行状况和安全,提供有效的安全预警,减少IT资源故障和安全破坏的发生,降低事故所造成的损失。

三、系统及运维监控功能与特点3.1 系统功能特点3.1.1 IT资源集中监控管理通过统一的IT运维监控管理平台,企业可从设备分类和业务信息系统视角出发,实现对服务器系统、网络、安全产品、操作系统、数据库、中间件、应用系统、储存设备、IT 环境等系统的状态和性能的实时监控。

提供统一的用户界面,统一的管理手段,准确反映各类设备运行状态和性能。

对于服务器系统及网络运行的异常表现进行预警,能够实时产生趋势性能分析报告、统计报告、TOP-N报告和历史报告。

为优化IT系统性能和解决故障提供数据分析依据。

集中监控系统应支持有代理和无代理的监控方式,对各类应用服务器的配置数据、性能数据、告警数据进行采集。

同时集中监控管理系统能够通过多种监测工具自动地定期和不定期监测服务器系统、网络系统、数据库等设备的基本配置数据。

3.1.2、IT资源运行状态统一展示集中监控系统的监控视图实现对所有被监控对象告警的统一监控、集中展现。

监控视图可以展示不同监控偏重的IT资源监控视图,如网络拓扑视图、资源状态视图、业务应用视图、安全视图、存储视图等。

对不同的用户可提供不同的监控界面,显示不同的监测内容。

对管理人员显示对业务影响较为严重的告警和告警处理记录。

对具体的维护人员,根据其分工,显示不同的监测内容,不同的告警信息,便于具体IT运维人员及时发现问题和处理问题。

3.1.3、IT资源告警事件管理通过对采集的IT资源数据过滤、压缩、归并、聚合,通过关联分析技术,提取有效的告警信息上报告警中心。

系统提供了灵活的告警设置,多样的告警推送方式。

系统告警规则可实现快速设置,预置大量告警规则,提供基于设备类型指标参数的告警批量设置。

告警的推送方式支持短信、邮件、微信等。

系统提供灵活的告警查询方式,可通过告警检测指标进行统一查询,实现指标统一分析;也可通过设备IP查询该设备上所有的告警。

告警事件展示分为两种,即列表式告警事件展示和拓扑式告警展示。

列表式告警显示是展示完整、统一的图形化告警事件界面,集中显示各IT资源发生的各类告警事件,确保运维人员可以及时响应;拓扑式告警显示是在拓扑图上实时以不同的颜色标识显示告警信息,提醒运维人员注意。

3.1.4、IT设备智能巡检系统可以按照IT运维的管理要求实现不同频度对不同设备运行状态的无人智能巡检,巡检的设备运行状态数据依据自主学习的业务基线以及业界规范基准值进行分析检测;并将巡检异常以实时状态、越界统计、巡检报表、智能策略方式进行反应。

智能巡检对于不符合内置检测闸值的事件定义为越界事件,系统以越界事件的出现规律进行数据判断,提供完善的分析统计,包含等级、时间、指标、IP范围的越界比例TOP N 分析,周越界比率增长TOP N,月越界比率TOP N。

对于短期内出现越界过多的指标,系统通知相关运维人员。

3.1.5、业务维度监控系统提供灵活的业务定义方式,可以将网络、主机、数据库、应用、存储、虚拟化等IT资源作为相关业务的组成单元,从业务应用视角提供给客户对IT 资源的监控方式。

可以通过业务视图发现业务组件的故障点,从业务组件到对应的IT资源设备,实现完整IT资源监控和快速定位故障的效果。

业务信息监控系统应具有良好的开放性,提供丰富的开放接口,满足对新应用系统的监控定制需求,便于用户对新应用系统的监控部署。

⏹能够监控各业务系统的实时工作状态,及时发现各业务系统的硬件宕机和逻辑宕机故障;⏹可建立基于网络系统、服务器主机系统、数据库系统和中间件应用系统之上的企业综合业务监控管理系统;⏹能够监控各业务系统的整体运行效率;在监控整体效率的基础上,可将与业务系统相关联的IT资源分解,可监控单个IT资源的执行效率,发现影响业务系统运行效率的系统和设备;⏹能够对业务系统涉及的IT资源进行组合,形成以业务视角的运行状态监控管理方式,从业务视角可查看各IT资源单元的运行状态;⏹能够监控业务系统的关键进程和资源占用情况;能够监控业务系统所涉及IT系统的运行日志,对系统日志进行分析。

相关主题