智能数据中心运维平台技术方案建议书目录1项目概述 (4)1.1现状分析 (4)1.2需求分析 (4)2总体方案 (7)2.1平台逻辑架构 (7)2.2平台部署架构 (9)3软件平台功能 (10)3.1可视化IT系统关系管理 (10)3.1.1功能概述 (10)3.1.2IT架构和流程管理 (10)3.1.3数据中心管理 (14)3.1.4地理信息可视化管理 (15)3.1.5流程可视化管理 (16)3.1.6运维管理视图 (16)3.1.7运维分析视图 (18)3.1.8综合搜索 (20)3.1.9用户运维桌面 (21)3.2协同编辑和视图管理 (21)3.2.1功能概述 (21)3.2.2功能模块 (22)3.2.3在线编辑 (22)3.2.4视图和场景管理 (23)3.2.5对象定位和路径查询 (25)3.2.6视图关联和组合管理 (25)3.2.7视图模板和自动视图管理 (26)3.3可视化引擎 (28)3.3.1功能概述 (28)3.3.2可视化元素管理 (28)3.3.3自动布局引擎 (30)3.3.42D/3D渲染引擎 (30)3.4综合搜索 (31)3.5可视化场景调用接口 (31)3.6告警事件处理平台 (32)3.6.1功能概述 (32)3.6.2功能模块 (33)3.6.3事件处理引擎 (34)3.6.4事件控制台 (37)3.6.5事件处理策略管理 (40)3.6.6影响分析和根源诊断 (41)3.6.7可视化告警分析 (44)3.7运维数据整合管理 (45)3.7.1功能概述 (45)3.7.2功能模块 (46)3.7.3运维数据管理 (47)3.7.4通用数据操作 (49)3.7.5外部数据接口 (50)3.8数据接口平台 (50)3.8.1功能概述 (50)3.8.2功能模块 (51)3.8.3运维工具接口 (52)3.9外部接口平台 (56)3.9.1功能概述 (56)3.9.2功能模块 (56)3.10后台管理 (59)3.10.1运维数据管理 (59)3.10.2用户和统一认证管理 (61)3.10.3事件处理策略管理 (62)3.10.4外部数据源管理 (64)4项目实施方案 (68)4.1项目实施方法 (68)4.2项目人员安排 (69)4.2.1项目组织架构图 (70)4.2.2项目成员职责说明 (71)4.3项目实施内容 (72)4.4项目实施计划 (75)5项目管理 (77)5.1工作方式 (77)5.2项目管理 (77)5.2.1范围管理 (77)5.2.2沟通管理 (78)5.2.3问题管理 (79)5.2.4质量管理 (82)5.2.5变更管理 (82)5.3风险管理 (83)5.3.1风险管理办法 (84)5.3.2项目风险 (87)5.4项目验收计划 (91)5.4.1验收测试计划 (91)5.4.2问题严重程度定义 (92)5.4.3验收 (93)5.5项目文档资料 (93)5.5.1项目成果文档清单 (93)5.5.2项目管理资料清单 (94)6培训计划 (96)6.1培训方式 (96)6.2课程列表 (97)7售后服务 (99)7.1技术支持及服务体系 (99)7.1.1服务质量 (99)7.1.2补丁更新服务 (100)7.1.3损坏产品介质的更换 (100)7.1.4快速响应现场服务 (100)7.1.5热线服务 (100)7.1.6Internet服务 (101)7.1.7服务响应时间 (101)7.2对服务承诺 (102)7.2.1热线服务 (103)7.2.2Internet服务 (103)7.2.3补丁更新服务 (104)7.2.4现场服务 (104)7.2.5定期巡检服务 (104)7.2.6服务响应时间 (104)1项目概述1.1现状分析运维平台经过多年建设,形成了较为完整的监管控体系架构,在各管理领域使用了多种专业工具,此种方式优势在于管理平台专业性强,实现对各领域的深度管控。
但造成了运维平台结构复杂,异构性强,数据分散,指标不统一,不易管理,无效告警过多,同时当前系统使运维人员无法直观有效的了解整体业务、应用、网络、系统等整体运行的状态,缺少有效的跨领域的故障诊断手段,在判断故障根源时耗费时间较高,另外监控作为整体运维管理平台的一部分,无法与流程、自动化等系统进行有效集成。
具体问题表现在以下几个方面:●监控范围有限、管理分散●缺乏事件关联分析、故障根源定位速度慢●缺少全面直观的运维管理视图●缺乏有效的统一资源及配置管理●缺乏统一的运维管理平台,难以适应主动管理、集中管理要求1.2需求分析针对需求和运维现状,本项目旨在实现一体化的IT运维管理,建立整体的运维平台体系,从而实现从系统、应用到业务的端到端运行状态的全面管控,实现跨技术领域的运维数据处理和关联分析,提高故障定位的效率。
通过此次项目建立统一的运维平台体系,综合反映整个业务系统运行状况,有效的管理内部的IT资源运行情况、性能状况等,使各级管理人员和技术人员能迅速了解系统架构及运行状态,聚焦所关心的问题,满足不同层次人员对系统的运维管理需求。
实现面向业务服务的IT管理,提高整体的IT运维效率和水平。
具体目标:●有效整合分散的运维数据、资源和信息当前运维数据包括告警数据,性能数据和状态数据。
资料信息包括各种运维文档。
项目将通过技术手段将告警数据、性能数据、状态数据以管理对象为核心,进行有效整合,实现统一的数据管理。
同时,建立资料信息搜索机制,提升各类运维信息的使用效率和运维价值。
●统一资源配置管理资源管理对使用的专业工具提供的运维数据及资源配置信息,进行统一管理。
并提供方便灵活的配置方式以便与运维平台数据结构进行有效衔接。
同时,实现配置数据与可视化运维场景的无缝整合。
●围绕运维场景建立管理模型,达到快速定位故障,提升故障诊断效率的目的利用统一的监控指标管理与管理,实现面向不同的被监控领域的事件的汇总、重复事件压缩、事件的相关性处理;通过可视化系统实现统一的业务、应用和系统架构状况的实时监控和展现;输出故障关系图提高定位故障的效率使生产支持更快地做出反应,解决故障;●建立端到端运维全景视图,对业务、应用、系统、基础设施等各层面进行统一管理,整合运维数据为了更加直观的展示运维整体情况,此项目将采用业界领先的可视化技术,构建基于配置和资产信息的一体化立体运维模型,在可视化场景中将业务、应用、中间件、数据库、服务器、存储和网络,直到硬件所部属的位置进行统一展现,帮助运维人员了解整体运行状态。
并通过灵活的接口与监控系统进行有效整合,集成告警和性能信息,联动自动化运维工具,形成闭环的运维处理过程。
●统一架构,实现运维视图的自助生产和共享根据需求分析,当前运维系统缺少有效地管理工具,统一管理系统架构和各类管理视图,无法使运维数据信息进行有效共享,同时,架构视图与实际运维数据脱节,不能反映真实的系统环境,更无法通过关系自动生成管理视图。
因此,统一运维平台将搭建自助式的架构管理平台,实现运维视图的自由创建、分享和积累,管理内容包括各类运维关系图,配置数据和相关系统资料。
通过此项目中的统一运维门户达到关系图在线编辑,信息快速发布并进行高效检索。
将整个运行中心的数据进行有效发布与交互。
在发生故障时为运维人员提供大量的有价值的数据进行分析,有效预防故障产生,加快解决故障效率。
●基于策略的跨领域故障处理策略,提升故障处理能力通过分析告警事件所关联的场景,利用运维数据处理平台提供的事件处理引擎,定制告警关联规则,实现对于告警的关联分析功能,并提供友好的交互界面是策略制定简单化,透明化。
减少无效告警的发生。
同时,通过告警分析规则的积累,构建起可扩充的故障分析库和应急处理预案。
2总体方案2.1平台逻辑架构一体化运维平台,包含数据接口、运维数据处理、运维数据仓库、外部接口和统一运维门户5部分。
其中:●数据接口平台:作为统一运维管理平台的主要数据入口,对接运行环境中孤立的管理工具,整合分散的运维数据,包括配置数据、性能数据、报警数据、流程数据以及业务数据等其他相关的IT管理数据。
●运维数据处理平台:负责运维数据的实时分析处理,主要包括运维数据集成处理、监控指标分析处理以及核心的统一事件处理引擎,将多维度的运维数据通过管理对象统一管理,并根据不同维度数据的特征,提供专业的处理引擎,并将处理结果存储在运维数据仓库中。
●运维数据仓库:存储了IT运维中涉及的对象/关系、监控指标、报警事件、流程工单、用户以及运维场景等多维度的运维信息,并通过统一的管理对象标识,实现逻辑融合。
针对运维数据不同的类型和运算特征,选择业界领先的数据库技术组合,提供稳定、高性能、高扩展性的运维数据仓库,并通过接口封装提供标准的数据服务。
●外部接口平台:处理与外部系统的交互,包括自动化工具调用、消息通知、流程工单同步等主要工具接口,提供统一的管理功能,控制调用过程,记录调用结果。
●统一运维管理门户:为系统用户和外部系统提供统一的交互平台,用户可以通过该门户,统一访问运维信息,调用运维管理接口,并创建和发布适用于日常运维的可视化管理场景,基于运维场景,执行日常所需的数据分析和运维管理任务。
统一运维门户基于业界领先的图形专利技术,并提供了自助式的管理场景创建、发布、订阅等可视化管理功能,赋予用户更灵活的运维管理能力,显著提升管理工具价值和运维效率,并促进专家经验的积累,和整体运维管理能力建设。
2.2平台部署架构针对一体化运维平台在日常工作中的业务关键性,本项目在物理架构设计中考虑系统高可用性、可扩展性和性能需求,具体设计如下:●集成接口平台:利用3台集成接口服务器,部署uAPI接口模块,构建高可用、可扩展的集成接口集群,负责与外部系统交互,执行数据同步、动作调用等任务,并将过程数据发送至数据处理平台和运维数据仓库。
●数据处理平台:本期项目,利用3台应用服务器,部署uEP分析处理模块,接收集成接口平台采集的运维数据,执行实时处理,同时,系统具备横向扩展能力,在长期运行过程中,可根据负载增长,灵活的对系统进行扩容。
●运维数据仓库:本期项目,部署3台数据库服务器,构建高可用集群,运维数据仓库组合多种数据库技术,实现多台数据库服务器的数据同步和负载均衡,确保系统处理性能和数据的安全性。
●运维门户:部署2台web服务器,通过负载均衡构建高可用负载均衡集群。
各部署模块间不存在运行时冲突,因此,在项目建设一期,可以考虑将集成接口平台、运维数据仓库和数据处理平台实现多组件的合并部署。
3软件平台功能3.1可视化IT系统关系管理3.1.1功能概述在日常运维管理中,不同角色的运维人员管理着不同的资源对象,面对不同的管理场景,相应的也有不同的可视化需求。