集团一体化智能运维平台方案建议书目录1一体化运维管理平台产品技术方案 (5)1.1自动化运维平台架构设计 (5)1.1.1技术架构 (5)1.1.2功能架构 (7)1.1.3部署架构 (8)1.2自动化运维平台功能设计 (17)1.2.1资源监控 (17)1.2.2配置管理数据库CMDB (126)1.2.3自动化管理 (133)1.2.4IT运维管理 (156)1.2.5容量管理 (161)1.2.6报表管理 (166)1.2.7用户权限管理 (175)1.2.8其它 (175)1.3自动化运维平台系统设计 (185)1.3.1系统安全性设计 (185)1.3.2系统可靠性 (187)1.3.3系统可用性 (187)1.3.4系统易维护性 (187)1.3.5系统扩展性 (188)1.3.6系统可操作性 (188)1.3.7系统数据库的存储与恢复 (189)1.3.8系统接入方式 (189)1.3.9系统开放性(待补充) (189)2运维管理体系建设及咨询、实施方案 (190)2.1基于ITIL的运维管理体系实施方法论 (190)2.2运维管理体系设计示例 (192)2.2.1事件管理 (193)2.2.2问题管理 (204)2.2.3变更&发布管理 (211)2.2.4IT基础信息配置管理设计与实施 (222)2.3项目管理及项目实施计划安排 (230)2.3.1项目组织架构 (230)2.3.2现场实施组织架构 (231)2.3.3项目进度安排 (235)2.3.4项目实施 (238)1一体化运维管理平台产品技术方案1.1自动化运维平台架构设计1.1.1技术架构1.1.1.1软件技术架构设计IMC智能管理中心以业务管理和业务流程模型为核心,采用面向服务(SOA)的软件设计思想,基于主流的J2EE架构平台,在保持技术的先进性、扩展性的基础上,采用子系统、层次化、模块化的设计理念,以全开放的、组件化的架构原型。
通过MDP消息总线进行集成,将资源监控、自动化运维、运维流程管理融为一体。
此外系统还提供了分布式、分级式的部署模式,二级代理支持横向扩展,为客户提供可靠的、可扩展的、高性能的一体化运维管理平台。
整个系统还提供开放的restful web services接口来持续集成。
系统分为资源访问及日志采集适配层、系统功能层及web应用层。
资源访问和日志采集适配层支持丰富的设备访问协议,通过SNMP、CLI(telnet/SSH)、netconf、TR069、FTP、TFTP、SCP、RADIUS、HTTP等协议实现传统网络及SDN等网络、安全、新网络等设备和软件的统一监控和配置管理;通过IPMI、SMI-S、SNMP、SSH 等协议实现对服务器、存储等设备的硬件监控、带外管理和操作系统自动安装;通过RESTful 接口、SOAP、powershell等实现对Vmware、H3C CAS、KVM、ctrix xen、HW Fusioncomputer等虚拟化产品的统一管理;通过WMI、JDBC、SSH、Telnet、SOAP、http/https等协议实现对操作系统、数据库、中间件、应用系统统一监控和管理。
系统功能层包含了资源监控、CMDB、自动化、运维流程管理模块,资源监控将协议适配层采集的各类告警和性能数据存入到统一的性能数据及告警库中,其上包含了多个功能模块(资源管理、告警管理、拓扑管理、性能管理)和组件(网络管理、主机管理、存储管理、应用管理)实现了数据的处理。
CMDB使用开放可持续集成的框架,客户可定义个性化的CI模型及CI关系,并且可通过资源监控模块实现数据的配置信息的自动发现和更新。
自动化模块采用开源的ansible框架,实现对异构的IT环境的自动化运维管理,通过connection plugins与主机进行通信,host inventory提供了主机操作接口,而PlayBooks完成多个脚本任务的编排和调度。
运维流程管理组件基于开源的JBPM流程引擎,在此之上开发了事件管理、问题管理、变更管理等多种流程实例,实现运维管理流程化。
Web应用层采用了J2EEweb服务架构,使用了spring、hibernate等多种开源的web 开发框架,实现与用户的交互。
系统通过MDP消息总线完成多个模块间的通信,实现了多模块、组件的融合。
通过开源的CAS SOO技术实现了系统的统一认证和权限管理。
H3C坚定不移地走开放合作的道路,iMC智能管理软件提供了开放的RESTful API接口,RESTful Web Services 富有体系化的结构和易扩展的特点,让iMC的可扩展性、可订制能力极大增强。
通过REST 风格的Web Services,几乎能够将iMC中的任何功能集成到我们所期盼的软件中,以应对今天和将来各式各样的业务融合所带来的机遇和挑战。
基于iMC管理软件的开放接口,合作伙伴和客户可以进行二次开发,从而创作出独具特色、量身定制的运维管理平台。
1.1.2功能架构最底层是IT资源层,即运维平台的被管对象,它包含信息中心运行管理的所有对象,可分为网络设备、服务器、计算存储资源、系统应用软件、中间件、虚拟化资源、机房动力环境等。
第二层是业务处理层,包括数据采集和数据处理。
它包含网络监控,系统监控,机房环境监控,性能数据,告警事件、日志等数据的集中采集。
数据采集实现对被管理运行对象的监控,掌握运行资源的配置状况、监控对象的运行状态和性能参数,在此基础上可按照业务进行建模。
业务处理层,包含了性能管理及分析、统一事件管理、业务可用性管理、业务健康管理、业务影响分析、CMDB配置管理、ITSM运维管理、自动化操作管理等。
可了解业务的整体运行情况,进行业务预警和快速发现IT系统的根源故障,并可与服务管理流程的集成,以及时响应和规范化地处理故障。
实现故障的闭环管理。
第三层是业务展示层,提供了多种展示视图和方式,包括3D机房仿真视图,拓扑视图、业务视图、大屏展示等。
1.1.3部署架构1.1.3.1分布式系统部署架构XX集团数据中心自动化运维平台需同时支撑5000个点、10000个元素规模的接入量,单台服务器无法实现对此规模的统一管理。
需具有大规模横向扩展的分布式部署能力。
iMC智能管理中心支持分布式部署架构。
可实现采集与处理分离,在不同的资源区内部署单独的采集单元,实现对数据的采集。
此外系统各功能组件可部署到不同的服务器上实现负载分担,例如告警管理、资源管理、日志分析、运维流程管理、流量分析等。
1.1.3.1.1分布式部署架构(数据集中)二级代理采集服务器数据统一上报到集中的数据库服务器,数据便于维护。
二级代理支持横向扩展,实现分布式的软件部署架构。
1.1.3.1.2分布式部署架构(数据分离)系统还支持数据分离的部署架构,每个数据采集服务器上可配置独立的数据库,数据存放在数据采集服务器本地,管理服务器直接访问远端机房的数据库服务器,实现统一管理。
可使用与远端机房与管理服务器间使用广域网链路连接的场景,采集数据存放在远端机房本地,无需实时上传,减少广域网带宽占用。
1.1.3.2双机热备份部署方案系统支持双机热备份部署方式,主备集群节点间采用心跳通信,主集群节点中断后可在5秒钟内实现主备切换,保障系统的高可靠运行。
主备节点的数据存储在同一的共享存储节点中,保障数据的一致性。
1)主管理服务器集群和备管理服务器集群构成iMC双机热备的群集节点;2)存储设备为IMC双机热备群集提供共享存储。
共享存储是构建双机iMC热备功能的基本构件。
3)交换机为双机热备部署的后端存储网络SW,用于连接群集节点和共享存储设备4)群集节点之间的群集心跳信号通信建议直连。
1.1.3.3分级部署架构XX集团大型网络中,IT基础结构复杂、设备众多,数据类型繁杂,数据量越庞大,且存在较多树形或星形拓扑的分支机构。
而各分支结构也已基本完成了各自的网络建设,与总部IT网络之间相对独立。
因此,总部只能通过专线或租用运营商链路管理各分支机构,网络复杂庞大。
如果没有分层的网络管理,将会导致单套网管系统负载过大、运维流程混乱、效率低下、权责不清等问题。
针对这种情况,提出了分级网络管理解决方案,有效提高iMC 管理网络节点的能力,以便对整个网络进行清晰的管理。
整个网管系统分为上、下级两层甚至多层,同一分级的多个物理区域,其管理区域之间是独立的,各网管系统也是相互独立的。
管理员需要通过上级网管直接对下级网管本身及某些重要设备直接进行管理,各分支节点管理本节点内的设备。
方案特点:●灵活的部署模式。
在上级网管iMC的“资源/下级网管视图/增加下级网管”功能页面中,选择上一步中增加到上级网管管理设备的下级网管服务器,并配置登录方式、端口、用户、登录名和密码等信息,增加下级网管。
当使用指定用户作为登录名增加下级网管时,下级网管需要提前建立以输入的登录名作为操作员登录名的操作员,并且操作员的登录密码与输入的下级网管登录密码相同。
●精细的权限控制。
●支持对下级网管的配置和管理。
在上级网管iMC的“资源/下级网管视图”中的下级网管列表中,列出了本服务器所配置的全部下级网管,可以点击下级网管列表项对应的图标对下级网管进行修改登录配置、删除、登录下级网管、查看下级网管网络拓扑、查看下级网管资源视图等管理操作。
●支持下级网管的告警上报和在上级网管处管理相关上报告警。
在下级网管iMC的“告警/分级网管告警设置”功能页面中,通过配置启用告警上报与否、上级网管告警组件部署服务器IP地址、上级网管告警接收端口、下级网管服务器IP地址、上报告警的设备范围、上报告警的告警范围等来配置下级网管收到某条告警后是否上报给上级网管。
在上级网管iMC的“告警/全部告警”功能页面中,告警列表会将下级网管所上报的告警列出,操作员可以对上报的告警进行查看和管理操作。
在上级网管iMC的全部告警列表中,操作员可以选择下级网管上报告警后点击“恢复上报告警”链接,来恢复选中的上报告警,并且自动恢复选中告警所属下级网管的全部上报告警。
1.1.3.4系统软件运行环境要求1.1.3.4.1操作系统(推荐使用x86-64位操作系统)1.1.3.4.1.1Windows●Windows Server 2003 with Service Pack 2 (32 bit)●Windows Server 2003 with Service Pack 2 (64 bit) 和KB942288补丁●Windows Server 2003 R2 with Service Pack 2 (32 bit)●Windows Server 2003 R2 with Service Pack 2 (64 bit) 和KB942288补丁●Windows Server 2008 with Service Pack 2 (32 bit)●Windows Server 2008 with Service Pack 2 (64 bit)●Windows Server 2008 R2 with Service Pack 1 (64 bit)●Windows Server 2012 (64 bit)1.1.3.4.1.2Linux●Red Hat Enterprise Linux Server 5 (32bit)●Red Hat Enterprise Linux Server 5 (64bit)●Red Hat Enterprise Linux Server 5.5 (32bit)●Red Hat Enterprise Linux Server 5.5 (64bit)●Red Hat Enterprise Linux Server 5.9 (64bit)●Red Hat Enterprise Linux Server 6.1 (64bit)●Red Hat Enterprise Linux Server 6.4 (64bit)1.1.3.4.2数据库1.1.3.4.2.1Oracle 11g Release 1和Release 2 (仅限于Linux系统上)由于不同的Oracle数据库版本支持的最大CPU数量有限制,部署方案时参考下表1.1.3.4.2.2SQL Server 2005 SP41.1.3.4.2.3SQL Server 2008 SP31.1.3.4.2.4SQL Server 2008 R2 SP21.1.3.4.2.5SQL Server 2012 SP1由于不同的SQL Server版本支持的最大CPU数量和RAM大小有限制,部署方案时参考下表1.1.3.4.3Web浏览器●应该关闭浏览器的所有窗口阻塞设置;●必须使能浏览器的Cookies;●客户端推荐分辨率显示宽度为1280;●推荐使用IE 9或IE10;●推荐使用Firefox 20及以上版本;●推荐使用Chrome26及以上版本。