当前位置:文档之家› 自动化运维管理解决方案--白皮书

自动化运维管理解决方案--白皮书

自动化运维管理解决方案目录1IT运维管理面临挑战 (3)2应运而生的自动化解决方案 (5)3自动化应用场景 (7)3.1灾备切换自动化 (7)3.2故障现场快照 (8)3.3批量设备操作处理 (8)3.4周期性作业调度 (9)3.5应急处理流程 (9)3.6重要配置备份、基线比对 (10)4产品简介 (12)4.1运维脚本集中管理 (12)4.2可视化流程配置引擎 (12)4.3作业流程人工干预 (13)4.4作业执行验证/持续监控 (13)4.5作业操作手册自动生成 (13)4.6作业执行结果展现 (14)4.7配置备份/基线库管理 (14)5产品优势 (16)6运行环境 (17)1 IT 运维管理面临挑战 24%31%45%IT 运营费用比例新系统开发维护开发运维管理⏹ 分散于各服务器上的运维脚本,存在管理风险,且耗费大量管理成本;⏹ 日常操作消耗大量人力资源,误操作风险较大,操作执行效率低;➢操作过程可控度低,运维风险大:⏹操作与执行方案匹配度无法保证,实际操作过程可控度较低;⏹日常操作对人员水平要求高,人力资源风险大;➢运维操作透明度低:⏹实际操作不便于监督,存在“黑盒”操作风险;⏹日常工作与实际操作无法有效关联,不利于日后审计;2应运而生的自动化解决方案面对IT运维管理中的诸多问题,单靠人工已经无法满足在技术、业务等方面的要求,那么标准化、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被人们所重视。

其中,IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。

自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。

IT运维自动化从诞生发展至今,其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。

自动化对IT运维的影响,已经不仅仅是人与设备之间的关系,已经发展到了面向客户服务驱动IT运维决策的层面。

融海咨询借鉴IT运维自动化发展趋势,结合多年IT服务经验中对用户需求的把控,自行研发自动化解决方案。

自动化方案概述:通过自动化手段,实现IT运维管理操作的自动化调度、“一键式”处理;通过异常处理的支持,对操作的结果进行验证,并持续监控作业执行结果;通过时间约束条件,对按照时间计划执行的运维作业进行管理;通过复杂的关系运算条件,处理复杂的作业流程的关系;通过UserTasks人工接口,方便运维人员对作业调度流程的参与;通过图形化的工作流定制平台,实现对业务活动进行整体规划;通过与其它平台的集成,实现了与报警、监控等运维系统的一体化管理。

从而实现功能强大、简单易用、安全可靠的作业调度自动化。

通过自动化解决方案,推动了企业IT运维管理操作的指令化、标准化、流程化进程。

自动化建设目标:3自动化应用场景3.1灾备切换自动化随着IT设备数量持续增加,IT系统日益复杂,依靠手动方式进行系统灾备切换的传统模式遇到了一定瓶颈,主要表现:➢操作效率低:RTO (Recovery Time Objective,复原时间目标)无法保证;➢操作风险大:系统复杂度日益增高,操作复杂度也随之增强,操作失误的几率也随之增高;➢过分依赖个人水平:在尽短的时间完成整个切换流程,对操作员本人的技能水平、操作规程熟悉程度、环境熟悉程度有着非常高的要求。

➢操作过程不透明:灾备切换有相应的操作规程,但是切换过程中,每个环节执行状态、当前执行环节情况只有操作员本人了解,旁人无从知晓。

通过对灾备切换流程进行标准化配置,实现灾备切换管理的配置可视化、执行可视化、过程可视化、规程可视化。

➢配置可视化:提供类似Visio配置方式,每个操作环节配置成为一个节点,然后通过拖拽、连线的方式配置整个切换流程,避免了代码编写工作,降低了系统使用门槛,增加了系统易用性;➢执行可视化:提供图形界面方式,灾备切换流程无需通过繁琐命令行方式执行,管理员仅需在图形界面中选择相应流程并点击执行即可,执行前还可以在界面进行多人确认;➢过程可视化:提供操作流程视图,所有人员在流程图中可以清晰了解灾备切换整体流程情况、当前执行环节,以及每个节点执行状态,为保证不同使用习惯,执行过程提供流程视图、树状视图两种展现形态;➢规程可视化:提供自动生成操作规程文档功能,管理员配置完某自动化流程时,系统能够自动生成该流程的操作规程文档,系统使用人员可以根据文档清晰了解到本自动化流程完整信息。

3.2故障现场快照传统IT监控系统在故障发生时能及时告警,但是运维人员、厂商、开发商仅仅获得一条告警信息,无法从监控平台获取更多的信息完成故障分析及预防。

通过监控/监控集成、作业调度双重技术手段,在故障发生时,对故障现场的本机环境、跨服务器/跨设备环境进行全方位捕捉,对故障现场进行最大程度的保留,协助管理员、厂商、开发商进行事故后的详细分析,并设定相应预案。

通过故障现场快照,可以完成:1、故障现场全方位场景获取,获取容可以根据不同角色需求灵活定制;2、故障发生时系统自行完成场景捕获、保存,并将其分发给不同的角色进行联合“会诊”;3、根据预案,通过定制化纳入到中,实现故障发生前的预警,并且提供及时处理,避免故障再次发生。

3.3批量设备操作处理随着IT规模不断扩大,IT设备数量不断增多,原有简单的运维操作,也随之成倍增长,即增加了运维工作量,又使重复性操作过程中,由于人员注意力降低导致的操作失误次数成倍增长。

例如:对设备批量程序更新、批量巡检等、批量密码修改等大批量、重复性操作。

提供批量作业并行处理平台,实现多设备同时批处理操作。

通过自动化流程把,将简单的操作在大批量设备上操作,并对作业执行过程进行监控对执行结果进行检查。

通过部署批量设备操作流程:1、批量设备并发执行,缩短批量操作执行时间,提高执行效率,并且提高系统升级一致性;2、减少批量操作过程中,由于实施过程中因操作人员操作疲劳、注意力降低导致的误操作,从而减少人工失误导致的生产系统故障;3、提高IT运维自动化水平,减少人工投入,降低运营成本;3.4周期性作业调度随着IT应用系统不断上线,运维中周期性、重复性操作逐渐增多。

此类操作即占用了运维人员大量日常工作时间,又存在人工误操作的风险。

并且对于复杂作业流程,还需要运维人员有较高的技术水平及较高的系统熟练度,由此增加了因人员、岗位变动导致的而操作意外发生几率。

例如:可以对每日巡检、日终批量操作、事务数据收集、月结批处理、年结批处理等作业执行的自动化。

提供统一应用运行操控平台,实现跨平台、跨作业段、跨设备的作业协同调度操作。

平台将周期性、重复性批处理作业,以及庞大复杂的作业流程,固化为自动化作业流程,通过时间调度引擎,按照既定时间规则,在指定时间点进行调度。

从而实现作业的周期性自动化调度,运维人员仅需查看相应的作业执行过程、执行成功与否、执行结果报告(截图、操作命令输出结果等操作结果信息)。

通过自动化流程把成百上千的批处理作业组织起来,规跑批作业,对作业执行过程进行监控对执行结果进行检查。

通过周期性作业调度自动化:1、降低了关键岗位的技能要求:过去,必须由全面掌握各业务系统的运维专家完成各类批处理作业的操作和判断;现在,普通运维人员即可使用自动化工具完成。

2、消除故障隐患、保证作业效率:一方面,对关键数据的完整性、合规性进行校验;另一方面,在发生异常时快速定位故障数据源,以便排查。

3、降低日常运维工作中人员的时间投入、精力投入,从而将运维人员解放出来,投入到更重要的IT运维工作中。

3.5应急处理流程IT系统发生严重故障发生时,时间就是金钱。

一方面,如何缩短管理员接收通知到故障处理时间;另一方面,如何缩短故障处理过程花费的时间,并提高故障处理成功率,显得极其重要。

例如:文件系统满,导致新的日志无法写入;数据库归档日志空间满;数据库表空间满,数据无法写入;生产系统故障,需要紧急切换备份系统等。

自动化处理与监控告警集成,第一时间发现,调用预定义的故障应急处理流程;故障处理后,系统会调用检查流程,对故障恢复情况进行检查。

全部操作完毕后,系统会将故障发生现场镜像、故障处理结果、处理完毕检查确认结果,一并发送给管理员,由管理员确认整个流程执行无误。

通过应急处理流程:1、极大缩短了从故障发生到故障响应的间隔,为系统恢复赢得了宝贵的时间,从而极大的减少了系统故障所产生的影响;2、管理员在应急故障处理过程中肩负着极大的压力,精神高度紧,可能会产生处理流程顺序颠倒或者忘记某一环节等现象,并且存在压力下导致操作失误的可能,由自动化平台应急处理,一方面提高了故障处理过程中的操作效率,一方面提高了故障处理的成功率。

3、系统自动将故障发生的现场镜像、故障处理过程、结果以及故障恢复后的检查结果,以报告形式保存下来,为今后审查、统计提供了依据。

3.6重要配置备份、基线比对IT系统中配置文件非常重要,因为误操作导致配置文件被删除、容被修改,经常会导致非常严重的后果。

日常运维工作中,管理员需要花费大量的时间,对系统中包括操作系统、数据库、中间件、应用系统及其他软件的重要配置文件进行周期性备份,并且配置文件被误修改、恶意篡改时,不容易被发现,只有当产生严重后果才会被人们注意。

重要文件例如:Oracle的initSID.ora, listener.ora文件, sqlnet.ora文件, tnsnames.ora文件,操作系统/etc/passwd文件,以及Weblogic、应用系统等配置文件。

通过基线保护模块,帮助企业建立信息系统的安全基线,并持续监控关键文件和系统的完整性和一致性。

平台定期对企业中各层面、各级别配置文件进行周期性备份,并以此建立文件基线。

平台会定期对系统中配置文件修改日期、大小、容等进行扫描,并将扫描结果与基线版本进行比对,当发现两者不一致时,及时通知管理员进行审查,并在极端情况以基线版本为准则,对现有环境进行备份、更新。

通过文件基线管理功能:1、系统自动对重要配置进行备份,极大减轻了管理员日常工作压力,并且减少了备份过程中的遗漏情况发生;2、系统通过自动扫描、对比,发现配置异常,改变原来配置文件修改不易发现的缺点;3、系统自动恢复被篡改的配置文件,从而完全避免了因配置文件修改导致的重大故障;4、保证两地三中心主备系统的配置信息一致性。

4产品简介4.1运维脚本集中管理日常运维工作中,管理员积累了丰富的运维知识,并将部分整理为运维脚本,方便日常运维管理工作。

提供运维脚本集中管理功能,将日常大量零散的运维脚本集中管理、统一下发。

既实现了日常运维脚本的集中存储、统一版本控制,也实现了自动下发、批量下发、批量更新。

相关主题