IT综合运维管理平台立项报告目录1立项背景 (2)1.1背景和依据 (2)1.2信息化建设现状 (2)2建设意义 (5)2.1面向业务管理的发展趋势 (5)2.2面向业务管理的重要性 (5)2.3建设综合IT运维管理平台的必要性 (6)3建设目标 (9)3.1综合IT运维管理平台需求分析 (9)3.2综合IT运维管理平台建设目标 (9)4建设需求 (11)4.1总体需求 (11)4.2系统需求 (12)4.3技术要求 (14)4.3.1面向关键业务系统的监控管理 (14)4.3.2业务系统模拟监测 (15)4.3.3网络资源的监控管理 (16)4.3.4应用服务资源的监控管理 (19)4.3.5统计分析与报表 (20)4.3.6运维知识库的建设和管理 (22)4.3.7基于ITIL的IT服务管理 (22)4.3.8IT运维管理咨询服务 (24)5效益分析 (27)1 立项背景1.1 背景和依据在“做大做强”、“两个十多个”战略的指导下,国内大市场、大品牌的格局将越来越明显,竞争亦将越发激烈。
在这轮竞争中信息化手段将扮演重要的角色,企业对信息化的依赖起来越强,对IT服务水平的要求将越来越高。
在信息系统的生命周期中,一般系统建设的时间大约为一年,而系统使用运维的时间大约四到七年或更长,因此,业界提出了“三分建设,七分管理”的说法。
经过大致两轮的信息化建设后,企业信息化将逐步趋于成熟,走向稳定,后续信息化工作的重点之一便是做好系统的运维工作,保障系统平稳运行,支撑业务发展。
1.2 信息化建设现状随着公司信息化建设的持续推进和发展,网络设备的种类越来越多,网络环境随之越来越复杂,业务系统的应用也越来越广泛和深入,保障企业网络环境、网络设备、业务应用系统、办公应用系统的7×24稳定正常运行已经成为信息部门的头等大事,因为信息化的保障工作将关系到全公司业务运营、日常办公的各个方面,一旦出现重大故障将对公司造成不可预估的影响和损失。
面对当前现状和今后持续发展的目标,我们也注意到保障信息化的能力和水平必须要得到进一步完善和提高,目前尚存在一些欠缺之处,主要表现在:1)缺乏统一的、面向业务集中监控与管理平台日常运行管理条块分割,网络、应用、IT基础环境等基本上是各管一摊,缺乏一个统一的、主动的监控平台,既浪费了人力资源,也难以做到快速发现故障;当网络设备发生变化时,无法迅速的适应。
各类业务应用系统缺乏针对性的管理平台,单从独立的网元和资源个体进行管理的角度无法解决业务系统的监控要求,因为业务系统是由多个关联资源及其关联关系组成,一旦业务系统出现运行过慢、无法登录、应用报错等问题时,难以排查具体的故障点,从而影响业务系统故障恢复,也不利于业务系统的性能调优。
2)缺乏面向业务系统自动化资产管理工具随着公司业务的发展,其IT资产管理面临如下问题和挑战:各IT资产统计困难:在以网络技术为依托的扩展服务,业务驱动下,公司IT资产被不断购置,数量激增,地域分布广且资产变化频繁,各部门资产信息、包括资产成本统计困难。
信息安全要求: IT资产所携带的信息,由于涉及内部操作信息乃至客户信息,因此对信息安全要求更加严格。
IT资产管理中的任何疏忽,都可能带来信息泄露,给公司造成不可挽回的损失。
成本压力:由于资产分布分散,进行全面资产管理的成本始终居高不下,成为公司亟待解决的问题之一。
3)缺乏标准化的IT运维管理工具目前IT运维管理来一直处于手工处理维护的状况,各种运维工作仍处于一种被动的状态之中。
随着各类应用系统的推广规模、建设速度迅猛发展,IT人员的数量、维护能力和知识水平日显不足,在实际工作中只能采取“头痛医头、脚痛医脚”的维护方式,只能等到设备及应用系统出现问题造成故障时,才能进行维护。
因此,如何更有效地利用现有的资源,建立高效、规范的一体化运行维护体系,提高IT运行维护服务水平,确保IT系统的稳定安全运行是客户面临的普遍问题和考验。
4)缺乏对机房环境的智能化监控没有很好地实现对机房的智能化管理,机房环境中一旦出现安全隐患仅仅靠人力监控是难以快速发现、快速反应的,一旦发生安全问题后果不堪设想。
5)缺乏量化运行质量的统计报表缺乏一套能与实际的网络、业务系统、机房环境等多方面相结合的运行质量考核工具,因缺少必要的报表数据支撑而无法对信息化建设中各环节的运行进行数据层面的量化和考核,也不利于对软、硬件及应用服务的运行趋势进行统计、分析、汇总工作。
6)缺乏知识共享平台目前的技术知识比较分散,解决某一类专业问题时对专人的依赖性强,无法实现相关知识的积累和共享,不利于运维人员整体技术能力的提高和新人的快速成长。
在解决相同类别的故障时,无法快速查找相关解决方案,影响故障解决的时效性,不利于快速恢复故障。
长期以来,公司在信息化建设方面的投入主要着重解决从无到有的基础设施和系统的构建,而忽视了系统建设完成以后的运行维护。
长期持续建设的惯性导致对运行维护工作投入不足。
殊不知,高效的运行维护才能保证系统的应用效果和产出效益。
投入的失衡,导致运行维护成为政务系统生命周期中的短板,在很大程度上压制了系统建设的效果和效益。
可以看到,如何在有限的投入下尽快建立高效、规范的综合IT运维管理平台,实现以业务为核心的监控管理系统,从而提高信息部门的运维管理水平,改善IT系统的运行质量,为打造核心竞争力提供助力,已经成为当前我公司信息部门面临的重要问题。
2 建设意义2.1 面向业务管理的发展趋势面对网络环境日益复杂,业务应用越来越多,传统的网络管理系统已经向着平台化、智能化、集成化、高效性、高可靠性的方向发展。
网络管理系统历经了简单的网元管理;面向网络环境的集成化平台化管理等,到现在面向业务、应用,符合ITIL、ISO20000等国际标准的管理阶段。
这一阶段对管理功能要求更加完善和成熟。
完整而理想的管理平台,可以实现IT基础设施环境的集中维护、集中监控和集中管理,能够适应当前网络设备及环境与业务系统的关系越来越紧密,各种业务的运行维护都要结合网络管理来实现的发展趋势。
由此,管理软件正朝着以业务为中心的集中综合管理的方向发展。
要更好地管理不同的业务应用系统,就需要从全局角度对业务应用系统所关联的资源进行统一管理,由于目前的网络设备等对网络管理系统的开放程度不一,有的仅支持其自身的管理软件,IT部门往往需要采购不同的管理软件,造成管理分散,管理界面不统一,使管理工作变得更加复杂。
因此,需要具备集成性的综合管理平台,将不同厂商的网络和应用管理产品在界面级、消息级和数据级集成起来。
通过多方面管理技术的高度融合,建立整体业务管理架构,实现统一管理,从而改变以往管理监控产品分散、监控系统脱节的局面,使得运维工作更加顺畅。
综合IT运维管理平台是保证我公司网络和业务系统高效、正常和安全运行的关键,符合我公司网络系统运行管理和业务保障的特点。
2.2 面向业务管理的重要性业务系统的正常运行是保障公司办公、运营等方面的基础和核心,随着业务系统的深入应用和不断扩增的发展趋势,面向业务系统的管理方式和方法也愈加重要,主要表现在以下的几方面:1)以业务系统为管理单元的重要性业务系统对于用户而言就是一个独立的应用单位,任何影响业务系统应用的故障在用户看来都属于这一个业务系统存在的问题,细节的故障分类例如:交换机、服务器、数据库等对于用户而言都是没有意义的。
因此,对业务系统的运维管理也应该从用户的角度出发,打破以网元为单位的管理方式,把业务系统做为管理单元进行管理,在此基础上确定业务系统的管理范围,在此范围内排查影响业务系统的因素,从而实现实时高效的管理目标。
2)关注业务系统内部关联关系的重要性业务系统关联的所有资源都会影响整体的运行和性能,因此这些资源之间看似是独立运行的,但是对于业务系统而言却是息息相关的。
资源之间的关联关系会对业务系统的正常运行产生联动作用,从而影响业务系统的整体性能。
只有充分了解各资源之间的关联关系才能做到快速定位故障,从根本上解决某一因素对业务系统的不利影响。
3)侧重管理业务系统内关键资源的重要性每个业务系统具有各自的属性特点,关联范围内的各类资源虽然对业务系统都有影响,但同时存在更为关键的资源和设备,直接决定了业务系统的“存活”。
因此,在管理策略的制定上应当有所侧重,对所有的资源设备进行“一视同仁”的管理方式既不科学也不适用。
应该根据它们对业务系统的影响能力来判断权重比,把握业务系统中核心资源和设备的重点监控和管理。
4)及时了解业务系统运行趋势的重要性随着各种业务系统逐步运行在IT系统环境下,对业务系统管理能力的高低直接影响到公司效益的实现。
可见,要想真正让业务系统发挥价值增值的作用,必须通过有效的管控手段使“黑箱”转变为“白箱”,将使整个业务系统的运行过程透明化,通过实时监控信息与历史监控数据的有效结合,及时分析业务系统的运行趋势,准确发现并解决业务系统运行过程中存在的瓶颈,从而提高业务系统的效率,最终改善公司信息化的绩效。
2.3 建设综合IT运维管理平台的必要性从某种角度上来看,传统的信息部门管理模式是随着技术的进步和自身需求的不断增加而逐渐发展的。
但是,这样的一种面向需求的设备购买方式为今天的管理工作带来了不少的弊端。
首先,在传统的单点管理技术下(如:独立的网络管理、服务器管理、数据库管理、应用管理),各管理产品相互独立,每个运维管理人员只熟悉某一方面、某一平台的计算机资源管理,佷难从宏观上全面了解公司的整个计算机环境,例如:有哪些关键业务,这些业务所需的管理和服务水平如何,某一关键业务由哪些应用软件组成,这些应用软件的用户分布情况,应用软件的数据库分布在哪些服务器上,这一业务运行在内部网的什么网段上……,这些造成运维管理人员无法制定出一个信息部门的计算机系统整体管理策略和管理方法,无法从为信息部门的业务发展提供服务的角度了解计算机系统管理所应涵盖的方面以及所需达到的目标,不能满足信息部门对信息系统的管理要求。
其次,运维管理人员对业务系统角度的管理范围和资源分布缺乏了解。
在传统的管理模式下,网络管理人员只知道网络使用状态,数据库管理人员只知道数据库使用状态,佷难全面掌握业务系统中网络、服务器、数据库、应用等资源的配置、分布和使用情况,例如会出现这样的情景:当某一业务或应用程序性能下降时,我们不知道其关键原因在何处?是网络带宽无法满足需求?是网络结构不合理,导致部分网段拥塞?服务器性能不够,瓶颈是在cpu、内存还是i/o?数据库性能未进行优化?…,从而不能决定采取何种方式解决问题:是升级服务器的cpu 还是内存?是升级网络设备还是重新配置网段?是否需要重新优化数据库性能?这些都会造成信息部门在业务系统的管理和信息化建设的投资方面的盲目性。