服务器和存储运维管理的介绍介绍
互联网最近几十年发生了很大变化,从最初的modem拨号接入,经历了ISDN接入、DSL接入、cable modem接入、专线接入、光纤接入、无线接入,以及分组交换网、帧中继网和ATM 网,每一次技术变革都代表着更高要求。
系统运行有两种常见的模式,即B/S和C/S,服务器端起着关键性作用,系统运维主要集中于服务器端,其中服务器的web引擎和数据库引擎又是至关重要。
随着电信行业的飞速发展,固定电话、数据传输、互联网、宽带的业务量急剧增长,而由此带来的许多麻烦也在困扰着电信运营商。
网络维护的工作越来越繁重、故障情况无法跟踪、历史的故障频繁发生、处理情况、知识资源不能有效的利用,同时对于故障的处理无法进行效率评估和绩效考核,诸如此类的问题使运营商头疼不已。
因此,如何确保电信运营企业内部众多软、硬件设备的正常运维就显得十分重要。
正是在这种情况之下,电信行业信息系统的运行维护管理引起了一批具有远见的软件企业的关注。
他们认为,目前的网络运维支撑系统还存在着不少问题,如运维管理主要集中在性能管理与故障管理的功能实现上,没有实现完整的运维功能整合。
而且,为了解决业务运营的急需,许多系统都必须在短时间内开发完成,对系统间的互连互通缺乏周密的考虑,形成各自独立的系统,产生了很多“信息孤岛”,不能充分发挥信息化系统的威力,没有能够为电信运营商带来更大的效益。
例:“电信行业IT运维管理系统”是以IT部门在日常运行维护管理流程为核心,以事件跟踪为主线,以解决IT运维管理中的八大管理问题为目的(流程管理、事件管理、问题管理、变更管理、发布管理、运行管理、知识管理、综合分析管理),为电信行业IT部门提供了一个高效、规范的IT运维管理平台。
该系统不仅实现与目前电信内部使用的BOSS系统的接口,而且整合了客服、运维、业务管理等系统功能,并可以通过邮件、手机短信等形式对责任人进行阶段提示,提高系统维护的服务响应效率。
通过信息整合,实现对各种资源的综合管理,包括各种静态资源、基础资料、备品备件资源的有效管理。
从而全面提高IT部门运行维护的快速响应能力,同时也为IT部门的业务知识积累和业务考核建立了完善的数据模型。
此外,系统可以自动做出多种分析报表,不仅可以有效评价IT部门人员工作效率和强度,而且能够实时、动态、统一的了解所有软、硬件系统的运行、维护情况。
运维管理:概述伴随着企事业网络规模的不断扩大,企事业服务器的增多,企事业管理的信息化,企事业网络管理也变的越来越重要。
一旦网络、服务器、数据库、各种应用出现问题,常常会给企事业造成很大的损失。
怎样能7x24小时检测网络系统的运行情况,避免各种故障的发生,改进传统的网络管理方式来适企事业信息化发展的需要?因此,运维管理系统就有他的必要性。
一个完备的运维管理系统能够提供7x24小时检测网络、服务器、数据库、各种应用系统,及时发现将要出现的问题,并通过短信、Email、声音报告给运维管理人员。
运维管理人员就可以及时排除故障,避免造成重大损失。
运维管理系统的功能:故障发现与警报;记录日常运维日志信息;服务器故障统计;服务器软硬件信息统计;服务进程管理;将数据信息存储到数据库,并使用图形方式直观的展示出来;权限、密码管理;将数据生成报表。
运维管理系统的特点:邮件和短信实时故障报警;结构,能够通过web对远程服务器下达指令;监控服务器和被监控服务器之间通过python socket来发送信息;统计日常故障处理,以便下次出现同样故障时能够更快的解决问题;实现自动化管理和自动化监控;安全管理服务器性能;操作流程统计与管理。
系统结构运维管理系统采用B/S构架,运维管理人员随时随地可以对服务器进行管理、配置及故障处理。
它是将部署在同一个局域网内的所有服务器统一管理,服务器之间的信息通讯、指令发送、运维管理都通过python来实现。
监控服务器端负责采集、统计和分析数据,在数据出现异常时发送报警信息到管理员的email、手机中,并将错误日志存储到数据库中。
运维管理系统主要通过LAMP服务器、python编程、snmp和shell编程来实现。
在被监控端安装python服
务,并在被监控服务器上部署python程序和shell脚本用于接受监控服务器端指令、信息采集并发送会监控服务器端。
监控服务器端部署python程序和LAMP服务器,用于发送指令、接受数据信息、存储数据、统计数据以及异常报警。
运维管理人员日常通过web浏览器远程登录监控管理系统,检测各被监控服务器的运行状态、服务状态、防火墙配置、进程信息、操作日志等信息。
在出现异常时,通过运维系统可以查看到具体的异常服务器、进程等信息,并根据这些信息来处理异常。
智能管理模块智能管理通过程序远程查看被监控服务器实时信息,对服务器进行在线管理,对一些业务执行在线操作,并记录下远程操作日志。
减少远程登录服务器操作,减少故障风险。
同时将服务信息储存在数据库中,便于形成报表,为企业运维累计宝贵的运维经验。
智能管理主要包括:用户管理:指远程服务器的用户添加、删除,监控管理系统的用户添加、删除;
密码管理:指远程服务器的用户密码更新(或动态密码),监控管理系统的用户密码更新;
权限管理:指远程服务器用户权限分配,监控管理系统权限分配;服务器信息管理:记
录服务器的cpu、内存、硬盘、网卡等硬件信息,业务信息,在线时间;服务管理:对服务器中运行的进程、业务惊醒管理;业务数据统计:在线业务数据统计,如:注册、登录、充值、消费等信息;系统操作管理:记录用户登录系统操作的日志;运维日志管理:将出现的故障原因和解决方法以运维日志的形式保存下来;服务器日志管理:通过远程查看系统日志信息,并实现系统日志保存到监控服务器端。
智能监控模块智能监控是在原cacti监控的基础上将nagois、cacti和运维管理系统整合,实现同一平台下的监控管理。
并对一些特定的需求进行定制,使监控系统能够更加高效、准确、及时的发现和报告故障信息,提升故障处理质量。
智能监控主要包括:服务器网络:对服务器的网络状态、网络流量进行监控;服务器硬件:对服务器的硬盘、cpu、内存进行检测;服务进程:对服务器上的关键服务进行监控,并对进程的的总数进行监控;系统性能:对服务的负载进行监控;业务状态:对在线的业务进行检测,如端口、web页面检测。
安全管理模块安全管理是通过运维管理系统执行需要执行的操作可以减少不必要的误操作,如删除不该删除的文件导致业务、系统不能正常工作。
对服务器设置一些规则,当服务器出现异常时能够预警。
安全管理主要包括三大块:应用安全:指系统关键进程和业务服务;
系统安全:指远程登录、帐号密码管理、服务器的端口状况;网络安全:指服务器连接数、流量信息等。
流程管理模块规范的流程可以提高工作效率,流程管理可以累积工作经验。
许多故障并不是因为程序本身和被入侵导致的,常常由于疏忽而导致遗漏了一些重要的信息,因此按照流程操作可以减少故障出现的频率,并且随着时间的累计流程就成为一种良好的习惯。
流程管理是一个企业规范的体现,并且为运维累积经验。
主要功能包括:
服务器部署:指新服务器上架和业务部署;新业务部署:新增在线业务部署;版本发
布:指在线业务版本更新;定时执行:添加、删除一些定时执行的功能;数据备份:手动执行和定时执行在线业务系统、数据库的备份。
技术简介运维管理系统使用的开发语言为:php、python和linux shell。
Php用于实现数据展示、数据存储、获取指令;python soclet编程实现监控主机与远程服务器之间的数据通讯、数据加密、发送报警和web页面检测;shell脚本负责执行监控端发送过来的指令,并将执行结果返还给python程序。
以下流程展示了从指令下达到获取执行结果,并将结果展示到web页面的一个过程。
主机之间的通讯通过python socket编程来实现,在下达指令时能够实时获取所需要的结果,对于一些关键性服务报警也可以采取这种模式来实现。
同时对服务器之间传递的信息进行自定义加密,提高安全性。
监控服务服务方面将加入nagios,结合cacti和nagois的优点,将监控系统与运维系统整合到一个统一的平台。
监控系统的数据主要还是采用snmp来采集数据,图形展示方面需要根据实际情况进行调整。
支持远程查看服务器日志功能,加入运维日志管理功能,类似于谷歌日历,将每天的运维操作日志记录到日历中,并具有备忘提醒功能。
安全管理主要是减少外网远程登录服务器带来的风险,所有的外网服务器的远程登录将通过运维管理服务器来做跳转,业务服务器只接受内网服务器的远程接入。
服务器密码方面实现动态密码管理,根据各个服务器的实际状况和一些参数生成动态密码。
修改防火墙配置,对于外网非必需端口一律关闭。
将日常运维日志、服务器部署、业务部署、故障发现及处理通过web记录数据库中。