当前位置:文档之家› 运维风险预估措施

运维风险预估措施

运维风险预估措施
⏹部门运维部⏹版本编号Ver_1.0
⏹日期2014-05-20 ⏹密级公司内部使用
文档信息
文档名称服务器故障应急措施方案
日期版本号更新说明
2014-05-20 Ver_1.0 建立文档、初始化
一、服务器风险预估
1.服务器被攻击
1.1.拒绝服务攻击
拒绝服务攻击的方式很多,主要常用的攻击手段有SYN Flood、UPD洪水、IP欺骗攻击、CC攻击。

防范DDOS攻击首先要能够检测到,并且及时做出响应,才可以防范。

SYN Flood通过TCP三次握手的原理,服务器如果出现第三次握手包迟迟收不到,将会占用服务器的内存资源,攻击者在较短时间内伪造大量不存在的源IP地址数据包进行攻击,将会耗尽服务器的内存资源,最后无法提供正常服务。

根据SYN Flood的攻击方式,可见动态的根据攻击流量进行设置TCP第三次握手的超时时间是降低攻击效果的主要方法。

1.2.入侵检测
遭受黑客入侵不可怕,可怕的是被入侵还不知道,这就需要部署一台入侵检测设备,可以使用开源的Snort进行部署,但是IDS的误报率会很高,而使用OSSIM的关联分析功能就可以减少很多误报。

1.3.防火墙防护
将服务器放置在防火墙的DMZ区域,通过对防火墙进行配置可以避免外网对服务器进行端口扫描,从而提高服务器的安全。

放置在DMZ区有另一个好处就是可以保护内部网络。

2.内部环境安全
2.1.防止ARP欺骗攻击
通过在交换机的接口进行MAC绑定,实现终端设备的接入控制,这样就可以防止恶意用户的接入。

终端电脑绑定网关的MAC地址,以防攻击者欺骗网关。

对ARP数据包进行检测,防止ARP洪泛攻击。

2.2.可信任主机接入
在交换机端口下,对IP地址与MAC地址进行绑定,可以限制特定用户对网络进行访问,其余的用户无法接入网络。

2.3.DHCP欺骗攻击
在接入层网络伪造一台DHCP服务器,将所有的网络流量指向黑客创建的伪造网关,所有到伪造网关的流量都会被分析,并且通过伪造DNS,把国内一些大站点的域名指向钓鱼网站,或者放入最新的溢出漏洞夹杂在页面中,造成的危害会很大。

通过在交换机上配置DHCP可行端口进行防范DHCP的欺骗攻击。

3.安全配置
3.1.帐户密码安全
root进程指的是只有root用户的权限才可以启动的服务,通过root绑定1024以下的端口,这样可以防止恶意用户开启低于1024的端口进行欺诈攻击。

用户密码放置在以下路径中:
/etc/passwd
/etc/shadow
可以通过预定的安全策略对密码进行定期修改,并且强制设置高强度的密码,以及使用目前加密强度最大的加密算法,防止被爆破以及APT攻击。

3.2.远程访问安全
禁用明文密码传输的telnet远程访问协议,使用安全shell(ssh)保障数据的安全交换。

3.2.1.修改ssh 服务root登录权限
修改ssh服务配置文件,使的ssh服务不允许直接使用root用户来登录,这样减少系统被恶意登录攻击的机会。

3.2.2.修改ssh服务的端口号
ssh默认会监听在22端口,通过修改至6022端口以避过常规的扫描。

注意:修改端口错误可能会导致你下次连不到服务器,可以先同时开着22和6022两个端口,然后再关掉22端口;重启sshd不会弹掉你当前的连接,可以另外开一个客户端来测试服务;
3.2.3.阻止任何人su作为root
通过禁止普通用户切换到root,但可以设置一组特殊用户切换,降低了服务器被提权的风险。

3.3.审计系统日志
对系统日志、关键应用日志进行定期自动异地备份,可用来做故障排错,故障提前报警,也可以防止被黑客为了抹掉登录痕迹而删除,目前对最前沿的日志审计系统是SOC,全称为安全运维中心,可以对各种网络设备、服务器、终端主机进行日志审计,并且做出关联分析。

3.3.1.减小history缓存命令条数
对于linux系统来说,有一条history命令,可以记录用户所输入的命令,如果命令中涉及一些密码或者敏感的操作,将会被黑客利用。

通过设置bash的环境变量可以设置history缓存命令的数目。

3.3.2.注销时删除命令记录
注销用户的时候就自动清除$home/.bash_history,历史命令只是对当时用户在调试服务器时会用到,当用户退出tty线路自动清除可以防止泄露服务器的历史配置命令,如果有需要可以异地备份。

3.3.3.对auth.log进行定期分析
在文件系统/var/log/auth.log的文件下,保存了登录操作系统的时间、ip地址、用户名,对这些日志进行定期分析,可以查出那些未授权的用户登录过。

3.4.DNS安全
服务器系统的Dns被篡改成用于欺诈与钓鱼的dns,将会导致下面连接代理上网的终端被钓鱼网站欺骗,用户信息窃取等情况出现。

4.服务器环境
操作系统本身几乎每天都在更新的,如未能及时打上补丁可能会被攻击,网络如果出现linux的0day 漏洞,就必然会有相应的批量拿站的工具出现,所以危害很大,那么就需要进行定期更新,但是由于公司的服务器都是在生产环境下的,升级操作系统可能会带来风险,
建议可以使用影子服务器进行测试,之后才让生产环境的服务器进行升级,这样可以降低风险。

更新操作系统的流程:
4.1.筛选需要进行更新的补丁,对严重影响服务器系统安全的补丁,以及影响服务器业务的补丁,列入更新
列表。

4.2.验证测试环境下做更新测试,测试更新成功后进行升级。

4.3.获得业务系统所有人的授权
4.4.申请维护时间窗口,尽量选择在网络流量低峰时期。

4.5.升级系统之前,需要对数据进行备份,并且准备回退方案。

5.服务器负载问题
5.1.数据超过硬盘读写负载能力导致应用程序崩溃;
5.2.CPU使用率跑满导致服务器宕机;
5.3.使用内存cache占用过多导致宕机;
5.4.硬盘空间使用满导致宕机;
5.5.用户量过多,服务器带宽不足,导致卡顿,用户访问程序故障;
5.6.系统连接数过多造成系统拥堵网络带宽使用不上;
5.7.数据库数据读写占用过多服务器连接数,达不到预期的服务器带宽;
6.服务器硬件故障
6.1.电源线损环;
6.2.服务器电源损坏;
6.3.服务器非人为硬盘损坏;
6.4.服务器受黑客入侵攻击时导致硬盘损坏;
6.5.CPU温度过高烧毁;
6.6.内存使用中损坏;
6.7.主板在电源损坏时容易烧毁;
二、运营商风险预估
1.机房网络故障
1.1.骨干网光纤切割;
1.2.机房网络升级;
1.3.机房网络设备调试;
1.4.机房网络设备损坏;
1.5.骨干网网络出口故障;
2.DNS域名解析缓存
每一个域名,在服务商那边都有一个DNS服务器,作用是把利于用户记忆的域名转换成计算机方便理解的IP地址,在域名管理中,其中一项就记录着你的域名指向,术语叫A记录,用于指向一个IP地址。

但是并不是每次访问你的网站,都会去你的服务商DNS服务器查询IP地址。

通常你所在的城市ISP (网络服务提供商)都会有一个DNS服务器,他会在你第一次访问时缓存你的域名指向。

下次你再访问时,他会从缓存里把你曾经指向的IP调出来。

3.政治因素
3.1.服务器没有备案;
3.2.域名备案存在问题;
3.3.黑客入侵导致服务器违法行为;
3.4.违规代理服务器;
3.5.服务器转发违禁网站;
3.6.服务器放置的网站内容不符合当地的政府法例法规;
三、故障处理
1.划分故障等级
故障级别故障说明故障处理第一步
Ⅰ级(紧急)当系统出现下列相当严重的现象时,属一级故障:
系统整体瘫痪,全部操作失去响应
发生间歇性、随机性、重复性的启动或应用
退出,无法保障公司业务的正常处理
核心业务、用户数据受到入侵,系统与应用
数据被篡改
立即汇报上级
Ⅱ级(重要)当系统出现下列比较严重的现象时,属二级故障:
关键部件(含软、硬件)停止工作,导致系
统降低运行状态,客户业务受到严重影响
重要数据、参数和配置信息损坏,无恢复,
导致客户数据及业务记录严重损失
部分页面被恶意篡改,涉及非法内容
立即汇报上级
Ⅲ级
(关键)
当系统出现下列现象时,属三级故障:
应用功能部分停止运作,影响业务
应用出现中型BUG,或者是报错
网络访问速度慢,或者响应慢
部分用户反馈异常
立即汇报上级
Ⅳ级(告警)当系统出现下列情况而不影响客户业务时,属四
级故障:
应用功能部分停止运作,不影响业务
应用出现小型BUG,或者是报错
网络访问速度较慢,或者响应较慢
少数用户反馈异常
故障排错流程
4.故障报告邮件格式
4.1.故障报告邮件标题命名规则
例如:故障报告_Ⅲ级—关键_xx功能模块不可用4.2.故障报告邮件内容。

相关主题