XX信息中心网络设备巡检服务工作规范(H3C设备网络)V1.0信息中心目录1概述 (5)2巡检工作流程 (5)2.1巡检前期准备 (6)2.2数据采集阶段 (7)2.3数据分析和报告生成阶段 (7)2.4汇报和满意度调查阶段 (7)3网络巡检数据采集方法 (7)3.1手工数据采集方法 (8)3.2网络管理平台数据收集方法 (8)3.3巡检工具数据采集方法 (8)4网络巡检服务基准数据库的建立 (8)5网络巡检工作内容 (9)5.1巡检工作的主要内容 (9)5.2网络巡检工作技术涵盖 (10)6网络系统巡检基本判断标准 (10)7设备相关信息收集 (12)7.1软件版本及硬件信息分析 (12)7.1.1当前设备硬件信息 (13)7.1.2当前设备运行软件信息 (14)7.2设备板卡硬件配置信息分析 (14)7.3设备运行状况检查 (15)7.3.1设备CPU工作状态检查 (16)7.3.2设备CPU利用率分析 (16)7.3.3设备MEMORY使用状态检查 (17)7.3.4设备MEMORY利用率分析表 (18)7.4设备运行状态检查 (18)7.4.1电源的工作状态 (18)7.4.2风扇的工作状态 (19)7.4.3设备工作温度 (19)8端口的可用性、准确性检查 (19)8.1端口状态检查 (19)8.1.1基本网络接口状态分析 (22)8.1.2接口半/全双工模式和链路类型 (23)8.1.3接口稳定性统计信息 (23)8.2端口状态检查表 (23)9设备端口负载及流量检查 (24)9.1设备缓存信息检查 (24)10 网络架构、配置信息分析 (24)10.1网络结构检查 (24)10.1.1检查内容 (24)10.1.2检查方式 (24)10.2网络配置信息检查 (27)10.2.1检查内容 (27)10.2.2检查方式 (27)11LOG信息检查 (30)11.1标准的LOG格式 (30)11.2LOG日志等级 (30)11.3日志信息分析表 ............................................. 错误!未定义书签。
关于文档为保障XX信息中心网络的平稳运行,将在每月进行网络巡检,并根据巡检结果给出相应的网络系统改进和优化建议。
本文档面向XX的技术人员和外部支持公司网络工程师,通过参考本文档,共同完成对XX信息中心网络运行状况的检查与分析。
通过本文档使XX技术人员和外部支持公司网络工程师充公了解XX信息中心对网络巡检的基本要求,以该规范为参考,使得网络系统巡检工作更加标准化、规范化。
由于网络技术的不断发展和设备的更新换代,本规范需要逐步地更新、完善,增加网络设备硬件、软件、固件的新版本和新硬件的内容。
同时,随着网络健康服务的不断深入,对网络系统检查的深度和范围也将发生变化,本规范也会逐步地完善。
文档适用对象本文档仅适用参与XX网络项目相关技术人员和外部支持公司的网络工程师。
1 概述为确保XX信息中心网络安全生产,提升网络服务质量,确保设备的正常运行,将每月对XX信息中心网络设备进行巡检,巡检范围根据巡检工作需要而确定,通过对网络设备的数据采集和分析,能够对XX信息中心网络设备的状态具有更加深入地了解。
网络巡检是指通过标准的方法和流程定期地对客户一定范围内的网络进行网元级的系统检查,内容包括现场数据采集、分析、客户报告生成等。
通过对关键网元设备的关键检查点参数进行数据采集、并将采集到的数据与有关标准进行比较,从而确定关键网元设备所处的运行状态。
通过定期网络巡检,可以及时发现网络中可能存在的隐患,并消灭在萌芽状态。
2 巡检工作流程网络巡检工作分为前期准备、现场数据采集、数据分析、报告生成和汇报、满意度调查和问题整改追踪等五个阶段。
服务流程如下:2.1巡检前期准备在网络巡检的前期准备阶段,工程师需要在与客户进行充分沟通的情况下,确定要巡检的设备范围及巡检重点,形成《网络巡检方案书》。
网络巡检书至少包括:●巡检设备范围和巡检工作重点●巡检各个工作环节的方式●数据采集的命令集●协商具体的巡检时间安排●巡检报告输出样表和图形在得到客户认可的情况下,进入下一阶段的工作。
2.2数据采集阶段在网络巡检的数据采集阶段,对于网络数据采集的手段和工具需要得到用户的授权,遵守用户运行管理的相关规定,在指定时间和网络设备范围内进行数据采集工作。
在用户的协助下收集相关网元的技术数据,并记录输出结果。
2.3数据分析和报告生成阶段巡检工程师对现场采集到的数据进行分析,形成《XX信息中心XX中心网络巡检报告》。
经过南天公司的网络专家审核通过后,由工程师负责以纸质文档或电子文档的方式提交给客户。
2.4汇报和满意度调查阶段通过定期交流的方式,讨论巡检工作中发现的问题及隐患,给出网络运行状况的检查、评估及建议,并进行问题跟踪。
同时进行客户满意度调查,以便发现和纠正工作中的问题,改进网络系统巡检工作。
3 网络巡检数据采集方法网络巡检服务的数据采集方法有两种,一是手工命令采集,并配合网管平台进行辅助性数据采集的方法;一是巡检工具数据采集的方法。
3.1手工数据采集方法手工采集就是登录到网络设备上,通过手工输入命令并记录输出结果的方式进行数据采集。
为加强手工数据采集的准确性和合理性,需要对数据进行多次,重复性数据收集。
如考量CPU的利用率和MEM的利用率等信息,可以采用日起、日中、日结等三个阶段,分时段收集并进行汇总比。
对于网络设备运行状态、数据流量等信息的趋势性数据采集需要结合一定时间段数据的采集工作,需要利用网络管理系统进行相关数据的采集工作。
3.2网络管理平台数据收集方法通过网络管理系统收集相关的数据,可以进行一个阶段的趋势分析,以便更加准确地了解网络系统的整体运行情况,并可以与手工数据采集的结果进行对比,确保数据采集和分析的合理性和可靠性。
3.3巡检工具数据采集方法通过H3C提供的专用巡检工具进行数据采集。
该工具集合了常用的设备状态检查的命令,可以自动化收集输出结果,并在后期导出巡检报告。
但是需要H3C 提供软件及其授权。
在没巡检工具软件的情况下,可以由第一巡检方法来替代。
4网络巡检服务基准数据库的建立由于网络系统的巡检服务是一个长期的、持续性的工作,首先需要对网络系统具有一定的了解,建立一个基本信息库。
主要包括:➢设备清单:设备名称、IP地址、位置、功用、序列号等➢设备模块硬件配置:模块种类、型号等➢设备软件版本➢设备使用、维修记录➢设备性能基准,包括CPU、Memory利用率、设备端口流量的初始数据等➢设备端口信息:相关计数器初始状态通过第一次巡检完成基本信息库的建立,作为以后巡检工作的数据对比性分析的基础和依据,并保持数据更新,动态调整基本信息库的参考点。
5网络巡检工作内容5.1巡检工作的主要内容本项目中,网络巡检工作中涉及的相关内容如下:1)设备基本信息收集采集设备的基本信息,包括用户定义的设备名称、设备序列号、设备型号、运行的软件版本、内存大小、CF卡的大小等2)设备运行状态检查主要采集和分析网络设备的CPU、Memory利用率,并在可能是的情况下,观察其变化趋势。
3)设备管理运行环境检查主要通过设备的相关命令收集网络设备的运行环境,主要包括机框内部各个检测点的温度及其变化,电源工作状态和工作输出电压等相关信息。
4)场地环境检查检查设备的运行环境,如机房温度、湿度、设备供电、网络线缆走线等5)网络设备硬件检查检查设备状态、设备连线状态等6)网络设备日志检查使用display命令,收集设备运行日志,并做分析7)核心设备的端口可用性、准确性检查使用display命令查看设备各端口的工作情况,包括端口的输出、输入错误丢包信息等,buffer占用情况和缓冲器溢出现象等8)核心设备端口负载及流量检查通过网管及其他手段,对设备端口的带宽占用、负载和流量进行统计分析,便于掌握网络设备及其连接线路的情况。
9)网络系统总体性能评估针对巡检的内容及分析结果,对网络运行的整体情况做评估。
5.2网络巡检工作技术涵盖网络系统巡检工作主要涵盖以下技术内容:6网络系统巡检基本判断标准我们将依照依据华三公司的技术指标和业界遵循的阈值、惯例和相关技术标准,将采集的数据结果与其对照分析,以判断当前网络运转情况是否良好,根据具体发现的问题提出合理改进意见。
1)设备运行记录2)设备报警温度3)电源风扇状态4)CPU内存状态5)接口丢包错包率(增量)6)接口负载率7)防火墙状态7设备相关信息收集7.1软件版本及硬件信息分析使用命令display version,查看路由器信息,在巡检过程中用此命令收集来的数据主要作用是:➢查看当前设备型号,及当前启动软件版本➢查看当前设备已运行时间➢查看当前设备引擎内存大小➢查看当前设备Flash大小具体关注方法如下:7.1.1 当前设备硬件信息设备硬件信息主要包括如下参数:H3C S7500 with 1 MPC8245 Processor256M bytes SDRAM32768K bytes Flash Memory512K bytes NVRAM Memory(如图第7-10行)当前设备引擎号、内在与Flash大小H3C S7500 LPU with 1 MPC8241 Processor128M bytes SDRAM0K bytes Flash Memory0K bytes NVRAM Memory(如图第18-21行)如果设备有冗余引擎,此处显示7.1.2 当前设备运行软件信息设备软件信息主要包括如下参数:BootROM Version(如图第23行)自启动文件的版本,可用于路由器启动前配置,修改超级管理密码。
中低端设备亦称之为Bootstrap。
Comware software Version (如图第3行)系统文件的版本,不同的版本支持的功能不尽相同。
一般情况下向下兼容。
前期设备称之为VRP softwareUptime(如图第6行)Uptime列出了该设备已运转的时间,这些信息可以帮助客户判断机器是否发生过意外的重启等7.2设备板卡硬件配置信息分析设备板卡硬件数据采集分析的主要任务是通过检查网络设备的板卡和模块配置,对网络设备的负载、容量和扩展能力进行分析。
查看基本信息检查的命令主要有:display device display diagnostic等命令设备硬件统计信息主要包括以下参数:Slot所在位置的槽号Status显示板卡状态SftVer显示板卡上软件的版本设备硬件分析的参考标准Status:当设备启动正常后,所有板卡状态就为Normal,如果有双引擎进行冗余状态配置时状态为一个Master,另一个是Normal。