当前位置:文档之家› 网络流量、应用性能分析、故障定位分析方案

网络流量、应用性能分析、故障定位分析方案

.XX省农信社基于产品的网络流量、应用性能分析、故障定位分析项目测试报告2019年6月11日目录1概述随着大量新兴技术和业务趋势的推动,用户的网络架构、业务系统和数据流量日趋庞大、复杂。

为了保证网络和业务系统运行的稳定和畅通,我们需要对网络及业务系统进行全方位监测,以确保网络及应用系统可以正常、持续地运行。

应用性能管理是一个新兴的市场,其解决方案通过监控应用系统的性能、用户感知,在应用出现异常故障时,帮助用户快速的定位和解决故障,其标准的需求如下:➢通过网络流量分析工具,掌握各级网络运行的趋势和规律,主动、科学地进行网络规划和策略调整,将网络管理的模式从被动变为主动:➢通过网络流量分析工具,实时监控网络中出现的非法流量,及时采取管控措施,保障应用系统的安全运行;➢应用系统出现问题(如运行缓慢或意外中断时,)通过网络流量分析工具可回溯历史网络流量,快速找出问题的根本原因并及时解决。

➢网络拥堵时,通过网络流量分析工具快速判断是正常应用系统占用了带宽还是异常流量占用了带宽,立即执行相应、有效的控制措施。

➢从最终用户感知的角度,提供多维度的应用性能监控,实时掌握应用系统的性能状况;➢7×24小时实时监控各区域用户的真实使用体验,及时发现用户体验下降,并及时作出相应的处理,提升用户满意度。

➢当故障发生时,快速定位故障域,缩短故障分析时间,降低故障对最终用户造成的影响,提高系统的运维质量。

年APM市场全球分析报告与魔力象限分析,Riverbed(OPNET)公司已经成为全球这个领域的领导者。

OPNET公司的客户群体非常广泛,国内的用户包括中国移动、中国网通、中国电信、信息产业部电信规划研究院,中国农业银行总行,民生银行,新华人寿,中国海关总署,银河证券,国信证券,电信设备供应商中包括华为、大唐电信、摩托罗拉、中兴电子及西门子等。

2测试方案OPNET网络应用性能监控设备,及OPNET应用性能深度分析,提供了业界最优秀的最终用户体验监控与预警、应用SLA监控与违反预警、应用性能瓶颈定位、应用性能问题根源分析、未知/异常流量发现、流量成分分析、流量流向分析、及应用预部署仿真系统。

XX省农信社的应用服务器目前主要部署在核心机房,大致分为3个区域,生产区域、广域网区域、网银区域。

当应用出现问题或柜面用户出现无法使用业务系统时很难快速确定问题出现在网络问题、服务器问题还是应用本身问题。

为了能够快速了解客户端运行业务的性能问题的变化状况,快速了解应用可能出现的问题区域,建议分别在XX省农信社生产区域、广域网区域、网银区域的核心交换机上通过端口镜像的方式将流量监控起来,当出现应用性能问题时能够通过关联分析了解整个应用流程的性能变化状况和快速提取出现性能问题时的故障现场,快速了解出现网络异常和网络性能问题的原因,快速确定故障域。

同时快速了解XX省农信社整个交易的性能状况,及时发现可能存在的问题,预警可能出现的性能问题,主动进行交易系统的应用性能管理,避免不必要的用户投诉。

当用户出现应用投诉时,能够及时利用这套监控方法重现用户投诉时的故障现场,及时发现出现用户投诉时的客户的访问行为,分析并确认客户投诉的根本原因,提升客户满意度和交易系统的应用性能。

根据XX省农信社的要求,本次Opnet提供的测试设备为ARX3700,ARX3700监控采用非侵入式的监控方式,通过交换机端口镜像的方式在网络上进行流量采集实现端到端的应用性能分析和故障定位。

并通过ATX深度分析确认出现故障原因的根本原因------如客户端、网络、服务器还是服务器上的页面处理慢、应用交互次数多等。

ARX/ATX提供了业界最优秀的最终用户体验监控与预警、应用等级SLA监控、SLA违反预警、应用性能瓶颈定位、应用性能问题根源分析、未知/异常流量发现、流量成分分析、流量流向分析、及应用预部署仿真系统,保障银行各项关键业务的运行通畅。

根据要求,测试要求达到下列目标:●对于不同的业务交易提供实时的业务流量和业务性能变化的状况,快速了解是否已经出现应用性能瓶颈.●提供业务系统整个流程流量原始裸数据包保存,能够保证快速提取相关问题的原始数据包。

●对于WEB业务交易的性能变化状况和业务交易性能提供统计报告,包括交易的交易量,交易的响应时间,交易的4xx错误,交易5xx错误,慢的交易数量及页面的大小等参数,了解整个业务的交易情况.●设置主动运维的报警,自动报警出现交易性能问题的交易,自动保存故障前5分钟的数据,方便运维人员及时提取相关的报警数据,回放故障现场的数据,确定故障的原因.●针对投诉的客户能够重现客户当时访问的交易并提取客户投诉时间段的原始数据,根据原始数据进行客户投诉现场的分析确定客户投诉的原因.●利用RTCC------响应时间组成图,快速确认响应时间延迟发生的部位,提供依据,对根本原因进行排查;●提供自动化端到端诊断,包括瓶颈的发现、解决或优化建议;●SLA服务质量------利用SLA服务水平,掌握各个不同的区域客户的运行状况,随时能够了解不同区域的用户的网络质量的变化和业务质量的变化状况,对随时出现故障的影响区域,进行有效的主动管理和故障分析及定位.●网络整体服务质量------利用Network performance仪表板查看网络性能监控,查看网络上的延迟和重传,保证业务健康运行.●网络上应用的分布状况及服务质量------了解整个系统应用流量和性能的变化趋势,了解整个系统的日常基准,随时自动追踪流量和性能变化,报警可能出现的网络攻击和异常的变化,主动进行分析和解决出现的异常,按天、周及月等时间跨度进行流量统计.●服务器的服务质量------利用Slow Server-IP仪表板查看性能差的服务器(交易处理较慢的服务器IP地址)。

自动记录不同业务组中的服务器对外提供的服务质量,快速定位出现应用性能问题的服务器,及时解决问题,保证正常的业务服务。

如果出现用户投诉的现象,利用分析软件确定相应时间慢的瓶颈,确定优化的步骤和措施.●网络异常攻击和蠕虫防病毒监控------利用Worm hunt仪表板(发现三次握手失败的连接),自动记录出现网络连接失败次数高的应用和通讯对。

了解网络上连接数的变化状况,避免由于网络攻击造成的对业务的影响,快速定位攻击的来源和对象,避免业务损失.●网络线路延迟监控------利用High Network Latency-IP仪表板(延迟比较长的IP),自动统计业务组的网络延迟,网络延迟最大的组为Internet,延迟最大的网络区域和IP,查找延迟大的原因,发现潜在的网络延迟区域,发现潜在的网络拥塞,主动进行相关的网络故障分析和故障排除,保证网络正常运行.●网络丢包率监控------利用High Packet Loss - IP仪表板(丢包较高的组别),可以看到各个子网的丢包变化状况。

查看网络上丢包状况,及时定位丢包率高的网络,修复出现的网络故障,保证业务健康运行.●内置智能告警------利用内置的智能告警,自动识别异常告警和用户自定义的阀值,发现网络上出现异常的现象,主动进行网络上的故障分析和故障定位.●事件驱动的数据采集和保存------利用Rolling Buffer和事件驱动的网络全包数据采集能力,记录全部的数据全包和事件驱动的全包数据采集保存,方便客户进行事后的故障现场分析和故障定位.3Opnet测试情况汇总根据XX省农信社应用的特点及实际情况,分别在生产区域、广域网区域、网银区域依次部署ARX3700设备。

根据用户的要求,尽量不影响现有的应用和服务器性能状况,采用无代理监控的方式进行日常应用性能的监控。

ARX3700设备采用非侵入式、全透明的监控方式,是透过本身的监控端口,收集从核心交换机镜像的流量来实现,不需要在任何服务器安装代理服务。

此外,ARX3700设备配置一个10/100/1000电口,作为远程管理、登录监控界面时使用,并能实现带外管理。

因此,设备对网络不造成任何影响与干扰,安装时不中断网络,不对任何网络设备造成压力,也不造成任何延时,对网络及业务零影响,能够在一般的机房环境中正常执行监控工作。

ARX3700设备本身带有4个监控端口,当镜像的端口数量超过4个时可以采用流量聚合设备进行流量的合并,然后将合并后的流量接到流量监控设备上进行相关数据的分析和故障定位.。

监控设备的接入方式采用端口镜像的方式实现,镜像是由交换机的背板(backplane)进行。

因此,镜像完全不影响源镜像口所在的板卡,不影响目的镜像口所在的板卡,也不对有关的板卡造成额外压力或延时。

因为镜像是在背板进行,背板速度一般在100Gbps以上,因此,对设备本身的影响微不足道.3.1生产区域3.1.1网络质量监控3.1.1.1网络总体性能监控查看网络上总体性能的变化状况,了解各个部门的网络占用状况和应用性能的变化状况,制定合理的网络升级计划,保证业务健康运行。

设备安装上架并配置完成后,即可从ARX的监控界面中查看整体网络流量状态,可监控的参数包括包括吞吐量、RTT、丢包(入站、出站)、TCP 数等指标。

如图发现9:00-10:00 之间有较高的吞吐量,选中进行分析。

双击打开详细信息,深入分析得出,该时间段内吞吐量达到3.1.1.2网络连接数监控了解网络上连接数的变化状况,避免网络攻击,快速定位攻击的来源和对象,避免业务损失。

在ARX的管理界面中,可查看网络流量中的TCP连接状态,可TOP显示出连接数最频繁的ip通信对及通信端口、协议等信息。

利用Worm hunt仪表板(发现三次握手失败的连接),自动记录出现网络连接失败次数高的应用和通讯对。

3.1.1.3网络性能监控查看网络上的延迟和重传,保证业务健康运行。

ARX的管理界面,可实时展示出,网络流量中,延迟最高的IP通信对,及应用的名称。

登录ARX的Console管理界面,利用Network performance仪表板(识别关于某个应用、组、IP等在ARX部署位置两边的网络延迟和重传)可以看到各个子网的网络性能变化状况。

利用RTT时间可以看到网络的服务质量的变化。

3.1.1.4网络带宽占用监控了解网络上应用带宽的占用状况,合理分配网络资源,避免不必要的资源浪费,保证业务健康运行。

通过ARX的管理界面,实时展示出网络中,产生流量最大的IP通信对及使用的协议、端口信息。

登录ARX的Console管理界面,利用Bandwith hogs-ip仪表板(流量比较多的主机),自动记录流量大应用和流量大的通讯对。

3.1.2应用服务质量监控3.1.2.1用户体验时间监控功能了解系统一周内的变化状况,根据不同的交易时间设置交易响应时间的报警,获取交易故障时间的故障数据,便于事后的故障分析和故障定位,进行主动的事件管理和故障分析及故障解决。

相关主题