业务性能监控平台立项可行报告目录一引言 (1)1.1项目背景 (1)1.2目标 (1)二系统需求分析 (2)2.1可行性分析 (2)2.1.1基于网络数据资源的应用性能管理方法 (2)2.1.2基于网络数据资源的应用性能管理技术优势 (4)2.2需求理解和分析 (5)2.2.1核心需求 (5)2.2.2解决的问题 (6)2.2.3图形化配置 (6)2.2.5关键指标统计 (6)2.2.6网络访问关系梳理 (7)2.2.7敏捷抓包 (7)2.2.8服务路径图 (7)2.2.9交易追踪 (7)2.2.10智能告警 (8)2.3总体架构 (8)2.4BPC系统数据处理流程 (9)2.5系统运行环境 (11)2.6其它需求 (12)2.6.1可扩展性 (12)2.6.2协议解码扩展 (13)2.6.3可维护性和易用性 (13)2.6.4安全性需求 (13)一引言1.1项目背景随着SOA(以服务为导向的架构)在企业IT组织中的广泛运用,IT运维人员需要一种有效手段能够对核心服务的性能进行管理,敏捷应对业务变化,掌握运维的主动性。
它不但需要能够真实刻画核心服务的运行情况,还需要能够跨越多种技术架构,并且囊括防火墙和应用交付设备。
同时,还需要易于建设和使用。
●系统间相互孤立,格式不一,数据高度离散,缺乏关联性●采用Agent模式导致被管理系统性能下降,影响业务生产,难以获得实时性●同时监控管理系统往往需要专门开发,面对多技术融合的复合应用,开发周期长,落地困难,维护成本高。
1.2目标构建端到端全路径应用性能监控平台,实现应用梳理,实时监控,智能告警,交易统计,追踪查询等。
并与现有的监控平台或事件管理平台实现集成。
(包括核心、综合前置、人行二代、同城、银联、农信银等)二系统需求分析2.1 可行性分析2.1.1基于网络数据资源的应用性能管理方法利用网络数据的应用性能管理平台使得这些问题迎刃而解,实时性、可关联、低成本、高可用成为这种平台的技术优势,给企业IT部门带来诸多收益。
应用性能管理着眼的是应用系统整体的性能管理,而非仅仅针对某个技术层次的“竖井”式的解决方案,因此从指标到覆盖范围,应用性能管理平台应该具备以下能力:网络数据资源丰富在SOA架构下,应用服务层级划分非常清晰,层级间的交易全部通过网络传输完成,基础设施和交付设施本身都以服务为中心向应用提供界限明确的服务功能,采集设备可以轻松获得关键交易环节的网络数据,这给网络数据源的获取带来极大便利和灵活性。
目前网络数据的获取方式主要有两种:第一种是专用流量镜像设备,例如TAP Switch类产品,这些专用流量镜像设备为后端数据分析提供优秀的数据源整理功能,包括过滤、汇聚、分发类基础功能,以及数据包裁切、剥离/加载标签等高级功能,并且能够确保数据包先后顺序的准确性。
采用这种流量镜像方式可以在流量获取环节获得最大优势,为后端数据处理环节节省资源消耗。
另外一种是交换机端口镜像(SPAN)方式,这种技术起源于思科,是成熟、稳定的网络流量获取技术,已经普及于各大厂商的网络产品,包括思科、华为等等,具备十分广泛的可用性。
●采集设备技术成熟而在网络数据采集环节,SmartProbe具备高性能数据捕获和存储能力,网络流量可视化的功能使得应用梳理工作变得简单易行。
可以为上层分析平台提供精准的数据源。
●监控平台的技术实现方法和提供的功能上层应用性能管理平台则充分利用网络数据,通过协议解码技术,充分利用网络数据资源,帮助企业IT部门建立应用性能管理平台。
协议解码是上层分析平台的底层基础,应用性能分析的指标均来自于协议解码信息。
SOAP已经成为SOA架构中的主流技术,这些标准化协议的使用给协议解码技术带来了极大优势。
由于协议采用标准规范,解码器可以适用于所有SOAP协议的解码,而针对不同的应用环境,只需要配置化修改解码字段即可适用,不需要重新开发解码器。
也就是说在协议解码这个环节,可以广泛适用于SOA架构。
上层呈现针对业务逻辑和服务访问路径,采用图形化的配置方式完成,建立应用组件库,按照实际服务情况组合应用组件,建立端到端的服务路径图。
这是应用性能管理的主线,从而实现以服务为导向的监视管理,从关键指标数据的呈现,到数据分析过程中的导航,再到问题的发现和定位,都以这个服务路径图为中心实现。
在指标分析上,则以交易为中心,提供交易量、成功率、响应时间、返回代码四大关键指标,并区分交易类型、子交易类型、交易渠道进行指标统计。
在监视范围上覆盖端到端的应用服务组件,实现应用性能和可用性的多维度可视化。
其中应用层的返回代码也是应用性能管理的一项重要指标,监视不同层面的应用层返回码,可以为管理人员带不同的管理收益。
比如在Web Service的返回代码中发现5XX类错误即表征Web服务出现故障;而业务层错误代码的状态则可以反映业务交易处理流程中可能出现异常状况。
通过协议解码,获得基础的性能信息以及更加深入的应用交互信息,基于此事件追踪查询功能,即支持快速简洁的时间、IP、交易类型、交易结果等基础信息组合查询,又支持应用协议中多字段组合查询,同时为一线运维人员和专家提供易用的交易追踪接口和深度解析能力。
而基于多层应用之间协议中的字段信息,进行自动化的交易关联,使得在服务路径上能够关联各层级应用组件,获得端到端的交易追踪查询能力,帮助IT部门快速定位问题原因和位置。
分布式的架构能够支持多中心模式应用。
企业IT建设多数据中心,应用架构也采用负载分担或主备模式运营,这给应用性能管理带来的问题就是需要跨数据中心进行监视管理。
分布式架构可以很好的支持这种场景,每个数据中心部署平台处理设备,分别在本地获取、分析、存储数据,然后将分析结果呈现在统一用户管理界面上。
这避免了在广域网上传输数据而占用大量带宽,同时又能够保证整体平台的处理性能。
2.1.2基于网络数据资源的应用性能管理技术优势●0风险,高可用性,可靠实施落地旁路式的监控技术不会对被管理应用产生任何影响,完全避免了传统监控方式所带来的性能下降、宕机风险,因此也可以获得实时统计能力,第一时间为IT部门提供应用性能数据。
同时无需开发,配置化的协议解码技术,以及配置化的应用服务定义方式确保了BPC 平台可以灵活、快速实施。
结合BPC产品的两种优势技术,专业服务覆盖应用梳理、协议解码、部署实施,全方位确保BPC平台可靠落地。
●提供实时、准确的数据业务的保障对时效性要求是最高的,一旦出现问题,要在最短的时间内恢复并解决问题,企业IT运维对这个时间窗口有非常严格的标准。
采用网络数据分析应用性能的优势就在于旁路模式带来的好处,数据本身是业务运行中实时产生的网络流量,本身就是实时数据源,而且把握了每个交易组件的交易处理出入口,配合旁路采集设备的高精度时间戳技术,能够直接反映最真实精准的交易状态数据。
●交易追踪关联分析能力服务路径是应用性能管理当中的核心视角,除了直接呈现端到端的应用组件逻辑关系之外,还把这些组件的交易串联在一起。
对于应用性能管理来说具备两个优势:一是把关键性能指标按照业务逻辑组织起来,一旦发生问题从组件层级的指标变化中即可发现当中的连锁反应,以便快速找出源头;二是对于不同层级组件的交易来说,协议中往往具备可以用来关联的字段,分析同一笔交易能够将前后组件的交易记录关联在一起进行分析,也就具备了精确分析不同应用组件的处理交易性能的能力。
这种关联特性在问题定位时为使用者提供直接有效的数据依据。
●配置化解决方案,降低开发成本利用网络数据进行应用性能管理,在协议解码和服务定义两个环节上用配置化的方法实现是最佳选择,这种技术和方法具备松耦合的特性,广泛适用于SOA架构的应用性能管理场景。
相比传统的监控平台实现方式,不再是面对众多孤立系统的冗杂数据,而是从格式趋于统一的网络协议中获得所需的各项数据。
结合服务定义的配置化,能够以最快速、最灵活、最个性化的方式适应应用性能管理的需求,避免了长周期的持续的开发模式,降低了时间、人力和资金成本。
2.2 需求理解和分析经过对某某银行业务系统的分析和理解,我们将业务性能监控的需求总结为以下几个方面。
2.2.1 核心需求●以服务为中心,全面可视化应用服务质量●自动故障定位,在呈现应用故障对用户体验的影响的同时,指出导致问题发生的根源组件和原因●5大关键指标、2个维度,具备灵活的多维统计,以及逐层关联的深入分析能力能够覆盖端到端的应用组件,并支持双中心架构应用的本地采集、分析,集中管理、呈现●完全可配置的标准协议(如XML),应用服务支持配置化定义,无需开发,快速实施,可靠落地●无代理,旁路式监控,不影响被管理应用,0风险2.2.2 解决的问题●应用组件的性能、可用性、负载量监控●交易量、成功率、响应时间、响应率、返回码精细化服务质量评估●多维度分析不同交易类别、交易渠道的性能差异追踪应用性能指标波动,分析连锁反应,找出根源组件●支持异构环境下的交易追踪查询,快速故障诊断和分析深层原因●获得实时的异常、故障事件告警,提升运维响应速度2.2.3 图形化配置●图形化配置界面,快速组合应用组件,形成服务路径图●通用组件模块,根据环境配置组件属性和性能指标2.2.5 关键指标统计●以时序图、快照方式展现统计值,指标数值变化趋势一目了然,同时可按需选取时间段统计汇总●提供2个统计维度:交易类别、交易渠道●体现5大关键指标:交易量、成功率、响应时间、响应率、返回码2.2.6网络访问关系梳理●自动呈现被监控网络数据的IP连接性,快速梳理应用组件之间的逻辑访问关系●为BPC提供SPV定义的准确数据,以及应用层协议信息2.2.7 敏捷抓包●自动识别服务器网卡设备,自动检测端口状态●灵活选择以太网端口作为数据包捕获端口2.2.8 服务路径图●Service Dashboard,以服务路径图为中心,直观展现应用服务的业务逻辑和依赖关系●实时呈现每个业务内部组件、主机的关键性能指标,集中体现服务运行质量●Time Machine时间轴,实时更新每分钟的服务运行状态,标识故障点,移动时间轴即可回放故障演变过程2.2.9 交易追踪●可以通过查询接口,包括时间、IP、交易类型、交易结果等字段,以及自选的扩展字段,进行快速查询;也可以由多维统计视图直接关联查询●在单个组件上,呈现每笔交易的详细信息,包括交易关键字(如流水号,可自选)、交易时间、交易结果、返回码等详细信息●支持异构环境下的多层关联,自动关联多层交易记录,为每笔交易区分在每个组件上的时间消耗,暴露性能瓶颈●提供单一关键字追踪分析,完整展现被查询对象的交易行为和每次交易的处理过程2.2.10 智能告警●可配置的故障定位逻辑,使得告警模型可以按照实际业务模式进行定制,广泛适用于多种场景●提供基准线功能,根据历史数据自动生成参考基准线●支持阈值与持续时间的复合指标告警;支持与基准线对比的指标告警●故障定位,标识触发告警的应用组件,并自动定位根本原因所在位置●告警中心,提供告警过滤、查询界面,同时提供标准接口,支持将告警发送至第三方平台2.3总体架构BPC采用旁路的被动流量获取方式,利用交换机SPAN将网络数据包镜像并分析,数据采集Smart Probe和解码引擎DP运行在独立的BPC服务器上,对被管应用完全无影响。