BPC应用性能监控平台实施方案Business Performance Center目录第1章前言 (3)1.1编写目的 (3)1.2文档说明 (3)1.3BPC技术优势 (3)第2章实施内容 (5)2.1BPC部署分析 (5)2.2BPC逻辑架构图 (6)2.3BPC物理拓扑图 (6)第3章资源配置和软硬件实施 (8)3.1系统资源配置清单 (8)3.1.1服务器配置 (8)3.1.2软硬件配置 (8)3.1.3服务器系统及软件安装 (8)3.1.4服务路径图配置 (15)3.1.5网络镜像要求 (15)3.1.6网络访问规则 (17)3.2实施人员 (17)第4章案例认证 (18)4.1成功案例 (18)4.1.1某银行卡交易组织 (18)4.1.2某股份制商业银行 (19)第5章风险分析 (21)5.1BPC交易性能监控平台风险 (21)5.2被管系统风险 (21)第6章解决方案 (22)6.1BPC交易性能监控平台解决方案 (22)6.2被管系统解决方案(回退方案) (22)第1章前言1.1编写目的本文为BPC交易性能监控系统上线实施工作提供技术参考。
1.2文档说明本文档用于BPC系统规范上线参数配置。
1.3BPC技术优势BPC采用旁路的被动流量获取方式,利用交换机SPAN将网络数据包镜像并分析,数据采集Smart Probe和解码引擎DP运行在独立的BPC服务器上,对被管应用完全无影响。
BPC基于统一的高精度时钟源给交易记录打时间戳,请求和响应时间计算基于交易级请求和响应关联。
物理部署方式:CrossFlow BPC 基于先进的协议解码技术,充分利用可靠的网络数据资源,帮助企业IT部门建立应用性能管理平台。
以服务为中心,提供交易量、成功率、响应时间、响应率、返回码五大关键指标,并区分交易类型、交易渠道两个统计维度,展现服务组件的运行状态。
实现了应用可用性、性能、负载量的全面可视化。
第2章实施内容2.1BPC部署分析1.监控组件的选择根据本项目范围和要求,我们结合实际应用架构,对监控点作出了合理的选择,目的是涵盖重要应用组件,实现对银联系统、柜面系统、支付宝系统的监控,保障其正常高效运行。
因此,本方案建议监控以下交易组件。
∙银联至银联前置,银联前置至卡交易系统∙银行柜面至TIP,TIP至卡交易系统∙支付宝至某系统,某系统至TIP以上监控段的设置,可以实现对来自银联、银行柜面、阿里巴巴等渠道整条服务路径的监控。
同时,对于经过防火墙的服务,我们将监控防火墙前后的流量,以便分析对比防火墙前后的交易,及时反馈因防火墙问题对业务产生的影响。
2.2BPC逻辑架构图逻辑架构图(计划) 需要解码协议:2.3BPC物理拓扑图一般物理架构图:第3章资源配置和软硬件实施3.1系统资源配置清单3.1.1服务器配置3.1.2软硬件配置BPC 2.0 一套服务器硬件一台Tap Switch 一台3.1.3服务器系统及软件安装BPC程序安装由脚本自动执行完成,上传安装包到服务器并解压缩即可。
命令为:tarzxvfcrossflow-bpc-2.5.2.special.PUBLIC.20140425T1554.tar.gz在解压缩后的安装包根目录下,执行安装脚本“install.sh”进入安装过程。
命令为:./install.sh系统检测与配置阅读并确认许可证声明输入“y”进入系统需求检测,输入“n”退出安装。
系统需求检测系统需求检测可以跳过,但首次安装BPC时,推荐运行该项检测。
检测内容包括:系统版本、CPU、内存、NIC等。
输入“y”,检测服务器硬件配置是否符合安装BPC的最低配置需求;输入“n”则退出检测直接进入主程序安装。
如果检测结果符合需求,则显示“pass”状态;如果不符合,则显示“failed”状态。
当出现“failed”信息时,表示硬件性能不符合最低配置需求,运行BPC可能出现性能瓶颈,请谨慎选择是否安装BPC。
输入“y”进入I/O性能检测,输入“n”则退出安装。
I/O性能检测I/O性能检测可以跳过,但首次安装BPC时,推荐运行该项检测。
测试内容为:I/O接口性能是否达到最低需求。
输入“y”开始检测,输入“n”则跳过检测进入系统服务配置。
I/O性能检测的最低性能需求为:每秒写入300MB、每秒只读600MB、每秒同时读写200MB。
当出现“failed”信息时,表示I/O接口性能不符合最低配置需求,运行BPC可能出现性能瓶颈,请谨慎选择是否安装BPC。
输入“y”进入系统服务配置,输入“n”则退出安装。
系统服务配置系统服务配置是全自动化配置,会保留所有BPC使用的系统服务,并关闭所有未被使用的服务。
系统防火墙和SELinux两个服务也会被关闭。
输入“y”进入系统服务自动化配置,输入“n”直接进入Smart Probe配置。
系统服务配置为全自动化,当提示语句出现“系统服务配置完成”时,可以输入任意键进入Smart Probe配置。
Smart Probe配置进入Smart Probe配置项,配置脚本会自动检测所有以太网端口、排除已配置IP的通信端口,并将可用的端口列举出来。
例如截图中,eth0是IP通信用的端口,那么可用于Smart Probe的端口是eth1、eth2、eth3。
如果列出的接口全部用于BPC的Smart Probe模式来捕获数据包,那么这些可用的接口可以被设置成混杂模式。
输入“y”即可。
需要注意的是,混杂模式下的以太网接口不可再用作通信端口,否则会影响IP层通讯。
所以,用户如果不能确定是否把接口全部用于Smort Probe功能,可以跳过此配置。
输入“n”跳过配置并进入主程序安装。
被成功设置为混杂模式的以太网接口将被列举出来,显示为“completed“状态。
设置好Smart Probe端口之后,提示:为了确保Smart Probe抓包的性能,强烈建议指定2个CPU内核专用于Smart Probe进程。
输入“y”确认设置,输入“n”则退出配置进入主程序安装。
到此,所有的系统检测和配置已经完成。
输入“y”进入主程序安装,输入“n”退出安装。
主程序安装进入主程序安装项,根据安装提示设置BPC服务器IP地址、运行模式、服务器名称等。
选择服务器IP地址:BPC支持Master(主),Slave(从)两种服务器运行模式。
请根据需求正确选择服务器运行模式:为了便于管理,可根据业务名称、地理位置等信息为服务器命名:以上信息配置完后,得到如下汇总信息。
输入“y”确认将要生成的服务器信息并进入下一步,输入“n”重新配置服务器运行模式、服务器名称。
若要退出安装,输入“Ctrl+c”即可。
成功安装BPC后,为避免BPC服务异常,必须重启服务器,使所有配置生效。
重启后,BPC 服务也会正常启动。
系统重启完毕后,在浏览器中输入BPC服务器的ip地址。
若能顺利登陆,代表BPC运行正常。
例如:http://172.16.11.183(默认使用端口:80)登陆界面:超级管理员默认用户名和密码:用户名:admin密码:netis注意事项关闭探针iptables服务为了防止探针阻止BPC通过FTP获得数据源,必须关系探针的iptables服务。
命令为:chkconfigiptables offserviceiptables stop操作系统校时如果BPC服务器时间有偏差,会导致统计信息输出异常,所以在安装运行程序时首先需要校准系统时间。
服务器需要与探针保持时间一致,建议使用NTP 服务进行时间同步。
3.1.4服务路径图配置本节内容可见“BPC 2.5GR使用手册.pdf”3.1.5网络镜像要求BPC需要获取网络数据报文(网络镜像)由获取的报文中分析交易性能状况因此需要网络部门配合将交换机上指定的流量镜像给TAP Switch设备,再由TAP Switch 设备汇聚过滤输出给BPC服务器。
应该要保证输出给BPC的流量,不会有重复包。
将红色框内的交换机对应的流量镜像给BPC服务器(生产环境)3.1.6网络访问规则BPC基于B/S架构,需要提供BPC一个管理IP,并保证能被顺利访问。
需对BPC的80、22端口放行。
3.2实施人员第4章案例认证4.1成功案例4.1.1某银行卡交易组织快速排障,确认问题原因:卡组织原因/机构原因;网络故障/应用故障覆盖三中心交易全路径,全面提供交易性能可视化单笔交易追踪,跨越多层网络设备和应用服务器监控业务:转接(1300笔/秒)、多渠道(800笔/秒)、POS收单(300笔/秒)、国际业务部署拓扑结构示意:该用户部署了大量TAP来获取各个环节的流量(由于拓扑涉及用户保密策略,因此涂抹了设备信息)4.1.2某股份制商业银行BPC一期项目:九大业务,双中心覆盖,主数据中心56个监控点,每分钟分析13万笔交易。
双中心双活运行,37个监控点。
二代核心银行系统(SNA)信用卡授权+ 银联+ 支付宝(12 CP)黄金交易(10 CP)短信通知(9 CP)三方存管(12 CP)新会计流程(8 CP)信用客服平台(5 CP)快速排障和定位问题:3分钟内判定问题,5分钟恢复服务双中心覆盖应用全路径,全面可视化应用性能和连接性,提升运维水平充分利用网络数据,获得实时、可靠的应用性能分析数据,完全避免传统监控模式所带来的风险配置化实现应用性能监控,减少开发成本,快速实施,使监控项目可靠落地部署示意图:第5章风险分析5.1BPC交易性能监控平台风险某银行在系统使用过程中,如果遇到问题可以请求工程师到现场提供现场服务。
为了确保服务质量、确保满足用户的要求,我们首要将故障界别进行划分,然后根据不同的故障级别承诺不同的响应时间。
故障级别如下划分:●一级:BPC交易性能监控系统部分功能异常,但对BPC交易性能监控系统的运行无影响;●二级:BPC交易性能监控系统部分功能异常,但BPC交易性能监控系统的集中事件管理平台、业务服务影响平台的运行无影响;●三级:BPC交易性能监控系统部分功能异常,BPC交易性能监控系统的集中事件管理平台、业务服务影响平台的运行受到影响;●四级:BPC交易性能监控系统系统瘫痪。
5.2被管系统风险●SPAN数据源交换机出现CPU负载过高,转发数据包速度变慢,对生产网络造成影响。
第6章解决方案6.1BPC交易性能监控平台解决方案根据上述故障级别,我们的相应时间如下:6.2被管系统解决方案(回退方案)1、删除交换机的SPAN设置;2、断开BPC监控设备与交换机的网络连接;3、停止BPC服务(bpc stop all);4、分析故障原因;5、解决故障并重新上架;。