当前位置:
文档之家› Riverbed Cascade 网络性能监控及行为分析解决方案 V4 2011-12
Riverbed Cascade 网络性能监控及行为分析解决方案 V4 2011-12
通过主动告警,IT 管理员往往可以在最终用户感知到网络或应用性能问题之前就 及时发现问题并着手解决问题,而网络延时和服务器延时的报告更能帮助用户快速故障 定位,从而大幅降低 IT Helpdesk 的电话求助率以及故障修复时间(MTTR)。 在应用性能各个指标的监控方面,Cascade 摒弃了“固定阀值”的判断方式,而是 通过特有的“行为基线”Baseline 配合“容忍幅度”的方式来监控关键应用的性能。用 户只需要通过游标的方式调整基线变化幅度 Sigma 值即可,如下图所示: 活动连接数:
流量分布报告:
主机排行报告:
其它报表形式:
4
关键应用性能智能分析及主动告警
Cascade 对于特定应用的性能监控内容包括该应用提供的并发用户数、TCP 连接数 / 秒、连接平均持续时间、应用响应时间、应用层吞吐率、TCP Retransmit 数量和 TCP Reset 百分比等。通过对这些指标全方位的监控,Cascade 可以提供最为细致的应用运行 性能状况。此外 Cascade 还可以将这些指标的实时数据与历史数据的基线 Baseline 作比 较,帮助用户判断当前应用运行是否正常。
员做出主动式的“预警”;同时对于网络中出现的性能故障进行排查分析出其根本的原 因。 在很多情况下还可以把即将发生的应用性能故障消灭在爆发之前,如图所示:
6
Cascade
MTTR Find Find
!"#$"%&' '
Fix Fix
Cascade Analytics
Find
Fix
Application slows
XXX(客户 ) Cascade 网络行为分析、性能监控、主 动预警及故障排查解决方案
一、 IT 运行环境的变革使 XXX(客户) 的 IT 管理面临新的 挑战
当今企业的 IT 运行环境正面临这一系列的重大变化,随着云计算时代的即将到来, 企业的 IT 主管们都将注意力放到了服务器虚拟化、数据中心整合和 基于 Web 的应用这 些新技术的运用上;同时这些新兴的 IT 技术也在不断改变着 企业的 IT 环境。然而,各 个组织日益发现,他们在保护和管理关键业务服务的可用性及性能方面存在着明显的能 力差距。 Riverbed Cascade™ 将端到端应用程序交付相关性方面的可见性与网络行为分析 (Network Behavior Analysis) 相结合,来解决这些管理方面的差距。Cascade 可以分析用 户与应用程序、系统和网络设备之间的互动,从而提供了一种新的方式来管理应用程序 性能和安全。Cascade 提供客户需要的关键数据,以迅速解决会影响服务的问题,并向 数据整合、虚拟化和优化方面的方案提供重要信息。
Call to help desk EVENTS
© 2009 Riverbed Technology. Confidential. IMPORTANT NOTE: The roadmap is for information purposes only and is not a commitment, promise or legal obligation to deliver any new products, features or functionality. The development, release, and timing of any features or functionality described remains at Riverbed's sole discretion.
响应时间:Leabharlann 每秒新建连接数:5
服务器相关性( Server Dependency)
用户可以定义基于 IP Subnet 的 Server Group 服务器群组。基于 IP Flow 的信息, 给定相应的位于数据中心的特定服务器群组条件, Cascade Profiler 可以自动的“描绘” 出相关服务器之间的流量关系。 服务器相关性 Server Dependency 的信息可以帮助用户了解服务器之间实时的相互 依存关系,对某一服务器的故障可能造成的影响面有一个明确的掌握,同时满足多种 IT 运行操作的需求。比如 CMDB 变更管理、服务器维护预先通知、多层次应用系统 Multi-Tier Application 性能分析等。 Cascade Profiler 可以根据所学习到的服务器流量相关性自动生成图形化的拓朴,向 管理员提供一个形象的服务器关联性视图。
Cascade 根据采集到的数据,可以自动形成正常网络状况下的各种性能基线 Baseline,管理员可以根据关注的不同指标定义各种相应的策略,如基于特定端口的流 量,特定服务器的连接数,特定应用的反应时间等,对于实际网络或应用性能与基线偏 离到设定的幅度时即提供告警。同时 Cascade 可以区分应用的整体响应时间中网络链路 时延和服务器时延。这样,当有应用性能下降,响应时间增大的情况发生时,Cascade 可以告诉管理员究竟是由于网络时延(网络故障)还是服务器时延(服务器故障)造成 的。
二、 Cascade 产品定位:整体网络行为分析、性能监控、 主动预警及故障排查
Cascade 的产品定位为整体网络行为分析、性能监控、主动预警及故障排查。 Cascade 通过对全网的 IP 流(Netflow)和 SPAN 端口的 IP 数据包捕捉采集,解析第七 层应用层信息并作智能化的分析,为用户的 IT 管理员/主管提供对于全网信息的完整分 析报告,如端到端的流量分析、应用识别和性能监控、服务器依赖关系、IT 资产管理, 异常网络行为等等,并能对网络及应用性能下降进行全方位的预警和快速故障定位。 和通常的网络设备管理和监控系统只能提供故障发生“事后”协助排错不同, Cascade 可以预先“侦测”到关键应用系统的主要性能指标的异常波动,提前对管理人
三、 Cascade 可以为 XXX(客户 )提供的最佳实践 - Profiler 宏观分析
用户 Cascade 的分析管理界面自顶向下分为:端到端宏观 IP Flow 分析的 Profiler Web 界面和微观 IP 数据包分析的 Pilot 控制台界面。我们先讨论 Profiler 的功能。
Cascade 在 XXX(客户)的内部 IT 日常运行管理中可以起到多方面的功能,其涉及 到并可以整合的 IT 管理内容包含以下这些方面:
XXX(客户)目前采用了 YYY(某 NMS 网管软件)的管理软件,这是一种面向网络 设备接口和网络链路状况的 NMS-Network Management System 系统。其重点在于设备及 其接口状况的实时监控,而对于流量的成份及其行为分析无所作为。Cascade 很好的填 补了这一空白。 同时,Cascade 和国内很多客户经常使用的 Netscout Sniffer 探针抓包分析工具也有 所不同。 Cascade 和 Sniffer 之类的抓包分析工具的主要区别 Sniffer 定位于应用性能分析工具,具有很强的底层抓包和解码分析(capture & decode)能力。Sniffer 适合于对用户已知或重点关注的特定应用进行性能跟踪和故障排 查,而对于如何在一个全网环境中快速定位造成网络性能下降或不特定应用故障根源的 帮助不大。此外,Sniffer 由于采用底层抓包的方式进行故障排查,数据量非常大,且均 为底层原始信息,这就要求客户的技术人员掌握大量的 TCP/IP 协议的底层细节,并对 该系统有较长时间的使用经验才能充分发挥它的效能。这也是大多数用户在购买了昂贵 的 Sniffer 系统后发现其不实用,难以发挥它的全部功能的原因。此外,Sniffer 须要部 署硬件设备(探针)在中心端和各远端分支,成本非常昂贵,部署和管理都不方便。
Cascade 的产品定位为自顶向下的整体网络及应用性能监控和行为分析平台。 Cascade 通过对全网的 IP 流(Netflow)和 SPAN IP 数据包第七层应用层信息进行智能 化的分析,为用户的 IT 管理员/主管以及具体技术人员(而非仅仅是底层“抓包”的人 员)提供对于全网信息的完整分析报告,如端到端的流量分析、应用识别和性能监控、 服务器依赖关系、IT 资产管理,异常网络行为等等,并能实现网络及应用性能下降的预 警和故障快速定位。Cascade 特有的服务器依赖关系(Server Dependency)生成工具、 Baseline 基线性能指标自动生成和差异性监控、内部网络安全等自动化流量分析模块都 是 Sniffer 所不具备的。由于 Cascade 不依赖于专有的硬件探针,而是充分利用现有的网 络设备的 Netflow 信息,性价比要远高于 Sniffer,其部署、管理、及使用都非常方便。 所以从总体上说: • 如果用户已经购买部署了类似于 Netscout Sniffer 的抓包分析产品,Cascade 和 Sniffer 在功能上是互补的。Cascade 可以帮助用户在海量的 IP 流量信息 中快速筛选和分析出真正有价值的内容,同时可以预防故障的发生;而 Sniffer 可以用于在故障发生和定位之后对数据包进行底层的分析找出故障 原因。 • 如果用户尚未部署类似于 Netscout Sniffer 的抓包分析产品,则 Cascade 提供 的从宏观到微观,自顶向下的分析功能可以更好的满足用户对于网络监控 全方位的要求,从而完全替代 Netscout。
2
全网应用运行状况实时监控 Dash Board 仪表盘功能
Cascade 可以实时提供网络中最活跃的 Top 和 Bottom 的应用和用户,IT 管理员也 可以对于最关注的特定应用进行全方位的监控。并且用户可以根据需求定制自身所关注 的信息,排列在仪表盘 Dash Board 上。所显示的信息每分钟自动刷新。 用户可以根据不同使用者的身份建立不同的账号,比如网络管理员,主机管理员和 应用系统管理员等。不同身份的用户登录到 Cascade 的 Profiler 后系统可以显示不同的 仪表板 Dashboard。Dashboard 可以根据不同身份的用户所关注的网络和应用指标来定制。 每个用户的 Dashboard 包含多个内容块 Content Block,用户可以根据自己的需要配置和 排列不同类型和数量的 Content Block。每个 Content Block 可以以图表的形式显示和监 控特定的网络或应用的特定指标,并且自动刷新。这些特定的指标包括:Top 流量的主 机/主机组,Top 流量的应用,关注的应用流量,关注的主机/主机组,关键应用的响应 时间等。见下图: