当前位置:
文档之家› 交换机CPU使用率高问题定位
交换机CPU使用率高问题定位
Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets)
-------------------------------------------------------------------------------
arp-miss
0
0
0
0
arp-reply
注意,查看统计时,需要关注协议冲击位于哪个槽位,即“Statistics on slot x”。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
10
第三步:按协议类型分别处理-1
ARP
通过display interface检查哪些接口存在Broadcast数量异常,并在此接口配置广播流量抑 制,限制单个接口广播速率(例如限制为50pps):
中的arp-request类型。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
4
display logbuffer
<Quidway>display logbuffer Logging buffer configuration and contents : enabled Allowed max buffer size : 1024 Actual buffer size : 512 Channel number : 4 , Channel name : logbuffer Dropped messages : 0 Overwritten messages : 0 Current messages : 395
0
35
0
……
通过cpu-defend统计查询功能,确认哪类协议存在冲击情形,可以通过各类协议的Drop列计数进 行确认。如果某类协议Drop计数非常大,且Drop列计数相对于Pass列计数占比较高(例如达到20% 以上),则认为属于此类协议存在冲击CPU情况。例如上表中的arp-request,后续按照第三步中的 ARP协议对应处理方式进行处理。
Feb 28 2012 16:37:40 Quidway %%01SNMP/4/DECODE_ERR(l):Failed to login th rough SNMP, because of the decoded PDU error. (Ip=10.71.109.69, Times=4) …… Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(40%), SNPG(30%), bcmRX(5%). (CpuUsage=99%, Threshold=80%) ……
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
11
第三步:按协议类型分别处理-2
TCP/ARP-MISS
此种情况一般是由于网络中存在针对不存在的某些直连网段IP地址进行扫描导致的. 当有数 据报文发送到这些不存在的IP地址时,会将数据上送CPU处理,以触发ARP学习过程,建议 此时在每个vlanif接口下调整ARP学习延迟时间:
<Quidway>display cpu-defend statistics all
Statistics on slot 0:
-------------------------------------------------------------------------------
Packet Type
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
9
第二步:确认报文类型
<Quidway>display cpu-defend statistics all
Statistics on slot 0:
-------------------------------------------------------------------------------
IPCQIPC task for single queue
10%
0/ ecb2fc
SOCKPacket schedule and process
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
3
display cpu-defend statistics
384
0
6
0
arp-request
346825664
83619584
5419151
1306556
dhcp-client
0
0
0
0
dhcp-server
1427
0
4
0
……
igmp
2240
0
35
0
nap
0
0
0
0
nd
1424
0
16
0
snmp
0
0
0
0
tcp
0
0
0
0
telnet
0
0
0
0
ttl-expired
0
0
bcmRX
0%
0/
0
CHAL
23%
0/ 5a876
FTS
0%
0/
0
MOD Module Management
通过故障现象中的告警信息,可以确认CPU占用率TOP任务中包含有bcmRX、FTS报文收取任务, 基本可以确认属于协议收报过多导致CPU占用率上升。
可以通过CPU使用率查询功能进一步核实TOP任务中是否包含有收包任务;可以通过slot指明查询的 槽位号。
0
0
unknown-multicast
0
0
0
0
……
-------------------------------------------------------------------------------
对于报文冲击导致CPU高的情形,可进一步通过cpu-defend统计查询功能确认具体的协议类型。 协议上送过多判断标准:该协议对应的Drop列有大量计数,且相对于Pass计数占比较高,例如上表
CPU Usage Stat. Cycle: 60 (Second)
CPU Usage
: 85% Max: 99%
CPU Usage Stat. Time : 2001-04-25 16:15:00
CPU utilization for five seconds: 90%: one minute: 85%: five minutes: 86%
定位思路 故障举例 第一步:检查CPU占用率TOP任务 第二步:检查上送过多的协议类型 第三步:按协议类型分别处理
CPU使用率高问题信息采集
定位思路
CPU使用 率检查
确认 TOP 任务
确认 报文 类型
协议 分类 处理
其它情 形信息 采集
最常见协议冲击CPU致使用率高主要表现在bcmRX、FTS、SOCK等任务上。 bcmRX是设备硬件中断触发的的收包任务,它会将收取到的报文立刻转交软件层面的FTS任务进行
0%
0/ dad772
BOX Output
0%
0/
0
Infinite loop event task
0%
0/
0
Exception Agent Task
15%
8/b51c8f1b
DOPRA IDLE
0%
0/ 91e2d7f
0%
0/
0
CLKI
0%
0/ 12202d9
DEV Device
5%
0/ cb817af
# broadcast-suppression pps 50. #
DHCP
请确认本机是否需要开启DHCP,如果不需要请在全局undo dhcp enable; 如果需要,建议在下行接口开启dhcp error-down功能(具体信息请参考用户手册): # dhcp snooping check dhcp-rate enable dhcp snooping check dhcp-rate trigger error-down # 并建议通过基于dhcp报文的流量统计功能,来发现哪个接口发送了过多的DHCP报文。
Max CPU Usage Stat. Time : 2008-05-26 09:30:07.
TaskName
CPU Runtime(CPU Tick High/Tick Low) Task Explanation
BOX
0%
0/ 35090
BOX Output
_TIL
0%
0/
0
Infinite loop event task
分发处理。 对于属于三层协议处理的报文,往往还伴随有SOCK任务占用率高的情况出现。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
7
故障举例
故障描述:交换机产生CPU_USAGE_HIGH告警:
Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(27%), VPS(15%), bcmRX(5%). (CpuUsage=99%, Threshold=80%)