Featured image of post Zabbix监控流量异常(偶尔超出交换机限制)

Zabbix监控流量异常(偶尔超出交换机限制)

前提:近期业务做了集群的流量汇总,整体没有问题。后面慢慢优化一些参数项。但是这两天发现,集群流量数据增大,业务正常。问题:和监控网卡,流量异常增大,超出限制,每次分钟,偶尔性触发看图,这个和月对比,简。。。。。。。

前提:

近期业务做了集群的流量汇总,整体没有问题。后面慢慢优化一些参数项。但是这两天发现,集群流量数据增大,业务正常。

问题:

zabbix和prometheus 监控网卡,流量异常增大,超出限制,每次2分钟,偶尔性触发

看图,这个和7月对比,简介翻了几倍,但是业务没有增长,这就很奇怪了

 

 

上面介绍相关截图。

解决:

首先以为业务导致网卡过大加载,导致流量增大,我们使用  ifstat-1.1.tar.gz  工具记录每一秒的网卡速度,记录一晚上再看。

分析上图,虽然流量有超过100M的,但是网卡是能够支撑的。没有zabbix和prometheus显示的那么恐怖。

思考

我和大佬分交流一下。说是zabbix的单位转换,要加8倍,我也是添加了的

 

 

嗯。。。。。。。。。。。。。。。。。。。。。正常

大佬建议让我使用snmp监控对比一下,思路不错,可以搞。直接部署上去对比了

分析

snmp对比一下

 zabbix的(还是这么高)

snmp的(这个是正常的)

 很明显,这是snmp是准确的。但是为什么会这样

结果:

首先,业务正常,服务器正常,现在就是zabbix不正常,怀疑是zabbix的问题

回想一下,在数据量增加前做了什么操作。

之前,我当时增加一批监控指标,因为监控点比较重要,所有设置抓取时间为10s。谁知道这个10s就是罪魁祸首。集群内部机器较多,可能会产生数据积压。

后续

取消关联模板,监控整体流量,确定无虚假流量

调整监控项的抓取指标为:1m  再次关联模板正常