zabbix批量添加端口监控

2023-12-16 19:20:04
开发
64

背景

以前做监控的时候，一台机器上就几个重要端口，手动添加一下监控就可以了。这次公司一个新业务上了很多服务器，每台服务器上的业务端口很多，而且还不一样。着手动添加会累死人的。所以想zabbix怎么批量添加端口监控。通过查了资料发现 zabbix可以通过 “自动发现” 的机制来批量添加端口。

一、客户端配置

1.修改agent配置文件

开启自定义key功能

vim /usr/local/zabbix_agent/etc/zabbix_agentd.conf
#添加以下内容

AllowRoot=1

#允许用户创建自定义key
UnsafeUserParameters=1

# 自定义key key的名称为tcpport_list，后边脚本的执行结果赋值给tcpport_list
UserParameter=tcpport_list,/usr/local/zabbix_agent/shell/check_port.py

2.编写脚本

编写脚本，收集agent上的处于listen状态的端口列表

[root@node-2 ~]# cd /usr/local/zabbix_agent/
[root@node-2 zabbix_agent]# mkdir shell

解释：
脚本中{#TCP_PORT}是zabbix的LLD宏。格式就是{#自定义大写变量名}
一般用户宏是{$自定义大写变量名}

[root@node-2 shell]# cat check_port.py 
#!/usr/bin/env python
import os,json

port_list = []
zabbix_data = {
   }
zabbix_data_json = {
   }

#过滤服务器上所有listen的端口号
cmd = """netstat -anpt |awk '/LISTEN/{print $4}' |awk -F: '{print $NF}' |sort |uniq"""

port_ret = os.popen(cmd).readlines()
for port in port_ret:
    #将收集到的每个端口组成字段，然后主机到port_list列表当中
    port_list.append( {
   "{#TCP_PORT}": port.strip()} )

#这一步是必须的，将存 字典 的端口号的 列表 加上 data 的key 重新组成一个字段，用于返回给zabbix使用。
#data关键字也不能变，是固定的
zabbix_data["data"] = port_list

zabbix_data_json = json.dumps(zabbix_data)

#打印结果是必须的，否则值无法赋值给key
print zabbix_data_json

执行结果如下：

[root@node-2 shell]# chmod 777 ./check_port.py
[root@node-2 shell]# ./check_port.py 
{
   "data": [{
   "{#TCP_PORT}": "10050"}, {
   "{#TCP_PORT}": "22"}, {
   "{#TCP_PORT}": "25"}, {
   "{#TCP_PORT}": "3306"}]}

重启agent
[root@node-2 shell]# cd /etc/init.d/
[root@node-2 init.d]# bash zabbix_agentd restart

3.测试key

在服务端测试刚才自定义的key是否成功,结果如下，我们已经获取到了我摸嗯自定义的key值

[root@node-1 ~]# zabbix_get -s 192.168.1.23 -p 10050 -k tcpport_list
{
   "data": [{
   "{#TCP_PORT}": "10050"}, {
   "{#TCP_PORT}": "22"}, {
   "{#TCP_PORT}": "25"}, {
   "{#TCP_PORT}": "3306"}]}

可能报错如下，这个报错必须解决，如果不解决后边会报错。这个报错的原因是在启动zabbix agent的时候使用的是zabbix用户，zabbix用户对netstat命令没有权限

[root@node-1 ~]# zabbix_get -s 192.168.1.23 -p 10050 -k tcpport_list
(Not all processes could be identified, non-owned process info will not be shown, you would have to be root to see it all.)
{
   "data": [{
   "{#TCP_PORT}": "10050"}, {
   "{#TCP_PORT}": "22"}, {
   "{#TCP_PORT}": "25"}, {
   "{#TCP_PORT}": "3306"}]}

解决办法：
在agent端执行以下命令

which netstat
chmod u+s /usr/bin/netstat 
ll /usr/bin/netstat
#发现命令变成红色，这是正常的。还有就是属主权限的x 变成了s
-rwsr-xr-x. 1 root root 155008 Aug  8  2019 /usr/bin/netstat

二、服务端配置

1.创建一个新模板

点击模板 --> 创建模板。
在这里插入图片描述

如上图后，点击添加完成模板的创建

2.创建自动发现规则

找到刚才创建的模板，点击进去，“自动发现规则” --> “创建发现规则”

在这里插入图片描述

创建发现规则

在这里插入图片描述

3.创建监控项原型

点击监控项原型。创建监控原型其实就是创建监控项

在这里插入图片描述

创建监控项原型
图中1处的名称的值对应{ITEM.NAME}内置变量
图中2处 {#TCP_PORT}就是客户端定义的key(tcpport_list)对的返回值。这里一定对应上

在这里插入图片描述

4.创建触发器

在这里插入图片描述

创建触发器

在这里插入图片描述

5.客户应用模板

在这里插入图片描述

6.生效

1.查看策略是否生效,在主机的监控项目中查看，如下图，已经生效

在这里插入图片描述

2.最新数据获取数据成功。如果没有数据，不要做测试，不然触发器会报错
3.获取最新数据时间会比较长，等到有了最新的数据，在测试触发器是否生效。
4.报警信息如下：

故障告警：tcp_port  25  消失
------------------------------
告警医院：xxxxxxx
医院运维：xxxxxx
告警主机：10.xx.xxx.xx--【门诊服务app_Primary】
告警信息：check tcp port 25
当前状态：0

报警信息对应的自定义信息格式

故障告警：{
   TRIGGER.NAME}   #这是引用的触发器的名称

告警医院：{
   $PROJECT}
医院运维：{
   $BPUSER}
告警主机：{
   HOST.CONN}--【{
   HOST.NAME}】
告警信息：{
   ITEM.NAME}     #这是引用的监控项名称
当前状态：{
   ITEM.VALUE1}

原文地址:https://blog.csdn.net/smile_pbb/article/details/135020740 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1735983120991260672.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部