告警未触发的根因是日志源未接入、规则不匹配或通知通道未就绪;需依次完成rsyslog+Logstash标准化接入、Kibana阈值告警配置、ElastAlert复杂规则部署、Shell脚本低依赖监控及Prometheus指标化告警。

如果您在Linux系统中已部署日志采集与监控组件,但告警未能按预期触发,则可能是由于日志源未正确接入、规则匹配条件不匹配或通知通道未就绪。以下是实现日志与监控联动并确保告警可靠触发的具体操作步骤:
一、基于rsyslog+Logstash的日志标准化接入
该方法通过在日志源头统一格式,使后续监控系统能准确识别结构化字段,避免因日志格式混乱导致规则失效。需确保每条日志携带hostname、timestamp、level、message等关键字段。
1、编辑/etc/rsyslog.conf,在文件末尾添加模板定义:
template(name="json-template" type="list") {
property(name="timestamp" dateFormat="rfc3339")
constant(value=", \"hostname\":\"")
property(name="hostname")
constant(value="\", \"level\":\"")
property(name="syslogseverity-text")
constant(value="\", \"message\":\"")
property(name="msg" format="json")
constant(value="\"}\n")
}
2、配置日志转发规则,将本地日志以JSON格式发送至Logstash监听端口:
*.* @127.0.0.1:5044;json-template
3、重启rsyslog服务:
systemctl restart rsyslog
二、Elasticsearch索引中配置告警触发规则(Kibana内置)
利用Kibana的Alerting功能,直接在Elasticsearch索引数据上设置条件型告警,无需额外部署中间件,适用于已有ELK栈环境。
1、登录Kibana,进入Stack Management → Alerts and Actions → Create alert
2、选择Rule type为“Log threshold”
3、在Rule definition中设置:
Index pattern:log-*
4、设置触发条件:
Count of documents > 5
Time range:Last 10 minutes
Filter:level: "ERROR" or message: "*Connection refused*" or message: "*timeout*"
5、配置Actions,选择Email connector并填写收件人地址
三、使用ElastAlert实现独立规则引擎告警
ElastAlert作为轻量级外部告警工具,可脱离Kibana运行,支持复杂逻辑判断(如频率统计、异常突增、黑白名单),适合对告警精度要求较高的场景。
1、安装ElastAlert:
pip3 install elastalert
2、初始化配置目录:
elastalert-create-index --name elastalert_status
3、编写规则文件error_rate.yaml:
name: "High ERROR rate in application logs"
type: frequency
index: log-*
num_events: 15
timeframe:
minutes: 5
filter:
- term:
level: "ERROR"
alert:
- "email"
email:
- "admin@example.com"
4、启动ElastAlert服务:
elastalert --config config.yaml --rule error_rate.yaml --verbose
四、Shell脚本+tail+flock实现低依赖实时告警
适用于资源受限或不允许安装第三方组件的生产环境,通过文件锁机制防止多实例并发读取冲突,保障日志行号追踪准确性。
1、创建监控脚本monitor_log.sh,并赋予执行权限:
chmod +x monitor_log.sh
2、在脚本中定义日志路径与偏移记录文件:
LOGFILE="/var/log/nginx/error.log"
OFFSET_FILE="/tmp/offset_nginx_error"
3、使用flock加锁读取新增内容:
flock -x "$OFFSET_FILE" -c 'tail -n +$(cat "$OFFSET_FILE" 2>/dev/null || echo 0) "$LOGFILE" | grep -i "failed\|denied\|segmentation fault" | while read line; do echo "$(date): $line" >> /var/log/alerts.log; echo "$line" | mail -s "Nginx ERROR Alert" ops@company.com; done; wc -l "$LOGFILE" | awk "{print \$1}" > "$OFFSET_FILE"'
4、将脚本加入crontab每分钟执行一次:
* * * * * /opt/scripts/monitor_log.sh
五、Prometheus+Alertmanager对接日志指标化告警
将日志关键事件转换为Prometheus指标(如error_total计数器),再由Alertmanager统一管理抑制、分组与通知路由,适用于已构建云原生监控体系的环境。
1、部署file_exporter或custom exporter,解析日志并暴露/metrics接口,例如:
error_total{app="nginx",level="crit"} 3
2、在Prometheus配置中添加scrape job:
- job_name: 'log-metrics'
static_configs:
- targets: ['192.168.1.100:9115']
3、在Alertmanager配置中定义路由规则:
route:
receiver: 'email-notifications'
group_by: ['alertname', 'app']
group_wait: 30s
4、编写Prometheus告警规则log_alerts.yml:
- alert: HighErrorRate
expr: rate(error_total{level="crit"}[5m]) > 0.1
for: 2m
labels:
severity: critical
annotations:
summary: "Critical errors in {{ $labels.app }}"










