ELK是Linux日志分析最常用开源技术栈,通过Logstash结构化处理、Elasticsearch索引优化、Kibana可视化及原生Alerting实现日志采集、存储、分析与实时告警闭环。

ELK(Elasticsearch + Logstash + Kibana)是Linux日志分析最常用的开源技术栈,它能高效收集、处理、存储和可视化系统及应用日志。要实现从原始日志到可交互图表、实时告警的完整闭环,关键在于合理配置Logstash过滤规则、Elasticsearch索引模板、Kibana可视化看板,以及利用Kibana Alerting或第三方工具(如ElastAlert)触发告警。
一、Logstash日志采集与结构化处理
Logstash负责从Linux服务器(如/var/log/messages、/var/log/nginx/access.log)读取日志,并通过filter插件清洗、解析、打标。核心是用grok匹配非结构化日志,提取时间、级别、进程、消息体等字段。
- 使用file input插件监听日志文件,配合sincedb防止重复读取
- 用date filter校准日志时间戳(避免系统时间与日志时间不一致)
- 对Nginx访问日志,推荐使用内置grok模式:
%{NGINXACCESSLOG};对systemd日志,可用%{SYSLOGTIMESTAMP:timestamp} %{SYSLOGHOST:hostname} %{DATA:program}(?:\[%{POSINT:pid}\])?: %{GREEDYDATA:log_message} - 添加tags(如“nginx”“auth”“error”)便于后续条件路由和索引分离
二、Elasticsearch索引设计与性能优化
日志数据写入Elasticsearch前,应预设索引模板(Index Template),统一字段类型、分词方式和生命周期策略(ILM),避免动态映射导致字段类型冲突或查询失效。
- 为不同日志类型(如syslog、nginx、audit)设置独立索引模式,例如
syslog-%{+YYYY.MM.dd} - 将
message设为text并禁用分词("index": false),保留原始内容;关键字段如status、level、client_ip设为keyword类型以支持聚合与精确匹配 - 启用ILM策略:热节点写入、温节点压缩、冷节点归档或删除,比如保留30天日志,自动滚动索引
三、Kibana可视化看板与交互分析
Kibana是ELK的数据展示中枢。通过Discover快速检索、Visualize构建图表、Dashboard整合多视图,可直观掌握系统运行状态。
- 在Discover中用KQL(Kibana Query Language)筛选高危行为,例如:
level: "ERROR" or message : "*authentication failure*" or client_ip : "192.168.1.*" - 创建常用可视化:折线图(每分钟错误数)、饼图(日志级别分布)、地图(基于GeoIP的访问地域)、数据表格(Top 10异常IP)
- 为运维值班场景定制Dashboard,嵌入“5分钟HTTP 5xx占比”、“SSH失败次数趋势”、“磁盘使用率TOP5主机”等关键指标卡片
四、基于Kibana Alerting的实时告警配置
Kibana 7.10+ 内置Alerting功能,无需额外部署组件即可实现条件触发、通知发送。适合轻量级、Elastic Stack原生集成的告警需求。
- 新建Rule时选择“Threshold”类型,例如:过去5分钟内
level: "CRITICAL"日志数量 ≥ 3,即触发告警 - 使用EsQuery定义复杂条件,如统计
nginx.error索引中status >= 500且response_time > 5000的请求数 - 配置Actions:邮件(需提前配置Email Server)、Slack Webhook、或调用Webhook对接钉钉/企微机器人(需自定义JSON payload)
- 务必开启Alert Throttling(如“每小时最多触发1次”),避免告警风暴
ELK日志分析不是一次性搭建任务,而是一个持续调优的过程。从日志格式适配、索引生命周期管理,到看板实用性打磨、告警阈值合理性验证,每一步都影响最终可观测性效果。实际落地时建议从小范围服务开始试点,逐步扩展至全集群。










