0

0

如何减少 MTTR

betcha

betcha

发布时间:2024-05-23 14:06:04

|

1300人浏览过

|

来源于DZone

原创

减少MTTR的方法:1. 明确定义 SLI;2. 基于 SLI 的可操作警报;3. 与警报相关的故障排除指南;4. 练习故障排除指南;5. 可用的仪表板;6. 缓解问题的自动化操作;7. 故障转移演练;8.自动故障转移;9. 变更管理流程;10. 易于识别的变更列表和自动回滚。

如何减少 MTTR

作为一名站点可靠性工程师,我用来跟踪事件管理有效性的关键指标之一是平均恢复时间 (MTTR)。根据维基百科,MTTR 被定义为服务或系统从任何故障中恢复所需的平均时间。努力实现较低的 MTTR 是实现服务水平目标以及任何关键生产服务的服务水平协议的关键。

有助于减少平均恢复时间 (MTTR) 的 10 件事

1. 明确定义 SLI

服务级别指标或 SLI 是衡量服务健康状况的关键指标。SLI 的一些示例包括错误率、延迟、吞吐量等。

2. 基于 SLI 的可操作警报

警报策略应包括提高警报的信噪比。警报的目标是您的团队收到的每个警报都应该是可操作的。发送太多警报会导致警报疲劳,并且值班人员可能会忽略表明服务存在实际问题的警报。

3. 与警报相关的故障排除指南

每条警报都应有一份明确定义的故障排除指南,说明如何分类和缓解警报识别的问题。编写这些故障排除指南时,一个好方法是USE 方法,这是 Brendan Gregg 在其著作《系统性能》中建议的。USE 代表使用率、饱和度和错误。

4. 练习故障排除指南

定期练习故障排除指南将有助于在发生事故时减少事故的发生。它还将有助于确定与 TSG 之间的差距,因为服务会随着时间的推移而发展。练习故障排除指南的几个例子是新团队成员加入团队时,这样他们就可以对 TSG 提供全新的视角。这将减少对系统知识的假设。

5. 可用的仪表板

可观察性策略应包括创建易于使用的仪表板。仪表板应包含面板,以包含服务的关键指标以及依赖服务(例如上游和下游服务)的运行状况。仪表板中应包含的一些重要指标示例是 Google SRE 手册建议的黄金信号,例如延迟、吞吐量、错误率和饱和度指标。

6. 缓解问题的自动化操作

OMPOSE AI
OMPOSE AI

一款免费的 Chrome 插件,可加快您的写作速度,让您可以在任何地方使用自动完成功能,并减少打字时间。

下载

根据指标和事件自动执行某些操作是减少 MTTR 的关键。例如,如果观察到某些服务器出现数据包丢失,则将其从轮换中移除。这将有助于减少对用户体验的影响并减少 MTTR。

7. 故障转移演练

对于多数据中心架构,制定故障转移计划至关重要,以确保快速从特定数据中心的故障中恢复。定期练习这些故障转移方案将有助于在故障期间快速执行它们。这也有助于识别故障转移计划中的任何漏洞,并提供更新和修复故障转移计划的机会。

8.自动故障转移

一旦定义、实施和实践了故障转移计划,下一步就是根据给定数据中心的服务健康检查来自动化这些故障转移方案。这将有助于更快地缓解问题,从而减少 MTTR。

9. 变更管理流程

生产系统的变化是造成停机的主要原因。制定经过深思熟虑的变革管理流程非常重要。变更管理流程的几个关键要素应包括明确定义的清单、变更审查和批准程序、具有内置监控功能的自动化部署管道,以及在发现任何问题时快速回滚变更的能力。

10. 易于识别的变更列表和自动回滚

在将服务设计为微服务的分布式系统中,可能会连续进行多项更改。拥有一个可以轻松识别在给定时间段内进行了哪些更改的中央系统将有助于确定特定更改是否导致了中断,从而易于回滚。

结论

在本文中,我讨论了有助于缩短任何关键生产服务的平均恢复时间的 10 件事。这并不是一份详尽的列表,而是基于我多年担任TikTok、Microsoft Teams、Xbox 和 Microsoft Dynamics 等服务的站点可靠性工程师的经验而列出的最佳实践。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

324

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

231

2023.10.07

vsd文件打开方法
vsd文件打开方法

vsd文件打开方法有使用Microsoft Visio软件、使用Microsoft Visio查看器、转换为其他格式等。想了解更多vsd文件相关内容,可以阅读本专题下面的文章。

479

2023.10.30

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

27

2025.12.13

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

34

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

14

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

33

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

18

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

12

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号