如何在Linux中自动重启 Linux systemd自动恢复-linux运维-PHP中文网

答案：通过配置systemd服务文件中的Restart、RestartSec、WatchdogSec及StartLimitInterval等参数，可实现Linux服务的自动重启与看门狗监控，并避免无限重启循环，提升系统稳定性。

如何在linux中自动重启 linux systemd自动恢复

在Linux中，可以通过systemd来实现服务的自动重启，确保服务在崩溃或意外停止后能够自动恢复，提高系统的稳定性和可靠性。

解决方案

Systemd 是 Linux 系统中用于初始化系统和服务管理的工具，它提供了一种简单而强大的方式来配置服务的自动重启策略。以下是具体步骤：

创建或编辑 Systemd 服务文件：

首先，找到你要配置自动重启的服务的
```
.service
```
登录后复制
文件。通常，这些文件位于
```
/etc/systemd/system/
```
登录后复制
目录下。如果服务还没有对应的
```
.service
```
登录后复制
文件，你需要创建一个。

例如，假设我们要配置名为
```
my_app.service
```
登录后复制
的服务：
```
sudo nano /etc/systemd/system/my_app.service
```
登录后复制
配置 Restart 策略：

在
```
.service
```
登录后复制
文件中，找到
```
[Service]
```
登录后复制
部分，如果没有，则添加它。在这个部分，你需要添加或修改
```
Restart
```
登录后复制
和
```
RestartSec
```
登录后复制
选项。
```
[Unit]
Description=My Application
After=network.target

[Service]
ExecStart=/path/to/my_app
User=myuser
Restart=on-failure
RestartSec=5s

[Install]
WantedBy=multi-user.target
```
登录后复制
- ```
Restart=on-failure
```
  登录后复制
  ：表示只有当服务因为错误而退出时才重启。其他选项包括
```
always
```
  登录后复制
  （总是重启）、
```
on-success
```
  登录后复制
  （只有当服务正常退出时才重启）、
```
on-abort
```
  登录后复制
  （只有当服务因为未捕获的信号而退出时才重启）等。根据你的需求选择合适的策略。
- ```
RestartSec=5s
```
  登录后复制
  ：表示在服务重启之前等待 5 秒。可以根据你的应用特性调整这个时间。
重新加载 Systemd 配置：

修改完
```
.service
```
登录后复制
文件后，需要重新加载 systemd 的配置，使更改生效：
```
sudo systemctl daemon-reload
```
登录后复制
启用并启动服务：

确保服务已启用并启动。如果服务未启用，使用以下命令启用它：
```
sudo systemctl enable my_app.service
```
登录后复制
然后启动服务：
```
sudo systemctl start my_app.service
```
登录后复制
验证自动重启：

为了验证自动重启是否生效，你可以故意让服务崩溃，例如通过发送一个 kill 信号：
```
sudo kill -9 $(pidof my_app)
```
登录后复制
然后，使用以下命令查看服务状态：
```
sudo systemctl status my_app.service
```
登录后复制
如果配置正确，你会看到服务在几秒钟后自动重启。

Systemd Restart 策略有哪些选项，应该如何选择？

Systemd 提供了多种

Restart

登录后复制

策略，选择合适的策略对于确保服务的稳定性和可靠性至关重要。以下是几种常见的选项：

```
no
```
登录后复制
：默认值。服务不会自动重启。
```
on-success
```
登录后复制
：只有当服务正常退出（退出码为 0）时才重启。适用于那些需要定期运行并希望在成功完成后重新启动的服务。
```
on-failure
```
登录后复制
：只有当服务因为错误而退出（退出码非 0）时才重启。这是最常用的选项，适用于大多数需要自动恢复的服务。
```
on-abnormal
```
登录后复制
：只有当服务因为接收到信号而异常退出（例如
```
SIGSEGV
```
登录后复制
、
```
SIGABRT
```
登录后复制
）时才重启。适用于那些容易崩溃的服务。
```
on-abort
```
登录后复制
：只有当服务因为未捕获的信号而退出时才重启。
```
on-watchdog
```
登录后复制
：只有当服务因为看门狗超时而退出时才重启。看门狗是一种监控服务运行状态的机制，如果服务在指定时间内没有响应，看门狗会触发重启。
```
always
```
登录后复制
：总是重启服务，无论服务是如何退出的。适用于需要持续运行的服务，例如网络服务。

选择策略时，需要考虑以下因素：

服务的性质： 不同的服务有不同的运行特性。例如，一个需要持续运行的网络服务应该使用
```
always
```
登录后复制
策略，而一个只需要定期运行的任务可以使用
```
on-success
```
登录后复制
策略。
错误处理： 如果服务有完善的错误处理机制，可以选择
```
on-failure
```
登录后复制
策略。如果服务容易崩溃，可以选择
```
on-abnormal
```
登录后复制
策略。
资源消耗：
```
always
```
登录后复制
策略可能会导致服务在出现问题时不断重启，消耗大量资源。因此，需要谨慎使用。

总的来说，

on-failure

登录后复制

是一个通用的选择，适用于大多数需要自动恢复的服务。但是，为了更好地满足特定需求，应该根据服务的具体情况选择合适的策略。

如何配置 Systemd 的看门狗 (Watchdog) 功能？

Systemd 的看门狗功能可以监控服务的运行状态，并在服务没有响应时自动重启。这对于确保服务的可用性非常有用。以下是配置看门狗功能的步骤：

在
```
.service
```
登录后复制
文件中配置看门狗：

在
```
[Service]
```
登录后复制
部分，添加
```
WatchdogSec
```
登录后复制
选项，指定看门狗的超时时间。例如，设置超时时间为 30 秒：
```
[Service]
ExecStart=/path/to/my_app
User=myuser
Restart=on-failure
RestartSec=5s
WatchdogSec=30s
```
登录后复制
- ```
WatchdogSec=30s
```
  登录后复制
  ：表示如果服务在 30 秒内没有向 systemd 发送心跳信号，systemd 会认为服务已经停止响应，并触发重启。
在应用程序中发送心跳信号：

为了让看门狗正常工作，应用程序需要定期向 systemd 发送心跳信号。可以使用
```
sd_notify
```
登录后复制
函数来发送心跳信号。

Content at Scale
SEO长内容自动化创作平台

154

查看详情

以下是一个简单的 C 语言示例：
```
#include <systemd/sd-daemon.h>
#include <unistd.h>

int main() {
    while (1) {
        // 应用程序的主要逻辑

        // 发送心跳信号
        sd_notify(0, "WATCHDOG=1");

        // 休眠一段时间
        sleep(15);
    }
    return 0;
}
```
登录后复制
在这个示例中，应用程序每 15 秒发送一次心跳信号。由于
```
WatchdogSec
```
登录后复制
设置为 30 秒，只要应用程序在 30 秒内发送一次心跳信号，看门狗就不会触发重启。

如果你的应用程序使用其他编程语言，可以查找相应的 systemd 库来发送心跳信号。例如，Python 可以使用
```
systemd
```
登录后复制
模块。
重新加载 Systemd 配置并重启服务：

修改完
```
.service
```
登录后复制
文件和应用程序后，需要重新加载 systemd 的配置并重启服务：
```
sudo systemctl daemon-reload
sudo systemctl restart my_app.service
```
登录后复制
验证看门狗功能：

为了验证看门狗功能是否生效，你可以故意让应用程序停止发送心跳信号，例如通过注释掉
```
sd_notify
```
登录后复制
函数的调用。然后，观察服务是否在 30 秒后自动重启。
```
sudo systemctl status my_app.service
```
登录后复制
如果配置正确，你会看到服务在 30 秒后自动重启。

如何处理服务启动失败的情况，避免无限重启循环？

有时候，服务可能会因为配置错误或其他原因而无法启动。如果配置了

Restart=always

登录后复制

或

Restart=on-failure

登录后复制

策略，服务可能会陷入无限重启循环，消耗大量资源。为了避免这种情况，可以采取以下措施：

使用
```
StartLimitInterval
```
登录后复制
和
StartLimitBurst
登录后复制
选项：

Systemd 提供了
```
StartLimitInterval
```
登录后复制
和
```
StartLimitBurst
```
登录后复制
选项，可以限制服务在一段时间内启动的次数。如果服务在指定的时间内启动失败的次数超过了限制，systemd 会停止尝试重启服务。

在
```
.service
```
登录后复制
文件中，添加以下选项：
```
[Unit]
Description=My Application
After=network.target

[Service]
ExecStart=/path/to/my_app
User=myuser
Restart=on-failure
RestartSec=5s
StartLimitInterval=60s
StartLimitBurst=5

[Install]
WantedBy=multi-user.target
```
登录后复制
- ```
StartLimitInterval=60s
```
  登录后复制
  ：表示在 60 秒内。
- ```
StartLimitBurst=5
```
  登录后复制
  ：表示最多尝试启动 5 次。
如果服务在 60 秒内启动失败 5 次，systemd 会停止尝试重启服务。
检查服务日志：

当服务启动失败时，应该检查服务日志，找出错误原因。可以使用以下命令查看服务日志：
```
sudo journalctl -u my_app.service
```
登录后复制
日志中通常会包含有关启动失败的详细信息，例如配置文件错误、依赖项缺失等。
使用
```
ExecStartPre
```
登录后复制
和
ExecStartPost
登录后复制
选项：
```
ExecStartPre
```
登录后复制
和
```
ExecStartPost
```
登录后复制
选项可以在服务启动前后执行一些命令。可以使用这些选项来检查服务的运行环境，例如检查配置文件是否存在、依赖项是否已安装等。如果检查失败，可以阻止服务启动。
```
[Service]
ExecStartPre=/path/to/check_config.sh
ExecStart=/path/to/my_app
User=myuser
Restart=on-failure
RestartSec=5s
```
登录后复制
在这个示例中，
```
check_config.sh
```
登录后复制
脚本会在服务启动前执行。如果脚本返回非 0 退出码，systemd 会认为服务启动失败，并根据
```
Restart
```
登录后复制
策略进行处理。
使用
```
TimeoutStartSec
```
登录后复制
选项：
```
TimeoutStartSec
```
登录后复制
选项可以设置服务启动的超时时间。如果服务在指定时间内没有启动完成，systemd 会认为服务启动失败，并根据
```
Restart
```
登录后复制
策略进行处理。
```
[Service]
ExecStart=/path/to/my_app
User=myuser
Restart=on-failure
RestartSec=5s
TimeoutStartSec=30s
```
登录后复制
在这个示例中，如果服务在 30 秒内没有启动完成，systemd 会认为服务启动失败。