Linux如何监控服务的运行时间和负载-linux运维-PHP中文网

要监控Linux服务的运行时间和负载，需选择合适的工具并配置监控与告警。首先明确监控目标如Web或数据库服务，然后选用top、ps、sar等命令行工具或Prometheus、Grafana、Nagios等系统级方案。使用top可实时查看CPU和内存占用；ps结合grep和STIME可查进程启动时间；sar能周期性收集CPU、内存、I/O数据并分析历史趋势；systemd-analyze用于查看systemd服务启动耗时。对于高级监控，部署Prometheus配合Node Exporter采集指标，Grafana实现可视化，并配置告警规则以及时响应异常。最终通过数据分析识别性能瓶颈，保障服务稳定运行。

linux如何监控服务的运行时间和负载

要监控Linux服务的运行时间和负载，可以使用多种工具和方法，从简单的命令行工具到更复杂的监控系统。核心在于收集关键指标，并根据这些指标进行分析和告警。

解决方案

监控Linux服务的运行时间和负载，可以采取以下步骤：

确定需要监控的服务： 明确需要监控哪些服务，例如 Web 服务器（如 Apache 或 Nginx）、数据库服务器（如 MySQL 或 PostgreSQL）等。
选择监控工具： 根据需求选择合适的监控工具。常用的工具有：
- ```
top
```
  登录后复制
  /
```
htop
```
  登录后复制
  : 实时查看系统资源使用情况。
- ```
uptime
```
  登录后复制
  : 查看系统运行时间和平均负载。
- ```
ps
```
  登录后复制
  : 查看进程信息，包括运行时间。
- ```
vmstat
```
  登录后复制
  : 虚拟内存统计。
- ```
iostat
```
  登录后复制
  : I/O 统计。
- ```
sar
```
  登录后复制
  : 系统活动报告工具，可以收集和报告各种系统资源的使用情况。
- ```
systemd-analyze
```
  登录后复制
  : 如果服务由 systemd 管理，可以使用此工具分析启动时间。
- Prometheus + Grafana: 强大的监控解决方案，适用于大规模系统。
- Nagios / Zabbix: 常用的监控系统，可以监控各种服务和主机。
配置监控： 根据选择的工具，配置相应的监控参数。例如，使用
```
sar
```
登录后复制
收集 CPU、内存、磁盘 I/O 等数据，并设置收集频率。对于 Prometheus，需要配置 exporter 来暴露服务的指标。
分析数据： 收集到的数据需要进行分析，以了解服务的运行状况。例如，查看 CPU 使用率是否过高，内存使用量是否接近上限，磁盘 I/O 是否频繁。
设置告警： 根据分析结果，设置告警阈值。当某个指标超过阈值时，发送告警通知。例如，当 CPU 使用率超过 90% 时，发送邮件或短信告警。

如何使用

top

登录后复制

命令监控服务负载？

top

登录后复制

命令提供了一个动态的、实时的系统视图。它显示了系统中运行的进程列表，以及 CPU 使用率、内存使用率等信息。你可以使用

top

登录后复制

命令来快速了解哪些进程占用了最多的资源。

运行
```
top
```
登录后复制
命令： 在终端输入
```
top
```
登录后复制
并回车。
观察输出：
```
top
```
登录后复制
命令的输出分为几个部分：
- 第一行： 显示系统运行时间、当前用户数、平均负载等信息。平均负载是指在过去 1 分钟、5 分钟和 15 分钟内的平均进程数。
- 第二行： 显示任务（进程）的总数、运行中、睡眠中、停止中和僵尸进程的数量。
- 第三行： 显示 CPU 的使用率，包括用户态、系统态、空闲、等待 I/O 等。
- 第四行： 显示物理内存的使用情况，包括总内存、已用内存、空闲内存、缓存内存。
- 第五行： 显示交换空间的使用情况。
- 进程列表： 显示各个进程的详细信息，包括 PID（进程 ID）、USER（用户）、PR（优先级）、NI（nice 值）、VIRT（虚拟内存）、RES（常驻内存）、SHR（共享内存）、S（进程状态）、%CPU（CPU 使用率）、%MEM（内存使用率）、TIME+（CPU 时间）、COMMAND（命令）。
查找目标服务： 在进程列表中查找你需要监控的服务。你可以使用
```
grep
```
登录后复制
命令过滤
```
top
```
登录后复制
的输出，例如
```
top | grep nginx
```
登录后复制
可以查找所有包含 "nginx" 关键字的进程。
分析资源占用： 观察目标服务的 CPU 使用率（%CPU）和内存使用率（%MEM）。如果 CPU 使用率过高，可能表明服务正在处理大量的请求或存在性能问题。如果内存使用率过高，可能表明服务存在内存泄漏或需要更多的内存。
使用
```
top
```
登录后复制
的交互命令：
```
top
```
登录后复制
命令提供了一些交互命令，可以帮助你更好地监控系统。例如：
- ```
M
```
  登录后复制
  : 按内存使用率排序。
- ```
P
```
  登录后复制
  : 按 CPU 使用率排序。
- ```
k
```
  登录后复制
  : 杀死进程。
- ```
q
```
  登录后复制
  : 退出
```
top
```
  登录后复制
  。

如何使用

ps

登录后复制

命令查看服务的运行时间？

ps

登录后复制

命令用于显示当前进程的快照。它可以显示进程的 PID、用户、CPU 使用率、内存使用率、运行时间等信息。使用

ps

登录后复制

命令可以查看服务的启动时间和运行时间。

运行
```
ps
```
登录后复制
命令： 使用以下命令查看指定服务的进程信息：
```
ps -ef | grep <service_name>
```
登录后复制
将
```
<service_name>
```
登录后复制
替换为你要监控的服务名称。例如，要查看 nginx 服务的进程信息，可以使用以下命令：
```
ps -ef | grep nginx
```
登录后复制
观察输出：
```
ps
```
登录后复制
命令的输出包含多个列，其中一些重要的列包括：
- ```
UID
```
  登录后复制
  : 运行进程的用户 ID。
- ```
PID
```
  登录后复制
  : 进程 ID。
- ```
PPID
```
  登录后复制
  : 父进程 ID。
- ```
C
```
  登录后复制
  : CPU 使用率。
- ```
STIME
```
  登录后复制
  : 进程启动时间。
- ```
TTY
```
  登录后复制
  : 进程运行的终端。
- ```
TIME
```
  登录后复制
  : 进程使用的 CPU 时间。
- ```
CMD
```
  登录后复制
  : 运行的命令。
分析运行时间：
```
STIME
```
登录后复制
列显示进程的启动时间。如果进程已经运行了很长时间，
```
STIME
```
登录后复制
列可能会显示日期而不是时间。
```
TIME
```
登录后复制
列显示进程使用的 CPU 时间。这个时间表示进程实际占用 CPU 的时间，而不是进程的运行总时间。
计算运行总时间： 要计算进程的运行总时间，可以使用以下方法：
- 查看启动时间： 从
```
STIME
```
  登录后复制
  列获取进程的启动时间。
- 获取当前时间： 使用
```
date
```
  登录后复制
  命令获取当前时间。
- 计算时间差： 计算当前时间与启动时间之间的时间差。可以使用
```
date
```
  登录后复制
  命令的格式化选项来简化计算。例如：
```
start_time=$(ps -eo lstart | grep <service_name> | head -n 1)
current_time=$(date)
echo "Start Time: $start_time"
echo "Current Time: $current_time"
```
登录后复制
然后手动计算时间差。或者，你可以使用
```
date
```
登录后复制
命令的
```
-d
```
登录后复制
选项和
```
+%s
```
登录后复制
格式化选项将时间转换为 Unix 时间戳，然后计算时间戳的差值。

如何使用

sar

登录后复制

命令监控系统负载？

sar

登录后复制

（System Activity Reporter）是一个强大的系统活动报告工具。它可以收集和报告各种系统资源的使用情况，包括 CPU、内存、磁盘 I/O、网络等。

sar

登录后复制

命令可以帮助你了解系统的整体负载情况，并找出性能瓶颈。

安装
```
sar
```
登录后复制
：
```
sar
```
登录后复制
命令通常包含在
```
sysstat
```
登录后复制
软件包中。使用以下命令安装
```
sysstat
```
登录后复制
：
```
sudo apt-get update
sudo apt-get install sysstat
```
登录后复制
或者，在 CentOS/RHEL 上：
```
sudo yum install sysstat
```
登录后复制
配置
```
sar
```
登录后复制
：
```
sar
```
登录后复制
的配置文件通常位于
```
/etc/default/sysstat
```
登录后复制
。你可以修改此文件来配置
```
sar
```
登录后复制
的收集频率和保存时间。
- ```
ENABLED="true"
```
  登录后复制
  : 启用
```
sar
```
  登录后复制
  。
- ```
SADC_OPTIONS="-S ALL"
```
  登录后复制
  : 收集所有统计信息。
- ```
HISTORY=28
```
  登录后复制
  : 保存 28 天的历史数据。
运行
```
sar
```
登录后复制
命令：
```
sar
```
登录后复制
命令的基本语法如下：
```
sar [options] [interval] [count]
```
登录后复制
- ```
options
```
  登录后复制
  : 指定要收集的统计信息类型。
- ```
interval
```
  登录后复制
  : 指定收集数据的间隔时间（秒）。
- ```
count
```
  登录后复制
  : 指定收集数据的次数。
一些常用的
```
sar
```
登录后复制
命令示例：
- 查看 CPU 使用率：
```
sar -u 1 5
```
  登录后复制
  每 1 秒收集一次 CPU 使用率数据，共收集 5 次。
- 查看内存使用情况：
```
sar -r 1 5
```
  登录后复制
  每 1 秒收集一次内存使用情况数据，共收集 5 次。
- 查看磁盘 I/O 情况：
```
sar -d 1 5
```
  登录后复制
  每 1 秒收集一次磁盘 I/O 情况数据，共收集 5 次。
  
  MacsMind
  电商AI超级智能客服
  
  192
  
  查看详情
- 查看网络流量：
```
sar -n DEV 1 5
```
  登录后复制
  每 1 秒收集一次网络流量数据，共收集 5 次。
分析数据：
```
sar
```
登录后复制
命令的输出包含多个列，你需要根据不同的统计信息类型来分析这些列。
- CPU 使用率 (
```
sar -u
```
  登录后复制
  )：
  - ```
  %user
```
  登录后复制
  : 用户态 CPU 使用率。
- ```
%system
```
    登录后复制
    : 系统态 CPU 使用率。
  - ```
  %iowait
```
  登录后复制
  : 等待 I/O 的 CPU 使用率。
- ```
%idle
```
    登录后复制
    : 空闲 CPU 使用率。
  如果
```
%user
```
  登录后复制
  或
```
%system
```
  登录后复制
  过高，可能表明 CPU 负载过重。如果
```
%iowait
```
  登录后复制
  过高，可能表明磁盘 I/O 存在瓶颈。
- 内存使用情况 (
```
sar -r
```
  登录后复制
  )：
  - ```
  kbmemfree
```
  登录后复制
  : 空闲内存大小（KB）。
- ```
kbmemused
```
    登录后复制
    : 已用内存大小（KB）。
  - ```
  %memused
```
  登录后复制
  : 已用内存百分比。
- ```
kbbuffers
```
    登录后复制
    : 缓冲区使用的内存大小（KB）。
  - ```
  kbcached
```
  登录后复制
  : 缓存使用的内存大小（KB）。
如果
```
  %memused
```
登录后复制
过高，可能表明内存不足。
- 磁盘 I/O 情况 (
```
sar -d
```
  登录后复制
  )：
  - ```
  tps
```
  登录后复制
  : 每秒传输次数。
- ```
rd_sec/s
```
    登录后复制
    : 每秒读取的扇区数。
  - ```
  wr_sec/s
```
  登录后复制
  : 每秒写入的扇区数。
- ```
await
```
    登录后复制
    : 平均 I/O 等待时间（毫秒）。
  - ```
  svctm
```
  登录后复制
  : 平均 I/O 服务时间（毫秒）。
- ```
%util
```
    登录后复制
    : 磁盘利用率。
  如果
```
await
```
  登录后复制
  过高，可能表明磁盘 I/O 存在瓶颈。如果
```
%util
```
  登录后复制
  接近 100%，可能表明磁盘已经饱和。
使用
```
sadc
```
登录后复制
收集数据：
```
sar
```
登录后复制
命令依赖于
```
sadc
```
登录后复制
（System Activity Data Collector）来收集数据。
```
sadc
```
登录后复制
通常由 cron 任务定期运行，并将数据保存到文件中。你可以使用
```
sar
```
登录后复制
命令来查看这些历史数据。
```
sar -f /var/log/sysstat/saXX
```
登录后复制
将
```
XX
```
登录后复制
替换为要查看的日期。例如，要查看 2023 年 10 月 27 日的数据，可以使用以下命令：
```
sar -f /var/log/sysstat/sa27
```
登录后复制

如何使用 Prometheus 和 Grafana 监控服务？

Prometheus 和 Grafana 是一个强大的监控解决方案，特别适用于大规模系统。Prometheus 用于收集和存储指标数据，Grafana 用于可视化这些数据。

安装 Prometheus： 从 Prometheus 官网下载最新版本的 Prometheus，并解压到指定目录。

wget https://github.com/prometheus/prometheus/releases/download/v2.47.0/prometheus-2.47.0.linux-amd64.tar.gz
tar -xzf prometheus-2.47.0.linux-amd64.tar.gz
cd prometheus-2.47.0.linux-amd64

登录后复制

配置 Prometheus： 编辑
```
prometheus.yml
```
登录后复制
文件，配置 Prometheus 的监控目标。
```
global:
  scrape_interval:     15s
  evaluation_interval: 15s

scrape_configs:
  - job_name: 'linux'
    static_configs:
      - targets: ['localhost:9100']
  - job_name: 'prometheus'
    static_configs:
      - targets: ['localhost:9090']
```
登录后复制
这个配置文件定义了两个监控目标：
```
linux
```
登录后复制
和
```
prometheus
```
登录后复制
。
```
linux
```
登录后复制
目标监控
```
localhost:9100
```
登录后复制
，这是 Node Exporter 的默认端口。
```
prometheus
```
登录后复制
目标监控
```
localhost:9090
```
登录后复制
，这是 Prometheus 自身的端口。
安装 Node Exporter： Node Exporter 用于暴露 Linux 系统的各种指标，例如 CPU 使用率、内存使用率、磁盘 I/O 等。从 Prometheus 官网下载最新版本的 Node Exporter，并解压到指定目录。
```
wget https://github.com/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gz
tar -xzf node_exporter-1.6.1.linux-amd64.tar.gz
cd node_exporter-1.6.1.linux-amd64
```
登录后复制
启动 Prometheus 和 Node Exporter： 分别启动 Prometheus 和 Node Exporter。
```
./prometheus --config.file=prometheus.yml
./node_exporter
```
登录后复制

安装 Grafana： 从 Grafana 官网下载最新版本的 Grafana，并安装到指定目录。

wget https://dl.grafana.com/oss/release/grafana_10.1.5_amd64.deb
sudo dpkg -i grafana_10.1.5_amd64.deb
sudo systemctl start grafana-server

登录后复制

配置 Grafana： 打开 Grafana 的 Web 界面（默认端口为 3000），并添加 Prometheus 数据源。
- Data Sources: Configuration -> Data Sources -> Add data source
- Select Prometheus: 选择 Prometheus 作为数据源类型。
- URL: 输入 Prometheus 的地址（例如
```
http://localhost:9090
```
  登录后复制
  ）。
创建 Grafana 仪表盘： 创建 Grafana 仪表盘，并添加各种图表来可视化 Prometheus 收集的指标数据。你可以使用现有的仪表盘模板，也可以自定义仪表盘。
- Create: Create -> Dashboard -> Import
- Import via grafana.com: 输入仪表盘模板的 ID（例如
```
1860
```
  登录后复制
  是 Node Exporter 的仪表盘模板）。
配置服务 Exporter： 对于需要监控的服务，你需要安装相应的 Exporter 来暴露服务的指标。例如，对于 MySQL，你可以使用 MySQL Exporter。对于 Nginx，你可以使用 Nginx Exporter。
- 下载 Exporter： 从 Prometheus 官网或 GitHub 下载相应的 Exporter。
- 配置 Exporter： 根据 Exporter 的文档配置 Exporter。
- 启动 Exporter： 启动 Exporter。
- 配置 Prometheus： 在
```
prometheus.yml
```
  登录后复制
  文件中添加 Exporter 的监控目标。
- 重启 Prometheus： 重启 Prometheus 以加载新的配置。

如何监控 systemd 管理的服务的运行时间？

如果服务由 systemd 管理，可以使用

systemd-analyze

登录后复制

命令来分析服务的启动时间。

查看服务启动时间：
```
systemd-analyze blame
```
登录后复制
这个命令会列出所有 systemd 单元的启动时间，并按启动时间排序。
查看指定服务的启动时间：
```
systemd-analyze blame <service_name>
```
登录后复制
将
```
<service_name>
```
登录后复制
替换为你要监控的服务名称。例如，要查看 nginx 服务的启动时间，可以使用以下命令：
```
systemd-analyze blame nginx.service
```
登录后复制
查看服务启动过程的详细信息：
```
systemd-analyze critical-chain <service_name>
```
登录后复制
这个命令会显示服务启动过程中各个步骤的依赖关系和耗时。
查看服务的状态：
```
systemctl status <service_name>
```
登录后复制
这个命令会显示服务的状态信息，包括启动时间、运行时间、进程 ID 等。