如何管理Linux用户进程 pam_limits资源限制配置-linux运维-PHP中文网

要管理linux用户进程资源，核心在于配置pam_limits模块。具体步骤如下：1. 编辑/etc/security/limits.conf或在/etc/security/limits.d/目录下创建新.conf文件；2. 按照<domain> <type> <item> <value>格式配置限制，如设置用户或组的nofile、nproc等资源上限；3. 确保pam配置文件（如/etc/pam.d/login或sshd）中包含session required pam_limits.so以启用模块；4. 用户需重新登录使配置生效。其目的是保障系统稳定性、公平性、安全性及性能可预测性。soft limit是当前生效值，可由用户提升但不超过hard limit，后者为绝对上限，不可突破。验证配置是否生效的方法包括：1. 使用ulimit -a查看当前会话软限制，ulimit -hn等查看硬限制；2. 检查/proc/<pid>/limits文件确认进程实际限制；3. 进行fork炸弹或大量文件打开测试验证限制效果；4. 查看系统日志排查配置错误。合理配置并验证后，可有效防止资源耗尽导致的服务中断。

如何管理Linux用户进程 pam_limits资源限制配置

在Linux系统里，管理用户进程的资源使用，核心在于利用pam_limits模块。这东西就像一个系统的守门员，它能帮你给用户或者用户组设置各种资源上限，比如能打开多少文件、能启动多少个进程等等。这么做的目的很简单：防止某个用户或者某个程序不小心（或者故意）把系统资源耗尽，从而影响整个系统的稳定性和其他用户的正常使用。说白了，就是为了让你的Linux服务器跑得更稳、更公平。

解决方案

要配置pam_limits，你主要需要编辑/etc/security/limits.conf这个文件，或者在/etc/security/limits.d/目录下创建新的.conf文件。我个人更倾向于在limits.d里创建新文件，这样管理起来更清晰，每次改动也不容易影响到系统默认的配置，方便回溯。

这个文件的格式很直观：

<domain> <type> <item> <value>

domain: 指定要应用限制的用户、组或者通配符。
- 用户名 (e.g., john)
- 组名 (前面加@, e.g., @developers)
- 所有用户 (使用*)
- 所有组 (使用@*)
type: 限制的类型，可以是soft（软限制）或hard（硬限制）。
- soft: 这是一个警告值，用户可以自行提升，但不能超过硬限制。
- hard: 这是绝对上限，用户（包括root）都无法突破。
item: 要限制的资源类型。常用的有：
- nofile: 最大打开文件数
- nproc: 最大进程数
- as: 进程的地址空间大小 (单位：KB)
- core: core文件最大大小 (单位：KB)
- cpu: CPU时间 (单位：分钟)
- fsize: 最大文件大小 (单位：KB)
- memlock: 锁定内存的最大值 (单位：KB)
- rss: 最大常驻集大小 (单位：KB)
value: 具体的限制值。

一个配置示例：

假设我想限制用户devuser最多只能打开4096个文件，并且最多只能运行100个进程。同时，对于@webgroup这个组的所有成员，我希望他们最多只能打开8192个文件，并且CPU时间不能超过60分钟。

你可以在/etc/security/limits.d/custom.conf中添加如下内容：

# 限制devuser的最大文件打开数和进程数
devuser        soft    nofile      4096
devuser        hard    nofile      4096
devuser        soft    nproc       100
devuser        hard    nproc       100

# 限制webgroup组的最大文件打开数和CPU时间
@webgroup      soft    nofile      8192
@webgroup      hard    nofile      8192
@webgroup      soft    cpu         60
@webgroup      hard    cpu         60

登录后复制

PAM模块的启用：

要让这些配置生效，你的PAM（Pluggable Authentication Modules）配置中必须包含pam_limits.so模块。通常，在/etc/pam.d/目录下的login、sshd、su等文件中，你会看到类似下面这行：

session required pam_limits.so

这行配置确保了用户登录时，pam_limits模块会被加载并应用相应的资源限制。如果你发现配置没生效，第一步就是检查这些PAM文件。

配置修改后，用户需要重新登录才能使新的限制生效。对于已经运行的进程，你需要重启它们或者让用户重新登录。

为什么需要对Linux用户进程进行资源限制？

这个问题其实挺关键的，因为它直接关系到系统是否能稳定、高效地运行。在我看来，对Linux用户进程进行资源限制，主要出于几个考量：

首先，系统稳定性是重中之重。想象一下，如果一个开发人员不小心写了个死循环，或者一个脚本失控地创建了成千上万个进程，甚至打开了无数个文件句柄，没有限制的话，整个系统可能瞬间就被拖垮，CPU飙升、内存耗尽、文件描述符用光，最终导致服务中断，其他用户也无法正常工作。pam_limits就像一道防火墙，能有效阻止这种“资源雪崩”的发生。

其次，是为了公平性。在多用户或者多服务共享一台服务器的环境下，资源是有限的。如果不做限制，某个“大胃王”用户或应用可能会独占大量资源，导致其他用户或服务响应缓慢甚至停滞。资源限制确保了每个用户或服务都能获得相对公平的资源配额，避免了“劣币驱逐良币”的情况。

再者，这与安全性也有着千丝万缕的联系。虽然pam_limits不是安全防御的核心，但它能有效阻止一些基于资源耗尽的拒绝服务（DoS）攻击。通过限制用户能创建的进程数、打开的文件数等，可以大大增加攻击者通过资源耗尽来瘫痪系统的难度。我记得有一次，一个外部渗透测试报告就提到了资源限制不足可能导致的服务不可用风险，后来我们就是通过pam_limits解决了这个问题。

最后，也是为了性能可预测性。通过设置合理的资源限制，我们可以更好地预测系统在不同负载下的表现，避免因为突发性的资源占用导致性能波动。这对于生产环境的服务质量保障来说，是不可或缺的一环。

soft limit与hard limit有什么区别？如何选择？

理解soft limit和hard limit的区别，是配置pam_limits的关键。它们就像是你给资源使用设定的两道门槛，一个可以稍微灵活一点，另一个则是绝对的红线。

soft limit (软限制)：这是用户当前实际生效的资源限制。它的特点是“软”，意味着用户（或进程）可以在不违反hard limit的前提下，自行提升这个限制。比如说，如果你的soft nofile是1024，而hard nofile是4096，那么你的程序默认最多打开1024个文件，但它可以通过setrlimit()系统调用把这个限制提升到4096。你可以把它想象成一个“推荐值”或者“默认值”，通常是系统为了保持资源利用率的平衡而设定的。

hard limit (硬限制)：这是资源使用的绝对上限，一个不可逾越的“天花板”。一旦设置了hard limit，即便是root用户，也无法将某个用户的soft limit提升到超过这个hard limit。只有拥有CAP_SYS_RESOURCE能力的进程才能修改hard limit，但普通用户肯定没有。它提供了一个最终的保护，确保资源不会被无限滥用。

如何选择？

选择soft还是hard，或者两者结合，取决于你的具体需求和对风险的容忍度。

乾坤圈新媒体矩阵管家

新媒体账号、门店矩阵智能管理系统

查看详情

只设置hard limit： 如果你希望某个资源有一个绝对的上限，不允许任何程序突破，那么直接设置hard limit是一个简单粗暴但有效的方法。这种场景下，soft limit通常会和hard limit设置成一样的值。比如，对于生产环境的关键服务，你可能希望它的最大进程数就是100，不多不少，那就把soft和hard的nproc都设成100。
soft limit低于hard limit： 这是我个人在很多场景下更偏爱的做法，尤其是在开发或测试环境中。这种配置允许程序在默认情况下保持较低的资源占用，但当它确实需要更多资源时（比如处理一个突发的大请求），它有能力临时提升自己的限制，直到hard limit为止。这提供了灵活性，同时又保留了最终的保护伞。比如，你可能希望用户默认打开文件数是1024（soft），但允许在高峰期临时提升到4096（hard），这样既节省了资源，又保证了弹性。
什么时候只用soft或只用hard？ 严格来说，通常你会同时设置soft和hard。如果只设置soft，那么hard会保持系统默认值（通常非常高，甚至无限），这样soft的限制就显得没那么“硬”了，因为用户可以轻易地突破它。如果只设置hard，那么soft会默认等于hard。所以，最好的实践是同时明确地定义两者，让意图更清晰。

总而言之，hard limit是你的安全底线，是防止系统崩溃的最后一道防线；soft limit则更像是日常操作的规范，允许一定的灵活性。根据你的应用场景，合理搭配使用，能让系统既安全又高效。

如何验证pam_limits配置是否生效？

配置完pam_limits后，千万不要想当然地认为它就生效了。验证是必不可少的一步，毕竟，我踩过的坑告诉我，很多时候配置看着没错，但就是不工作，或者只在特定条件下工作。

1. 使用ulimit -a命令

这是最常用的方法。以受限制的用户身份登录（或者使用su - <username>切换过去），然后在shell中执行：

ulimit -a

登录后复制

这个命令会列出当前shell会话的所有资源限制。你需要重点关注你配置过的那些项，比如open files (-n)（对应nofile）和max user processes (-u)（对应nproc）。

需要注意的是：

ulimit -a显示的是当前shell的软限制。要查看硬限制，可以使用ulimit -Hn（hard nofile）和ulimit -Hu（hard nproc）等。
这个命令只反映了当前会话的限制，如果你的PAM配置有问题，或者pam_limits.so没有在正确的服务（如sshd或login）中加载，那么即使limits.conf写得再好，这里也可能看不到预期的效果。

2. 检查特定进程的/proc/<PID>/limits文件

如果你想知道某个正在运行的进程的具体资源限制，可以通过它的进程ID（PID）来查看/proc/<PID>/limits文件。

cat /proc/$(pgrep <process_name>)/limits

登录后复制

例如，要查看当前bash shell的限制：

cat /proc/$$/limits

登录后复制

这里会列出该进程的各种软硬限制，信息非常详细。这是验证单个进程是否正确受到限制的黄金标准。

3. 进行实际的“破坏性”测试

这是最直接也最有效的验证方式，但请务必在非生产环境进行，或者确保你了解风险。

测试nproc（最大进程数）： 以受限用户身份登录，尝试运行一个简单的fork炸弹（警告：此命令有风险，可能导致系统不稳定，请在隔离的测试环境谨慎使用！）：
```
:(){ :|:& };:
```
登录后复制
如果nproc限制生效，你会看到类似“Resource temporarily unavailable”的错误，并且系统不会被大量进程淹没。

测试nofile（最大文件打开数）： 编写一个简单的Python脚本，尝试打开大量文件：

import os
files = []
try:
    for i in range(10000): # 尝试打开10000个文件
        f = open(f"/tmp/test_file_{i}.txt", "w")
        files.append(f)
        print(f"Opened file {i}")
except OSError as e:
    print(f"Error opening file: {e}")
finally:
    for f in files:
        f.close()

登录后复制

以受限用户运行这个脚本，如果nofile限制生效，脚本会在达到限制值时报错，而不是无限打开文件。

4. 检查系统日志

有时候，pam_limits配置错误或者PAM模块加载失败会在系统日志中留下线索。你可以查看/var/log/auth.log（Debian/Ubuntu）或/var/log/secure（CentOS/RHEL）文件，搜索pam_limits或者与登录相关的错误信息。

综合以上方法，通常能帮你确认pam_limits配置是否按照预期工作。我通常会先用ulimit -a快速检查，然后用cat /proc/$$/limits确认当前shell的实际限制，最后根据需要进行一些小型的“破坏性”测试来确保万无一失。

以上就是如何管理Linux用户进程 pam_limits资源限制配置的详细内容，更多请关注php中文网其它相关文章！