系统连接数耗尽主因包括端口耗尽、文件描述符限制、TIME_WAIT过多或应用未释放连接;排查需结合ss命令分析连接状态,检查ip_local_port_range和ulimit限制,调整tcp_tw_reuse等内核参数,并通过lsof定位高连接进程,最终区分系统配置与程序缺陷,优化连接管理以根治问题。

系统连接数耗尽通常表现为服务无法建立新连接、请求超时或拒绝服务。在Linux中,这类问题可能由端口耗尽、文件描述符限制、TIME_WAIT连接过多或应用未正确释放连接引起。排查需从网络协议栈、系统资源和应用行为三方面入手。
检查当前连接状态
使用 .netstat 或 ss 命令查看连接分布:
ss -sss -tan | awk 'NR>1 {print $1}' | sort | uniq -c | sort -nr
重点关注 ESTABLISHED、TIME_WAIT 和 CLOSE_WAIT 的数量。若 TIME_WAIT 连接过多,可能是短连接频繁建立;若 CLOSE_WAIT 多,说明应用未及时关闭连接。
确认端口与文件描述符使用情况
客户端连接依赖本地端口,系统默认可用端口范围有限:
cat /proc/sys/net/ipv4/ip_local_port_range若活跃连接接近此范围上限,可适当扩大:
echo "1024 65535" > /proc/sys/net/ipv4/ip_local_port_range同时检查进程的文件描述符使用:
lsof -i | wc -lcat /proc/$(pgrep your_service)/limits | grep "Max open files"
若接近上限,需调高 ulimit 或 systemd 的 LimitNOFILE 配置。
分析内核网络参数
某些内核参数影响连接回收效率:
- net.ipv4.tcp_tw_reuse = 1:允许将 TIME_WAIT 连接用于新连接(仅客户端)
- net.ipv4.tcp_tw_recycle:已废弃,禁用
- net.ipv4.tcp_fin_timeout:缩短 FIN_WAIT 超时时间
- net.core.somaxconn 和 net.core.netdev_max_backlog:提升连接队列容量
通过 sysctl 修改并验证效果:
sysctl net.ipv4.tcp_tw_reuse=1定位问题应用
结合 ss 与 lsof 定位高连接数进程:
ss -tanp | grep :80 | headlsof -p $(pgrep nginx)
观察特定进程的连接增长趋势,判断是否代码层未关闭连接,或存在连接池配置不当。
基本上就这些。关键在于区分是系统限制还是程序缺陷导致的问题。多数情况下,调整端口复用和文件描述符限制能缓解症状,但根本解决还需优化应用连接管理。










