答案:Linux系统监控需分层使用top/htop、free/df、iostat/vmstat、ss等工具,分别查看资源占用、内存磁盘、I/O及网络状态。

在Linux命令行中进行系统监控,核心就是利用那些内置的小工具,它们虽小,却能揭示系统运行的方方面面,从CPU、内存到磁盘I/O和网络活动,几乎无所不包。这不仅仅是看几个数字,更像是在跟系统进行一场“对话”,理解它此刻的“感受”和“状态”。
解决方案
Linux命令行下的系统监控,没有一个“万能药”,它更像是一个工具箱,里面装着各种趁手的工具,根据你想要了解什么,去选择对应的工具。通常,我会把这个过程分解为几个层次:先宏观概览,再深入细节。
首先,你需要一个实时查看系统整体状况的工具,比如
top或
htop,它们能告诉你CPU和内存的占用大户是谁。接着,如果你发现内存或磁盘有问题,
free和
df会是你最好的朋友。当怀疑I/O成为瓶颈时,
iostat和
vmstat就能派上用场。最后,网络状况则可以交给
ss或
netstat。这些工具都是从
/proc文件系统读取数据,所以它们提供的信息是相当底层的、真实的。
实时资源占用概览:top
与htop
的选择与实践
当我们谈到Linux命令行下的实时系统监控,脑子里首先蹦出来的,大概率是
top。它确实经典,一运行就能看到CPU、内存的总体情况,以及当前运行的进程列表。我用
top的习惯是,按
P按CPU占用排序,按
M按内存占用排序,快速定位那些“吃资源”的家伙。如果你想杀死一个进程,记住它的PID,按
k,输入PID,再回车就行。
不过,说实话,我个人更偏爱
htop。如果你服务器上能装,我强烈建议你试试。
htop相比
top,简直是用户体验的飞跃。它有彩色的输出,更直观的CPU核心使用条形图,而且操作起来也更方便,用鼠标或者方向键就能滚动、排序、过滤进程。比如,我经常用F4来搜索特定进程,或者用F6来改变排序字段。这种直观性,在需要快速排查问题,尤其是在生产环境中,能大大提升效率。我记得有一次,一个应用突然响应缓慢,
htop的CPU条形图直接告诉我哪个核心被某个进程占满了,省去了我不少猜测的时间。它俩本质上都是通过读取
/proc文件系统里的信息来展示进程和系统状态,只是
htop在展示和交互上做了很多优化。
内存与磁盘空间:free
与df
的深度解读
内存和磁盘空间,这两个资源是系统稳定运行的基石。我经常遇到一些新手,看到
free -h输出的
free内存很小,就以为系统快要崩溃了,实际上这往往是一种误解。
free -h是我的日常,它会用人类可读的格式显示内存使用情况。这里面最容易让人困惑的就是
buff/cache这一项。Linux系统为了提高I/O性能,会把很多数据缓存到内存中,这就是
buff/cache。所以,
free那一列显示的是“真正”空闲的内存,而
available(可用)那一列,才是系统在不进行交换(swap)的情况下,可以立即分配给应用程序的内存。通常,只要
available内存足够,系统就不会出现内存不足的问题。我以前也犯过这样的错误,盯着
free那一小点数字紧张,后来才明白
available才是关键。
免费 盛世企业网站管理系统(SnSee)系统完全免费使用,无任何功能模块使用限制,在使用过程中如遇到相关问题可以去官方论坛参与讨论。开源 系统Web代码完全开源,在您使用过程中可以根据自已实际情况加以调整或修改,完全可以满足您的需求。强大且灵活 独创的多语言功能,可以直接在后台自由设定语言版本,其语言版本不限数量,可根据自已需要进行任意设置;系统各模块可在后台自由设置及开启;强大且适用的后台管理支
至于磁盘空间,
df -hT是我的首选。
df会列出所有文件系统(包括虚拟文件系统),
-h同样是为了可读性,
-T则能显示文件系统类型,这在排查特定文件系统问题时很有用。我最关注的是
Used%和
Mounted on。如果某个分区的
Used%过高,比如超过80%甚至90%,那就得警惕了,因为磁盘空间不足会导致很多意想不到的问题,比如日志无法写入、应用崩溃等。我曾遇到过一个数据库服务器,因为
/var分区被日志填满,导致数据库无法启动,这时候
df就成了我快速定位问题的关键。除了空间占用,
df -i还可以查看inode的使用情况,虽然不常见,但在某些场景下(比如大量小文件),inode耗尽也会导致无法创建新文件。
I/O与网络:iostat
、vmstat
与ss
的洞察力
当CPU和内存看起来都正常,但系统响应依然迟缓时,我通常会把目光转向I/O和网络。这两者往往是隐藏的性能杀手。
iostat -xz 1是我用来检查磁盘I/O的利器。
-x显示扩展统计信息,
-z则隐藏没有活动的设备,让输出更简洁,
1表示每秒刷新一次。我主要关注
%util(设备利用率),如果这个值长时间接近100%,那说明磁盘已经非常繁忙,很可能是I/O瓶颈。另外,
await(I/O请求的平均等待时间)和
svctm(平均服务时间)也能提供很多信息。我曾经遇到一个Web服务器,CPU和内存都很空闲,但页面加载奇慢,最后发现是
iostat显示数据库日志盘的
%util一直居高不下,定位到是磁盘I/O瓶颈后,优化了数据库配置才解决。
vmstat 1则提供了一个更全面的系统概览,它不仅仅是I/O,还包括了进程、内存、交换、系统和CPU的使用情况。对我来说,
vmstat最大的价值在于它的
wa(wait I/O)列。如果CPU的
wa值很高,意味着CPU大部分时间都在等待磁盘I/O完成,这也是I/O瓶颈的一个强烈信号。同时,它还能快速查看
si和
so(swap in/out),如果这两个值持续很高,说明系统正在频繁地进行内存交换,这通常预示着内存不足。
最后是网络,
ss -tunlp是我的首选,它比老旧的
netstat更快、更强大。
-T显示TCP连接,
-u显示UDP连接,
-n不解析服务名和主机名,
-l显示监听端口,
-p显示进程信息。通过这个命令,我可以快速看到当前系统开放了哪些端口,哪些服务正在监听,以及哪些连接是ESTABLISHED(已建立)、TIME_WAIT(等待关闭)等等。我经常用它来排查端口冲突、服务未启动或者网络连接异常的问题。比如,一个服务启动失败,
ss -tunlp | grep可以告诉我这个端口是否已经被其他进程占用。









