在实际业务场景中,我们经常会遇到这种情况:基于虚拟机(vm)环境部署的spring boot应用服务,在运行过程中常常会将内存利用率推到极限,甚至达到90%以上。此时,许多同事会呼吁领导进行内存扩容。然而,这样的需求是否合理?作为技术人员,我们应该如何应对和解决这个问题?本文将从linux内存结构、内存分析以及oom killer三个方面结合笔者多年的实践经验进行探讨,若有不足之处,欢迎大家批评指正。
内存结构
从宏观角度来看,内存管理系统是操作系统的核心部分之一。在内存管理的系统调用方面,虽然POSIX并未指定任何具体的系统调用,但Linux却拥有自己的内存管理系统调用,主要包括以下几种:
Linux的内存管理涉及广泛且复杂的领域,从早期计算机开始,我们实际使用的内存往往比系统中存在的物理内存多。为此,内存分配策略引入了虚拟内存(Virtual Memory),通过在多个进程之间共享虚拟内存,使系统能够有效管理和分配资源。以下是Linux系统的总览图:
(此图源自网络)
Linux内存通常被认为是“物理内存”,但只有内核可以直接访问物理内存。进程需要访问内存时,Linux内核为每个进程提供独立的虚拟地址空间,访问的是虚拟内存。虚拟内存空间内部划分为内核空间和用户空间:
内存映射将虚拟内存地址映射到物理内存地址。内核为每个进程维护一张页表,记录虚拟地址和物理地址的映射关系,页表存储在CPU的内存管理单元(MMU)中,处理器通过硬件直接查找要访问的内存。以下是内核线形地址空间布局图:
简要描述如下:
内存分析
内存分析手段多样,根据不同水平的需求,我们可以使用Top、Free和Vmstat命令来追踪和观察内存的动态变化,以实时了解操作系统的资源状态。以下是相关命令的示例输出及其解析:
[administrator@JavaLangOutOfMemory ~ ] %top PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 1 root 20 0 128032 7996 5556 S 80.0 80.4 0:01.03 java 2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd
简要解析如下:
[administrator@JavaLangOutOfMemory ~ ] %free total used free shared buff/cache available Mem: 2031744 98176 1826192 8784 107376 1800144 Swap: 2097148 0 2097148
此命令输出内容简单,主要打印已用、剩余、可用、共享内存以及缓存等信息。部分参数释义如下:
[administrator@JavaLangOutOfMemory ~ ] %vmstat 1 1 procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 1 0 0 1815348 2108 111872 0 0 1 0 11 11 0 0 100 0 0
简要解析如下:
OOM Killer
在某些场景下,如VM上部署多个Spring Boot微服务,在业务促销、压力测试或网络抖动等特殊时刻,服务可能会突然无预警地被终止。此时,我们需要快速定位问题原因。
这种情况通常是由于内存溢出(OOM,Out Of Memory)导致的。Linux通过OOM Killer机制进行自我保护,防止内存不足时出现严重问题。Linux内核会监控占用内存过大的进程,特别是在某一时刻内存使用快速增长的进程,以防止系统内存耗尽而自动终止这些进程。系统内核检测到内存不足时,会通过内核源代码linux/mm/oom_kill.c中的out_of_memory()函数触发,然后调用select_bad_process()选择并终止一个“bad”进程。选择“bad”进程的标准是通过oom_badness()函数计算的,算法简单且直接:最“bad”的进程就是最占用内存的进程。
OOM Killer源码解析
OOM Killer的核心函数是out_of_memory(),执行流程如下:
通过分析Badness Score的计算函数,我们可以理解OOM Killer如何选择需要终止的进程。具体源码如下:
unsigned long oom_badness(struct task_struct *p, struct mem_cgroup *memcg, const nodemask_t *nodemask, unsigned long totalpages){ long points; long adj; /* 若该进程不能被终止,则分数返回0. */ if (oom_unkillable_task(p, memcg, nodemask)) return 0; p = find_lock_task_mm(p); if (!p) return 0; /* 获取该进程的oom_score_adj,这是用户为进程设置的badness score调整值,若此值为-1000或进程被标记为不可终止,或进程处于vfork()过程中,badness score返回0。 */ adj = (long)p->signal->oom_score_adj; if (adj == OOM_SCORE_ADJ_MIN || test_bit(MMF_OOM_SKIP, &p->mm->flags) || in_vfork(p)) { task_unlock(p); return 0; } /* badness score分数 = 物理内存页数 + 交换区页数 + 页表Page Table数量。 */ points = get_mm_rss(p->mm) + get_mm_counter(p->mm, MM_SWAPENTS) + mm_pgtables_bytes(p->mm) / PAGE_SIZE; task_unlock(p); /* 利用以下公式对badness score值进行调整。 */ adj *= totalpages / 1000; points += adj; /* 返回badness score,若等于0,则返回1。 */ return points > 0 ? points : 1; }
通过对Badness Score计算函数的分析,我们发现OOM Killer是基于RSS(常驻物理内存)来选择进程进行终止操作,从而释放相关内存以进行系统自我保护。有关OOM Killer的配置、查看及分析将在后续文章中详细介绍,请大家留意。
综上所述,本文主要通过对Linux内存结构、分析及OOM Killer三个核心维度,从主动和被动场景两方面对Linux操作系统内存进行剖析,探讨在实际业务场景中内存表现的相关活动及经验认知。关于Linux系统内存解析的内容到此结束,大家如有疑问、想法及建议,欢迎留言沟通。
以上就是Linux系统之 OOM 解析的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号