TCMalloc核心是三层结构:线程局部缓存→中心自由链表→页堆管理;每线程独享缓存减少锁竞争,通过size class分级分配,central list用自旋锁管理Span,page heap负责大内存映射与回收。

TCMalloc(Thread-Cache Malloc)是 Google 开发的高性能内存分配器,核心思想是为每个线程维护一个本地缓存(thread-local cache),减少多线程下对全局堆锁的竞争。它不是标准 C++ 库的一部分,但可作为 malloc 的替代实现(如通过 LD_PRELOAD 替换系统 malloc)。下面以原理+关键源码逻辑的方式,说明如何在 C++ 中模拟/理解其核心机制。
线程局部缓存(Thread-Local Cache)
每个线程独享一块小内存池(cache),用于快速分配小对象(通常
- 用 thread_local 存储 per-thread cache 对象(C++11 起支持)
- cache 内部通常用多个 freelist(按大小分级,如 8B/16B/32B…256KB)
- 分配时:查对应 size class 的 freelist → 有则直接返回;无则向 central 索取一批(如 64 个相同大小的对象)
中心自由链表(Central Free List)
全局共享,管理所有未被线程缓存占用的空闲内存块(按 size class 分组)。线程 cache 缺货时从中批量获取;cache 过满时归还部分内存块。
- 每个 size class 对应一个带锁的 SinglyLinkedList(常使用 spinlock 或 mutex)
- 为降低锁争用,可采用 sharded central list(分片哈希,如 64 个 bucket)
- central list 的内存来自 page heap(即大块虚拟内存页)
页堆(Page Heap)与内存映射
负责向操作系统申请和释放大块内存(以 page 为单位,如 4KB/2MB)。TCMalloc 将物理页组织成 Span(连续页集合),并维护 Span 的空闲/已分配状态。
立即学习“C++免费学习笔记(深入)”;
- Span 结构体记录起始页号、页数、是否已分配、前后 Span 指针(用于合并)
- 用 基数树(Radix Tree)或位图 快速定位某地址所属 Span
- 小对象分配最终落到 Span 内部的 object 数组;大对象(>256KB)直接分配整个 Span
关键源码逻辑示意(简化版)
以下为伪代码级核心结构,非完整实现,但体现 TCMalloc 核心脉络:
// 1. 线程局部缓存
struct ThreadCache {
thread_local static ThreadCache* instance;
std::array freelists_;
void* Allocate(sizet size) {
int cl = SizeClass(size); // 映射到 size class
if (auto p = freelists[cl]->Pop()) return p;
RefillFreelist(cl); // 向 central 获取一批
return freelists_[cl]->Pop();
}
};
// 2. 中心自由链表(带分片)
class CentralFreeList {
SpinLock lock;
SinglyLinkedList list;
public:
void InsertRange(void head, void tail, int N);
void* RemoveRange(int N);
};
// 3. 页堆管理
class PageHeap {
std::map> spans_; // 按起始页号索引
Span NewSpan(int npages); // mmap 或 sbrk 分配
void DeleteSpan(Span* span); // munmap 或归还
};
真实 TCMalloc(见 gperftools 源码)还包含:采样式堆分析(统计分配行为)、内存碎片整理(合并相邻空闲 Span)、huge page 支持、per-CPU cache(Linux)等优化。但上述三层结构(thread cache → central list → page heap)是其骨架。
不复杂但容易忽略:线程 cache 的生命周期需与线程绑定(如 pthread_key_create + destructor),且需处理线程退出时的内存归还;size class 划分需权衡空间浪费与管理开销(TCMalloc 默认 87 个 class)。









