HTM是CPU硬件提供的轻量级乐观并发机制,通过TSX指令(如XBEGIN/XEND)实现小范围内存操作的原子提交或回滚,不属C++标准,需编译器支持及运行时降级,适用特定热点路径。

Hardware Transactional Memory(HTM)是 CPU 硬件层面提供的一种轻量级并发控制机制,C++ 本身不直接定义 HTM,但可通过编译器内建函数(如 GCC/Clang 的 __builtin_txnal_*)或 Intel 提供的 TSX(Transactional Synchronization Extensions)指令,在支持的处理器上实现“类似事务”的内存操作:一组读写要么全部成功提交,要么全部回滚,无需传统锁。
HTM 的核心思想:乐观并发执行
HTM 假设多数情况下线程间访问的内存区域互不冲突。它让线程在私有缓冲区(如 CPU 的 L1d 缓存或专用结构)中暂存修改,运行时硬件自动监测是否发生冲突(比如另一线程修改了同一缓存行)。无冲突则原子提交;有冲突则中止(abort),软件需重试逻辑。
- 不是数据库事务:不保证持久性、不涉及日志、不跨进程/系统调用
- 作用域极小:通常限于几十到几百条指令、几 KB 内存,超限或遇到不支持指令会强制中止
- 失败常见:中断、上下文切换、内存屏障、锁操作、甚至某些浮点指令都可能触发 abort
Intel TSX 指令的实际使用方式
TSX 包含两种接口:较新的 RTM(Restricted Transactional Memory)(XBEGIN/XEND/XABORT)和已弃用的 HLE(Hardware Lock Elision)。现代 C++ 开发只推荐 RTM。
典型用法(GCC/Clang):
立即学习“C++免费学习笔记(深入)”;
int retry = 0;
retry_loop:
unsigned status = _xbegin(); // 开始事务;失败时直接跳转到 fallback
if (status == _XBEGIN_STARTED) {
// ✅ 事务区内:只做简单、确定性计算 + 小范围内存读写
shared_counter += 1;
buffer[i] = data;
_xend(); // 提交
} else {
// ❌ 中止路径(fallback):用传统同步(如 mutex)重试
std::lock_guard lk(mtx);
shared_counter += 1;
buffer[i] = data;
if (++retry < 3) goto retry_loop; // 可选重试,避免死循环
}
- 必须检查
_xbegin()返回值:等于_XBEGIN_STARTED才进入事务体 - 事务区内禁止系统调用、动态内存分配、函数调用(除非内联且确认安全)、除基本算术外的复杂指令
- 务必提供 fallback 路径,HTM 不是银弹,只是优化手段
何时值得用 HTM?哪些场景要避开?
适合:高竞争、短临界区、读多写少、冲突率低 的场景,例如无锁哈希表的桶更新、计数器聚合、细粒度资源池分配。
不适合:
- 长操作(> 微秒级)、含分支预测失败多的代码(易 abort)
- 涉及大数组遍历、指针解引用链过长(增加冲突概率)
- 运行在不支持 TSX 的 CPU 上(如部分 Skylake 后禁用、AMD 当前不支持)——需运行时检测
cpuid - 调试期:GDB 等工具可能干扰事务行为,abort 频繁且难定位
C++ 标准与可移植性提醒
HTM 不是 C++ 标准的一部分,没有 头或 std::transaction。它是平台相关扩展:
- Intel CPU + Linux/Windows + GCC ≥ 4.9 / Clang ≥ 3.7 支持 RTM 内建函数
- MSVC 不支持 RTM 内建,需用 intrinsics(
__xbegin等)且仅限 x64 - 务必用
__builtin_ia32_rtm_begin等底层 intrinsic 或封装良好的库(如libitm已停更,不推荐) - 生产环境建议包装成带运行时探测的宏,失败时无缝降级
基本上就这些。HTM 是把双刃剑:用对了能显著减少锁开销,用错了反而比 mutex 更慢、更难 debug。它不替代并发设计,而是对特定热点路径的硬件加速补充。











