高性能 memcpy 的核心是根据对齐情况分路径优化:全对齐用 _mm256_load_si256/_store_si256,偏移对齐调整偏移,非对齐用 loadu/storeu 避跨缓存行,小尺寸兜底,辅以预取和内存预热。

用SIMD指令手写高性能 memcpy,核心是**对齐+向量化+边界处理**,不是简单套用指令,而是根据数据长度、对齐情况选择最优策略。x86上常用 SSE/AVX,ARM 上用 NEON,这里以 x86-64 + AVX2 为主展开(兼容性好、寄存器宽、指令丰富)。
对齐判断与分段处理
内存拷贝性能差异极大取决于源和目标地址是否对齐(通常指 16/32/64 字节)。AVX2 的 _mm256_loadu_si256 支持非对齐加载但慢于对齐版本;真正高性能必须区分路径:
-
全对齐路径:src 和 dst 都是 32 字节对齐,且长度 ≥ 32 → 用
_mm256_load_si256+_mm256_store_si256批量搬移 - 偏移对齐路径:两者地址模 32 同余(即相对偏移对齐),可用对齐 load/store + 整体偏移调整
-
非对齐混用路径:用
_mm256_loadu_si256+_mm256_storeu_si256,但需避免跨缓存行导致的额外延迟 - 小尺寸兜底:长度 rep movsb(现代 CPU 对其有微码优化)
AVX2 向量化拷贝主体(32 字节/次)
典型内循环如下(假设已对齐、长度为 32 的倍数):
(伪代码示意,实际需用 intrinsics 或内联汇编)
for (size_t i = 0; i < len; i += 32) {
__m256i v = _mm256_load_si256((__m256i*)(src + i));
_mm256_store_si256((__m256i*)(dst + i), v);
}
关键点:
立即学习“C++免费学习笔记(深入)”;
- 使用
__restrict__告知编译器 src/dst 无重叠(否则需按 memmove 处理) - 循环展开 2–4 轮可隐藏指令延迟(如一次 load 两组再 store)
- 避免频繁插入
_mm256_zeroupper()(仅在调用可能用到 XMM 的外部函数前后需要) - 注意编译器优化等级:-O2/-O3 下 auto-vectorize 可能已做得不错,手写价值在于**可控对齐策略 + 避免安全检查开销**
边界与尾部处理(不丢精度)
长度往往不是 32 的整数倍,尾部必须精确处理:
- 先按 32 字节主循环搬运,记下剩余字节数
tail = len % 32 - tail == 0 → 结束
- tail ≤ 16 → 用 SSE 指令(
_mm_loadu_si128/_mm_storeu_si128) - tail > 16 → 先搬 16 字节,再用 8/4/2/1 字节逐个拷贝(或用
memcpy小尺寸兜底) - 更优做法:用位掩码 +
_mm256_maskload_epi32(AVX2)或_mm256_mask_mov_epi32(AVX512),但兼容性差
实测建议与注意事项
别盲目追求“最高速”,要结合场景权衡:
- 拷贝 收益),直接用 libc 的
memcpy或编译器内置 - 拷贝 > 4KB:考虑预取(
_mm_prefetch)+ 多路并行(但 memcpy 是内存带宽敏感,多线程不一定加速) - 注意 NUMA 和页表映射:大块拷贝前 touch 内存页可减少缺页中断
- 禁用 -fno-tree-vectorize 等干扰选项;用 perf / VTune 观察 L1/L2 缓存命中率、uop 数、前端瓶颈
- ARM64 用户优先用
vld1q_u8/vst1q_u8(NEON),逻辑类似,寄存器宽度为 128 位
基本上就这些。SIMD memcpy 不是黑魔法,而是对齐感知 + 分支精简 + 指令选型的组合优化。libc 实现(如 glibc 的 multiarch memcpy)已经非常成熟,自己写主要适用于特定硬件、固定对齐、极致低延迟场景,或者作为学习底层内存行为的实践。










