0

0

c++如何利用CPU的预取(Prefetching)指令提升性能? (内存访问优化)

冰火之心

冰火之心

发布时间:2026-01-14 16:42:54

|

298人浏览过

|

来源于php中文网

原创

C++中无原生prefetch语法,需用__builtin_prefetch(便携)或_mm_prefetch(x86专用)等编译器内置函数;适用缓存未命中率高、访存密集场景,预取距离宜为8–64元素。

c++如何利用cpu的预取(prefetching)指令提升性能? (内存访问优化)

prefetch 指令在 C++ 中没有直接语法,必须靠编译器内置函数或内联汇编

标准 C++ 不提供 prefetch 语句,它属于底层 CPU 指令(如 x86 的 _mm_prefetch、ARM 的 prfm),需通过编译器提供的内置函数调用。主流编译器(GCC/Clang/MSVC)都支持 __builtin_prefetch(GCC/Clang)或 _mm_prefetch(Intel Intrinsics)。直接写内联汇编不仅可移植性差,还容易破坏编译器优化。

使用时注意:

  • __builtin_prefetch 是最便携的选择,但只接受地址、读写意图(0 读 / 1 写)、局部性提示(0–3,数值越大表示越可能被重复使用)三个参数
  • _mm_prefetch 需要包含 ,且只适用于 x86/x64;其第二个参数是预取类型常量,如 _MM_HINT_NTA(non-temporal)或 _MM_HINT_T0
  • 传入的地址必须是有效指针,空指针或非法地址会触发未定义行为(即使只是预取)

什么时候加 prefetch 才真能提速?看访存模式和延迟是否匹配

预取只有在「CPU 等待数据从内存到达」成为瓶颈时才有效。典型适用场景是:遍历大数组、处理链表(尤其非连续结构)、多级间接访问(如树节点跳转)、或计算密集但内存带宽受限的循环。如果数据已在 L1/L2 缓存中,或访存本身不密集(比如每百次计算才读一次),加 __builtin_prefetch 反而增加指令开销、干扰分支预测。

关键判断点:

立即学习C++免费学习笔记(深入)”;

UP简历
UP简历

基于AI技术的免费在线简历制作工具

下载
  • perf stat -e cache-misses,cache-references(Linux)观察缓存未命中率是否 >10%;高则值得尝试
  • 预取距离(offset)要足够:太近(如只提前 1 步)没意义;太远(如提前 1024 步)可能导致预取数据被中途挤出缓存;常见经验值是提前 8–64 个元素(取决于缓存行大小和步长)
  • 避免对同一地址重复预取——浪费指令周期,且无额外收益

一个安全有效的 prefetch 循环模板(GCC/Clang)

以下是在遍历 std::vector 时,为下一批数据提前加载的典型写法。它把预取放在循环体靠前位置,并控制偏移量在合理范围:

for (size_t i = 0; i < vec.size(); ++i) {
    // 提前预取 i + 16 处的数据(假设 int 为 4 字节,16×4=64 字节 → 1 个 cache line)
    if (i + 16 < vec.size()) {
        __builtin_prefetch(&vec[i + 16], 0, 3);
    }
    // 实际计算
    sum += vec[i] * vec[i];
}

说明:

  • 0 表示「只读」,3 表示最高局部性(T0 类似语义),适合顺序遍历
  • i + 16 是因为现代 CPU 缓存行通常是 64 字节int 占 4 字节 → 每行 16 个元素;这样每次预取恰好覆盖下一行
  • 必须加边界检查,否则 &vec[i + 16] 可能越界,导致段错误或静默 UB(尤其 vec 小于 16 时)

容易被忽略的陷阱:prefetch 不保证数据就绪,也不同步执行

__builtin_prefetch_mm_prefetch 都是「提示型」指令,CPU 可以忽略、延迟、甚至乱序执行它。它不阻塞后续指令,也不提供内存屏障语义。这意味着:

  • 不能依赖预取后立刻读取 —— 仍需正常访存,预取只是提高「大概率命中」的概率
  • 不能用它替代 std::atomic_thread_fence__memory_barrier 来保证可见性或顺序
  • 在 NUMA 系统上,预取不会自动跨节点迁移数据;若线程迁移到远端 socket,预取可能加载到错误的本地缓存
  • 开启 -O3 后,编译器可能自动插入软件预取(如 GCC 的 -fprefetch-loop-arrays),此时手动加可能冗余甚至冲突

真正起作用的永远是访存模式 + 数据局部性 + 缓存层级理解,而不是多加几条 __builtin_prefetch

相关专题

更多
java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1463

2023.10.24

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

315

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

537

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

52

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

194

2025.08.29

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

480

2023.08.10

空指针异常处理
空指针异常处理

本专题整合了空指针异常解决方法,阅读专题下面的文章了解更多详细内容。

22

2025.11.16

磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1348

2023.06.21

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

34

2026.01.14

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.1万人学习

Git 教程
Git 教程

共21课时 | 2.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号