/d2cgsummary 是 MSVC 编译器后端优化诊断开关,输出内联决策、向量化、寄存器压力等统计信息,用于定位“为何未按预期优化”,但非稳定公开接口,仅在 /O2 下有效,需禁用 LTO 才生效。

什么是 /d2cgsummary,它真能帮你定位codegen瓶颈?
/d2cgsummary 是 MSVC(Visual Studio 2019 16.9+ / VS2022)内部启用的诊断开关,用于输出编译器后端(codegen)阶段的详细统计信息,包括函数内联决策、寄存器压力、指令选择结果、向量化是否触发、栈帧大小变化等。它不生成汇编,也不替代 /FA 或 /c /Od /O2 对比,而是告诉你“为什么编译器没按你预期优化”——比如你加了 __declspec(inline) 却没被内联,或 std::vector::data() 调用仍残留间接跳转。
注意:它不是稳定公开接口,微软未承诺长期支持,且仅在 /O2 或 /Ox 下有意义;/Od 下基本无输出。
如何正确启用并解析 /d2cgsummary 输出?
直接加到项目「附加选项」或命令行即可,但必须配合 /O2 和禁用 PGO(否则统计会被扰动):
cl /O2 /d2cgsummary /GL- /Gy- /MD your_file.cpp
输出默认打印到 stdout,若需保存,重定向即可:
立即学习“C++免费学习笔记(深入)”;
cl /O2 /d2cgsummary /c your_file.cpp > cg.log 2>&1
关键点:
-
/GL-必须关闭 LTO(Whole Program Optimization),否则/d2cgsummary不生效 -
/Gy-关闭函数级链接,避免函数被合并后丢失原始符号名 - 输出中每段以
*** Function:开头,重点关注*** Inline decision、Vectorized loop、Stack frame size、Register pressure字段 - 若某函数完全没出现在输出里,说明它被 DCE(Dead Code Elimination)删掉了,或未进入 codegen 阶段(例如纯模板未实例化)
/d2cgsummary 常见误读与典型陷阱
它不显示 IR(如 LLVM IR),也不等价于 GCC 的 -fopt-info-vec。容易踩的坑:
- 看到
Inline decision: always≠ 实际内联成功——若函数含异常处理、alloca、或跨模块调用,仍可能 fallback 到 call 指令 -
Vectorized loop: yes后没提速?检查是否触发了 masked store(如条件写入),这会导致标量回退;用/Qvec-report:2交叉验证 - 输出中
Stack frame size: 48是估算值,不含动态分配(如_malloca),也不反映实际 runtime 栈使用 - 对
constexpr函数或纯编译期计算,/d2cgsummary通常不记录——它们走的是 SFINAE/constant folding 路径,非传统 codegen
结合 /d2cgsummary 定位真实性能拐点
它最有价值的场景是解释「为什么 O2 比 O1 慢」或「为什么 AVX2 没生效」。例如:
你写了 tight loop 并加了 #pragma loop(ivdep),但 /d2cgsummary 显示 Vectorized loop: no (reason: potential aliasing),这时就要查指针是否带 restrict、数组是否来自不同 std::vector 实例(MSVC 默认不假设跨容器无别名)。
另一个典型信号:Register pressure: high (spills: 3) —— 表明寄存器不够用,编译器被迫插入 load/store。此时应减少局部变量生命周期(用作用域限制)、或拆分过长表达式,而非盲目加 /arch:AVX2。
真正难的从来不是打开这个 flag,而是把它的输出和你的汇编(/FA)、profile 数据(VTune / WPA)串起来看:哪一行 C++ 触发了高 spill?哪个内联失败导致 cache line 跨越?这些链条断掉一环,/d2cgsummary 就只剩日志噪音。











