perf record 分析 C++ 程序需编译时加 -g -fno-omit-frame-pointer,用 --demangle 解析符号,经 perf script → stackcollapse-perf.pl → flamegraph.pl 生成火焰图,并注意 inline、JIT 和符号路径问题。

perf record 采集 C++ 程序的 CPU 时间分布
直接用 perf record -g -p 或 perf record -g -- ./my_program 即可捕获调用栈,但关键在编译和符号支持。C++ 程序若未保留调试信息或内联过度,火焰图会显示大量 [unknown] 或扁平化函数名。
- 编译时必须加
-g -fno-omit-frame-pointer(Clang/GCC 均需),否则-g不足以支撑-g栈回溯 - 禁用
-O2以上优化可能更易读,但生产环境建议用-O2 -g -fno-omit-frame-pointer平衡真实性和可分析性 - 若程序启动快、退出快,用
perf record -g -e cpu-clock --duration 5 -- ./my_program更可靠
解决 perf script 输出中 C++ 符号被截断或 mangling 的问题
perf script 默认输出的是 mangling 后的符号(如 _Z10computeSumi),火焰图工具(如 FlameGraph)无法识别,需 demangle。但不能简单 pipe 给 c++filt —— 它会破坏 perf 脚本格式。
- 正确做法:用
perf script -F comm,pid,tid,cpu,time,period,ip,sym,dso,trace -F +sym --demangle(Linux 5.14+ 支持--demangle) - 旧内核可用
perf script | awk '{ $NF = system("c++filt " $NF " 2>/dev/null || echo " $NF); print }',但性能差、易出错 - 若仍见大量
[unknown],检查是否加载了.so且未带-g;用readelf -S ./libxxx.so | grep debug验证调试段存在
生成火焰图:从 perf.data 到 SVG
核心链路是 perf script → stackcollapse-perf.pl → flamegraph.pl,三步缺一不可,且顺序和参数敏感。
- 确保已安装 FlameGraph 工具集,并将
stackcollapse-perf.pl和flamegraph.pl加入$PATH - 标准命令流:
perf script -F comm,pid,tid,cpu,time,period,ip,sym,dso,trace --demangle | ./stackcollapse-perf.pl | ./flamegraph.pl > profile.svg
- 若 C++ 模板实例过多导致火焰图过宽,加
--minwidth=0.5过滤微小帧(单位毫秒),或用--colors c++启用 C++ 专用配色 - 注意:不要用
perf script -F sym简写——它默认不输出 IP 和调用关系,stackcollapse-perf.pl会报错
常见卡点:符号路径缺失与 JIT/inline 冲突
即使有 -g,perf 仍可能找不到符号,尤其当程序运行在非标准路径、或使用了 LD_LIBRARY_PATH 加载动态库时。
立即学习“C++免费学习笔记(深入)”;
- 用
perf buildid-list -i perf.data查看所有模块 build-id,再用perf buildid-cache -v --add ./my_program手动注入符号路径 - C++ inline 函数在火焰图中默认折叠进调用者,想展开需加编译选项
-fno-inline-functions-called-once -fno-inline-small-functions(仅调试期) - 若程序含 JIT 代码(如某些 Python/C++ 混合场景),需额外启用
perf record -k 1并配合perf inject --jit,否则 JIT 函数全为[jitted]
火焰图不是万能放大镜——它反映的是采样时刻的 CPU 时间占比,对锁竞争、IO 等非 CPU 瓶颈不敏感;而 C++ 的 RAII、临时对象、move 语义等行为,在火焰图里往往藏在构造/析构函数中,容易被忽略。











