首页 > 后端开发 > C++ > 正文

如何用C++写一个性能分析器(Profiler)?C++代码性能瓶颈定位【工具开发】

裘德小鎮的故事
发布: 2025-12-17 18:47:42
原创
309人浏览过
RAII结合std::chrono::high_resolution_clock可实现函数级自动计时,通过构造/析构记录进出时间,thread_local避免竞争,统一转为微秒便于阅读;支持调用栈追踪与低开销采样分析。

如何用c++写一个性能分析器(profiler)?c++代码性能瓶颈定位【工具开发】

用 RAII 和时钟 API 实现轻量级函数级计时

最直接的性能分析起点是测量单个函数或代码段的执行耗时。C++11 起,std::chrono::high_resolution_clock 提供纳秒级精度(实际取决于平台),配合 RAII 封装可自动记录进出时间:

关键点:避免手动调用 start/stop,用构造/析构自动完成;用 thread_local 避免多线程竞争;时间单位统一转为微秒或毫秒便于阅读。

示例实现:

class ProfilerScope {
    std::string_view name_;
    std::chrono::time_point<std::chrono::high_resolution_clock> start_;
    static thread_local std::vector<std::pair<std::string_view, long long>> samples_;
<p>public:
explicit ProfilerScope(std::string<em>view n) : name</em>(n), start_(std::chrono::high_resolution_clock::now()) {}
~ProfilerScope() {
auto end = std::chrono::high_resolution_clock::now();
auto us = std::chrono::duration<em>cast<std::chrono::microseconds>(end - start</em>).count();
samples_.emplace<em>back(name</em>, us);
}</p><pre class='brush:php;toolbar:false;'>static void dump() {
    for (const auto& [name, us] : samples_) {
        printf("%s: %lld μs\n", std::string(name).c_str(), us);
    }
    samples_.clear();
}
登录后复制

};

立即学习C++免费学习笔记(深入)”;

thread_local std::vector<:p style="color:#f60; text-decoration:underline;" title="ai" href="https://www.php.cn/zt/17539.html" target="_blank">air<:string>view, long long>> ProfilerScope::samples;

用法:void foo() { ProfilerScope _{"foo"}; /* 业务逻辑 */ }。多次调用后调用 ProfilerScope::dump() 查看各函数耗时。

基于的调用关系追踪(Callstack Profiling)

仅知道“foo 耗时 500μs”不够,还需知道它被谁调用、是否在 hot loop 中反复进入。需维护一个线程局部的调用栈:

ListenLeap
ListenLeap

AI辅助通过播客学英语

ListenLeap 217
查看详情 ListenLeap
  • 每次进入函数 push 当前函数名(或更优:用 __builtin_return_address(0) + 符号解析获取真实函数地址)
  • 退出时 pop,并将“[caller → callee]”配对 + 耗时累加到哈希表中
  • 支持递归检测(如相同函数连续出现,只记首次进入和最终退出)

进阶可结合 libbacktrace(Linux)或 dbghelp.dll(Windows)在采样时解析符号,但会引入开销。生产环境建议用地址采样 + 离线符号化(类似 perf)。

低开销采样式分析(Sampling Profiler)

RAII 方式适合定向分析,但会显著拖慢程序(尤其高频小函数)。真正在运行中观察整体热点,推荐信号驱动的采样器:

  • 注册 SIGPROF 信号处理器(Linux/macOS)或 SetThreadExecutionState + 定时器(Windows)
  • 每 1–10ms 触发一次,在 handler 中用 backtrace() 获取当前调用栈(注意:信号上下文只能调用 async-signal-safe 函数)
  • 将栈帧地址存入无锁环形缓冲区,主循环定期消费并做地址→函数名映射(可用 dladdr 或预加载的 debug info)

优点:开销通常

集成与输出:生成火焰图(Flame Graph)兼容格式

分析结果要直观,推荐输出 folded stack 格式,供 FlameGraph 工具绘图:

例如:main;process_input;parse_json 42 表示该栈路径共出现 42 次采样。C++ 只需按帧顺序拼接分号字符串,最后统计频次即可:

std::map<std::string, int> stack_counts;
void record_stack(const std::vector<void*>& frames) {
    std::string key;
    for (size_t i = 0; i < frames.size(); ++i) {
        if (i > 0) key += ";";
        char buf[64];
        snprintf(buf, sizeof(buf), "%p", frames[i]);
        key += demangle_symbol(buf); // 可选:调用 cxxabi__demangle
    }
    stack_counts[key]++;
}
<p>void write_folded(std::ostream& out) {
for (const auto& [stack, count] : stack_counts) {
out << stack << " " << count << "\n";
}
}</p>
登录后复制

生成文件后,终端执行:./flamegraph.pl profile.folded > profile.svg 即得交互式火焰图。

基本上就这些。不需要第三方库,核心逻辑百行内可写完;重点是平衡精度与开销,按需选择 RAII 计时、栈追踪或采样模式。调试阶段用前者,压测或线上观测优先用后者。

以上就是如何用C++写一个性能分析器(Profiler)?C++代码性能瓶颈定位【工具开发】的详细内容,更多请关注php中文网其它相关文章!

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号