BenchmarkDotNet 是 C# 并发吞吐量测试最靠谱方案,支持自动预热、多线程压测、GC 控制与延迟分布统计,需用 [ConcurrencyLevel]、[MemoryDiagnoser] 等特性正确配置。

用 BenchmarkDotNet 测并发吞吐量最靠谱
直接上结论:C# 里测并发性能,别手写 Task.Run + Stopwatch,也别用老旧的 Visual Studio Diagnostic Tools 抓毛刺——BenchmarkDotNet 是目前唯一能稳定复现、隔离干扰、自动预热、支持多线程/多进程并发模式的工业级方案。
它底层用 RyuJIT 预热 + 多轮采样 + GC 控制 + 环境校准,避免“第一次跑慢、第二次快”这类常见幻觉。尤其适合测 ConcurrentDictionary、Channel、Parallel.ForEachAsync 这类高并发组件的真实吞吐(如 ops/sec)和延迟分布(P95/P99)。
- 安装:
dotnet add package BenchmarkDotNet - 必须标记
[MemoryDiagnoser]和[ConcurrencyLevel(4)]才能开启并发压力模式 - 方法签名必须是
public void MethodName(),不能带参数或返回值 - 避免在基准方法里做 I/O、随机数、
DateTime.Now—— 这些会污染统计
BenchmarkDotNet 并发配置关键参数
默认是单线程串行跑,要真正压出并发瓶颈,得显式控制线程数、是否共享状态、是否允许 GC 干扰:
-
[ConcurrencyLevel(8)]:指定最多 8 个线程并发调用该方法(不是 CPU 核心数,是逻辑并发度) -
[InvocationCount(1000)]:每个线程执行 1000 次,总调用数 = 线程数 × 次数 -
[DryJob] / [MediumRun]:开发期用DryJob快速验证,压测用MediumRun(约 25 秒)保证数据稳定 - 若被测方法操作共享对象(如静态
List),必须加锁或改用ConcurrentQueue,否则结果不可比
对比测试:lock vs SpinLock vs Interlocked
测并发性能最常踩的坑,是拿错标尺——比如只比单次加锁耗时,却忽略争用率。下面这个例子会真实暴露高争用下三者的差异:
[MemoryDiagnoser]
[ConcurrencyLevel(16)]
public class LockBenchmarks
{
private readonly object _objLock = new();
private readonly SpinLock _spinLock = new();
private int _counter = 0;
[Benchmark]
public void WithLock()
{
lock (_objLock) Interlocked.Increment(ref _counter);
}
[Benchmark]
public void WithSpinLock()
{
bool taken = false;
try
{
_spinLock.Enter(ref taken);
Interlocked.Increment(ref _counter);
}
finally
{
if (taken) _spinLock.Exit();
}
}
[Benchmark]
public void WithInterlocked()
{
Interlocked.Increment(ref _counter);
}}
青鸟内测(手机app封装、托管系统)
注意:请在linux环境下测试或生产使用 青鸟内测是一个移动应用分发系统,支持安卓苹果应用上传与下载,并且还能快捷封装网址为应用。应用内测分发:一键上传APP应用包,自动生成下载链接和二维码,方便用户内测下载。应用封装:一键即可生成app,无需写代码,可视化编辑、 直接拖拽组件制作页面的高效平台。工具箱:安卓证书生成、提取UDID、Plist文件在线制作、IOS封装、APP图标在线制作APP分发:
下载
注意:这里 _counter 是实例字段,每个线程操作的是同一份内存地址,才能触发真实争用。如果误写成局部变量,所有结果都会接近 Interlocked,毫无参考价值。
避开 Stopwatch 手动计时的典型陷阱
有人用 Stopwatch.Start() → Task.WhenAll(...) → Stopwatch.Stop() 测并发,结果偏差极大,原因很实在:
-
Stopwatch测的是“任务发起到全部结束”的墙钟时间,不是实际工作耗时(中间大量线程挂起、调度延迟全算进去了) - 没控制 GC 触发时机,一次
Gen2就让整轮结果偏移 50ms+ - 没排除 JIT 编译开销——首次调用方法永远最慢,而
BenchmarkDotNet会自动预热 3 轮以上 - 没处理异步方法的
await上下文捕获开销,尤其在 UI 线程或AspNetCore同步上下文中会放大延迟
真要临时测,至少用 Environment.ProcessorCount 控制并发数,并在 Task.Run 内部用 Stopwatch 测单次执行,再取平均——但这仍不如 BenchmarkDotNet 的 Mean + StdDev 统计可靠。
并发性能不是看峰值吞吐,而是看 P99 延迟是否稳定、GC 是否频繁、CPU 是否打满还卡顿。这些指标 BenchmarkDotNet 默认输出,但容易被忽略——尤其 Allocated 列,一个没注意的闭包捕获,就能让每秒分配几 MB 内存,把吞吐直接砍半。










