Python并发监控需分进程、线程、协程三级,结合psutil采集RSS、CPU占比、线程数等指标,避免高频轮询。

Python并发程序的性能监控,核心在于区分“进程级”、“线程级”和“协程级”三类资源消耗,并针对性采集可量化指标。不能只看CPU或内存总量,要结合并发模型(如threading、multiprocessing、asyncio)抓关键瓶颈点。
进程与线程资源占用监控
对使用multiprocessing或大量threading的程序,需重点关注OS层资源:进程数、线程数、句柄数、实际内存RSS(非VMS)、CPU时间片分配。可用psutil库实时采集:
- 进程级:psutil.Process().num_children()、.memory_info().rss、.cpu_percent(interval=1)
- 线程级:proc.threads() 返回线程列表,提取每个线程的cpu_time、stack_size、is_alive状态
- 避免高频轮询(如
异步任务(asyncio)运行态观测
asyncio不创建OS线程,但存在事件循环负载、待执行任务堆积、协程阻塞等隐性问题。重点采集:
- 当前事件循环中pending task数量:len(asyncio.all_tasks())
- 事件循环延迟(loop.slow_callback_duration)是否持续超阈值(如0.1s)
- 用asyncio.create_task()包装的任务应带name参数,便于后续按名称统计耗时与失败率
- 配合trio或anyio时,需使用对应库的instrumentation接口,不可复用asyncio原生方法
关键指标埋点与聚合建议
单纯采集原始数据无意义,必须结合业务上下文打标并聚合:
立即学习“Python免费学习笔记(深入)”;
- 每个并发单元(如线程/worker/task)启动时记录ID、入口函数、启动时间戳
- 对HTTP请求类任务,用contextvars绑定request_id,在日志与指标中透传
- 推荐用Prometheus Client(python client)暴露/gauge和/histogram指标,例如:http_request_duration_seconds{method="POST",endpoint="/api/v1/upload",status="200"}
- 避免在热路径中做字符串拼接或JSON序列化,指标更新应轻量(如原子计数器+预设标签)
常见误判与避坑提示
很多性能问题被错误归因,需注意:
- GIL存在下,纯CPU密集型多线程不会提升吞吐,此时监控到高CPU但低吞吐,本质是GIL争用,应改用multiprocessing或C扩展
- psutil.cpu_percent()首次调用返回0,需至少调用两次间隔采样才有效
- asyncio.sleep(0)不是“让出控制权”的万能解,若大量协程同时await它,会导致事件循环空转,CPU飙升
- 线程池submit后不检查Future.result()异常,会导致错误静默丢失,应在监控中单独跟踪未完成/失败task比例











