Python多进程需用if name == '__main__':保护主模块,否则spawn方式下子进程重复导入导致递归或失败;Pool.map适合同构批量阻塞处理,apply_async适用于异步单任务;共享状态须用Value、Array、Manager或Lock等IPC机制,禁用全局变量。

Python 多进程不是“开多个线程就能并行”的简单替换,multiprocessing 模块背后依赖操作系统级的进程创建(fork 或 spawn),数据不共享、通信需显式设计、启动开销大——这些特性直接决定你能不能真正压榨 CPU,而不是写出一堆假并行代码。
为什么 Process 启动后不执行目标函数?
常见于 Windows 或 macOS 上使用 spawn 启动方式时,主模块未加 if __name__ == '__main__': 保护。子进程重新导入模块,导致重复触发 Process(...).start(),形成无限递归或静默失败。
- 必须把进程创建和启动逻辑放在
if __name__ == '__main__':块内 - 在 Linux 上用
fork可能“侥幸”通过,但跨平台代码必须守这条规则 - PyInstaller 打包后也常因缺少该判断报错,错误信息类似:
AttributeError: Can't get attribute 'worker' on
Pool 的 map 和 apply_async 到底怎么选?
Pool.map 是阻塞式批量分发,适合输入数据同构、处理逻辑一致、且你愿意等全部结果;apply_async 是非阻塞单任务提交,适合任务耗时差异大、需要提前响应、或要动态控制并发数。
-
map内部会自动切分可迭代对象,但整个调用会阻塞直到所有子任务完成 -
apply_async返回AsyncResult对象,需手动调用.get(timeout=...)获取结果,超时抛multiprocessing.TimeoutError - 若传入函数引用了闭包变量或 lambda,
spawn方式下会序列化失败,改用普通函数 + 显式参数传递
如何安全地在多进程间共享状态?
别直接用全局变量,它在每个进程中是独立副本。真要共享,得用 multiprocessing 提供的同步原语:
立即学习“Python免费学习笔记(深入)”;
- 只读数据:用
multiprocessing.Value(标量)或multiprocessing.Array(一维数组),支持ctypes类型,如Value('i', 0) - 复杂结构:用
multiprocessing.Manager()创建代理对象(dict,list,Namespace),但性能较差,因为走进程间通信(IPC) - 计数/开关类状态:优先用
multiprocessing.Semaphore、Lock或Event,避免竞态;Lock必须在子进程中显式 acquire/release,不能依赖 with 语句自动释放(某些 spawn 场景下上下文管理器失效)
from multiprocessing import Process, Value, Lockdef worker(sharedcounter, lock): for in range(1000): with lock: # 安全递增 shared_counter.value += 1
if name == 'main': counter = Value('i', 0) lock = Lock() processes = [Process(target=worker, args=(counter, lock)) for _ in range(4)] for p in processes: p.start() for p in processes: p.join() print(counter.value) # 输出 4000
真正难的从来不是启动几个进程,而是判断哪些数据必须隔离、哪些可以共享、共享时要不要加锁、加锁会不会拖慢整体吞吐——这些决策没标准答案,得看你的数据规模、CPU 密集度、IO 占比和错误容忍度。










