谈谈 Python 的 GIL（全局解释器锁）及其对多线程的影响-Python教程-PHP中文网

GIL是CPython中限制多线程并行执行的互斥锁，确保同一时刻只有一个线程运行字节码，导致计算密集型任务无法充分利用多核CPU；但在I/O密集型任务中，因线程会释放GIL，多线程仍可提升吞吐量；为应对GIL限制，开发者应根据任务类型选择合适的并发策略：I/O密集型使用threading或asyncio，计算密集型采用multiprocessing，或借助能释放GIL的C扩展库如NumPy实现并行计算。

谈谈 python 的 gil（全局解释器锁）及其对多线程的影响

Python 的全局解释器锁（GIL）是一个饱受争议但又不得不面对的机制。简单来说，它是一个互斥锁，确保在任何给定时刻，只有一个线程能够执行 Python 字节码。这意味着，即使你的机器有多个 CPU 核心，Python 的多线程在处理计算密集型任务时，也无法真正实现并行计算，因为 GIL 限制了多线程对 CPU 的利用。然而，对于 I/O 密集型任务，多线程仍然能发挥作用，因为在等待 I/O 完成时，GIL 会被释放，允许其他线程运行。

解决方案

谈到 GIL，很多初学者会觉得 Python 的多线程是个“鸡肋”，甚至是个“坑”。说实话，我刚接触 Python 多线程的时候也踩过不少坑，以为像 C++ 那样开几个线程就能让计算速度飞起来，结果发现 CPU 使用率并没有上去，甚至还可能因为线程切换的开销导致性能下降。

GIL 的存在，主要是为了保护 CPython 解释器内部的状态，特别是内存管理和引用计数机制。Python 的对象模型非常灵活，但这也意味着其内部状态复杂，如果允许多个线程同时修改这些状态，很容易出现竞态条件和数据不一致的问题。为了避免引入更复杂的细粒度锁机制（这不仅会增加 CPython 开发的难度，还可能导致死锁等更难调试的问题），CPython 的设计者选择了一个相对简单粗暴但有效的方案：GIL。

当一个 Python 线程需要执行字节码时，它必须先获取 GIL。执行一段时间后，或者遇到 I/O 操作时，线程会释放 GIL，让其他线程有机会获取它。这个机制对于 I/O 密集型任务（比如网络请求、文件读写）来说，影响相对较小，因为线程在等待外部资源时，CPU 是空闲的，GIL 的释放允许其他线程利用这段空闲时间。但在计算密集型任务中，CPU 始终处于忙碌状态，线程几乎没有机会主动释放 GIL，导致其他线程只能干等着，无法真正并行利用多核优势。

立即学习“Python免费学习笔记（深入）”；

这其实是一个工程上的权衡。GIL 简化了 CPython 的实现，使得开发者能更容易地编写 C 扩展，而不用担心复杂的线程安全问题。但副作用就是，它让 Python 的多线程在计算并行方面显得力不从心。

Python GIL 为什么在多核时代依然存在？

这个问题，我个人觉得是 Python 社区里最常被提及，也最容易引起争论的话题之一。很多人不理解，既然 GIL 限制了多核性能，为什么不干脆移除它？说实话，这背后涉及到的复杂性远超想象。

首先，GIL 的存在并非偶然，它是 CPython 发展历史中的一个关键设计选择。早期单核时代，GIL 的负面影响不明显，反而它极大地简化了 CPython 的内存管理和垃圾回收机制。Python 使用引用计数来管理内存，每个对象都有一个引用计数器。当计数器归零时，对象被回收。如果没有 GIL，多个线程同时修改引用计数，就会出现严重的问题，导致内存泄漏或程序崩溃。为了解决这个问题，需要对 CPython 的整个内部结构进行大规模的重构，引入细粒度的锁。

而这正是移除 GIL 的巨大挑战所在。细粒度锁意味着要为每一个共享的数据结构（甚至是每个 Python 对象）添加锁，这不仅会让代码变得异常复杂，难以维护，还可能带来新的性能问题：锁竞争、死锁、以及锁本身的开销。社区历史上也曾有过移除 GIL 的尝试，比如

free-threading

登录后复制

提案，但最终都因为引入了显著的性能回归（即使是单线程应用也变慢了）和内存占用增加而被搁置。

在我看来，GIL 依然存在，是因为它提供了一个相对稳定的、易于开发的平台。对于大部分 Python 应用场景，特别是 Web 开发、数据处理等 I/O 密集型任务，GIL 的影响并没有那么致命，甚至可以说，它在某种程度上是利大于弊的。毕竟，如果移除 GIL 导致单线程性能大幅下降，那对于绝大多数不依赖多线程并行的 Python 用户来说，将是无法接受的。这是一个实用主义的平衡点。

在 Python 中，面对 GIL，我们该如何选择并发策略？

既然 GIL 是个绕不过去的事实，那么作为开发者，我们该如何明智地选择并发策略呢？这可不是一个“一刀切”的问题，需要根据你的具体任务类型来决定。

牛小影

牛小影 - 专业的AI视频画质增强器

查看详情

如果你面对的是 I/O 密集型任务，比如从数据库读取大量数据、进行网络爬虫、或者处理文件上传下载，那么多线程（

threading

登录后复制

模块）依然是一个非常有效的选择。在这种场景下，当一个线程发起 I/O 请求并等待结果时，它会主动释放 GIL，让其他线程有机会运行。这样，多个 I/O 操作就可以在时间上重叠，显著提高程序的吞吐量。你可以想象成，当一个厨师在等烤箱里的蛋糕熟的时候，他可以去准备下一道菜，而不是傻等着。

但如果你的任务是 计算密集型 的，例如复杂的科学计算、图像处理、数据分析中的大规模矩阵运算等，那么

multiprocessing

登录后复制

模块就是你的首选。

multiprocessing

登录后复制

通过创建独立的进程来绕过 GIL。每个进程都有自己独立的 Python 解释器实例和独立的 GIL，因此它们可以在多核处理器上真正地并行运行。当然，进程间通信（IPC）会有一定的开销，所以你需要仔细设计数据共享和通信机制，避免频繁的大数据量传输。

此外，异步编程（

asyncio

登录后复制

）也是一个非常强大的并发工具，尤其适合高并发的 I/O 密集型应用。

asyncio

登录后复制

并不是多线程或多进程，它在单个线程中通过事件循环（event loop）来管理多个并发任务。当一个任务遇到 I/O 操作时，它会暂停并让出控制权给事件循环，事件循环会去执行其他准备好的任务，直到第一个任务的 I/O 完成。这是一种协作式多任务，因为 GIL 始终被持有，它避免了线程切换的开销，在某些场景下比传统多线程更高效。但它不适合 CPU 密集型任务，因为一个长时间运行的 CPU 任务会阻塞整个事件循环。

最后，如果你真的需要极致的计算性能，并且对 Python 的现有工具感到力不从心，那么可以考虑将性能瓶颈部分用 C/C++ 或 Rust 等语言编写成扩展模块。这些扩展模块在执行计算密集型代码时，可以显式地释放 GIL，从而实现真正的多线程并行计算。像 NumPy、SciPy 等科学计算库就是这样做的。

选择哪种策略，关键在于理解你的任务是 I/O 密集型还是计算密集型，以及你对并发性能和开发复杂度的权衡。

理解 GIL 如何影响性能分析与优化：一些实践观察

在我做性能优化的时候，GIL 常常会带来一些迷惑性。你可能会发现，即使你启动了多个 Python 线程，程序的 CPU 使用率也只有 100% 左右（对应一个核心），而不是你期望的 400% 或更高。这就是 GIL 在作祟，它让你的 CPU-bound 线程看起来在运行，但实际上它们大部分时间都在排队等待 GIL。

所以，当你在进行性能分析时，如果发现多线程程序在多核机器上并没有带来预期的加速，甚至变慢了，第一反应就应该考虑 GIL 的影响。标准的 Python

profile

登录后复制

模块可能不会直接告诉你 GIL 的争用情况，它只会显示每个函数执行了多少次，花费了多少时间。但如果一个线程的函数执行时间很长，而 CPU 实际利用率很低，那很可能就是 GIL 导致的瓶颈。

我通常会采取以下策略来理解和优化：

建立基准： 总是从单线程版本开始。这是你的性能基准线。
区分任务类型： 明确你的代码是 I/O 密集型还是计算密集型。
- 如果是 I/O 密集型，尝试使用
```
threading
```
  登录后复制
  或
```
asyncio
```
  登录后复制
  。然后观察程序的吞吐量（例如，每秒处理的请求数）。如果吞吐量提高了，那么恭喜你，GIL 并没有成为主要瓶颈。
- 如果是计算密集型，多线程通常不会带来性能提升。如果仍然想利用多核，
```
multiprocessing
```
  登录后复制
  是更直接的解决方案。
观察 CPU 利用率： 使用
```
htop
```
登录后复制
、
```
top
```
登录后复制
或 Windows 任务管理器等工具监控程序的 CPU 使用率。如果你的多线程程序运行在多核机器上，但 CPU 使用率始终在一个核心的范围内徘徊，那么 GIL 几乎肯定是罪魁祸首。
避免过度切换： GIL 的获取和释放本身也是有开销的。如果你的线程频繁地切换 GIL（例如，在极短的计算任务之间），那么这种开销可能会抵消多线程带来的任何潜在好处，甚至让程序变慢。这是我曾经在一些微服务场景中遇到的一个陷阱。
C 扩展的视角： 如果你的代码依赖大量的科学计算库（如 NumPy），你会发现即使是多线程调用这些库的函数，也能获得不错的并行性能。这是因为这些底层库通常是用 C/C++ 实现的，并且在执行计算时会主动释放 GIL。所以，有时候“优化”不是自己写多线程 Python 代码，而是找到并使用那些已经优化好的 C 扩展库。