生成器是可暂停恢复的状态机:next()从上次yield继续执行,send(value)还传递value给上个yield;首次send必须为None;yield from实现协程双向通信;GeneratorExit触发finally清理;生成器表达式惰性求值省内存,列表推导式支持随机访问。

生成器对象的 __next__ 和 send 到底怎么触发状态迁移
生成器不是一次性执行完的函数,而是一个可暂停、可恢复的状态机。每次调用 __next__(或内置函数 next())时,它从上次 yield 暂停的位置继续执行,直到遇到下一个 yield 或函数结束。
而 send(value) 不仅会唤醒生成器,还会把 value 作为上一个 yield 表达式的返回值。注意:首次调用 send() 必须传 None,否则报 TypeError: can't send non-None value to a just-started generator。
- 第一次调用必须是
next(gen)或gen.send(None),否则直接崩溃 -
yield左侧赋值(如data = yield item)只在send()后生效;next()相当于send(None) - 生成器退出后(抛出
StopIteration),再调用任何方法都会引发RuntimeError: generator already exhausted
def echo_gen():
while True:
received = yield "ready"
if received == "quit":
break
print(f"got: {received}")
g = echo_gen()
print(next(g)) # 输出 "ready"
print(g.send("hello")) # 输出 got: hello,返回 "ready"
g.send("quit") # 触发 break,下次 next 会 raise StopIteration
为什么 yield from 不只是语法糖,而是协程组合的关键原语
yield from 不仅简化嵌套生成器的委托写法,更重要的是它建立了调用方、外层生成器、子生成器三者之间的双向通信通道——异常、return 值、send 数据都能穿透传递。
对比手写循环:for x in subgen: yield x 只能单向产出值,无法将外部 send 或 throw 透传给子生成器,也无法捕获子生成器的 return 值。
立即学习“Python免费学习笔记(深入)”;
-
yield from subgen会自动处理StopIteration并提取其value属性,作为当前表达式的返回值 - 若子生成器被
throw()中断,外层生成器也会同步收到该异常(除非自己捕获) - Python 3.5+ 的
async/await底层正是基于yield from构建的,所以理解它等于理解await的本质
def sub():
yield 1
return "done"
def top():
result = yield from sub() # result = "done"
print(f"sub returned: {result}")
yield 2
g = top()
print(next(g)) # 1
print(next(g)) # 2
此时 sub 已 return,top 中 print 执行,然后抛出 StopIteration("done")
GeneratorExit 异常和 finally 块的真实执行时机
当生成器对象被垃圾回收、或显式调用 close() 时,解释器会向其抛出 GeneratorExit 异常。这个异常不能被常规 except Exception: 捕获,必须显式写 except GeneratorExit:,且**禁止在该 except 块中 yield** —— 否则触发 RuntimeError。
更可靠的做法是把清理逻辑放在 finally 块里,它保证在生成器退出前(无论正常结束、close()、还是未捕获异常)都会执行。
-
GeneratorExit是BaseException子类,不属于Exception体系,所以except:或except Exception:都抓不到 -
finally是最安全的资源释放位置,但要注意:若finally中发生未捕获异常,会覆盖原始的GeneratorExit -
close()是唯一标准方式主动终止生成器并触发清理;不要依赖 GC 时间点
def risky_gen():
try:
yield "working"
finally:
print("cleanup done") # close()、StopIteration、或异常退出时都会执行
g = risky_gen()
print(next(g))
g.close() # 输出 "cleanup done"
生成器与列表推导式的性能分水岭在哪
生成器表达式((x*2 for x in range(10**6)))和列表推导式([x*2 for x in range(10**6)])的核心差异不在语法,而在内存占用模型:前者是惰性求值的迭代器,后者是一次性分配并填充完整列表。
当数据量大、或下游只消费部分元素时,生成器明显胜出;但若需要多次遍历、随机索引、或长度判断(len()),就必须用列表——因为生成器只能单向消费一次,且没有长度属性。
- 生成器表达式不支持
len()、index()、切片([1:5])等操作 - 对同一生成器多次调用
list(gen)会得到空列表(第二次已耗尽) - 若后续要转成列表,且确定数据量可控,直接用列表推导式反而更简洁;不必为“看起来更函数式”强行用生成器
真正该用生成器的场景:读大文件逐行处理、数据库游标流式获取、实时传感器数据管道、递归结构的深度优先遍历……这些都不是“省几MB内存”的问题,而是“不这么做就爆内存或阻塞”的刚需。










