生成器是含yield的函数返回的迭代器对象,调用不执行而返回generator实例,next()或for循环触发执行;每次yield暂停并保存状态,return则终止并抛出StopIteration。

生成器的本质:函数变迭代器的魔法
生成器不是特殊的数据类型,而是带 yield 的函数执行后返回的迭代器对象。调用它不会立即运行函数体,只返回一个 generator 实例;真正开始执行,要靠 next() 或 for 循环触发。每次遇到 yield 就暂停,保存当前栈帧(局部变量、执行位置等),下次继续从这里往下走——这叫“协程式挂起”,是生成器能惰性求值、节省内存的核心机制。
yield 与 return 的关键区别
yield 让函数可暂停/恢复,支持多次产出值;return(哪怕不写值)则直接终止生成器,触发 StopIteration 异常。注意:
- yield 后面可以跟任意表达式,包括 None、列表、字典甚至另一个生成器
- 函数里只要出现 yield,不管是否被执行,Python 就把它编译成生成器函数
- return 语句在生成器中可用于提前结束,并把返回值赋给 StopIteration.value(Python 3.3+ 支持)
实战一:用生成器处理大文件,不爆内存
读取几 GB 的日志文件时,别用 readlines() 全加载进内存。写个生成器逐行过滤:
def read_large_log(filename, keyword="ERROR"):
with open(filename, "r", encoding="utf-8") as f:
for line in f:
if keyword in line:
yield line.strip()
用法:for err_line in read_large_log("app.log"): print(err_line) —— 每次只读一行、判断、产出,内存占用恒定在几百字节。
实战二:无限序列生成器 + 控制开关
斐波那契、素数、时间戳流这类无限数据,必须用生成器。加个参数控制产出数量更实用:
def fib_generator(limit=None):
a, b = 0, 1
count = 0
while limit is None or count < limit:
yield a
a, b = b, a + b
count += 1list(fib_generator(10)) → [0, 1, 1, 2, 3, 5, 8, 13, 21, 34]
不用 limit 就是真无限,配合 itertools.islice 可安全截取:from itertools import islice; list(islice(fib_generator(), 10))










