rglob是首选方案,因其为pathlib内置递归glob方法,语义明确、跨平台稳定、内存友好且语法简洁;需配合try/except处理权限错误,用p.suffix.lower()兼容大小写,通过p.parts过滤排除目录。

pathlib.Path.rglob 为什么是首选方案
rglob 是 pathlib.Path 内置的递归 glob 方法,专为替代 os.walk 设计。它返回一个生成器,延迟遍历,内存友好,且语法简洁。不用手动处理目录层级、过滤逻辑或异常跳过——只要路径存在且可读,它就自动往下钻。
常见错误是写成 path.glob("**/*.py"):这其实也能工作,但 ** 在 glob 中不保证跨平台递归(尤其在旧版 Python 或某些文件系统上行为不一致),而 rglob 明确语义、稳定支持所有平台。
- 必须用
rglob,不是glob - 模式字符串直接写
"*.py"即可,rglob默认从当前路径向下全递归 - 如果只想搜子目录(不含当前目录),可用
path.joinpath("**").rglob("*.py"),但通常不需要
如何正确处理权限不足或符号链接循环
rglob 遇到无法访问的目录(如 PermissionError)会直接抛异常,中断整个遍历。这不是 bug,而是默认行为。实际项目中必须捕获并跳过:
from pathlib import Pathdef safe_py_files(root: Path): for p in root.rglob("*.py"): try: if p.is_file(): # 确保是文件,排除可能的 broken symlink yield p except (OSError, RuntimeError): continue # 跳过权限错误、循环软链、设备忙等
-
p.is_file()必须显式调用,因为rglob("*.py")可能匹配到同名目录(极少见但可能) - 不要依赖
ignore_errors=True——rglob没这个参数,得自己 try/except - 符号链接默认被跟随;若需跳过软链,加
if not p.is_symlink()
Windows 下大小写敏感问题怎么破
Windows 文件系统默认不区分大小写,但 rglob("*.py") 严格按字面匹配。如果目录里有 SCRIPT.PY 或 main.Py,它们不会被命中。
立即学习“Python免费学习笔记(深入)”;
解决方式不是改模式,而是后过滤:
py_files = [p for p in root.rglob("*") if p.is_file() and p.suffix.lower() == ".py"]
- 用
"*"先拉所有文件,再用p.suffix.lower()判断,兼容所有大小写变体 - 性能略低(遍历更多条目),但比写多个模式(
"*.py", "*.PY", "*.Py"…)干净得多 - Linux/macOS 下也建议统一用这种写法,避免跨平台差异
想排除 __pycache__ 和 venv 目录怎么办
rglob 本身不支持排除路径,得靠 Python 层过滤。最简方式是检查 p.parent 名称:
excludes = {"__pycache__", "venv", ".venv", "env"}
py_files = [
p for p in root.rglob("*.py")
if p.is_file() and all(part not in excludes for part in p.parts)
]
-
p.parts返回路径各段元组(如PosixPath("/a/b/venv/lib/site.py").parts == ('/', 'a', 'b', 'venv', 'lib', 'site.py')),比用str(p)正则更可靠 - 注意
venv可能出现在任意层级,所以要检查全部part,不能只看p.parent.name - 如果项目用 Poetry 或 Pipenv,可额外加入
".poetry"、".pipenv"
实际递归找 .py 文件,核心就三件事:用对 rglob、兜住 OSError、按需处理大小写和排除目录。细节都在路径对象自己的方法里,不用引入额外模块,但每一步漏掉都可能在 CI、Docker 或 Windows 上突然出问题。










