Python爬虫怎样使用缓存机制_Python爬虫减少重复请求的缓存策略与实现-Python教程-PHP中文网

Python爬虫怎样使用缓存机制_Python爬虫减少重复请求的缓存策略与实现

雪夜

发布： 2025-11-04 19:15:02

原创

338人浏览过

使用缓存机制可减少重复请求，提升爬虫效率。1. 文件系统缓存：按URL哈希命名文件，检查本地缓存是否存在且未过期，避免重复请求；2. HTTP条件请求：利用ETag和Last-Modified头发送If-None-Match或If-Modified-Since实现304响应复用；3. requests-cache库：支持SQLite、Redis等后端，自动处理缓存逻辑，简化集成。应根据项目规模选择策略：小项目用文件缓存，多进程用Redis/SQLite，追求兼容性启用HTTP头校验，合理设置过期时间并定期清理缓存。

python爬虫怎样使用缓存机制_python爬虫减少重复请求的缓存策略与实现

在编写Python爬虫时，频繁向服务器发送重复请求不仅会增加网络开销，还可能触发反爬机制。使用缓存机制能有效减少重复请求，提升爬取效率，同时降低对目标服务器的压力。下面介绍几种实用的缓存策略与实现方法。

使用文件系统缓存保存响应内容

将每次请求的响应结果（如HTML、JSON）保存到本地文件中，下次请求相同URL时优先读取缓存文件。

可以按URL的哈希值命名文件，避免特殊字符问题：

请求前先计算URL的MD5或SHA1作为文件名
检查是否存在对应缓存文件且未过期
若存在则直接读取内容，跳过网络请求
否则发起请求并保存响应到文件

示例代码片段：

立即学习“Python免费学习笔记（深入）”；

import hashlib
import requests
from pathlib import Path
<p>def get_cache_path(url):
name = hashlib.md5(url.encode()).hexdigest()
return Path("cache") / f"{name}.html"</p><p>def cached_get(url, timeout=3600):
cache_file = get_cache_path(url)
if cache_file.exists():
if time.time() - cache_file.stat().st_mtime < timeout:
return cache_file.read_text(encoding="utf-8")</p><pre class="brush:php;toolbar:false;">resp = requests.get(url)
resp.raise_for_status()
cache_file.parent.mkdir(exist_ok=True)
cache_file.write_text(resp.text, encoding="utf-8")
return resp.text

登录后复制

利用HTTP缓存头实现条件请求

很多网站支持ETag和Last-Modified头部，可通过If-None-Match或If-Modified-Since发起条件请求。

如果资源未更新，服务器返回304 Not Modified，不传输正文，节省带宽。

首次请求记录响应头中的ETag和Last-Modified值
后续请求带上对应的If-None-Match或If-Modified-Since头
处理304响应时复用旧数据

requests库配合requests-cache可自动处理这些逻辑。

Linfo.ai

Linfo AI 是一款AI驱动的 Chrome 扩展程序，可以将网页文章、行业报告、YouTube 视频和 PDF 文档转换为结构化摘要。

151

查看详情

使用requests-cache简化缓存管理

requests-cache是一个第三方库，能为requests添加透明缓存功能，支持多种后端（SQLite、Redis、内存等）。

安装方式：

pip install requests-cache

登录后复制

启用缓存非常简单：

import requests_cache
requests_cache.install_cache('webcache', backend='sqlite', expire_after=3600)
<h1>之后所有requests请求都会自动缓存</h1><p>response = requests.get('<a href="https://www.php.cn/link/4d2fe2e8601f7a8018594d98f28706f2">https://www.php.cn/link/4d2fe2e8601f7a8018594d98f28706f2</a>')

登录后复制

该库自动处理过期、重复请求和HTTP缓存头，适合快速集成。