Python爬虫请求调度设计_任务队列实现思路【教程】

冷漠man

发布时间：2025-12-25 21:44:02

483人浏览过

来源于php中文网

原创

直接用 queue.Queue 易卡死，因其 get() 默认无限阻塞且无超时/异常穿透机制；asyncio.Queue 需配 timeout 和 task_done；Redis 用 zset + bzpopmin 支持优先级与持久化；须通过 full() 或 zcard 实现反压控制。

python爬虫请求调度设计_任务队列实现思路【教程】

为什么直接用 `queue.Queue` 在爬虫里容易卡死

多线程爬虫中，如果直接用标准库的 queue.Queue 做任务分发，常出现消费者线程全部阻塞在 get()、生产者却因异常退出而不再放新任务——队列既没满也没空，但整个调度就僵住了。根本原因是它默认的阻塞行为缺乏超时兜底和异常穿透机制。

get(block=True) 会无限等待，一旦上游断流，线程就挂起不响应中断
没有内置重试计数或失败归档逻辑，单个坏 URL 可能导致任务永久滞留
无法跨进程共享，后续想加分布式调度就得重写整套队列层

用 `asyncio.Queue` 实现轻量异步调度的关键配置

对中小规模 HTTP 爬取（比如每秒 10–50 请求），asyncio.Queue 比线程队列更省资源，但必须显式控制生命周期，否则协程会泄漏。

import asyncio
async def worker(queue: asyncio.Queue, session):
while True:
try:
url = await asyncio.wait_for(queue.get(), timeout=3.0)  # 必须设超时
async with session.get(url) as resp:
处理响应...
        queue.task_done()  # 必须调用，否则 join() 不返回
    except asyncio.TimeoutError:
        break  # 超时即退出，避免死循环
    except Exception as e:
        print(f"Worker error on {url}: {e}")
        queue.task_done()  # 错误也要标记完成，否则队列卡住


asyncio.wait_for(..., timeout=...) 是刚需，不能依赖 get_nowait() —— 它抛 queue.Empty 异常，但协程里没地方 catch
每个 get() 后必须配对 task_done()，哪怕出错也要调，否则 queue.join() 永远不结束
不要在 worker 里用 await queue.put(...) 回填重试任务——容易引发循环等待，应由独立的 retry manager 处理

需要持久化或扩缩容？绕过内存队列直连 Redis 的最小可行方案
当爬虫要跑几天、或需横向加机器时，内存队列不可靠。用 redis-py 的 lpop/rpush 组合比引入 Celery 更轻，且天然支持失败重入队。
import redis
import json
r = redis.Redis()
立即学习“Python免费学习笔记（深入）”；

							
								
								
									文心一言
									文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。
								
								下载 
							
						
def add_task(url: str, priority: int = 0):
payload = json.dumps({"url": url, "retry": 0})
r.zadd("pending_tasks", {payload: priority})  # 用有序集合支持优先级
def get_task(timeout=1) -> dict | None:
阻塞式取一个，超时返回 None
result = r.bzpopmin("pending_tasks", timeout=timeout)
if result:
    return json.loads(result[1])
return None

别用 list 类型的 lpop —— 无法去重、不支持优先级、无超时原语；zset 或 stream 更稳妥

bzpopmin 是原子操作，避免“取到但崩溃未处理”导致任务丢失
任务体里必须带 retry 字段，失败时 r.zadd("pending_tasks", {payload: time.time() + 60}) 实现指数退避

调度器里最容易被忽略的「反压」信号：如何让生产者感知下游拥堵
很多爬虫把 URL 批量塞进队列就不管了，结果内存暴涨 OOM。真正的调度必须让生产者知道“慢点来”。

用 queue.qsize() 做阈值判断不可靠（多线程下非原子），改用 queue.full() + time.sleep() 组合
异步场景下，在 put() 前加 if queue.qsize() > MAX_SIZE: await asyncio.sleep(0.1)

Redis 方案中，用 r.zcard("pending_tasks") 监控积压量，超过阈值则暂停解析新页面链接

队列不是管道，是缓冲区；缓冲区满了还硬塞，系统就从调度问题变成运维事故。

Python接口性能测试方法_locust压力测试讲解【技巧】

Python接口日志标准化_方便问题回溯分析【教程】

Python协程系统学习路线第538讲_核心原理与实战案例详解【教程】

Python字符串系统学习路线第561讲_核心原理与实战案例详解【指导】

Python异常处理系统学习路线第51讲_核心原理与实战案例详解【指导】

相关标签:

python redis js json session ai 爬虫 stream 标准库为什么 red Python 分布式 if catch 循环线程多线程异步 redis http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python列表排序技巧_sort与sorted区别详解【教程】下一篇：Python接口系统学习路线第54讲_核心原理与实战案例详解【指导】

作者最新文章

天猫店铺该注意哪些违规？天猫店铺扣12分还能经营吗

2025-12-24 11:33

夸克浏览器网页版入口3最新_夸克浏览器网页版正版官方入口一键直达2026

2025-12-24 11:39

qq邮箱网页登陆免费_qq邮箱网页登录官方正版入口一键直达最新版

2025-12-24 11:50

4399在线玩网页版免费_4399网页版正版官方入口最全一键直达2026

2025-12-24 11:53

谷歌地球3D街景在线体验_2025最新版超清谷歌地图入口

2025-12-24 12:10

一加Ace 6T 原神神里绫华定制机开启预约

2025-12-24 12:38

12月25日发布 OPPO官宣OPPO Pad Air5将配备12.1 寸 2.8K 超清柔光屏

2025-12-24 12:41

拼多多商家版保证金怎么取出来

2025-12-24 13:31

mbti官方版入口怎么找_官方MBTI人格指标评估在线测试入口

2025-12-24 13:50

直播抖音零钱红包怎么领

2025-12-24 13:55

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

707

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

734

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

616

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1234

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

695

2023.08.11