Python爬虫日志与监控方案_异常告警技巧【技巧】

舞夢輝影

发布时间：2025-12-26 17:58:53

251人浏览过

来源于php中文网

原创

requests.get()成功但页面内容为空，需先查日志确认请求是否被服务器正确接收并返回预期内容，重点检查URL编码、headers一致性、timeout设置及异常捕获。

python爬虫日志与监控方案_异常告警技巧【技巧】

为什么 requests.get() 成功但页面内容为空？先查日志再定位

爬虫看似运行成功，response.status_code 是 200，但 response.text 却是空字符串、跳转页或反爬提示页——这种“静默失败”最消耗排查时间。关键不是立刻改代码，而是确认请求是否真被目标服务器接收并返回了预期内容。

必须在发起请求前记录完整上下文：

url（注意是否含中文或特殊字符，需检查是否被自动编码）
headers 中的 User-Agent、Cookie、Referer 是否与浏览器一致
timeout 值是否过小导致连接中断却未抛异常（requests 默认无超时，建议显式设为 timeout=(3, 7)）
捕获 requests.exceptions.RequestException 及其子类，而非只抓 Exception

import logging
import requests
logging.basicConfig(level=logging.INFO, format='%(asctime)s %(levelname)s %(message)s')
logger = logging.getLogger(name)
try:
resp = requests.get(url, headers=headers, timeout=(3, 7))
logger.info(f"GET {url} → {resp.status_code}, len={len(resp.content)}")
if not resp.content.strip():
logger.warning(f"Empty response from {url}")
except requests.exceptions.Timeout:
logger.error(f"Timeout on {url}")
except requests.exceptions.ConnectionError:
logger.error(f"Connection failed for {url}")

用 logging.Filter 精准过滤爬虫日志，避免告警疲劳

高频爬取时，每秒数条 INFO 日志会淹没真正的问题；而把所有 ERROR 都发邮件/钉钉，又容易因网络抖动触发误报。靠 logging.Filter 实现「只对特定错误模式告警」才是可持续方案。

例如：只对连续 3 次 503 Service Unavailable 或单次 429 Too Many Requests 触发告警，其余归档到文件即可。

立即学习“Python免费学习笔记（深入）”；

继承 logging.Filter，重写 filter() 方法，用实例变量缓存最近 N 次响应码
避免在 filter 中做耗时操作（如写数据库、发 HTTP 请求），否则阻塞主线程
将告警逻辑移出 filter，改为定时扫描日志文件或用 QueueHandler 异步处理

class HttpStatusFilter(logging.Filter):
    def __init__(self, name='', window_size=3):
        super().__init__(name)
        self.status_history = []
        self.window_size = window_size
def filter(self, record):
    if hasattr(record, 'status_code'):
        self.status_history.append(record.status_code)
        self.status_history = self.status_history[-self.window_size:]
        # 触发告警条件（不在此处发送，仅标记）
        if record.status_code == 429 or self.status_history.count(503) >= 3:
            record.needs_alert = True
    return True
监控 requests 耗时突增？用 timeit + 分位数比平均值更可靠
用 time.time() 差值统计单次请求耗时，再算平均值来判断“变慢”，会受偶发长尾请求干扰。比如 99% 的请求在 800ms 内完成，但某次 DNS 解析失败卡了 15s，平均值就被拉高，误判为服务退化。

							
								
								
									ChatWP
									一个AI聊天机器人，可以直接回答你的WordPress问题。
								
								下载 
							
						
真实可用的耗时监控应基于分位数（如 p95、p99）和突变检测：

用 time.perf_counter() 替代 time.time()，精度更高且不受系统时间调整影响
每分钟聚合一次耗时数据，计算 p95 并与前一小时同时间段的 p95 对比，浮动超 200% 才触发告警
记录 connect 和 read 阶段耗时（通过 requests.adapters.HTTPAdapter 的 max_retries 和自定义 Response 钩子）
import time
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry
class TimingHTTPAdapter(HTTPAdapter):
def send(self, request, kwargs):
start = time.perf_counter()
r = super().send(request, kwargs)
end = time.perf_counter()
r.elapsed_total = end - start
return r
session = requests.Session()
adapter = TimingHTTPAdapter()
session.mount("http://", adapter)
session.mount("https://", adapter)
钉钉/企业微信告警里别只写“爬虫异常”，要带可点击的上下文链接
收到告警消息后第一反应不是看日志，而是想：“这次是哪个任务？哪个 URL？哪台机器？” 如果告警正文只有 ERROR: Failed to parse JSON，就得翻日志、查进程、对时间戳——延迟 5 分钟以上才能定位。
真正的可运维告警必须自带诊断入口：

附上 Grafana 监控面板链接，带预设时间范围（如 ?from=now-15m&to=now）
包含本次失败任务的唯一 ID（如 task_id=spider_news_20240612_abc123），用于快速检索 ELK 日志
如果使用 Docker，带上 container_id 和 host_ip，方便直接 docker exec -it 进去查
避免在告警中放敏感信息（如 Cookie、token），可用哈希摘要替代原始值

最常被忽略的一点：告警恢复通知同样重要。没有它，你永远不确定上次报错是否已真实解决，还是被人工屏蔽了。

Python测试系统学习路线第550讲_核心原理与实战案例详解【教程】

Python tkinter 中动态更新图像的完整教程

Python异步系统学习路线第19讲_核心原理与实战案例详解【教程】

Python字符串性能优化方法_join与加号拼接对比解析【教程】

如何在 Python 中安全地向 PHP 代码传递参数并执行

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python数据清洗规则设计_保证数据质量方法【教程】下一篇：暂无

作者最新文章

号称为夜而生小米17 Ultra官宣搭载新一代光影猎人1050L

2025-12-24 11:36

如何注册开抖音商城

2025-12-24 11:44

4399在线玩网页版入口小游戏直达_4399网页版小游戏正版官方入口一键

2025-12-24 11:52

三星摺叠机将「去高通化」？传Galaxy Z Flip 8将搭载自家2奈米Exynos 2600处理器

2025-12-24 12:07

photoshop保存为图片格式_photoshop导出常见图片格式

2025-12-24 12:24

winrar怎么解压文件_winrar解压后文件管理技巧

2025-12-24 13:16

肯德基绑定手机号怎么更换-更换绑定手机号方法

2025-12-24 13:37

mbti人格测验16种人格_mbti人格测验16种类型全面解析

2025-12-24 13:58

mbti字母代表含义_mbti四个字母维度详细含义解释

2025-12-24 13:59

mbti人格类型分为哪些_mbti人格类型分类及16种划分

2025-12-24 14:01

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

707

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

735

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

616

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1234

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

695

2023.08.11