网络程序稳定性关键在于出错后快速恢复,需分类处理异常、用tenacity实现带退避和次数限制的可控重试,保障状态一致性,并通过日志、指标与告警提升可观测性。

网络程序的稳定性不取决于“不出错”,而在于“出错后能否快速恢复”。Python中网络操作(如HTTP请求、Socket通信、数据库连接)天然易受超时、断连、服务不可用等干扰,设计异常恢复机制是保障可用性的核心环节。
明确异常类型,分类处理而非一概重试
盲目重试可能加剧问题(如服务已崩溃、参数错误、权限不足)。应先识别异常本质:
-
连接类异常(
ConnectionError、TimeoutError、socket.timeout):适合有限次重试 + 指数退避 - 响应类异常(HTTP 5xx、空响应、JSON解析失败):需检查状态码或响应体,避免对4xx(如400/401/404)重试
- 逻辑类异常(数据校验失败、业务规则冲突):属程序逻辑问题,重试无效,应记录并告警
用 retrying 或 tenacity 实现可控重试
手动写 while+try 很容易遗漏退避、次数限制或上下文清理。推荐使用成熟库:
- 用
tenacity(更现代、支持异步)定义重试策略:
from tenacity import retry, stop_after_attempt, wait_exponential, retry_if_exception_type
@retry(
stop=stop_after_attempt(3),
wait=wait_exponential(multiplier=1, min=1, max=10),
retry=retry_if_exception_type((requests.ConnectionError, requests.Timeout))
)
def fetch_data(url):
return requests.get(url, timeout=5).json()
- 关键点:设上限(防雪崩)、加退避(减压)、限定异常类型(不捕获 ValueError 等)
保持状态可恢复,避免“半截操作”
网络调用常伴随本地状态变更(如写缓存、更新数据库标记、发消息)。若请求中途失败,需确保状态一致:
立即学习“Python免费学习笔记(深入)”;
- 优先采用幂等设计:接口支持重复调用不产生副作用(如用唯一ID去重)
- 若无法幂等,用事务或补偿机制:例如发送消息前先落库“待发送”状态,成功后再更新为“已发送”,失败则由后台任务扫描重试
- 避免在重试逻辑中修改共享变量(如全局计数器、未加锁的列表),引发竞态
监控与可观测性是恢复的前提
没有日志和指标,就无法判断是偶发抖动还是系统性故障:
- 记录每次重试的触发原因、重试次数、耗时、最终结果(成功/失败/放弃)
- 暴露关键指标到 Prometheus:如
http_request_retries_total{endpoint="api/v1/user", status="failed"} - 对高频重试或连续失败的服务端点自动告警(如 5 分钟内失败率 > 20%)










