Python爬虫进阶教程_反爬机制与数据清洗

舞夢輝影

发布时间：2026-01-06 16:57:22

936人浏览过

来源于php中文网

原创

应对反爬需分三类策略：请求头模拟（如User-Agent）、IP代理池防封、解析JS渲染接口；数据清洗包括去噪、数值标准化、去重；运维强调异常捕获、日志记录、编码与会话管理。

python爬虫进阶教程_反爬机制与数据清洗

应对常见反爬机制的实用策略

网站反爬不是铁板一块，多数基于请求特征、行为模式和前端渲染三类逻辑。识别后针对性绕过，比盲目试错更高效。

User-Agent 与请求头模拟：很多站点仅校验基础请求头。用 requests 发送请求时，必须设置真实的 User-Agent、Accept、Referer 等字段。可从浏览器开发者工具的 Network 面板中复制完整请求头，或使用 fake-useragent 库动态生成：

安装：pip install fake-useragent
使用：from fake_useragent import UserAgent; headers = {"User-Agent": UserAgent().random}
注意：避免高频调用 UserAgent().random，建议初始化一次复用，防止触发 UA 获取接口限流

IP 限制与代理池：单 IP 短时间内大量请求易被封禁。本地调试可用免费代理（如 http://www.89ip.cn/），但稳定性差；生产环境推荐付费代理服务（如芝麻代理、讯代理）或自建私有代理池（结合 Redis + 定时检测）。

requests 中使用代理：proxies = {"http": "http://user:pass@123.45.67.89:8080"}
务必搭配 time.sleep() 或指数退避（如 random.uniform(1, 3)），降低请求密度
遇到 429 或 503 响应码时，主动暂停并切换代理，而非硬刷

JavaScript 渲染内容（如 Ajax、Vue/React）：若页面关键数据由 JS 动态加载，requests 获取的 HTML 中不包含目标内容。此时需分析 Network 面板，找到真实数据接口（常为 .json 或 api/xxx 路径），直接请求该接口。

立即学习“Python免费学习笔记（深入）”；

优先走接口：比启动浏览器快 5–10 倍，资源占用低
若接口带签名、时间戳、加密参数，需逆向 JS（用 Chrome 的 Sources 面板断点调试，定位生成逻辑）
实在无法绕过才考虑 Selenium 或 Playwright，但务必禁用图片、关闭日志、启用无头模式以提速

结构化数据清洗的关键步骤

爬下来的数据常混杂空格、换行、HTML 标签、乱码、重复项等。清洗不是“删脏数据”，而是按业务规则标准化，确保后续分析或入库可用。

GentleAI

GentleAI是一个高效的AI工作平台，为普通人提供智能计算、简单易用的界面和专业技术支持。让人工智能服务每一个人。

下载

文本清洗：去噪与归一化：针对字符串字段（如标题、简介、价格）。

去除不可见字符：text.replace('\u200b', '').strip()（零宽空格）、re.sub(r'[\r\n\t]+', ' ', text)
清理 HTML 标签：import re; re.sub(r']+>', '', html_str)，或更稳妥地用 BeautifulSoup(html_str, 'lxml').get_text()
统一空格与标点：re.sub(r'\s+', ' ', text)、text.replace('，', ',').replace('。', '.')（视需求决定是否中英文标点转换）

数值与日期标准化：价格、评分、时间等字段极易格式混乱。

价格（含¥、万、亿、逗号）：re.findall(r'[\d.]+', '¥12,999.5万元') → ['12', '999.5'] → float(''.join(...)) * 10000
日期（“今天”、“3小时前”、“2024-05-12”）：用 dateparser 库统一解析：dateparser.parse("昨天") 返回标准 datetime 对象
评分（“4.8分（满分5分）”、“★★★★☆”）：正则提取数字或统计星号数量，统一转为 0–5 浮点数

去重与唯一性保障：尤其在增量爬取中，避免重复入库或分析偏差。

内存级去重（小数据量）：seen = set(); if item_id not in seen: seen.add(item_id); yield item
数据库级去重（推荐）：MySQL 用 INSERT IGNORE 或 ON DUPLICATE KEY UPDATE；MongoDB 用 update_one(..., upsert=True)
URL 去重建议存入 Redis 的 SET，O(1) 判断，且支持跨进程共享

实战建议：让爬虫稳定又可持续

写一个能跑通的爬虫容易，写一个能长期运行、易维护、抗变化的爬虫才是进阶核心。

把请求逻辑封装成函数，参数化 URL、headers、timeout、proxy，方便调试和复用
所有网络操作加异常捕获：try/except requests.RequestException，记录错误日志而非崩溃退出
用 logging 替代 print，区分 INFO/WARNING/ERROR 级别，便于后期排查
定期检查目标网站结构变更（如 class 名更新、接口路径调整），可设置简单断言：assert 'price' in response.text，失败即告警
遵守 robots.txt，控制并发数（concurrent.futures.ThreadPoolExecutor(max_workers=3)），尊重网站资源

不复杂但容易忽略的细节

很多爬虫中途失效，不是技术卡点，而是栽在细节上。

编码问题：requests 默认用 ISO-8859-1 解码非 UTF-8 页面，导致中文乱码。务必显式指定：response.encoding = 'utf-8' 或用 response.content.decode('utf-8')
Cookies 会话维持：登录后爬个人页，需复用 session = requests.Session()，自动管理 cookies
HTTPS 证书验证：内网或测试环境可能报 SSL 错误，临时禁用：verify=False（仅调试），同时加 urllib3.disable_warnings()
JSON 接口响应含 Unicode 转义（如 "\u4f60\u597d"），json.loads() 会自动解码，无需额外处理

如何在 Python 中安全地查询 MySQL 中匹配用户名和密码的用户记录

Python数据库项目实战教程_SQLiteMySQLPostgreSQL整合

PythonWeb爬虫高级教程_Scrapy框架与数据存储实践

Python数据库操作教程_SQLiteMySQLPostgreSQL实践

Python爬虫项目实战教程_Scrapy抓取与存储数据实例

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python代码调试思路教程_问题定位通用方法下一篇：PythonAI学习必备基础教程_数学算法数据理解

作者最新文章

SQL数据库资源隔离_多业务实例部署方案

2026-01-07 18:18

google官网下载安装步骤_Google工具官网下载安装指南

2026-01-07 19:01

Linux孤儿进程处理机制_init进程作用解析【教程】

2026-01-07 19:44

google浏览器怎么使用_谷歌浏览器新手入门实用功能指南

2026-01-07 19:50

Linux服务异常分析流程_快速恢复策略解析【教程】

2026-01-07 19:51

Linux用户与权限管理教程_账户组配置与权限控制

2026-01-07 19:52

windows锁屏壁纸怎么保存

2026-01-07 19:53

windows电脑白屏怎么处理

2026-01-07 20:26

win11系统开机密码怎么设置

2026-01-07 21:21

win11锁屏壁纸怎么保存

2026-01-07 21:33

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

734

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

631

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

753

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1258

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

705

2023.08.11