Scrapy CSS选择器失效：深入理解浏览器与爬虫获取HTML内容的差异

花韻仙語

发布时间：2025-11-12 13:26:26

893人浏览过

来源于php中文网

原创

Scrapy CSS选择器失效：深入理解浏览器与爬虫获取HTML内容的差异

在使用scrapy进行网页抓取时，开发者常常会遇到一个令人困惑的问题：精心调试的css选择器在浏览器开发者工具中能够准确匹配元素，但在scrapy爬取时却一无所获。这通常并非选择器本身有误，而是scrapy所见的网页内容与用户在浏览器中看到的内容存在本质差异。本文将深入探讨这一现象的原因，并提供实用的方法来验证scrapy实际获取的html，从而有效解决此类问题。

1. 问题现象：CSS选择器在Scrapy中失效

考虑一个典型的场景：你正在爬取两个结构相似的页面，例如https://dicionario.priberam.org/putear和https://dicionario.priberam.org/puteares。你使用了一个CSS选择器，例如div.dp-conteudo__esquerda span.varpb，期望从中提取特定的文本。在第一个页面上，该选择器成功返回了结果，但在第二个页面上，它却返回空值。

初步检查页面源代码可能会发现，第二个页面上确实存在一个带有varpb类的span标签，甚至可能出现在不同的父级元素下，但无论如何，Scrapy似乎都无法找到它。这种不一致性让开发者感到困惑，因为理论上，只要元素存在于HTML中，选择器就应该能够匹配。

2. 根本原因：浏览器与Scrapy获取内容的差异

问题的核心在于浏览器和Scrapy处理网页内容的方式不同。

浏览器行为： 当你在浏览器中访问一个网页时，浏览器不仅会下载初始HTML文档，还会解析并执行其中包含的JavaScript代码。这些JavaScript代码可能会动态地修改DOM结构、从服务器请求额外的数据（例如通过AJAX），然后将这些数据插入到页面中。因此，你在浏览器开发者工具中看到的“源代码”实际上是经过JavaScript处理和渲染后的最终DOM结构。
Scrapy行为： Scrapy（以及大多数传统的网络爬虫）默认情况下只负责下载服务器返回的原始HTML响应。它不会执行JavaScript代码，也不会渲染页面。这意味着，如果网页的某些内容是通过JavaScript动态加载或生成的，那么这些内容将不会出现在Scrapy获取的原始HTML中。

回到我们的例子，第二个页面https://dicionario.priberam.org/puteares上的目标span.varpb元素很可能就是通过JavaScript在页面加载完成后动态添加到DOM中的。由于Scrapy不执行JavaScript，它在抓取时就无法“看到”这个动态添加的元素，因此选择器自然会失效。而第一个页面https://dicionario.priberam.org/putear上的相应元素可能直接包含在初始HTML中，所以Scrapy能够成功获取。

立即学习“前端免费学习笔记（深入）”；

3. 验证Scrapy所见内容的最佳实践

理解了原因之后，解决问题的关键就是确保你的CSS选择器是基于Scrapy实际获取到的HTML内容来编写的。以下是两种验证Scrapy所见内容的方法：

3.1 使用Scrapy Shell的view(response)命令

Scrapy Shell是一个强大的交互式环境，允许你在不运行整个爬虫的情况下测试代码和检查响应。view(response)命令可以让你在浏览器中打开Scrapy当前处理的response对象所包含的HTML内容。这能直观地展示Scrapy到底“看到了”什么。

操作步骤：

在终端中启动Scrapy Shell并fetch目标URL：

scrapy shell 'https://dicionario.priberam.org/puteares'

在Scrapy Shell中，执行view(response)：
```
In [1]: view(response)
```
这会打开一个新的浏览器窗口，显示Scrapy抓取到的原始HTML。你可以使用浏览器开发者工具检查这个页面，看看目标元素是否真的存在。

Live PPT
一款AI智能化生成演示内容的在线工具。只需输入一句话、粘贴一段内容、或者导入文件，AI生成高质量PPT。

下载

3.2 将response.text保存到本地文件

另一种更直接、更方便离线分析的方法是将Scrapy获取到的原始HTML内容保存到一个本地文件。

操作步骤：

在Scrapy Shell中fetch目标URL：

In [2]: fetch('https://dicionario.priberam.org/putear')
2023-12-28 00:22:01 [scrapy.core.engine] INFO: Spider opened
2023-12-28 00:22:01 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)

将response.text写入一个本地HTML文件：

In [3]: with open('putear.html', 'wt', encoding='utf8') as fd:
   ...:     fd.write(response.text)
   ...:

对第二个页面重复上述步骤：

In [4]: fetch('https://dicionario.priberam.org/puteares')
2023-12-28 00:23:09 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)

In [5]: with open('puteares.html', 'wt', encoding='utf8') as fd:
   ...:     fd.write(response.text)
   ...:

现在，你可以在本地文件系统找到putear.html和puteares.html这两个文件。用任何文本编辑器或浏览器打开它们，检查它们的源代码。你会发现，在puteares.html中，你期望的div.dp-conteudo__esquerda span.varpb结构很可能是不存在的，或者span.varpb元素位于完全不同的位置，导致你的原始选择器失效。

4. 总结与注意事项

始终验证Scrapy所见： 当CSS选择器在浏览器中有效但在Scrapy中失效时，第一步也是最重要的一步就是验证Scrapy实际获取的HTML内容。这能帮助你区分是选择器错误还是内容动态加载的问题。
动态内容处理： 如果确认目标内容是通过JavaScript动态加载的，传统的Scrapy爬虫将无法直接获取。在这种情况下，你需要考虑使用能够执行JavaScript的工具，例如：
- Scrapy Splash： 一个轻量级的JavaScript渲染服务，可以与Scrapy集成。
- Selenium/Playwright： 浏览器自动化工具，可以模拟用户行为，等待页面加载完成并获取渲染后的HTML。
选择器优化： 如果目标元素存在于Scrapy获取的HTML中，但只是位置与浏览器中看到的略有不同，那么你需要根据Scrapy实际获取的HTML结构来调整你的CSS选择器。
优先级： 在调试Scrapy选择器时，优先使用response.css()或response.xpath()进行测试，而不是完全依赖浏览器开发者工具中的选择器结果，因为它们所操作的DOM可能不同。

通过理解Scrapy与浏览器在处理动态内容上的差异，并利用上述验证方法，你将能更有效地调试和开发你的Scrapy爬虫，从而避免因HTML内容不一致而导致的抓取失败。

Python表单自动填写_web驱动模拟操作技巧【指导】

Python自动化脚本项目中爬取网页数据的操作步骤【教程】

Python爬虫如何解析网页_BeautifulSoup实战讲解【指导】

从绝对定位Div布局到CSS Grid：构建表格化视图的现代方法

从CSS定位Div布局到HTML表格或Grid布局的转换策略

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python向Icecast服务器流式传输音频的正确方法下一篇：NetBeans 20 Python插件安装失败：版本兼容性解决方案

作者最新文章

Python 列表为空？警惕循环中意外重置变量的常见陷阱

2026-01-17 12:29

RTX50系显卡出货大砍！今年一整年恐无新显卡

2026-01-17 12:31

解析 Python 类型注解字符串以提取泛型参数（如 Tuple 中的子类型）

2026-01-17 12:32

Go 中 map 迭代顺序的不确定性与格式化动词无关

2026-01-17 12:34

如何通过按钮点击复制并重命名文件（PHP 实现）

2026-01-17 13:05

《生化危机9：安魂曲》回归浣熊市原因曝光！让系列重回主线

2026-01-17 13:06

如何用Python优雅实现逗号分隔列表（含“and”连接）

2026-01-17 13:09

《勇者斗恶龙7 Reimagined》职业系统/强敌怪物等介绍

2026-01-17 13:15

Go语言解析SOAP响应XML的完整教程：解决命名空间导致的结构体字段为空问题

2026-01-17 13:15

《上古卷轴4：湮灭重制版》在PS5平台卖出110万份

2026-01-17 13:28

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

554

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

732

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

477

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

394

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

991

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

657

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

551

2023.09.20