
本教程旨在解决scrapy爬取内部链接时常见的重复数据、不完整item和低效翻页问题。文章将深入剖析导致这些问题的根源,并提供核心优化策略,包括正确利用scrapy内置去重机制、实现高效翻页逻辑以及通过回调链确保item的完整性与单一输出,最终通过详细代码示例展示如何进行多层内部链接的深度爬取。
Scrapy内部链接爬取的常见陷阱
在使用Scrapy进行网站内部链接爬取时,开发者常会遇到一些问题,导致数据重复、不完整或爬取效率低下。理解这些陷阱的根源是编写健壮爬虫的第一步。
1. 过度禁用请求过滤 (dont_filter=True)
Scrapy内置了一个强大的请求去重过滤器(通常基于请求URL和方法),可以有效避免重复爬取相同的页面。然而,许多初学者在遇到请求被过滤时,会简单地在 scrapy.Request 或 response.follow 中设置 dont_filter=True。
- 问题: 禁用去重会导致爬虫反复访问已处理的页面,不仅浪费带宽和服务器资源,还会产生大量的重复数据,严重影响最终输出的质量和处理效率。
2. 低效的翻页机制
在处理分页网站时,常见的错误是每次解析页面时都尝试获取所有分页链接,并为它们全部发送请求。
- 问题: 这种做法意味着每次进入 parse 方法,都会重新生成并发送所有分页的请求,导致大量的重复请求和不必要的处理负担。正确的方法应该是只请求“下一页”的链接。
3. 不完整的Item生成与重复输出
当一个Item的数据需要从多个页面(主页、子链接1、子链接2等)逐步收集时,如果处理不当,可能会导致以下问题:
- 问题一:过早 yield item: 在Item数据尚未完全填充时就将其输出,会导致生成的Item不完整。
- 问题二:重复 yield item: 在不同的回调函数中,对同一个逻辑Item进行多次 yield 操作,即使Item在后续回调中得到了补充,也会在输出中产生多个相同ID但内容可能不同的重复项。
核心优化策略
针对上述常见陷阱,以下是Scrapy爬取内部链接的核心优化策略:
1. 利用Scrapy内置去重机制
除非有非常明确且经过深思熟虑的理由(例如,需要强制重新下载或处理参数不同的相同URL),否则应避免使用 dont_filter=True。让Scrapy的调度器管理请求的去重,这能显著提高爬虫的效率和数据的唯一性。
2. 实现高效的翻页逻辑
正确的翻页策略是只识别并请求当前页面的“下一页”链接。这样可以确保爬虫按顺序、不重复地遍历所有分页。
3. 确保Item的完整性与单一性
当一个Item需要从多个请求的回调中逐步构建时,关键在于:
- 数据传递: 使用 request.meta 参数在不同的回调函数之间传递Item的当前状态或需要共享的数据。
- 最终输出: 确保Item只在所有必要数据都已收集完毕、且所有相关的子链接都已处理完成后,才进行一次 yield item 操作。
Scrapy基础爬取与翻页优化示例
首先,我们来看一个优化了 dont_filter 和翻页逻辑的基础爬虫示例。这个示例解决了重复请求和低效翻页的问题,但请注意,它仅从主页面提取子链接的文本信息,并未进行深度爬取。
import scrapy
class IcsStriveSpider(scrapy.Spider):
name = "icsstrive"
start_urls = ['https://icsstrive.com/']
base_url = "https://icsstrive.com" # 定义base_url,方便拼接相对路径
def parse(self, response):
# 提取主列表页的所有文章链接,并跟随这些链接到详情页
for link in response.css('div.search-r-title a::attr(href)').getall():
yield response.follow(link, self.parse_icsstrive)
# 优化翻页逻辑:只查找并请求“下一页”
# 定位当前页码的li元素
current_page_li = response.css('li.wpv_page_current')
# 查找当前页码的下一个兄弟li元素中的a标签的href属性
# 如果存在,则说明有下一页
next_page_href = current_page_li.xpath("./following-sibling::li/a/@href").get()
if next_page_href:
# 使用response.urljoin处理相对路径,确保URL正确
yield scrapy.Request(response.urljoin(next_page_href), callback=self.parse)
def parse_icsstrive(self, response):
# 从详情页提取主要信息
title = response.xpath('//h1[@class="entry-title"]/text()').get()
# 提取受害者、恶意软件、威胁来源的链接和文本
# 注意:此示例仅从当前页面提取这些信息,并未深入










