
本教程旨在解决scrapy爬虫在处理页面内部多层链接和分页时常见的重复数据、数据丢失及不完整问题。通过深入分析`dont_filter`参数滥用、分页逻辑缺陷以及不当的item提交时机,提供一套优化方案,包括启用scrapy内置去重、精确控制分页请求以及确保数据完整性后提交item,从而提高数据抓取的准确性和效率。
在使用Scrapy进行网站深度爬取时,尤其当页面包含多层嵌套的内部链接(例如,一个事件页面链接到受害者、恶意软件和威胁源的详细页面),并且网站还采用分页机制时,开发者常常会遇到以下问题:
这些问题不仅影响数据质量,也浪费了爬取资源,降低了效率。
上述问题的出现,往往源于对Scrapy框架机制的误解或不当使用。以下是几个常见且关键的根源:
Scrapy内置了一个强大的去重过滤器,它通过记录已访问的请求URL来避免重复爬取。当你在scrapy.Request或response.follow中设置dont_filter=True时,你实际上禁用了这一重要的去重机制。这会导致:
在处理内部链接时,如果多个路径指向同一个详情页,dont_filter=True会确保这些详情页被重复访问,从而导致数据重复。
原始代码中处理分页的逻辑存在效率和正确性问题。它在每次parse方法运行时,都重新获取页面上的所有分页链接,并为它们全部发送请求。这种做法会导致:
正确的分页处理通常是只请求“下一页”或“未处理的页”。
在Scrapy中,yield item操作意味着将一个完整的Item发送到Item Pipeline进行处理。如果在一个Item尚未收集完所有必要数据时就将其yield,或者在后续的回调函数中重复yield同一个Item的不同版本,将导致:
针对上述问题,以下是Scrapy爬虫优化的关键策略:
核心原则: 除非有非常明确的理由,否则不要禁用Scrapy的去重过滤器。
核心原则: 仅请求下一页,而不是所有分页链接。
import scrapy
class IcsstriveSpider(scrapy.Spider):
name = "icsstrive"
start_urls = ['https://icsstrive.com/']
baseUrl = "https://icsstrive.com"
def parse(self, response):
# 1. 提取当前页面的主内容链接并跟进
for link in response.css('div.search-r-title a::attr(href)').getall():
yield response.follow(link, self.parse_icsstrive)
# 2. 精确处理分页:查找并请求下一页
# 假设当前页的<li>元素有一个特定的class,如'wpv_page_current'
# 然后查找其后面的兄弟<li>元素中的<a>链接
current_page_li = response.css('li.wpv_page_current')
next_page_link = current_page_li.xpath("./following-sibling::li/a/@href").get()
if next_page_link:
# 使用response.urljoin处理相对URL,确保生成完整的URL
yield scrapy.Request(response.urljoin(next_page_link), callback=self.parse)上述代码中,current_page_li.xpath("./following-sibling::li/a/@href").get() 能够准确地找到当前页码<li>元素后的第一个兄弟<li>元素中的链接,即下一页的链接。通过response.urljoin()可以确保相对路径被正确地转换为绝对路径。
核心原则: 只有当一个Item的所有预期字段都已收集完毕时,才将其yield。
针对原问题中多层嵌套链接(受害者、恶意软件、威胁源)的抓取,有两种主要策略:
如果目标是收集主页面信息以及所有相关内部链接的列表(而不是深入每个内部链接并将其数据合并到主Item中),可以直接在主解析函数中提取这些链接及其文本,并将其作为列表添加到Item中。这种方法避免了复杂的链式回调和状态管理。
import scrapy
class IcsstriveSpider(scrapy.Spider):
name = "icsstrive"
start_urls = ['https://icsstrive.com/']
baseUrl = "https://icsstrive.com"
def parse(self, response):
# 提取当前页面的主内容链接并跟进
for link in response.css('div.search-r-title a::attr(href)').getall():
yield response.follow(link, self.parse_icsstrive)
# 分页逻辑(同上)
current_page_li = response.css('li.wpv_page_current')
next_page_link = current_page_li.xpath("./following-sibling::li/a/@href").get()
if next_page_link:
yield scrapy.Request(response.urljoin(next_page_link), callback=self.parse)
def parse_icsstrive(self, response):
# 直接从主页面提取所有相关链接和文本
victims_links = response.xpath("//div[h3[text()='Victims']]//li/a/@href").getall()
victims_text = response.xpath("//div[h3[text()='Victims']]//li//text()").getall() # 提取所有文本,可能需要进一步清洗
malware_links = response.xpath("//div[h3[text()='Type of Malware']]//li/a/@href").getall()
malware_text = response.xpath("//div[h3[text()='Type of Malware']]//li//text()").getall()
threat_source_links = response.xpath("//div[h3[text()='Threat Source']]//li/a/@href").getall()
threat_source_text = response.xpath("//div[h3[text()='Threat Source']]//li/a/text()").getall() # 仅提取链接文本
title = response.xpath('//h1[@class="entry-title"]/text()').get()
# 在所有数据收集完毕后,一次性yield完整的Item
yield {
"title": title,
"victims": victims_text,
"victims_links": victims_links,
"malware": malware_text,
"malware_links": malware_links,
"threat_source_links": threat_source_links,
"threat_source": threat_source_text
}这种方法将所有内部链接的URL和显示文本作为列表收集到主Item中,避免了对每个内部链接进行深度爬取并合并数据的复杂性。它适用于当内部链接的详细内容并非必须合并到主Item,或者只需要链接本身信息的情况。
如果确实需要访问每个内部链接,并将其详细内容合并到主Item中,则需要更精细地管理meta参数和yield时机。
这种策略需要更复杂的逻辑来管理meta中的状态和URL列表,确保每次只处理一个子链接,并在其完成后继续处理下一个类型。同时,需要处理列表为空的边缘情况,以确保Item最终能被yield。
通过遵循这些优化策略,Scrapy爬虫将能更高效、准确地完成深度爬取任务,避免常见的重复数据和数据不完整问题。
以上就是Scrapy深度爬取:优化内部链接与分页处理,避免重复与数据丢失的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号