使用 Scrapy 进行多线程网页链接抓取-Python教程-PHP中文网

使用 Scrapy 进行多线程网页链接抓取

聖光之護

发布： 2025-09-11 17:46:22

原创

529人浏览过

使用 scrapy 进行多线程网页链接抓取

本文旨在提供一个使用 Scrapy 框架进行多线程网页链接抓取的教程。我们将探讨如何利用 Scrapy 简化网页抓取流程，并提供一个可直接运行的示例代码，该代码能够从指定 URL 抓取所有链接，并将结果保存到 CSV 文件中。本文还将简要介绍 Scrapy 的 LinkExtractor 和 CrawlSpider 类，帮助读者更深入地了解 Scrapy 的强大功能。

Scrapy 是一个强大的 Python 框架，专门用于网页抓取和数据提取。它内置了多线程支持，可以高效地从网站上抓取数据。相比于手动编写多线程代码，使用 Scrapy 可以大大简化开发流程，并提供更好的可维护性。

Scrapy 简介

Scrapy 采用异步网络框架 Twisted，能够处理大量的并发请求。它提供了强大的选择器（Selector）用于从 HTML 或 XML 文档中提取数据，并支持多种输出格式，如 CSV、JSON 和 XML。

快速开始：使用 Scrapy 抓取链接

以下代码展示了如何使用 Scrapy 抓取指定网页上的所有链接，并将结果保存到 output.csv 文件中。

import scrapy

class MySpider(scrapy.Spider):

    name = 'myspider'

    allowed_domains = ['www.tradeindia.com']

    start_urls = ['https://www.tradeindia.com/']

    def parse(self, response):
        print('\n>>> url:', response.url, '\n')

        links = response.css('a::attr(href)').extract()

        # create items which it will save in file `CSV`
        for url in links:
            yield {'url': url}

        # create requests with URL so it will process next pages
        for url in links:
            yield response.follow(url)

# --- run without project and save in `output.csv` ---

from scrapy.crawler import CrawlerProcess

c = CrawlerProcess({
    'USER_AGENT': 'Mozilla/5.0',
    'CONCURRENT_REQUESTS': 10,  # default: 16
    #'RANDOMIZE_DOWNLOAD_DELAY': True,  # default: True
    'DOWNLOAD_DELAY': 2,  # delays between requests to simulate real human - from `0.5*delay` to `1.5*delay`
    #'LOG_LEVEL': 'INFO',       # less information on screen
    'FEEDS': {'output.csv': {'format': 'csv'}}, # save in file CSV, JSON or XML
})

c.crawl(MySpider)
c.start()

登录后复制

代码解释:

MySpider 类: 定义了一个名为 MySpider 的 Spider 类，继承自 scrapy.Spider。
- name: Spider 的名称，用于在命令行中启动 Spider。
- allowed_domains: 允许爬取的域名列表，用于过滤不属于目标网站的链接。
- start_urls: 起始 URL 列表，Spider 从这些 URL 开始爬取。
- parse(self, response): 解析响应的回调函数，用于提取数据和生成新的请求。
parse 方法: 该方法接收一个 response 对象，其中包含从网页下载的内容。

网趣购物系统加强升级版
新版本程序更新主要体现在：完美整合BBS论坛程序，用户只须注册一个帐号，即可全站通用!采用目前流行的Flash滚动切换广告变换形式多样，受人喜爱!在原有提供的5种在线支付基础上增加北京云网支付!对留言本重新进行编排，加入留言验证码，后台有留言审核开关对购物系统的前台进行了一处安全更新。在原有文字友情链接基础上，增加LOGO友情链接功能强大的6种在线支付方式可选，自由切换。对新闻列表进行了调整，

0

查看详情
- response.css('a::attr(href)').extract(): 使用 CSS 选择器提取所有标签的 href 属性值，即链接。
- yield {'url': url}: 生成一个包含链接的字典，Scrapy 会自动将其保存到指定的输出文件中。
- yield response.follow(url): 生成一个新的请求，用于爬取提取到的链接。response.follow() 会自动处理相对 URL，并将其转换为绝对 URL。
CrawlerProcess 类: 用于运行 Scrapy Spider。
- USER_AGENT: 设置 User-Agent，模拟浏览器访问，避免被网站屏蔽。
- CONCURRENT_REQUESTS: 设置并发请求数，控制爬取速度。
- DOWNLOAD_DELAY: 设置下载延迟，避免对网站造成过大的压力。
- FEEDS: 配置输出文件格式和文件名。