如何使用Scrapy爬取豆瓣图书及其评分和评论？

WBOY

发布时间：2023-06-22 10:21:09

2533人浏览过

来源于php中文网

原创

随着互联网的发展，人们越来越依赖于网络来获取信息。而对于图书爱好者而言，豆瓣图书已经成为了一个不可或缺的平台。并且，豆瓣图书也提供了丰富的图书评分和评论，使读者能够更加全面地了解一本图书。但是，手动获取这些信息无异于大海捞针，这时候，我们可以借助 scrapy 工具进行数据爬取。

Scrapy 是一个基于 Python 的开源网络爬虫框架，它可以帮助我们高效地从网站上提取数据。在本篇文章中，我将以操作步骤为主，详细介绍如何使用 Scrapy 爬取豆瓣图书及其评分和评论。

第一步：安装 Scrapy

首先，需要在电脑上安装 Scrapy。如果你已经安装好 pip（Python 包管理工具），只需要在终端或命令行输入下面的指令：

pip install scrapy

如此，Scrapy 就会被安装到你的电脑中。如果出现了错误或警告，建议根据提示进行相应的调整。

第二步：新建 Scrapy 项目

接下来，我们需要在终端或命令行输入下面的指令来新建一个 Scrapy 项目：

scrapy startproject douban

这个指令会在当前目录下创建一个名叫 douban 的文件夹，其中包含了 Scrapy 的基本文件和目录结构。

第三步：编写爬虫程序

在 Scrapy 中，我们需要编写一个爬虫程序来告诉 Scrapy 如何从网站中提取数据。因此，我们需要新建一个名叫 douban_spider.py 的文件，并编写如下代码：

Solvely

AI学习伴侣，数学解体，作业助手，家教辅导

下载

import scrapy

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['book.douban.com']
    start_urls = ['https://book.douban.com/top250']

    def parse(self, response):
        selector = scrapy.Selector(response)
        books = selector.xpath('//tr[@class="item"]')
        for book in books:
            title = book.xpath('td[2]/div[1]/a/@title').extract_first()
            author = book.xpath('td[2]/div[1]/span[1]/text()').extract_first()
            score = book.xpath('td[2]/div[2]/span[@class="rating_nums"]/text()').extract_first()
            comment_count = book.xpath('td[2]/div[2]/span[@class="pl"]/text()').extract_first()
            comment_count = comment_count.strip('()')
            yield {'title': title, 'author': author, 'score': score, 'comment_count': comment_count}

上面的代码实现了两个功能：

爬取豆瓣图书 top250 页面中的书籍标题、作者、评分和评论数。
将爬取到的数据以字典的形式返回。

在这个程序中，我们首先需要定义一个 DoubanSpider 类，并指定爬虫的名称、允许爬虫访问的域名和起始 URL。在 parse 方法中，我们通过 scrapy.Selector 对象进行 HTML 页面解析，并使用 XPath 表达式获取书籍的相关信息。

获取数据后，我们使用 yield 关键字将数据以字典的形式返回。这里的 yield 关键字的作用是将函数变成一个生成器，实现一次返回一个数据的效果。在 Scrapy 中，我们可以通过定义生成器的方式，实现对网站数据的高效抓取。

第四步：运行爬虫程序

在编写完爬虫程序后，我们需要在终端或命令行中运行以下代码来启动爬虫程序：

scrapy crawl douban -o result.json

这个指令的作用是启动名为 douban 的爬虫，并将爬取到的数据以 JSON 格式输出到 result.json 文件中。

通过以上四步操作，我们就可以成功地爬取豆瓣图书及其评分和评论信息了。当然，如果你需要进一步提高爬虫程序的效率和稳定性，还需要进行一些其他的优化和调整。例如：设置延迟时间、防止反爬机制等等。

总之，使用 Scrapy 爬取豆瓣图书及其评分和评论信息是一个相对简单又有趣的任务。如果你对数据爬取和 Python 编程有兴趣，可以进一步尝试其他网站的数据爬取，提高自己的编程技能。

Scrapy CSS选择器失效：理解Scrapy如何处理网页及验证响应内容

Python爬虫怎样实现分布式爬取_Python爬虫分布式架构设计与实现方法

深入理解Scrapy CSS选择器行为与动态内容抓取调试

Scrapy CSS选择器失效：理解浏览器与爬虫所见HTML的差异及调试策略

Python爬虫怎样进行数据可视化_Python爬虫抓取数据后可视化展示方法

相关标签:

豆瓣

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何使用Python正则表达式进行区块链技术实现下一篇：Scrapy实现分布式任务调度和负载均衡

作者最新文章

提升效率的夸克浏览器AI搜索_夸克AI搜索高效使用秘籍

2025-10-17 16:12

夸克浏览器AI搜索功能详解_几个实用的夸克AI搜索技巧分享

2025-10-17 17:20

手机版夸克浏览器AI搜索设置_移动端夸克AI搜索使用全攻略

2025-10-17 23:58

夸克浏览器AI搜索深度体验_夸克AI搜索与其他AI的对比

2025-10-18 22:34

夸克浏览器AI搜索入口在哪_一文读懂夸克AI搜索如何激活

2025-10-19 09:25

夸克浏览器如何调用AI搜索_夸克AI搜索的快捷指令大全

2025-10-19 11:02

夸克浏览器一键启用AI搜索_带你体验夸克AI搜索的强大之处

2025-10-19 18:42

玩转夸克浏览器的AI搜索模式_夸克AI搜索新手入门操作指南

2025-10-20 09:50

夸克浏览器AI搜索最新版教学_探索夸克AI搜索的隐藏功能

2025-10-24 20:48

夸克浏览器怎么用AI搜索_夸克AI搜索正确提问方式教学

2025-10-25 23:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

excel制作动态图表教程

本专题整合了excel制作动态图表相关教程，阅读专题下面的文章了解更多详细教程。

2025.12.29

freeok看剧入口合集

本专题整合了freeok看剧入口网址，阅读下面的文章了解更多网址。

2025.12.29

俄罗斯搜索引擎Yandex最新官方入口网址

Yandex官方入口网址是https://yandex.com；用户可通过网页端直连或移动端浏览器直接访问，无需登录即可使用搜索、图片、新闻、地图等全部基础功能，并支持多语种检索与静态资源精准筛选。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

197

2025.12.29

python中def的用法大全

def关键字用于在Python中定义函数。其基本语法包括函数名、参数列表、文档字符串和返回值。使用def可以定义无参数、单参数、多参数、默认参数和可变参数的函数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2025.12.29

python改成中文版教程大全

Python界面可通过以下方法改为中文版：修改系统语言环境：更改系统语言为“中文（简体）”。使用 IDE 修改：在 PyCharm 等 IDE 中更改语言设置为“中文”。使用 IDLE 修改：在 IDLE 中修改语言为“Chinese”。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2025.12.29

C++的Top K问题怎么解决

TopK问题可通过优先队列、partial_sort和nth_element解决：优先队列维护大小为K的堆，适合流式数据；partial_sort对前K个元素排序，适用于需有序结果且K较小的场景；nth_element基于快速选择，平均时间复杂度O(n)，效率最高但不保证前K内部有序。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2025.12.29