Python | Python学习之初识Scrapy

蓮花仙者

发布时间：2025-10-03 09:45:01

377人浏览过

来源于php中文网

原创

初识scrapy：什么是scrapy？

Scrapy 是一个用 Python 编写的开源爬虫框架，基于高性能的事件驱动网络引擎 Twisted，Scrapy 爬虫具有极高的性能。

Scrapy 内置数据提取器（Selector），支持 XPath 和 Scrapy 自有的 CSS Selector 语法，并且支持正则表达式，便于从网页中提取信息。交互式的命令行工具便于测试 Selector 和调试爬虫，支持将数据导出为 JSON、CSV、XML 格式。Scrapy 的可扩展性强，运行自己编写的特定功能插件，内置了许多扩展和中间件，用于处理 cookies 和 session、HTTP 压缩、认证、缓存、robots.txt 以及爬虫深度限制。Scrapy 内部数据流程图如下：

Python | Python学习之初识Scrapy

Scrapy 内部数据流程图其中：

立即学习“Python免费学习笔记（深入）”；

Scrapy Engine（引擎）：负责 Spider、ItemPipeline、Downloader、Scheduler 之间的通信、信号、数据传递等。 Scheduler（调度器）：接受引擎发送的 Request 请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。 Downloader（下载器）：负责下载 Scrapy Engine（引擎）发送的所有 Requests 请求，并将其获取到的 Responses 交还给 Scrapy Engine（引擎），由引擎交给 Spider 处理。 Spider（爬虫）：负责处理所有 Responses，从中分析提取数据，获取 Item 字段所需的数据，并将需要跟进的 URL 提交给引擎，再次进入 Scheduler（调度器）。 Item Pipeline（管道）：负责处理 Spider 中获取到的 Item，并进行后期处理（详细分析、过滤、存储等）。 Downloader Middlewares（下载中间件）：可以自定义扩展下载功能的组件。 Spider Middlewares（Spider 中间件）：可以自定义扩展和操作引擎和 Spider 之间通信的功能组件（例如进入 Spider 的 Responses 和从 Spider 出去的 Requests）。

制作 Scrapy 爬虫的步骤：

新建项目（scrapy startproject xxx）：新建一个新的爬虫项目。明确目标（编写 items.py）：明确你想要抓取的目标。制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页。存储内容（pipelines.py）：设计管道存储爬取内容。

如何安装 Scrapy？

在 Windows 系统下安装 Scrapy：

在 Windows 64 位系统下，安装 Scrapy 需要先安装以下依赖库：

pip install wheel
lxml-4.2.1-cp36-cp36m-win_amd64.whl
pyOpenSSL-17.5.0-py2.py3-none-any.whl
pywin32-221.win-amd64-py3.6.exe
Twisted-17.9.0-cp36-cp36m-win_amd64.whl
pip install scrapy

在 Linux 下安装 Scrapy：

系统版本为 Ubuntu 16.04：

sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
pip install scrapy

Scrapy 文件结构：

Python之模块学习中文WORD版

本文档主要讲述的是Python之模块学习；python是由一系列的模块组成的，每个模块就是一个py为后缀的文件，同时模块也是一个命名空间，从而避免了变量名称冲突的问题。模块我们就可以理解为lib库，如果需要使用某个模块中的函数或对象，则要导入这个模块才可以使用，除了系统默认的模块（内置函数）不需要导入外。希望本文档会给有需要的朋友带来帮助；感兴趣的朋友可以过来看看

下载

安装好 Scrapy 后，我们在 Windows 命令行模式下输入以下命令创建 Scrapy 项目：

scrapy startproject 项目名称

可以看到创建了以下文件：

Python | Python学习之初识Scrapy

Scrapy 文件结构其中：

scrapy.cfg：项目的配置文件
xxSpider/：项目的 Python 模块，将会从这里引用代码
xxSpider/items.py：项目的目标文件
xxSpider/pipelines.py：项目的管道文件
xxSpider/settings.py：项目的设置文件
xxSpider/spiders/：存储爬虫代码目录

Scrapy 单文件 Demo：

创建完 Scrapy 项目后，还是要上手实验一下才能更好地理解，所以根据之前我在实验楼课程中的学习笔记写了一个 Scrapy 单文件 Demo，使用这个单文件 Demo 能快速爬取实验楼全部课程信息。首先看下单文件的内容结构：

# -*- coding:utf-8 -*-
import scrapy
class ShiyanlouCoursesSpider(scrapy.Spider):
""" 所有 scrapy 爬虫需要写一个 Spider 类，这个类要继承 scrapy.Spider 类。在这个类中定义要请求的网站和链接、如何从返回的网页提取数据等等。"""
爬虫标识符号，在 scrapy 项目中可能会有多个爬虫，name 用于标识每个爬虫，不能相同
name = 'shiyanlou-courses'

def start_requests(self):
    """ 需要返回一个可迭代的对象，迭代的元素是scrapy.Request对象，可迭代对象可以是一个列表或者迭代器，这样 scrapy 就知道有哪些网页需要爬取了。scrapy.Request接受一个 url 参数和一个 callback 参数，url 指明要爬取的网页，callback 是一个回调函数用于处理返回的网页，通常是一个提取数据的 parse 函数。"""
    pass

def parse(self, response):
    """ 这个方法作为 `scrapy.Request` 的 callback，在里面编写提取数据的代码。scrapy 中的下载器会下载 `start_reqeusts` 中定义的每个 `Request` 并且结果封装为一个 response 对象传入这个方法。"""
    pass
因为实验楼的网页结构还是很简单的，所以解析部分就不做赘述，直接上单文件完整代码：
# -*- coding:utf-8 -*-
import scrapy
class ShiyanlouCoursesSpider(scrapy.Spider):
def start_requests(self):
课程列表页面 url 模版
    url_tmpl = 'https://www.shiyanlou.com/courses/?category=all&course_type=all&fee=all&tag=all&page={}'
    # 所有要爬取的页面
    urls = (url_tmpl.format(i) for i in range(1, 23))
    # 返回一个生成器，生成 Request 对象，生成器是可迭代对象
    for url in urls:
        yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):
    # 遍历每个课程的 div.course-body
    for course in response.css('div.course-body'):
        # 使用 css 语法对每个 course 提取数据
        yield {
            # 课程名称
            'name': course.css('div.course-name::text').extract_first(),
            # 课程描述
            'description': course.css('div.course-desc::text').extract_first(),
            # 课程类型，实验楼的课程有免费，会员，训练营三种，免费课程并没有字样显示，也就是说没有 span.pull-right 这个标签，没有这个标签就代表时免费课程，使用默认值 `免费`就可以了。
            'type': course.css('div.course-footer span.pull-right::text').extract_first(default='Free'),
            # 注意 // 前面的 .，没有点表示整个文档所有的 div.course-body，有 . 才表示当前迭代的这个 div.course-body
            'students': course.xpath('.//span[contains(@class, "pull-left")]/text()[2]').re_first('[^\d]*(\d*)[^\d]*')
        }
保存文件，使用 scrapy runspider xx.py -o data.json 运行代码，这里使用 -o 参数将结果输出为 JSON 格式。

写在后面：
这是咸鱼的第四篇学习笔记，旨在熟悉 Scrapy 单文件结构，为之后深入学习 Scrapy 打好基础。


					
													
								相关文章
							
							
																	
										手把手教你如何新建scrapy爬虫框架的第一个项目（上）
									
																	
										搜索引擎爬虫工具
									
																	
										Window应急响应（二）：蠕虫病毒
									
																	
										应对网络安全，云桌面成新宠-浅谈Microsoft 365安全
									
																	
										[爬虫]Windows下如何安装python第三方库lxml
									
															
													
								相关标签:
								
									爬虫 css linux javascript python java js json go 正则表达式 windows Python 中间件 json css 正则表达式 scrapy Session xml 事件 windows http linux ubuntu								
							
						
						本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn
						
													上一篇：苹果电脑安装win10系统教程
													下一篇：win7电脑网络禁用怎么启用？
												
					

					
													
								
									 
										作者最新文章
									
								
																	
										
											
												阿里拍卖平台官网入口 阿里司法拍卖平台官网入口
											
											
												2026-01-02 13:08
											
										
								
																	
										
											
												抖音怎么关闭自动续费功能_抖音会员取消订阅方法【步骤】
											
											
												2026-01-02 13:19
											
										
								
																	
										
											
												ACG漫画网(最新站)_ACG漫画网免费在线阅读平台
											
											
												2026-01-02 13:27
											
										
								
																	
										
											
												mcjs网页版最新高清版 mc.js官方中文极致游戏入口
											
											
												2026-01-02 13:27
											
										
								
																	
										
											
												php图片怎么显示_在网页中输出图片的header设置方法【汇总】
											
											
												2026-01-02 13:31
											
										
								
																	
										
											
												php怎么打包成exe可执行文件_php转exe工具及操作流程【教程】
											
											
												2026-01-02 13:39
											
										
								
																	
										
											
												FanFiction怎么绑定社交账号 FanFiction第三方账号关联步骤【指南】
											
											
												2026-01-02 13:55
											
										
								
																	
										
											
												笔记本电脑电池鼓包怎么办_电脑电池膨胀处理建议【常识】
											
											
												2026-01-02 14:02
											
										
								
																	
										
											
												Windows系统开机速度慢怎么优化_电脑开机加速设置技巧【方案】
											
											
												2026-01-02 14:06
											
										
								
																	
										
											
												什么是大语言模型的多模态_AI多模态技术原理及应用场景【科普】
											
											
												2026-01-02 14:09
											
										
								
															
						
						
							
								 
									热门AI工具
								
								更多
							

							
																	
										
											
											
												DeepSeek
												幻方量化公司旗下的开源大模型平台
																									
																												AI大模型
																													开放平台
																											
																							
										
									
																	
										
											
											
												豆包大模型
												字节跳动自主研发的一系列大型语言模型
																									
																												AI大模型
																											
																							
										
									
																	
										
											
											
												通义千问
												阿里巴巴推出的全能AI助手
																									
																												AI大模型
																											
																							
										
									
																	
										
											
											
												腾讯元宝
												腾讯混元平台推出的AI助手
																									
																												文档处理
																													Excel 表格
																											
																							
										
									
																	
										
											
											
												文心一言
												文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。
																									
																												AI大模型
																													中文写作
																											
																							
										
									
																	
										
											
											
												讯飞写作
												基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿
																									
																												中文写作
																													写作工具
																											
																							
										
									
																	
										
											
											
												即梦AI
												一站式AI创作平台，免费AI图片和视频生成。
																									
																												图片拼接
																													图画生成
																											
																							
										
									
																	
										
											
											
												ChatGPT
												最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。
																									
																												AI大模型
																													中文写作
																											
																							
										
									
																	
										
											
											
												智谱清言 - 免费全能的AI助手
												智谱清言 - 免费全能的AI助手
																									
																												AI大模型
																													PDF 文档


			
				
                    
                
				
					
						 
							相关专题
						
						更多
					
					
													
								
								
									python开发工具
									php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。
									
										 
											726
										
										 
											2023.06.15
										
									
								
							
													
								
								
									python打包成可执行文件
									本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。
									
										 
											630
										
										 
											2023.07.20
										
									
								
							
													
								
								
									python能做什么
									python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。
									
										 
											747
										
										 
											2023.07.25
										
									
								
							
													
								
								
									format在python中的用法
									Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。
									
										 
											617
										
										 
											2023.07.31
										
									
								
							
													
								
								
									python教程
									Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。
									
										 
											1236
										
										 
											2023.08.03
										
									
								
							
													
								
								
									python环境变量的配置
									Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。
									
										 
											547
										
										 
											2023.08.04
										
									
								
							
													
								
								
									python eval
									eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。
									
										 
											575
										
										 
											2023.08.04
										
									
								
							
													
								
								
									scratch和python区别
									scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。
									
										 
											702
										
										 
											2023.08.11
										
									
								
							
													
								
								
									php源码安装教程大全
									本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。
									
										 
											150
										
										 
											2025.12.31
										
									
								
							
											
				

				
					
						 
							热门下载
						
						更多
					
					
						
							网站特效   /
							网站源码  /
							网站素材  /
							前端模板 
						
						
															
									
										
										[窗口特效]app网页步骤引导实例代码
									
								
															
									
										
										[表单按钮]简洁实用的jQuery表单验证代码
									
								
															
									
										
										[文字特效]CSS3悬停遮罩显示文字特效
									
								
															
									
										
										[图片特效]CSS3点击图片切换到下一张代码
									
								
															
									
										
										[表单按钮]带网上开户表单jQuery焦点图
									
								
															
									
										
										[窗口特效]社交图文卡片ui响应式布局
									
								
															
									
										
										[图片特效]jQuery标签TAB控制图片切换代码
									
								
															
									
										
										[文字特效]CSS3恐怖惊悚文字动画特效
									
								
															
									
										
										[窗口特效]layui带进度条的答题演示
									
								
															
									
										
										[表单按钮]digg风格jquery注册表单
									
								
													
						
															
									
										
										[企业站源码]雅龙智能装备工业设备类WordPress主题1.0 
									
								
															
									
										
										[电商源码]威发卡自动发卡系统 
									
								
															
									
										
										[电商源码]卡密分发系统 
									
								
															
									
										
										[电商源码]中华陶瓷网 
									
								
															
									
										
										[电商源码]简洁粉色食品公司网站 
									
								
															
									
										
										[电商源码]极速网店系统 
									
								
															
									
										
										[电商源码]淘宝妈妈_淘客推广系统 
									
								
															
									
										
										[电商源码]积客B2SCMS商城系统 
									
								
															
									
										
										[电商源码]CODEC2I 众筹系统 
									
								
															
									
										
										[电商源码]ieshop超级网店系统 
									
								
													
						
															
									
										
										[网站素材]2026国潮招财算盘矢量背景 
									
								
															
									
										
										[网站素材]中国风青花瓷花卉矢量素材 
									
								
															
									
										
										[网站素材]INS风格绘画艺术活动宣传X5模板下载 
									
								
															
									
										
										[网站素材]奶茶咖啡饮品手绘涂鸦矢量插画 
									
								
															
									
										
										[网站素材]2026年全年月历模板设计素材下载 
									
								
															
									
										
										[网站素材]唯美冬季雪景森林小屋矢量背景 
									
								
															
									
										
										[网站素材]2026新年派对庆祝矢量素材 
									
								
															
									
										
										[网站素材]美味冰激凌宣传卡模板设计下载 
									
								
															
									
										
										[网站素材]2026新年加载进度条矢量图片 
									
								
															
									
										
										[网站素材]创意工作室营业海报设计素材下载 
									
								
													
						
															
									
										
										[前端模板]驾照考试驾校HTML5网站模板 
									
								
															
									
										
										[前端模板]驾照培训服务机构宣传网站模板 
									
								
															
									
										
										[前端模板]HTML5房地产公司宣传网站模板 
									
								
															
									
										
										[前端模板]新鲜有机肉类宣传网站模板 
									
								
															
									
										
										[前端模板]响应式天气预报宣传网站模板 
									
								
															
									
										
										[前端模板]房屋建筑维修公司网站CSS模板 
									
								
															
									
										
										[前端模板]响应式志愿者服务网站模板 
									
								
															
									
										
										[前端模板]创意T恤打印店网站HTML5模板 
									
								
															
									
										
										[前端模板]网页开发岗位简历作品展示网页模板 
									
								
															
									
										
										[前端模板]响应式人力资源机构宣传网站模板 
									
								
													
					
					

				

				
					
                



				
					
						 
							相关下载
						
						更多
					
					
											Python之模块学习 中文WORD版
											python学习笔记与简明教程 中文WORD版 2.03MB
											Flash CS3动画制作基础教程教案 中文WORD版
										

				

				
					
						 
							精品课程
						
						更多
					
					
						
							相关推荐   /
							热门推荐  /
							最新课程 
						
						
													
								
									
								
								
									Python 并发编程实战

									
										共12课时 | 0.7万人学习
									
								
							
													
								
									
								
								
									适合小白练手的38个Python爬虫实战项目

									
										共39课时 | 2.2万人学习
									
								
							
													
								
									
								
								
									10个Python完整小项目教你爬虫+数据分析+数据可视化

									
										共10课时 | 0.9万人学习
									
								
							
												

						
															
									
										
									
									
										JavaScript ES5基础线上课程教学

										
											共6课时 | 6.9万人学习
										
									
								
															
									
										
									
									
										最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

										
											共79课时 | 150.7万人学习
										
									
								
															
									
										
									
									
										phpStudy极速入门视频教程

										
											共6课时 | 53.3万人学习
										
									
								
													

						
															
										
											
										
										
											最新Python教程 从入门到精通

											
												共4课时 | 0.6万人学习
											
										
									
																
										
											
										
										
											JavaScript ES5基础线上课程教学

											
												共6课时 | 6.9万人学习
											
										
									
																
										
											
										
										
											PHP新手语法线上课程教学

											
												共13课时 | 0.8万人学习
											
										
									
														
						

					
				

				
					
						 
							最新文章
						
						更多
					
					
													Win10时间显示到秒怎么设置 Win10时间显示到秒教程【指南】
													Windows10电脑怎么设置双屏壁纸_Win10个性化背景独立设置
													Win11怎么查看端口占用情况_Win11查找并关闭端口进程命令
													Win11怎么打开组策略编辑器_Win11家庭版开启组策略方法
													Win11怎么清理系统更新缓存文件_Win11释放C盘空间方法
													Win11怎么开启或关闭卓越性能模式_Win11电源计划设置教程
													Win10快速访问怎么关闭 Win10禁用文件资源管理器快速访问【教程】
													Win11怎么关闭系统提示音_Win11静音特定操作声音【设置】
													Windows10开机自动修复无法修复_Win10命令提示符修复引导记录
													如何使用Windows的OneDrive文件随选功能？（节省磁盘空间）