0

0

Python爬虫-scrapy介绍及使用

angryTom

angryTom

发布时间:2019-11-29 15:56:29

|

5429人浏览过

|

来源于博客园

转载

scrapy的流程

1.png

其流程可以描述如下:

● 调度器把requests-->引擎-->下载中间件--->下载器

● 下载器发送请求,获取响应---->下载中间件---->引擎--->爬虫中间件--->爬虫

立即学习Python免费学习笔记(深入)”;

● 爬虫提取url地址,组装成request对象---->爬虫中间件--->引擎--->调度器

● 爬虫提取数据--->引擎--->管道

● 管道进行数据的处理和保存

推荐学习:Python视频教程  

注意:

图中绿色线条的表示数据的传递

注意图中中间件的位置,决定了其作用

注意其中引擎的位置,所有的模块之前相互独立,只和引擎进行交互

scrapy中每个模块的具体作用

2.png

 1.scrapy项目实现流程

创建一个scrapy项目:scrapy startproject 项目名

生成一个爬虫:scrapy genspider 爬虫名 允许爬取的范围

提取数据:完善spider,使用xpath等方法

保存数据:pipeline中保存数据

2. 创建scrapy项目

命令:scrapy startproject +

示例:scrapy startproject myspider

生成的目录和文件结果如下:

3.png

settings.py中的重点字段和内涵

● USER_AGENT 设置ua

● ROBOTSTXT_OBEY 是否遵守robots协议,默认是遵守

● CONCURRENT_REQUESTS 设置并发请求的数量,默认是16个

● DOWNLOAD_DELAY 下载延迟,默认无延迟

● COOKIES_ENABLED 是否开启cookie,即每次请求带上前一次的cookie,默认是开启的

● DEFAULT_REQUEST_HEADERS 设置默认请求头

● SPIDER_MIDDLEWARES 爬虫中间件,设置过程和管道相同

● DOWNLOADER_MIDDLEWARES 下载中间件

创建爬虫

Artbreeder
Artbreeder

创建令人惊叹的插画和艺术

下载

命令:scrapy genspider + +

生成的目录和文件结果如下:

4.png

完善spider

完善spider即通过方法进行数据的提取等操做:

5.png

注意:

● response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法

● extract() 返回一个包含有字符串的列表

● extract_first() 返回列表中的第一个字符串,列表为空没有返回None

● spider中的parse方法必须有

● 需要抓取的url地址必须属于allowed_domains,但是start_urls中的url地址没有这个限制

● 启动爬虫的时候注意启动的位置,是在项目路径下启动

数据传递到pipeline

6.png

为什么要使用yield?

● 让整个函数变成一个生成器,有什么好处呢?

● 遍历这个函数的返回值的时候,挨个把数据读到内存,不会造成内存的瞬间占用过高

● python3中的range和python2中的xrange同理

注意:

yield能够传递的对象只能是:BaseItem,Request,dict,None

6. 完善pipeline

7.png

 8.png

pipeline在settings中能够开启多个,为什么需要开启多个?

● 不同的pipeline可以处理不同爬虫的数据

● 不同的pipeline能够进行不同的数据处理的操作,比如一个进行数据清洗,一个进行数据的保存

pipeline使用注意点

● 使用之前需要在settings中开启

● pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义),值表示距离引擎的远近,越近数据会越先经过

● 有多个pipeline的时候,process_item的方法必须return item,否则后一个pipeline取到的数据为None值

● pipeline中process_item的方法必须有,否则item没有办法接受和处理

● process_item方法接受item和spider,其中spider表示当前传递item过来的spider

本文来自 python教程 栏目,欢迎学习!  

相关文章

python速学教程(入门到精通)
python速学教程(入门到精通)

python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

37

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

19

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

37

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

19

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

16

2026.01.13

PHP缓存策略教程大全
PHP缓存策略教程大全

本专题整合了PHP缓存相关教程,阅读专题下面的文章了解更多详细内容。

6

2026.01.13

jQuery 正则表达式相关教程
jQuery 正则表达式相关教程

本专题整合了jQuery正则表达式相关教程大全,阅读专题下面的文章了解更多详细内容。

3

2026.01.13

交互式图表和动态图表教程汇总
交互式图表和动态图表教程汇总

本专题整合了交互式图表和动态图表的相关内容,阅读专题下面的文章了解更多详细内容。

45

2026.01.13

nginx配置文件详细教程
nginx配置文件详细教程

本专题整合了nginx配置文件相关教程详细汇总,阅读专题下面的文章了解更多详细内容。

9

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Python Scrapy 网络爬虫实战视频教程
Python Scrapy 网络爬虫实战视频教程

共16课时 | 5.4万人学习

Python 并发编程实战
Python 并发编程实战

共12课时 | 0.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号