讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 后端开发 > Python教程 > 正文

如何完整写一个爬虫框架

零到壹度

发布： 2018-03-30 11:28:40

原创

4930人浏览过

本文主要为大家分享一篇如何完整写一个爬虫框架的请求方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧，希望能帮助到大家。

产生爬虫框架：

1、建立一个scrapy爬虫工程

2、在工程中产生一个scrapy爬虫

3、配置spider爬虫

4、运行爬虫，获取网页

具体操作：

1、建立工程

定义一个工程，名称为：python123demo

方法：

在cmd中，d: 进入d盘， cd pycodes 进入文件pycodes

然后输入

scrapy startproject python123demo

在pycodes中会生成一个文件：

_init_.py不需要用户编写

2、在工程中产生一个scrapy爬虫

执行一条命令，给出爬虫名字和爬取的网站

产生爬虫：

生成一个名称为 demo 的spider

仅限生成 demo.py,其内容为：

name = 'demo' 当前爬虫名字为demo

allowed_domains = " 爬取该网站域名以下的链接，该域名由cmd命令台输入

魔法映像企业网站管理系统

魔法映像企业网站管理系统

技术上面应用了三层结构，AJAX框架，URL重写等基础的开发。并用了动软的代码生成器及数据访问类，加进了一些自己用到的小功能，算是整理了一些自己的操作类。系统设计上面说不出用什么模式，大体设计是后台分两级分类，设置好一级之后，再设置二级并选择栏目类型，如内容，列表，上传文件，新窗口等。这样就可以生成无限多个二级分类，也就是网站栏目。对于扩展性来说，如果有新的需求可以直接加一个栏目类型并新加功能操作

魔法映像企业网站管理系统

0

魔法映像企业网站管理系统

start_urls = [] 爬取的初始页面

parse()用于处理相应，解析内容形成字典，发现新的url爬取请求

3、配置产生的spider爬虫，使之满足我们的需求

将解析的页面保存成文件

修改demo.py文件

4、运行爬虫，获取网页

打开cmd输入命令行进行爬虫

然后我的电脑上出现了一个错误

windows系统上出现这个问题的解决需要安装Py32Win模块，但是直接通过官网链接装exe会出现几百个错误，更方便的做法是

pip3 install pypiwin32

这是py3的解决方案

注意：py3版本如果用 pip install pypiwin32指令会发生错误

安装完成后，重新进行爬虫，成功！撒花！

捕获页面存储在 demo.html文件中

demo.py 所对应的完整代码：

两版本等价：

以上就是如何完整写一个爬虫框架的详细内容，更多请关注php中文网其它相关文章！

相关标签：

python

大家都在看：

如何使用Python做视频目标检测_视频AI检测核心流程【指导】 Python构建个人数据分析平台的后端架构与接口设计【指导】图像处理如何实现数据清洗的完整流程【教程】 Python实现机器学习中目标检测的详细教程【教程】如何使用Python处理日志文件_日志分析自动化步骤【教程】

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：Python之爬取其他网页下一篇：python操作文件方法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

跟我学PS第四天01：如何给照片加边框效果

2018-07-23 16:21:38
跟我学PS第四天02：练习Photoshop中的套索工具

2018-07-23 17:56:00
跟我学PS第五天01：使用裁剪工具

2018-07-27 15:22:47
跟我学PS第五天02：移动工具的使用方法和应用

2018-07-27 16:59:00
跟我学PS第六天01：修复画笔工具

2018-07-28 15:36:43
跟我学PS第六天02：模糊工具

2018-08-14 16:35:58
跟我学PS第七天01：如何将彩图抠出线稿效果

2018-08-18 11:26:54
跟我学PS第七天02：如何抠出复杂树林

2018-08-20 16:25:41
跟我学PS第八天01：如何抠取文件中的印章

2018-08-25 10:55:46
跟我学PS第八天02：光效素材的抠图方法

2018-08-28 15:02:42

最新问题

Python字典高效操作方法_键值对快速查找技巧【指导】 Python字典基于哈希表，平均时间复杂度O(1)；应直接用keyindict而非keyindict.keys()；优先用get()安全取值；合并用update()、转换用字典推导式；键必须可哈希，列表等不可变对象需转为tuple。

2025-12-19 19:03:08

328

自动化脚本如何实现生成报告的完整流程【教程】自动化报告核心是构建“数据获取→处理→可视化→输出”可重复流水线，关键在理清各环节输入输出、异常兜底、分层设计、调度通知与持续维护。

2025-12-19 18:55:02

626

Python统计分析函数使用案例_scipy与numpy实战【技巧】 Python统计分析首选numpy与scipy组合：numpy高效计算均值、标准差、分位数、相关系数；scipy.stats提供t检验、卡方检验、Shapiro-Wilk正态性检验等成熟统计方法。

2025-12-19 18:17:02

105

Python在AI项目中的特征工程构建全步骤讲解【技巧】 Python特征工程核心是围绕“数据可学、模型能懂、业务可解释”三层目标迭代推进：先理解业务与数据结构，再科学处理缺失/异常值，继而构造高信息量业务特征，最后按模型需求编码缩放并验证选择。

2025-12-19 18:05:02

583

如何用Python连接数据库实现查询_数据库读写操作详解【指导】 Python数据库操作关键在于理清装驱动、建连接、拿游标、执行SQL、处理结果、关资源六步；需选对驱动、参数化防注入、及时提交与关闭。

2025-12-19 18:01:02

249

Python动态图表绘制方法_animation模块应用解析【教学】 matplotlib.animation.FuncAnimation是最常用可控的Python动态图表方案，通过init初始化、update逐帧更新数据、blit优化重绘实现正弦波等动画，支持GIF/MP4导出。

2025-12-19 17:57:08

755

Python深度学习构建图像去噪模型的训练方法与数据准备步骤【教程】图像去噪核心在于真实噪声建模、严格配对数据、轻量模型（如DnCNN）与结构化损失（L1+加权SSIM），并全程监控残差和PSNR。

2025-12-19 17:44:02

771

Python文件读取高级技巧_文本与二进制处理实战【教程】 Python文件读取需精准控制编码（如utf-8-sig处理BOM）、流式读取大文件（逐行或分块）、二进制文件用rb模式配合struct/io.BytesIO解析，跨平台注意换行符差异并用newline=‘’精确控制。

2025-12-19 17:41:02

248

Python如何训练序列模型_RNN与LSTM核心流程详解【教学】训练RNN/LSTM需理清四步：数据预处理（分词编码、统一长度、构造输入-标签对）、模型搭建（嵌入层→RNN/LSTM层→输出头）、训练配置（按任务选损失函数、优化器与batch_size）、验证调试（监控loss曲线、抽样预测、梯度裁剪）。

2025-12-19 17:22:48

232

Python迭代匹配对象如何解析_match对象详解【指导】 re.Match是Python正则匹配成功后返回的公开对象，可通过re.search()等获取；需先判空再调用group()等方法，支持span()、groupdict()、命名组下标访问等丰富接口。

2025-12-19 17:15:16

347

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

PostgreSQL 教程

55986次学习
收藏
Django 教程

22255次学习
收藏
React 教程

26960次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部