Python:推荐爬虫框架
天蓬老师
天蓬老师 2017-04-17 12:01:15
[Python讨论组]

想使用python爬虫框架开发个爬虫,但目前了解有限,希望大家帮忙推荐几个,谢谢啦~
另外,大家平常工作中都使用python干些什么事情呢?网站开发?爬虫?还是运维?

天蓬老师
天蓬老师

欢迎选择我的课程,让我们一起见证您的进步~~

全部回复(6)
高洛峰

scrapy是python里面比较好的爬虫框架。支持自定义Item,pipeline数据管道。在spider中可以指定domain,以及相应的Rule规则,支持xpath对DOM的解析等内容
而且scrapy还有自己的shell,可以在上面方便调试和查看结果。总之内容很多,功能很强大...

基本上scrapy做的已经非常完善了。不过不支持动态载入js解析js中的ajax请求。scrapyjs在此基础之上实现了模拟浏览器动态行为。

我写的这个配置文档
包括了Windows和CentOS 6.4下面的配置过程。可以作为一个参考。(不过有些库是我自己用到的,不一定需要安装..比如upyun...progressbar神马的)

怪我咯

scrapy略重型了,如果自己写的话,可以用自带的urllib2,也可以用requests,解析可以使用lxml,BeautifulSoup,实现动态解析,还有splinter等框架,还可以用threading模块实现多线程,或者使用协程框架gevent。

天蓬老师
  • Mechanize
  • Twill
  • BeautifulSoup + urllib2
  • Scrapy
  • Ruya
  • PycURL

via : stackoverflow

黄舟

http://www.oschina.net/p/scrapy

scrapy 爬虫框架。纯python实现

PHPz

神箭手云爬虫

大家讲道理

自己写框架,
无外乎请求/渲染,解析,存储,队列任务,WebUI之类,
本人的框架可以干翻携程

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号