python - Scrapy 爬虫的时候只能抓取到页面的一条数据,请教不知道是不是网站做了反爬虫的手段?
怪我咯
怪我咯 2017-04-17 16:38:11
[Python讨论组]

我爬虫的目标网址是http://jobs.monster.com/search/software_5
想要保存这个网站上每一条工作的标题、链接、公司和发布时间

我自己检查的时候用sites = hxs.select('//p')获取所有的p
结果发现本来只能得到一条工作的信息

例如:每个工作里都该有个p class=jobTitle,但是在数据里只能找到一个这样的p

这个网站刚刚改版,之前都还能顺利获取数据,请有经验的大神指点我一个解决方案。

怪我咯
怪我咯

走同样的路,发现不同的人生

全部回复(1)
PHPz

已解决

数据都在js里面,直接通过response.body用正则表达式获取了js里面的数据。方法不大好,有相同问题的同学可以去研究Python-webkit。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号