网页爬虫 - 如何用python抓取js生成的数据-PHP中文网问答

微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

网页爬虫 - 如何用python抓取js生成的数据

天蓬老师 2017-04-17 11:05:59

[Python讨论组]

0

7

634

举报

想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓到呢? 最好是用python

天蓬老师

欢迎选择我的课程，让我们一起见证您的进步~~

全部回复(7)

巴扎黑

巴扎黑2017-04-17 11:07:59 7楼

如果对抓取的性能没有什么要求的话, 尝试一下selenium或者watir吧.
web自动化测试脚本用好了可以做很多事情.
利用你的浏览器执行好js, 然后再从dom里面取数据.

另外一个情况, 如果你知道js是通过ajax或者api取数据的, 直接去抓数据源, 得到的不是json就是xml, 然后处理数据吧

赞 +0

添加回复

巴扎黑

巴扎黑2017-04-17 11:07:59 6楼

基于webkit的http://phantomjs.org/，写js就行。
用python调它，用起来很爽。

赞 +0

添加回复

迷茫2017-04-17 11:07:59 5楼

对于JS生成的数据，你是没有办法获取的。除非直接遍历dom还是有可能……

一种办法是可以考虑用userscript，获取数据然后post到服务器等就随你自己的喜欢了

还有一种办法（假设是在win32），可以使用com组件调用IE然后获取动态生成的dom树，然后再做处理

当年试过改firefox的程序来做这个，不过也很麻烦

当然，你也可以用python什么自己实现一套浏览器和js引擎，那么这些数据肯定是你自己的了，不过还不如直接改或者用com组件

但是你说的爬虫爬取js生成的，那是没有办法的：（不管怎么样，一定要实现dom树，要让js能执行，那么就相当于你要实现一套简单的浏览器了

赞 +0

添加回复

伊谢尔伦2017-04-17 11:07:59 4楼

可以试着用 http://jeanphix.me/Ghost.py/ , http://code.google.com/p/pyv8/ 获得 JS 执行后的 dom。

赞 +0

添加回复

黄舟2017-04-17 11:07:59 3楼

目前认为比较好的一个方案是采用python+gtk+pywebkit，相当于基于webkit自己写一个定制的浏览器，这样可以在网页中插入自己的js，遍历dom等都是非常容易的。这个组合在ubuntu下还是非常容易搭建的。
sudo apt-get install python-gtk python-webkit，即可。

赞 +0

添加回复

高洛峰2017-04-17 11:07:59 2楼

https://github.com/tmpvar/jsdom

赞 +0

添加回复

伊谢尔伦2017-04-17 11:07:59 1楼

http://docs.casperjs.org/en/latest/quickstart.html

赞 +0

添加回复

专题推荐

更多>

热门话题

热门教程

更多>

相关教程

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部