python - 微博爬虫:直接使用API还是完全自己开发?
ringa_lee
ringa_lee 2017-04-17 11:49:54
[Python讨论组]

希望各位朋友帮忙给下建议!
谢谢~

ringa_lee
ringa_lee

ringa_lee

全部回复(4)
怪我咯

首先说一句,你这问题真是问的有点让人吐槽无力,重点就是一句话”有过相关开发经验的朋友,一般是直接使用相关API还是完全自己开发呢?“还写了这么多,最重要的是题目!为什么题目不把这句重点放上或者这句的意思也要表达出来啊!建议去看看提问的智慧

然后回答一下你的问题,虽然API有频率限制但是相比较自己抓取来说方便很多,一般API有的功能都直接用API,如果实在没有或者API让人无法忍受的话,才会考虑自己抓取或模拟什么的。因为后者怎么说相对前者来说还是比较麻烦的。

ringa_lee

一般来说只要不是太过于复杂的功能都可以用API实现,个人建议如果不是万不得已还是尽量用API。

关于API频率调用的问题,如果你仅仅是为了实现一些简单的功能(比如定时微博,微博关键字抓取),那么你是完全不需要考虑调用频率的问题(渣浪对于测试应用的API调用频率限制得不多)。当然,如果你是需要做一个有一定PV的上线应用,肯定得申请上线。

高洛峰

看你的需求了,如果是为了学习微博的API自然用API,如果是想学习web爬虫就自己爬,如果是为了其他的目的,数据挖掘这块纯粹是“获得数据”这个目的,我觉得还是API好点(方便很多哦)。

大家讲道理

鉴于微博 API 有频率限制,你可以用一个帐号申请多个未上线应用来进行爬虫。
因为我觉得 200次/小时 是不能满足爬虫的需要的。但是10*200次/小时应该就能满足基本需要了。
不过我觉得新浪很快就发现你是爬虫的,他们会不定时审核的,所以 LZ小心点吧。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号