java - 爬虫如何设置代理爬被墙网站内容
PHP中文网
PHP中文网 2017-04-17 11:55:56
[Java讨论组]

目标: 想要爬被墙网站的内容.如爬去google自定义搜索的结果,但在国内google经常无法连接,在程序中也无法访问. 不仅在本地能爬去到数据,而且想要将该爬虫代码部署到搭建的对外网站上也能爬取(VPS能翻墙,不知道SAE上的cron能不能翻墙爬数据呢)
自己想了几种解决方式,但都不能稳定爬取数据.
1.网上找了免费的代理ip,在程序中将ip和端口设置为该值,大部分都报Connection timeout.
2.本地启动goagent,程序中将ip和端口设置为goagent默认的:127.0.0.1:8087,网上有通过这种方案实现,但我本地运行时出现证书问题,暂时没解决.

求大牛指导。。

PHP中文网
PHP中文网

认证高级PHP讲师

全部回复(2)
ringa_lee

我现在用的翻墙利器。
https://github.com/clowwindy/shadowsocks

黄舟

把服務器搬到外國

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号