扫码关注官方订阅号
ringa_lee
封杀分很多种的:1.有基于ua来封的,这种你添加一个随机的ua就行2.基于ip的访问频率的,这种比较麻烦,你得挂代理3.基于请求特征,比如没有带cookie,没有带header固有的一些字段的,这种需要你去模拟真实请求的ua
然后建议你看看 一些开源的爬虫实现。http://project.codefrom.com/?w=spider
看到一个使用手机模拟人工操作的。不过忘记文章在哪里了。
淘宝的限制比较严格,我也做过爬淘宝的,不过是用Java做的,主要要注意三个问题:1、请求头的Referer参数 这个参数必须设置,否则很容易被拦截掉
2、请求头的cookie数据 这里不是说简单cookie,最好用一个正常的帐号去浏览器登录好,然后F12把请求的cookie复制出来,放到你爬虫的请求cookie里面,这样淘宝就会认为你是一个正常用户在浏览,限制条件就会放开很多,比没有这样设置的能多爬很多数据。
3、请求IP 即使做了上面的设置,如果爬得多了,还是有可能需要你输入验证码或者直接拒绝你的请求,所以还是得加入代理机制,代理可以花钱买,也可以用免费的,有很多,防止封IP。
可以关注一下我写的一个开源组件,设置一个代理服务器池,防止反爬虫策略的屏蔽,并进行了自动调节请求频率,处理异常请求,优先选取响应快的代理。https://github.com/letcheng/ProxyPool
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
封杀分很多种的:
1.有基于ua来封的,这种你添加一个随机的ua就行
2.基于ip的访问频率的,这种比较麻烦,你得挂代理
3.基于请求特征,比如没有带cookie,没有带header固有的一些字段的,这种需要你去模拟真实请求的ua
然后建议你看看 一些开源的爬虫实现。http://project.codefrom.com/?w=spider
看到一个使用手机模拟人工操作的。不过忘记文章在哪里了。
淘宝的限制比较严格,我也做过爬淘宝的,不过是用Java做的,主要要注意三个问题:
1、请求头的Referer参数
这个参数必须设置,否则很容易被拦截掉
2、请求头的cookie数据
这里不是说简单cookie,最好用一个正常的帐号去浏览器登录好,然后F12把请求的cookie复制出来,放到你爬虫的请求cookie里面,这样淘宝就会认为你是一个正常用户在浏览,限制条件就会放开很多,比没有这样设置的能多爬很多数据。
3、请求IP
即使做了上面的设置,如果爬得多了,还是有可能需要你输入验证码或者直接拒绝你的请求,所以还是得加入代理机制,代理可以花钱买,也可以用免费的,有很多,防止封IP。
可以关注一下我写的一个开源组件,设置一个代理服务器池,防止反爬虫策略的屏蔽,并进行了自动调节请求频率,处理异常请求,优先选取响应快的代理。https://github.com/letcheng/ProxyPool