0

0

在Scrapy爬虫中使用代理IP和反爬虫策略

PHPz

PHPz

发布时间:2023-06-23 11:24:29

|

2712人浏览过

|

来源于php中文网

原创

在 scrapy 爬虫中使用代理 ip 和反爬虫策略

近年来,随着互联网的发展,越来越多的数据需要通过爬虫来获取,而对于爬虫的反爬虫策略也越来越严格。在许多场景下,使用代理 IP 和反爬虫策略已成为爬虫开发者必备的技能。在本文中,我们将讨论如何在 scrapy 爬虫中使用代理 ip 和反爬虫策略,以保证爬取数据的稳定性和成功率。

一、为什么需要使用代理 IP

爬虫访问同一个网站时,往往会被识别为同一个 IP 地址,这样很容易被封禁或者被限制访问。为了避免这种情况发生,需要使用代理 IP 来隐藏真实 IP 地址,从而更好地保护爬虫的身份。

二、如何使用代理 IP

在 Scrapy 中使用代理 IP,可以通过在settings.py文件中设置DOWNLOADER_MIDDLEWARES属性来实现。

  1. 在settings.py文件中添加如下代码:
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 1,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    'your_project.middlewares.RandomUserAgentMiddleware': 400,
    'your_project.middlewares.RandomProxyMiddleware': 410,
}
  1. 在middlewares.py文件中定义RandomProxyMiddleware类,用于实现随机代理IP功能:
import requests
import random


class RandomProxyMiddleware(object):
    def __init__(self, proxy_list_path):
        with open(proxy_list_path, 'r') as f:
            self.proxy_list = f.readlines()

    @classmethod
    def from_crawler(cls, crawler):
        settings = crawler.settings
        return cls(settings.get('PROXY_LIST_PATH'))

    def process_request(self, request, spider):
        proxy = random.choice(self.proxy_list).strip()
        request.meta['proxy'] = "http://" + proxy

其中,需要在settings.py文件中设置代理IP列表的路径:

PROXY_LIST_PATH = 'path/to/your/proxy/list'

在执行爬取时,Scrapy 会随机选取一个代理 IP 进行访问,从而保证了身份的隐蔽性和爬取的成功率。

三、关于反爬虫策略

目前,网站对于爬虫的反爬虫策略已经非常普遍,从简单的 User-Agent 判断到更为复杂的验证码和滑动条验证。下面,针对几种常见的反爬虫策略,我们将讨论如何在 Scrapy 爬虫中进行应对。

  1. User-Agent 反爬虫

为了防止爬虫的访问,网站常常会判断 User-Agent 字段,如果 User-Agent 不是浏览器的方式,则会将其拦截下来。因此,我们需要在 Scrapy 爬虫中设置随机 User-Agent,以避免 User-Agent 被识别为爬虫。

在middlewares.py下,我们定义RandomUserAgentMiddleware类,用于实现随机 User-Agent 功能:

Viggle AI
Viggle AI

Viggle AI是一个AI驱动的3D动画生成平台,可以帮助用户创建可控角色的3D动画视频。

下载
import random
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware


class RandomUserAgentMiddleware(UserAgentMiddleware):
    def __init__(self, user_agent):
        self.user_agent = user_agent

    @classmethod
    def from_crawler(cls, crawler):
        s = cls(crawler.settings.get('user_agent', 'Scrapy'))
        crawler.signals.connect(s.spider_closed, signal=signals.spider_closed)
        return s

    def process_request(self, request, spider):
        ua = random.choice(self.user_agent_list)
        if ua:
            request.headers.setdefault('User-Agent', ua)

同时,在settings.py文件中设置 User-Agent 列表:

USER_AGENT_LIST = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36']
  1. IP 反爬虫

为了防止大量请求来自同一 IP 地址,网站可能会对同一 IP 地址的请求做出限制或者禁止访问。针对这种情况,我们可以使用代理 IP,通过随机切换 IP 地址的方式来避免 IP 反爬虫。

  1. Cookies 和 Session 反爬虫

网站可能会通过设置 Cookies 和 Session 等方式来识别请求的身份,这些方式往往会与账户绑定,同时也会限制每个账户的请求频率。因此,我们需要在 Scrapy 爬虫中进行 Cookies 和 Session 的模拟,以避免被识别为非法请求。

在 Scrapy 的 settings.py 文件中,我们可以进行如下配置:

COOKIES_ENABLED = True
COOKIES_DEBUG = True

同时,在middlewares.py文件中定义CookieMiddleware类,用于模拟 Cookies 功能:

from scrapy.exceptions import IgnoreRequest


class CookieMiddleware(object):
    def __init__(self, cookies):
        self.cookies = cookies

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            cookies=crawler.settings.getdict('COOKIES')
        )

    def process_request(self, request, spider):
        request.cookies.update(self.cookies)

其中,COOKIES 的设置如下:

COOKIES = {
    'cookie1': 'value1',
    'cookie2': 'value2',
    ...
}

在请求发送前,应将 Cookies 添加到 request 的 cookies 字段中。若请求没有携带 Cookie,很可能被网站识别为非法请求。

四、总结

以上是在 scrapy 爬虫中使用代理 ip 和反爬虫策略的介绍,使用代理 IP 和反爬虫策略是防止爬虫被限制和封禁的重要手段。当然,反爬虫策略层出不穷,针对不同的反爬虫策略,我们还需要进行相应的处理。

相关专题

更多
Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

9

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

3

2026.01.21

无人机驾驶证报考 uom民用无人机综合管理平台官网
无人机驾驶证报考 uom民用无人机综合管理平台官网

无人机驾驶证(CAAC执照)报考需年满16周岁,初中以上学历,身体健康(矫正视力1.0以上,无严重疾病),且无犯罪记录。个人需通过民航局授权的训练机构报名,经理论(法规、原理)、模拟飞行、实操(GPS/姿态模式)及地面站训练后考试合格,通常15-25天拿证。

15

2026.01.21

Python多线程合集
Python多线程合集

本专题整合了Python多线程相关教程,阅读专题下面的文章了解更多详细内容。

1

2026.01.21

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.21

windows激活码分享 windows一键激活教程指南
windows激活码分享 windows一键激活教程指南

Windows 10/11一键激活可以通过PowerShell脚本或KMS工具实现永久或长期激活。最推荐的简便方法是打开PowerShell(管理员),运行 irm https://get.activated.win | iex 脚本,按提示选择数字激活(选项1)。其他方法包括使用HEU KMS Activator工具进行智能激活。

2

2026.01.21

excel表格操作技巧大全 表格制作excel教程
excel表格操作技巧大全 表格制作excel教程

Excel表格操作的核心技巧在于 熟练使用快捷键、数据处理函数及视图工具,如Ctrl+C/V(复制粘贴)、Alt+=(自动求和)、条件格式、数据验证及数据透视表。掌握这些可大幅提升数据分析与办公效率,实现快速录入、查找、筛选和汇总。

6

2026.01.21

毒蘑菇显卡测试网站入口 毒蘑菇测试官网volumeshader_bm
毒蘑菇显卡测试网站入口 毒蘑菇测试官网volumeshader_bm

毒蘑菇VOLUMESHADER_BM测试网站网址为https://toolwa.com/vsbm/,该平台基于WebGL技术通过渲染高复杂度三维分形图形评估设备图形处理能力,用户可通过拖动彩色物体观察画面流畅度判断GPU与CPU协同性能;测试兼容多种设备,但中低端手机易卡顿或崩溃,高端机型可能因发热降频影响表现,桌面端需启用独立显卡并使用支持WebGL的主流浏览器以确保准确结果

17

2026.01.21

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

7

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Python Scrapy 网络爬虫实战视频教程
Python Scrapy 网络爬虫实战视频教程

共16课时 | 5.5万人学习

Git 教程
Git 教程

共21课时 | 2.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号