Python网络爬虫：解决登录请求被服务器拒绝（406状态码）的问题-html教程-PHP中文网

Python网络爬虫：解决登录请求被服务器拒绝（406状态码）的问题

霞舞

发布： 2025-11-08 11:45:18

原创

531人浏览过

Python网络爬虫：解决登录请求被服务器拒绝（406状态码）的问题

本教程旨在解决使用python `requests`库进行网络爬虫时，登录受保护网站（如plus500）遭遇406“rejected”状态码的问题。核心原因在于http请求缺少必要的浏览器头部信息。通过在请求中添加`user-agent`等关键http头，可以有效模拟真实浏览器行为，从而成功完成登录并访问目标数据。

问题描述与初始尝试

在使用Python的requests库进行网络爬虫时，尤其是在尝试登录受保护的网站以获取数据时，开发者可能会遇到请求被服务器拒绝的情况。一个常见的场景是，即使提供了正确的用户名和密码，POST请求也可能返回一个类似“Rejected”的状态，并伴随着HTTP 406状态码。这通常表明服务器拒绝处理该请求，因为它不符合其预期的条件，例如缺少特定的HTTP头部信息。

以下是一个初始的Python代码示例，它尝试使用requests.session进行登录操作，但遭遇了失败：

import requests
from pprint import pprint
# 假设Config模块中定义了username和password
from Config import username, password 

def main():
    # 目标登录URL，通常包含一些会话或追踪参数
    url = 'https://app.plus500.com/trade?innerTags=_cc_&webvisitid=d9cf772d-6ad5-492c-b782-e3fbeaf7863d&page=login' \
          '&_ga=2.35401569.1585895796.1661533386-1432537898.1661336007 '

    with requests.session() as session:
        # 尝试使用auth参数发送POST请求进行认证
        response = session.post(url, auth=(username, password))
        pprint(response.text)

if __name__ == '__main__':
    main()

登录后复制

运行上述代码后，可能会得到如下响应：

('{\n'
 '  "status": "Rejected",\n'
 '  "statusCode": "406",\n'
 '  "supportID": "11920948162926473185252678965843397577",\n'
 '  "ipAddress": "my IP",\n'
 '  "timeStamp": "2022-08-27 12:30:47"\n'
 '}')

登录后复制

这种“Rejected”状态和406状态码明确指示服务器拒绝了请求。这并非用户名或密码错误，而是请求的“身份”不被服务器信任，导致服务器拒绝进一步处理。

立即学习“Python免费学习笔记（深入）”；

深入分析：HTTP头部的重要性

许多网站，特别是那些涉及敏感操作（如金融交易平台）的网站，对其接收到的HTTP请求进行严格的验证。它们不仅仅检查用户名和密码，还会检查请求的HTTP头部信息，以判断请求是否来自一个合法的浏览器或客户端。当使用requests库发送请求时，默认的头部信息可能非常精简，这使得服务器很容易识别出它不是一个“真实”的浏览器请求，从而触发反爬机制，拒绝服务。

其中，User-Agent（用户代理）是最关键的头部之一。它告诉服务器发出请求的客户端类型、操作系统和浏览器版本。如果缺少User-Agent或其值不常见，服务器可能会认为这是一个机器人或恶意请求。此外，Accept-Encoding、Accept、Accept-Language和Connection等头部也共同构成了浏览器请求的典型特征。模拟这些头部信息是成功进行网页抓取的关键一步。

解决方案：模拟浏览器头部

解决此问题的关键在于模拟一个真实浏览器的HTTP头部。我们需要构建一个包含常见浏览器头部信息的字典，并在发送POST请求时将其作为headers参数传递。

OpenGPT

给AI不同提示词，立即创建属于自己的ChatGPT应用程序

162

查看详情

以下是添加必要HTTP头部后的修正代码：

import requests
from pprint import pprint
from Config import username, password

def main():
    url = 'https://app.plus500.com/trade?innerTags=_cc_&webvisitid=d9cf772d-6ad5-492c-b782-e3fbeaf863d&page=login' \
          '&_ga=2.35401569.1585895796.1661533386-1432537898.1661336007 '

    # 定义模拟浏览器行为的HTTP头部
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:20.0) Gecko/20100101 Firefox/20.0",
        "Accept-Encoding": "gzip, deflate",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
        "Accept-Language": "en-US,en;q=0.5",
        "Connection": "keep-alive"
    }

    with requests.session() as session:
        # 在POST请求中加入headers参数
        response = session.post(url, auth=(username, password), headers=headers)
        pprint(response.text)

if __name__ == '__main__':
    main()

登录后复制

通过在session.post()方法中添加headers=headers参数，我们有效地向服务器发送了更完整的请求信息，使其认为这是一个来自真实浏览器的合法请求，从而解决了406“Rejected”的问题。

头部信息详解与获取方法

了解每个HTTP头部的作用有助于我们更好地进行模拟：

User-Agent: 这是最重要的头部，它标识了请求的客户端。选择一个常见的浏览器User-Agent字符串（如Chrome、Firefox的最新版本）可以有效规避服务器的初步检测。
Accept-Encoding: 指示客户端支持的编码方式，如gzip和deflate。服务器会根据此头部压缩响应内容，以减少传输时间。
Accept: 告知服务器客户端能够处理的媒体类型，例如HTML、XML、JSON等。
Accept-Language: 指示客户端偏好的语言。
Connection: 通常设置为keep-alive，表示客户端希望保持TCP连接，以便在同一连接上发送后续请求，提高效率。

如何获取正确的HTTP头部？

最直接和有效的方法是使用浏览器的开发者工具：

打开目标网站。
在浏览器中按F12键（或右键点击页面选择“检查”），打开开发者工具。
切换到“网络”（Network）或“检查器”（Inspector）选项卡。
刷新页面或执行你希望模拟的操作（例如登录）。
在网络请求列表中，找到对应的登录请求（通常是一个POST请求），点击查看其详细信息。
在请求的详细信息中，找到“请求头”（Request Headers）部分。在这里，你可以看到浏览器发送的所有头部信息。根据需要，复制粘贴关键的头部信息到你的Python代码中。

注意事项与总结

头部并非一成不变：并非所有网站都需要完全相同的头部集合。有时，只需要User-Agent就足够了。但对于更严格的网站，可能需要模拟更多的头部信息。通过实验和观察浏览器请求头来确定哪些是必需的。
动态头部与参数：有些网站可能会使用动态生成的头部（如X-CSRF-Token）或表单参数（如__VIEWSTATE）。这些需要更复杂的处理，可能需要先进行一次GET请求来获取这些动态值，然后将其包含在后续的POST请求中。
Cookies管理：requests.session会自动处理cookies，这对于维持登录状态和会话管理至关重要。但如果遇到问题，仍需检查cookies是否正确传递和使用。
IP限制与请求频率：即使解决了头部问题，频繁的请求也可能导致IP被目标网站封禁。考虑使用代理IP池或设置合理的请求间隔，模拟人类行为。
遵守法律与道德：在进行网络爬虫时，务必遵守网站的robots.txt协议和使用条款，尊重网站的数据所有权和隐私政策。未经授权的大规模数据抓取可能触犯法律。