Python requests库获取原始HTTP重定向状态码的教程

霞舞
发布: 2025-10-30 12:16:01
原创
992人浏览过

Python requests库获取原始HTTP重定向状态码的教程

在使用python的requests库进行http请求时,`requests.get`默认会自动跟随重定向,导致无法直接获取到301、302等原始重定向状态码。本教程将详细解释这一默认行为,并提供通过设置`allow_redirects=false`参数来禁用自动重定向,从而准确捕获并处理原始重定向响应的方法,帮助开发者更好地理解和控制http请求流程。

理解 requests 库的重定向行为

Python的requests库是一个功能强大且用户友好的HTTP客户端库。为了提供更便捷的使用体验,requests库在执行GET、OPTIONS、HEAD、POST、PUT、PATCH或DELETE请求时,默认会模拟浏览器的行为,自动处理HTTP重定向。这意味着,当一个请求的目标URL返回301(永久移动)、302(临时移动/找到)等3xx系列状态码时,requests库会自动发起一个新的请求到服务器指定的Location头部字段所指向的URL,直到达到最终的非重定向目标地址,或者重定向次数达到上限(默认为30次)。

这种默认行为虽然在大多数情况下简化了开发,但在某些特定场景下却可能带来困惑。例如,当开发者希望明确知道一个URL是否发生了重定向,或者需要获取原始的重定向状态码(如进行SEO链接检查、调试重定向链条等)时,requests.get()返回的response.status_code往往是最终目标URL的状态码(通常是200 OK),而非初始的3xx重定向状态码。这使得开发者无法直接从响应中识别出原始的重定向事件。

解决方案:禁用自动重定向

为了捕获原始的重定向状态码,我们需要明确指示requests库不要自动跟随重定向。这可以通过在requests.get()(或其他HTTP方法,如post()、head()等)调用中设置allow_redirects=False参数来实现。

当allow_redirects设置为False时,requests库在收到任何3xx重定向响应时,将立即停止并返回该重定向响应。此时,response.status_code将准确地反映服务器返回的301、302等原始重定向状态码。

立即学习Python免费学习笔记(深入)”;

降重鸟
降重鸟

要想效果好,就用降重鸟。AI改写智能降低AIGC率和重复率。

降重鸟113
查看详情 降重鸟

示例代码

下面是一个演示如何使用allow_redirects=False来获取原始重定向状态码的Python代码示例。我们将创建一个函数来检查URL状态,并对比启用和禁用自动重定向时的行为。

import requests
import csv

def check_url_status(url, allow_redirects_flag=True):
    """
    检查URL状态,并根据allow_redirects_flag参数控制是否跟随重定向。
    :param url: 待检查的URL。
    :param allow_redirects_flag: 是否允许requests库自动跟随重定向,默认为True。
                                 设置为False将捕获原始重定向状态码。
    :return: 描述URL状态的字符串。
    """
    try:
        # 关键在于设置 allow_redirects 参数
        response = requests.get(url, timeout=5, allow_redirects=allow_redirects_flag)
        status_code = response.status_code

        if 200 <= status_code < 300:
            return f"Alive ({status_code})"
        elif 300 <= status_code < 400:
            # 当allow_redirects_flag=False时,这里会捕获到3xx状态码
            # 如果allow_redirects_flag=True,则通常不会进入此分支,除非重定向链条最终返回3xx
            return f"Redirected ({status_code})"
        elif 400 <= status_code < 500:
            return f"Client Error ({status_code})"
        elif 500 <= status_code < 600:
            return f"Server Error ({status_code})"
        else:
            return f"Unknown Status ({status_code})"
    except requests.exceptions.Timeout:
        return "Error: Timeout"
    except requests.exceptions.ConnectionError:
        return "Error: Connection Failed"
    except requests.exceptions.RequestException as e:
        return f"Error: {e}"

# 模拟一个包含重定向URL的CSV文件
# urls.csv 内容示例:
# http://example.com
# http://httpbin.org/redirect-to?url=http://example.com
# http://httpbin.org/status/404
# http://www.google.com
# http://httpbin.org/absolute-redirect/1
# http://nonexistent-domain-12345.com

# 假设从CSV读取URL列表
# 为了演示,我们直接定义一个列表
urls_to_check = [
    "http://example.com",
    "http://httpbin.org/redirect-to?url=http://example.com", # 这是一个会返回302的测试URL
    "http://httpbin.org/status/404",
    "http://www.google.com",
    "http://httpbin.org/absolute-redirect/1", # 会返回302
    "http://nonexistent-domain-12345.com"
]

print("--- 场景一:允许自动重定向 (默认行为) ---")
print("此时,重定向URL将显示最终状态码 (通常是200)。")
results_default = []
for url in urls_to_check:
    status = check_url_status(url, allow_redirects_flag=True)
    results_default.append((url, status))
    print(f"URL: {url}, Status: {status}")

print("\n--- 场景二:禁用自动重定向 (allow_redirects=False) ---")
print("此时,重定向URL将显示原始的3xx状态码。")
results_no_redirect = []
for url in urls_to_check:
    status = check_url_status(url, allow_redirects_flag=False)
    results_no_redirect.append((url, status))
    print(f"URL: {url}, Status: {status}")

# 将结果写入CSV文件的逻辑可以根据需要添加
# 例如:
# with open("url_status_default.csv", "w", newline="") as outfile:
#     writer = csv.writer(outfile)
#     writer.writerow(["URL", "Status"])
#     writer.writerows(results_default)
# print("\nURL状态 (默认重定向) 已写入 url_status_default.csv")

# with open("url_status_no_redirect.csv", "w", newline="") as outfile:
#     writer = csv.writer(outfile)
#     writer.writerow(["URL", "Status"])
#     writer.writerows(results_no_redirect)
# print("URL状态 (禁用重定向) 已写入 url_status_no_redirect.csv")
登录后复制

在上述代码中,check_url_status函数通过allow_redirects_flag参数控制是否跟随重定向。当allow_redirects_flag为False时,对于重定向的URL,我们将能捕获到302等原始状态码,而不是重定向后的最终200状态码。

注意事项

  1. 重定向目标获取:当allow_redirects=False时,如果你需要知道重定向的目标URL,可以检查响应头中的Location字段,例如response.headers.get('Location')。
  2. 重定向历史:即使allow_redirects=True,requests库也提供了response.history属性,它是一个包含所有中间重定向响应的列表。通过遍历这个列表,你可以获取重定向链条中每个步骤的URL和状态码,这对于分析复杂的重定向路径非常有用。
    import requests
    response = requests.get("http://httpbin.org/redirect/3", allow_redirects=True)
    print(f"最终URL: {response.url}, 最终状态码: {response.status_code}")
    print("重定向历史:")
    for resp_history in response.history:
        print(f"  - {resp_history.url} ({resp_history.status_code}) -> {resp_history.headers.get('Location', 'N/A')}")
    登录后复制
  3. 超时处理:在进行网络请求时,设置timeout参数是良好的实践,可以避免程序长时间等待无响应的服务器。
  4. 异常处理:始终使用try-except块来捕获requests可能抛出的各种异常,如requests.exceptions.Timeout、requests.exceptions.ConnectionError、requests.exceptions.RequestException等,以增强程序的健壮性。

总结

requests库的allow_redirects参数是一个非常重要的功能,它赋予了开发者对HTTP重定向行为的精确控制。理解并正确使用allow_redirects=False对于需要获取原始重定向状态码的场景至关重要,例如SEO链接检查、API集成中对特定重定向码的处理,或者在调试网络请求流程时。通过禁用自动重定向,我们可以捕获到服务器返回的真实3xx状态码,从而更准确地分析和处理HTTP请求的响应。同时,利用response.history属性也能帮助我们追踪完整的重定向路径,为更复杂的应用场景提供数据支持。

以上就是Python requests库获取原始HTTP重定向状态码的教程的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号