
在使用python的requests库进行http请求时,`requests.get`默认会自动跟随重定向,导致无法直接获取到301、302等原始重定向状态码。本教程将详细解释这一默认行为,并提供通过设置`allow_redirects=false`参数来禁用自动重定向,从而准确捕获并处理原始重定向响应的方法,帮助开发者更好地理解和控制http请求流程。
Python的requests库是一个功能强大且用户友好的HTTP客户端库。为了提供更便捷的使用体验,requests库在执行GET、OPTIONS、HEAD、POST、PUT、PATCH或DELETE请求时,默认会模拟浏览器的行为,自动处理HTTP重定向。这意味着,当一个请求的目标URL返回301(永久移动)、302(临时移动/找到)等3xx系列状态码时,requests库会自动发起一个新的请求到服务器指定的Location头部字段所指向的URL,直到达到最终的非重定向目标地址,或者重定向次数达到上限(默认为30次)。
这种默认行为虽然在大多数情况下简化了开发,但在某些特定场景下却可能带来困惑。例如,当开发者希望明确知道一个URL是否发生了重定向,或者需要获取原始的重定向状态码(如进行SEO链接检查、调试重定向链条等)时,requests.get()返回的response.status_code往往是最终目标URL的状态码(通常是200 OK),而非初始的3xx重定向状态码。这使得开发者无法直接从响应中识别出原始的重定向事件。
为了捕获原始的重定向状态码,我们需要明确指示requests库不要自动跟随重定向。这可以通过在requests.get()(或其他HTTP方法,如post()、head()等)调用中设置allow_redirects=False参数来实现。
当allow_redirects设置为False时,requests库在收到任何3xx重定向响应时,将立即停止并返回该重定向响应。此时,response.status_code将准确地反映服务器返回的301、302等原始重定向状态码。
立即学习“Python免费学习笔记(深入)”;
下面是一个演示如何使用allow_redirects=False来获取原始重定向状态码的Python代码示例。我们将创建一个函数来检查URL状态,并对比启用和禁用自动重定向时的行为。
import requests
import csv
def check_url_status(url, allow_redirects_flag=True):
    """
    检查URL状态,并根据allow_redirects_flag参数控制是否跟随重定向。
    :param url: 待检查的URL。
    :param allow_redirects_flag: 是否允许requests库自动跟随重定向,默认为True。
                                 设置为False将捕获原始重定向状态码。
    :return: 描述URL状态的字符串。
    """
    try:
        # 关键在于设置 allow_redirects 参数
        response = requests.get(url, timeout=5, allow_redirects=allow_redirects_flag)
        status_code = response.status_code
        if 200 <= status_code < 300:
            return f"Alive ({status_code})"
        elif 300 <= status_code < 400:
            # 当allow_redirects_flag=False时,这里会捕获到3xx状态码
            # 如果allow_redirects_flag=True,则通常不会进入此分支,除非重定向链条最终返回3xx
            return f"Redirected ({status_code})"
        elif 400 <= status_code < 500:
            return f"Client Error ({status_code})"
        elif 500 <= status_code < 600:
            return f"Server Error ({status_code})"
        else:
            return f"Unknown Status ({status_code})"
    except requests.exceptions.Timeout:
        return "Error: Timeout"
    except requests.exceptions.ConnectionError:
        return "Error: Connection Failed"
    except requests.exceptions.RequestException as e:
        return f"Error: {e}"
# 模拟一个包含重定向URL的CSV文件
# urls.csv 内容示例:
# http://example.com
# http://httpbin.org/redirect-to?url=http://example.com
# http://httpbin.org/status/404
# http://www.google.com
# http://httpbin.org/absolute-redirect/1
# http://nonexistent-domain-12345.com
# 假设从CSV读取URL列表
# 为了演示,我们直接定义一个列表
urls_to_check = [
    "http://example.com",
    "http://httpbin.org/redirect-to?url=http://example.com", # 这是一个会返回302的测试URL
    "http://httpbin.org/status/404",
    "http://www.google.com",
    "http://httpbin.org/absolute-redirect/1", # 会返回302
    "http://nonexistent-domain-12345.com"
]
print("--- 场景一:允许自动重定向 (默认行为) ---")
print("此时,重定向URL将显示最终状态码 (通常是200)。")
results_default = []
for url in urls_to_check:
    status = check_url_status(url, allow_redirects_flag=True)
    results_default.append((url, status))
    print(f"URL: {url}, Status: {status}")
print("\n--- 场景二:禁用自动重定向 (allow_redirects=False) ---")
print("此时,重定向URL将显示原始的3xx状态码。")
results_no_redirect = []
for url in urls_to_check:
    status = check_url_status(url, allow_redirects_flag=False)
    results_no_redirect.append((url, status))
    print(f"URL: {url}, Status: {status}")
# 将结果写入CSV文件的逻辑可以根据需要添加
# 例如:
# with open("url_status_default.csv", "w", newline="") as outfile:
#     writer = csv.writer(outfile)
#     writer.writerow(["URL", "Status"])
#     writer.writerows(results_default)
# print("\nURL状态 (默认重定向) 已写入 url_status_default.csv")
# with open("url_status_no_redirect.csv", "w", newline="") as outfile:
#     writer = csv.writer(outfile)
#     writer.writerow(["URL", "Status"])
#     writer.writerows(results_no_redirect)
# print("URL状态 (禁用重定向) 已写入 url_status_no_redirect.csv")在上述代码中,check_url_status函数通过allow_redirects_flag参数控制是否跟随重定向。当allow_redirects_flag为False时,对于重定向的URL,我们将能捕获到302等原始状态码,而不是重定向后的最终200状态码。
import requests
response = requests.get("http://httpbin.org/redirect/3", allow_redirects=True)
print(f"最终URL: {response.url}, 最终状态码: {response.status_code}")
print("重定向历史:")
for resp_history in response.history:
    print(f"  - {resp_history.url} ({resp_history.status_code}) -> {resp_history.headers.get('Location', 'N/A')}")requests库的allow_redirects参数是一个非常重要的功能,它赋予了开发者对HTTP重定向行为的精确控制。理解并正确使用allow_redirects=False对于需要获取原始重定向状态码的场景至关重要,例如SEO链接检查、API集成中对特定重定向码的处理,或者在调试网络请求流程时。通过禁用自动重定向,我们可以捕获到服务器返回的真实3xx状态码,从而更准确地分析和处理HTTP请求的响应。同时,利用response.history属性也能帮助我们追踪完整的重定向路径,为更复杂的应用场景提供数据支持。
以上就是Python requests库获取原始HTTP重定向状态码的教程的详细内容,更多请关注php中文网其它相关文章!
 
                        
                        每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
 
                Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号