Python里urllib.request 网络请求模块urllib的核心功能详解

尼克
发布: 2025-06-09 16:51:03
原创
204人浏览过

python中urllib.request的核心用途是发送网络请求并获取响应,其作为标准库适用于轻量级或受限环境。1. 它可通过urlopen()发起get请求,并支持设置超时;2. 使用request对象可自定义请求头、发送post数据;3. 可结合http.cookiejar处理cookie以保持登录状态;4. 支持默认重定向处理,也可通过httpredirecthandler禁用;5. 必须捕获urlerror、httperror及socket.timeout等异常以确保稳定性。

在Python中,urllib.request 是 urllib 模块中最核心的组件之一,用于发送网络请求并获取响应。虽然它不像第三方库如 requests 那样简洁易用,但它是标准库的一部分,不需要额外安装,在一些轻量级或受限环境中非常实用。

如果你只是想快速发起一个GET请求,或者需要对HTTP细节有更精细的控制,urllib.request 就派上用场了。下面我们就来详细看看它的几个关键功能和使用方法。


发起基本的GET请求

最简单的使用方式是通过 urllib.request.urlopen() 方法来发起一个GET请求,获取网页内容:

import urllib.request

response = urllib.request.urlopen('https://example.com')
html = response.read()
登录后复制

这个过程相当于浏览器访问了一个网址,并获取到了返回的内容(通常是HTML)。你可以通过 .read() 获取字节流,也可以用 .decode('utf-8') 转成字符串处理。

立即学习Python免费学习笔记(深入)”;

需要注意:

  • 返回的是 http.client.HTTPResponse 对象
  • 默认超时时间较长,建议加上超时设置:
    response = urllib.request.urlopen('https://example.com', timeout=10)
    登录后复制

自定义请求头与POST请求

有时候我们需要模拟浏览器行为,比如添加User-Agent、Referer等头部信息,或者发送POST数据。这时就需要构造一个 Request 对象:

import urllib.request
import urllib.parse

data = urllib.parse.urlencode({'username': 'test', 'password': '123456'}).encode('utf-8')
headers = {
    'User-Agent': 'Mozilla/5.0',
    'Content-Type': 'application/x-www-form-urlencoded'
}
req = urllib.request.Request('https://example.com/login', data=data, headers=headers, method='POST')
response = urllib.request.urlopen(req)
登录后复制

几点说明:

  • data 必须是 bytes 类型,所以要用 encode()
  • headers 可以是 dict 或者用 .add_header() 添加
  • method 参数可选,默认根据是否有 data 决定是否为 POST

处理Cookie和重定向

默认情况下,urllib.request 会自动处理重定向(最多20次),但不会持久化保存 Cookie。如果需要保存 Cookie,可以结合 http.cookiejar 模块:

import urllib.request
import http.cookiejar

cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)

response = opener.open('https://example.com')
登录后复制

这样你就可以在后续请求中复用登录状态了。

关于重定向:

  • 如果你想禁用自动重定向,可以通过自定义 HTTPRedirectHandler 来实现
  • 默认允许最多20次重定向,超过会抛出异常

异常处理不可忽视

网络请求难免遇到各种问题,比如连接失败、超时、服务器错误等,所以必须做好异常捕获:

from urllib.error import URLError, HTTPError
import socket

try:
    response = urllib.request.urlopen('https://example.com', timeout=5)
except HTTPError as e:
    print(f'HTTP 错误: {e.code}')
except URLError as e:
    print(f'URL 错误: {e.reason}')
except socket.timeout:
    print('请求超时')
登录后复制

常见异常类型:

  • URLError:通用错误,比如无法解析域名
  • HTTPError:继承自 URLError,包含状态码和原因
  • socket.timeout:超时异常需要单独捕获

基本上就这些。urllib.request 功能虽不如 requests 强大,但在标准库中已经足够应对大多数基础场景。只要注意好请求头、数据格式、异常处理这几个关键点,就能写出稳定可用的网络请求代码。

以上就是Python里urllib.request 网络请求模块urllib的核心功能详解的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号