requests库是Python爬虫常用工具,安装命令为pip install requests。通过requests.get()发送GET请求,可传入params参数添加URL参数;使用requests.post()发送POST请求,data传递表单数据,json参数发送JSON数据。可设置headers模拟浏览器访问,避免反爬。响应对象提供status_code、headers、text、content、json()等属性解析结果。结合BeautifulSoup或正则表达式提取数据,可构建完整爬虫流程,需遵守robots协议并控制请求频率。

Python爬虫中使用requests库可以轻松发送HTTP请求,获取网页内容。相比内置的urllib库,requests语法更简洁、易用,是编写网络爬虫的首选工具之一。下面介绍requests库的安装方法和基本用法。
requests库的安装
在使用requests之前,需要先通过pip安装:
pip install requests安装完成后,在Python脚本中导入即可使用:
import requests发送GET请求
最常见的操作是向目标网址发起GET请求,获取页面数据:
立即学习“Python免费学习笔记(深入)”;
response = requests.get("https://httpbin.org/get")print(response.text)
其中,response.text 返回响应的文本内容(字符串),适合查看HTML或JSON格式数据。
如果需要传递URL参数,可以使用params参数:
params = {'key1': 'value1', 'key2': 'value2'}response = requests.get("https://httpbin.org/get", params=params)
print(response.url) # 输出:https://httpbin.org/get?key1=value1&key2=value2
发送POST请求
模拟表单提交或登录操作时常用POST方法:
data = {'username': 'admin', 'password': '123456'}response = requests.post("https://httpbin.org/post", data=data)
print(response.json()) # 将响应结果解析为JSON
对于发送JSON数据,可使用json参数:
requests.post("https://httpbin.org/post", json={'name': 'Tom'})设置请求头与处理响应
为了伪装成浏览器访问,避免被反爬机制拦截,通常需要添加headers:
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}
response = requests.get("https://httpbin.org/get", headers=headers)
常用属性获取响应信息:
- response.status_code:返回状态码,如200、404
- response.headers:返回响应头信息
- response.content:以字节形式返回原始内容,适合保存图片等二进制文件
- response.json():将JSON响应转为Python字典
基本上就这些。掌握requests的基本用法后,就能高效抓取大多数静态网页内容。后续结合BeautifulSoup或正则表达式提取数据,即可构建完整爬虫流程。注意遵守网站robots协议,合理控制请求频率。










