python - 使用requests库抓取页面的时候的编码问题-PHP中文网问答

讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

python - 使用requests库抓取页面的时候的编码问题

PHPz 2017-04-17 11:46:29

[Python讨论组]

505

我在开始加了以下的代码

# -*- coding: utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

但是用

print requests.Session().get(url, data=data).text

结果中输出了长这个样子的乱码
°æÈ¨ËùÓÐ 2013 ¶«ÄÏ´óÑ§ÍøÂçÓëÐÅÏ¢ÖÐÐÄ

然后试着查看了一下上面文本的格式

print type(requests.Session().get(url, data=data).text)

输出的结果就是unicode，后来我又看了页面的head头中写了页面编码是gb2312，我后面又把代码改成了

print requests.Session().get(url, data=data).text.encode('gb2312')

结果就出现了下面的异常
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 227-228: illegal multibyte sequence1

把代码改成

print requests.Session().get(url, data=data).text.encode('gb2312', 'ignore')

依然是乱码

真的是没辙了，希望各位大大指点一下

PHPz

学习是最好的投资！

全部回复(4)

大家讲道理2017-04-17 11:48:29 4楼

首先， sys.setdefaultencoding is evil。

其次，不会用 Requests 就去看文档，不要乱来。

如果 Requests 检测不到正确的编码，那么你告诉它正确的是什么：
```
response.encoding = 'gbk'
print response.text
```
原始内容在 response.content 里，bytes，自己想怎么处理就怎么处理。
单个请求完全没必要用 Session。直接 requests.get(xxx) 就可以了。

最后，弄不明白怎么处理编码错误的字符串就仔细想想，或者用 Python 3.x，不要散弹枪编程。

以下是 Python 3。Python 2 在那个字符串前加个 u 告诉它是 unicode 也一样。

>>> '°æÈ¨ËùÓÐ 2013 ¶«ÄÏ´óÑ§ÍøÂçÓëÐÅÏ¢ÖÐÐÄ'.encode('latin1').decode('gbk')
'版权所有 2013 东南大学网络与信息中心'

赞 +0

添加回复

巴扎黑2017-04-17 11:48:29 3楼

resp = requests.get(url)
print(resp.text.encode(resp.encoding).decode('utf-8'))

赞 +0

添加回复

巴扎黑2017-04-17 11:48:29 2楼

首先有一个问题，就是你用requests.Session().get(url,data=data)的方法获得的应该是bytes，你可以用type看一下，既然是bytes的话，那么这个bytes是你所看到的gb2312编码之后的bytes，所以这里你应该用的是decode解码，而不是encode编码。因为网页是gb2312编码的啊。所以试试decode，而不是encode。另外如果你想把得到的字符串存储到文件里面，那么还要注意文件的编码，因为windows默认是gbk编码，你在open的时候要指定文件编码。
另外你还可以参考这个问题。
http://segmentfault.com/q/1010000000340967

赞 +0

添加回复