微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 后端开发 > Python教程 > 正文

Python BeautifulSoup中文乱码问题的2种解决方法

php中文网

发布： 2016-06-16 08:44:24

原创

1603人浏览过

解决方法一：

使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家
首先是代码

复制代码代码如下:

from bs4 import BeautifulSoup
import urllib2

url = 'http://www.jb51.net/'
page = urllib2.urlopen(url)

soup = BeautifulSoup(page,from_encoding="utf8")
print soup.original_encoding
print (soup.title).encode('gb18030')

file = open("title.txt","w")
file.write(str(soup.title))
file.close()

for link in soup.find_all('a'):
print link['href']
在刚开始测试的时候发现,虽然输出是乱码的,但是写在文件里面却是正常的.然后在网上找了找解决办法才发现
print一个对象的逻辑：内部是调用对象的__str__得到对应的字符串的，此处对应的是soup的__str__ 而针对于soup本身，其实已经是Unicode编码，所以可以通过指定__str__输出时的编码为GBK，以使得此处正确显示非乱码的中文
而对于cmd：（中文的系统中）编码为GBK,所以只要重新编码为gb18030就可以正常输出了
就是下面这行代码

复制代码代码如下:

print (soup.title).encode('gb18030')

解决方法二：

BeautifulSoup在解析utf-8编码的网页时，如果不指定fromEncoding或者将fromEncoding指定为utf-8会出现中文乱码的现象。

小文AI论文

小文AI论文

轻松解决论文写作难题，AI论文助您一键完成，仅需一杯咖啡时间，即可轻松问鼎学术高峰！

小文AI论文

69

小文AI论文

解决此问题的方法是将Beautifulsoup构造函数中的fromEncoding参数的值指定为：gb18030

复制代码代码如下:

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.jb51.net/');
soup = BeautifulSoup(page,fromEncoding="gb18030")
print soup.originalEncoding
print soup.prettify()

相关标签：

python

大家都在看：

python Counter的使用 python os怎样处理系统文件 python and用法 Python字符串怎么处理_Python字符串处理方法与实用技巧 python time模块处理系统时间的函数

python速学教程(入门到精通)

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

来源：php中文网

上一篇：python实现的二叉树算法和kmp算法实例下一篇：python中的__init__ 、__new__、__call__小结

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

最新问题

python ElementTree解析的方法 ElementTree是Python内置的高效XML处理模块，支持解析文件和字符串、遍历查找修改及构建XML。1.用ET.parse()读取XML文件并获取根节点；2.ET.fromstring()解析XML字符串；3.可遍历Element子节点获取标签和属性；4.使用find/findall/iter按标签或路径查找元素；5.通过.text和.get()提取文本与属性；6.处理命名空间时需定义前缀映射。掌握这些核心方法即可应对多数XML操作需求。

2025-11-14 22:30:40

861

Python3怎么调试代码_Python3代码调试方法与常用工具介绍答案：Python3调试常用方法包括print语句、pdb模块、IDE调试功能、logging模块及第三方工具。首先使用print输出变量或流程标记进行基础调试，适用于简单脚本；接着可用内置pdb模块插入set_trace()实现单步执行与变量检查，Python3.7+推荐使用breakpoint()；结合PyCharm或VSCode等IDE设置断点并监控变量与调用栈，提升调试效率；长期项目建议采用logging模块分级记录日志，便于环境区分与文件输出；最后可通过ipdb或web-pdb等第三方

2025-11-14 22:16:02

831

python中for循环如何对重复数字只求一次和_python中for循环去除重复数字后求和的技巧先用set去重再求和最高效。示例：numbers=[1,2,2,3,4,4,5]，unique_sum=sum(set(numbers))输出15；若用for循环手动去重，可维护seen集合避免重复累加；需保持顺序时可用dict.fromkeys()去重后求和，推荐sum(set(data))简洁高效。

2025-11-14 21:59:39

921

Python多线程如何实现事件驱动 Python多线程事件监听机制解析 Python多线程结合事件驱动适用于I/O密集型任务，通过threading.Event实现线程间通知，queue.Queue支持多生产者消费者模式，Condition可控制复杂同步逻辑，合理使用同步原语能构建高效事件处理系统。

2025-11-14 21:55:02

407

Python常用的画布方法使用plt.figure()创建画布，可设置大小、分辨率和背景色；2.通过add_subplot或plt.subplot添加子图实现多图布局；3.plt.gcf()获取当前画布，plt.clf()清空画布用于重用；4.plt.savefig()保存图像，plt.show()显示结果，且保存应在显示前调用。

2025-11-14 21:53:41

168

Python网页版怎样做表单验证_Python网页版前端与后端表单验证实现方法表单验证需前后端协同，前端用HTML5和JavaScript实现即时反馈，后端用Flask或WTForms进行安全校验，确保数据合法与系统安全。

2025-11-14 21:51:05

294

Python网页版如何连接数据库_Python网页版数据库连接与操作方法首先选择合适的PythonWeb框架（如Flask或Django）并安装对应数据库驱动，接着通过配置数据库URI建立连接，使用ORM或原生SQL进行数据操作，最后注意敏感信息保护、连接池优化及定期备份以确保应用稳定安全。

2025-11-14 21:49:02

335

Python网页版怎样做API版本管理_Python网页版API版本控制与兼容性管理教程使用URL路径嵌入版本号如/api/v1/users，清晰易懂便于维护；2.通过请求头Accept指定版本，保持URL简洁更RESTful；3.遵循新增字段不破坏旧逻辑、不随意删除字段、废弃标记及提供迁移文档的兼容性原则；4.利用Flask蓝图分离版本逻辑，实现模块化管理。URL路径法简单直观，请求头方式专业灵活，核心是保持向后兼容，避免断崖式升级。

2025-11-14 21:46:02

435

python迭代器如何转换为生成器答案：可通过生成器函数或表达式将迭代器封装为生成器。定义含yield的函数遍历迭代器，或用(xforxiniterator)语法实现转换，使迭代器具备生成器的惰性求值与内存优势。

2025-11-14 21:42:05

834

pythonfor循环怎么对矩阵元素求和_pythonfor循环对矩阵中所有元素进行求和的方法首先通过外层循环遍历矩阵的每一行，再用内层循环遍历每行中的元素，逐个累加到总和变量total中，最终输出矩阵所有元素的和为45。

2025-11-14 21:28:03

605

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Python 3 教程

267457次学习
收藏
Python 教程

55641次学习
收藏
中谷教育Python视频教程

78827次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部