讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 后端开发 > XML/RSS教程 > 正文

lxml处理xml时的字符编码问题

黄舟

发布： 2017-04-18 09:16:02

原创

2871人浏览过

为了简化问题，就把xml的内容简化为如下的形式:

<?xml version="1.0" encoding="gbk"?>
<DOCUMENT>
<da><![CDATA[中文，就是任性]]></da>
</DOCUMENT>

登录后复制

它的encoding为gbk，其中的节点有一个为中文字符使用lxml提取节点的值时出现了如下的异常

lxml.etree.XMLSyntaxError: Extra content at the end of the document

登录后复制

此时对应的Python脚本为：

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>'
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))

登录后复制

不过简化之前，报的是另外一个异常

GPT-MINUS1

GPT-MINUS1

通过在文本中随机地用同义词替换单词来愚弄GPT

GPT-MINUS1

153

GPT-MINUS1

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D

登录后复制

不论异常是哪一个，猜测还是和字符的编码形式有关。
经过各种尝试无果，后来在stackoverflow上看到这篇文章，文中提到的问题和xml中的encoding值有关，尝试了增加了一段代码

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>'
tst = tst.replace('encoding="gbk"', 'encoding="utf-8"')
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))

登录后复制

增加了一个替换的语句，将之前的encoding="gbk"替换成encoding:"utf-8" 于是终于得到了结果：

da, 中文，就是任性
DOCUMENT, None

登录后复制

以上就是lxml处理xml时的字符编码问题的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

Python怎么用lxml的RelaxNG验证XML Python-docx库怎么修改Word文档的XML底层结构 Python ElementTree怎么用 ElementTree模块解析XML方法 Python怎么处理XML中的换行和空白字符如何在Python中使用lxml库，它比内置的ElementTree快在哪里？

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：XSD与XML的检测示例代码下一篇：除Web程序员所关注的XML的详细基础介绍

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

HTML5 Placeholder属性的详情介绍

1970-01-01 08:00:00
html中关于<a>标签的全部属性的使用总结

1970-01-01 08:00:00
php如何快速实现数组去重的实例

2023-03-14 11:30:01
php中关于IMAP如何收取邮件的方法介绍

2023-03-14 18:58:01
PHPMailer如何利用QQ邮箱完成邮件发送功能的实例分析

2023-03-15 12:26:02
从零开始打造自己的PHP框架的视频资料

2023-03-15 16:54:01
php基础知识总结（新手入门必备）

2023-03-16 15:20:01
ReactJS中表单的单选多选与反选的实现方法

1970-01-01 08:00:00
JavaScript中typeof的使用方法介绍

1970-01-01 08:00:00
JavaScript中confirm()方法的使用介绍

1970-01-01 08:00:00

最新问题

网站地图sitemap.xml怎么生成提交给谷歌的方法网站地图（sitemap.xml）是向搜索引擎说明网站页面、更新频率和重要性的清单文件，需格式正确、内容准确、及时更新；可通过CMS插件、静态站点生成器、建站平台或在线工具自动生成，提交前须验证可访问性与合规性，并在GoogleSearchConsole中提交及持续维护。

2025-12-18 05:03:13

596

XML的简洁性与JSON相比如何，冗余的标签带来了哪些问题？ XML简洁性不如JSON，因其标签冗余导致数据体积大、解析复杂性能低、可读性受干扰、编写维护成本高；JSON以键值对形式更紧凑高效，成为WebAPI主流选择。

2025-12-18 03:25:12

112

Go语言如何处理XML流式解析 xml.Decoder Go语言用xml.Decoder流式解析XML，支持大文件和网络流；通过Token（StartElement/EndElement/CharData等）逐个读取；可设CharsetReader、Strict选项；支持DecodeElement结构体解码或手动提取字段；需及时错误处理并清理资源。

2025-12-18 03:13:13

847

Android的AndroidManifest.xml文件有什么用权限声明方法 AndroidManifest.xml是Android应用的必备配置文件，用于声明包名、版本、图标、组件、权限、硬件需求及安全兼容性设置；缺失或错误将导致应用无法安装或运行异常。

2025-12-18 02:05:12

529

Node.js的libxmljs库怎么用 libxml2绑定 libxmljs-mt是基于libxml2的Node.jsXML库，需系统预装libxml2开发包，通过N-API绑定实现高性能解析、XPath查询与修改；官方版已停更，推荐使用社区维护的libxmljs-mt分支。

2025-12-18 00:21:15

880

hibernate.cfg.xml文件怎么配置 Hibernate入门教程配置hibernate.cfg.xml是Hibernate入门最关键的一步，需严格遵循DTD规范，正确设置数据库连接四要素、方言、自动建表策略、SQL输出及映射声明。

2025-12-18 00:17:11

271

Scala怎么解析XML Scala-xml库使用方法 Scala原生支持XML字面量和解析，但自2.13起需手动引入scala-xml模块；通过XML.loadString/loadFile获取Node，用\、\\、@、text等操作提取数据并转为caseclass。

2025-12-17 15:18:44

128

C#如何处理超大的XML文件而不占用大量内存 XmlReader支持流式、低内存解析，通过Read()循环配合NodeType判断节点类型，逐元素处理并即时丢弃引用，结合异步I/O和局部变量管理，可高效处理超大XML文件。

2025-12-17 15:07:02

113

Mule ESB如何使用DataWeave转换XML MuleESB使用DataWeave转换XML的核心是通过TransformMessage组件编写脚本，解析输入XML为Map/List结构后映射为目标格式，需注意命名空间声明、属性语法（@key）、重复节点遍历（.*element）、default和if(field?)处理空值，以及writeAttributes和indent控制输出。

2025-12-17 14:55:24

211

Python minidom怎么格式化输出XML toprettyxml方法 minidom的toprettyxml()默认保留并美化原始空白节点，导致多余空行；应先调用再清理空白行，或改用ElementTree结合minidom处理。

2025-12-17 14:38:02

822

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

XML教程

49573次学习
收藏
XQuery 教程

32694次学习
收藏
XLink 教程

11327次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部