XML中文乱码的根本原因是声明编码与实际保存编码不一致,需确保XML声明、文件保存格式及程序读取时指定的编码三者严格统一,推荐使用UTF-8(无BOM)并同步修改声明为encoding="UTF-8"。

XML文件出现中文乱码,根本原因通常是声明的编码格式与实际保存的编码不一致。最常见的是文件用UTF-8保存,但XML声明写成了,或者反过来——声明是UTF-8,但文件实际是GBK编码。
检查并统一XML声明与文件实际编码
打开XML文件(推荐用记事本、VS Code、Notepad++等可显示编码的编辑器),查看第一行是否类似:
然后确认该文件**真实保存的编码格式**是否与之匹配:
- 在Notepad++中:右下角显示当前编码(如“UTF-8”或“GBK”),点击可切换;若显示“ANSI”,大概率是GBK/GB2312(Windows简体中文默认)
- 在VS Code中:右下角点击编码名称(如“UTF-8”),选择“Save with Encoding”来另存为指定编码
- 声明和保存编码必须严格一致,否则解析器读取时就会解码错误,导致中文变问号、方块或乱码字符
推荐统一使用UTF-8(无BOM)
UTF-8是国际通用标准,兼容性最好,尤其适合含多种语言的XML。注意两点:
- 保存时选“UTF-8”而非“UTF-8 with BOM”。带BOM的UTF-8可能被某些老系统或解析器误判,引发开头出现
等异常字符 - XML声明必须同步改为:
- 如果原文件是GBK且不便重存,也可保留GBK,但需确保声明为
encoding="GBK"(部分解析器也认"GB2312",但GBK更稳妥)
程序解析时也要指定正确编码
即使XML文件本身编码正确,代码里读取时没指定编码,仍会乱码。例如:
本文档主要讲述的是Android的资源与国际化设置;资源是外部文件(不含代码的文件),它被代码使用并在编译时编入应用程序。Android支持不同类型的资源文件,包括XML,PNG以及JPEG文件XML文件根据描述的不同有不同格式。这份文档描述可以支持什么样的文件,语法,以及各种格式。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看
- Java中用
FileInputStream读取时,应包装成InputStreamReader并传入"UTF-8"参数 - Python用
xml.etree.ElementTree.parse()时,建议先用open(file, encoding='utf-8')打开再解析 -
浏览器直接打开XML文件,依赖文件声明+HTTP头;若通过AJAX加载,需确保响应头
Content-Type包含; charset=utf-8
验证是否修复成功
改完后不要只看编辑器显示——有些编辑器会自动猜测编码并“美化”显示,造成假象。可靠方法:
- 用命令行工具检查原始字节:Linux/macOS运行
file -i your.xml,Windows可用PowerShell的Get-Content -Encoding Byte看前几个字节 - 用不同解析器测试:比如用Java、Python、浏览器分别加载,确认中文都正常显示
- 特别留意特殊符号、全角标点、生僻汉字——它们比常用字更容易暴露编码问题
基本上就这些。核心就一条:声明、保存、读取,三者编码必须完全一致。UTF-8(无BOM)是最省心的选择。









