CDATA和PCDATA的核心区别在于XML解析器是否解析内容:前者用标记,完全跳过解析,保留原始文本;后者是元素内需解析的文本,必须转义特殊字符且可含子元素。

CDATA 和 PCDATA 的核心区别在于:XML 解析器是否对其中的内容进行解析。前者完全跳过解析,后者必须解析并处理特殊字符和嵌套结构。
PCDATA 是会被解析的文本内容
PCDATA(Parsed Character Data)指元素标签之间那些需要被 XML 解析器检查的内容。它可能只含纯文本,也可能混有子元素,比如:
-
中的Hello & World Hello & World就是 PCDATA,&必须写成实体&,否则报错; -
中整个内容也是 PCDATA,因为允许嵌套子元素;Li Ming - 在 DTD 中声明为
,表示该元素只能含可解析的文本或子元素,不能直接放原始代码或未转义符号。
CDATA 是不被解析的“原始文本块”
CDATA(Character Data)不是一种数据类型声明,而是一种语法标记:。它告诉解析器:“这段内容别管,原样保留”。常见于以下场景:
- 嵌入 JavaScript 或 CSS 代码,比如
,其中、>、&全部无需转义; - 存放大段含 XML 风格符号的日志、配置片段或示例 XML;
- 只能出现在元素内容中,不能用于属性值或 DTD 声明内部。
别混淆 CDATA 属性类型和 CDATA 节
DTD 中的 CDATA 是属性的数据类型(如 ),它和 没有关系:
- 属性里的
CDATA表示该属性值是字符串,但仍需对&、、"、'等做实体转义; - 而
是内容节,彻底绕过解析,连实体引用(如)也不会展开; - PCDATA 只出现在元素声明中,不能用于属性;属性只能用 CDATA、ID、IDREF 等类型。
简单判断方法
遇到一段内容,问自己两个问题:
- 它是否在一对标签之间,且可能含子元素或需要识别
&、这类符号?→ 用 PCDATA(默认行为,通常不用显式标注); - 它是否是一整块不想被解析的“黑盒文本”,比如代码、日志、HTML 片段?→ 包进
; - 它是否是某个属性的值,且只是普通字符串?→ 在 DTD 或 Schema 中声明为 CDATA 类型,但写入时仍要转义特殊字符。










