0

0

如何在 PHP DOM 中正确提取 CDATA 节点内容

花韻仙語

花韻仙語

发布时间:2025-12-31 18:23:04

|

302人浏览过

|

来源于php中文网

原创

如何在 PHP DOM 中正确提取 CDATA 节点内容

本文详解如何使用 php 的 domdocument 与 domxpath 高效解析含 cdata 的 xml(如 sitemap),避免手动遍历节点时因空白文本和 cdata 混杂导致的数据丢失,直接获取干净的字符串值。

在使用 DOMDocument 解析 XML 时,CDATA 节点(XML_CDATA_SECTION_NODE)常与周围空白文本节点(XML_TEXT_NODE)共存,导致传统递归转数组逻辑(如 xml_to_array())难以准确提取值——例如 实际包含 3 个子节点:前导换行/空格文本、CDATA 节点、尾随换行/空格文本。若未显式处理,nodeValue 可能为空或混入不可见字符。

虽然可通过设置 $document->preserveWhiteSpace = false 强制忽略空白节点,但这属于“暴力清理”,可能误删业务所需的有意义空格,且无法解决命名空间等复杂场景。更专业、健壮的方案是绕过通用数组转换,直接用 DOMXPath 精准定位并提取内容。

✅ 推荐做法:DOMXPath + 命名空间支持

$xml = <<<'XML'

  
    https://www.blablal.id/news/sitemap.xml
    
      
    
  

XML;

$document = new DOMDocument();
$document->loadXML($xml);

$xpath = new DOMXPath($document);
// 必须为默认命名空间注册前缀(否则 XPath 查询无效)
$xpath->registerNamespace('map', 'http://www.sitemaps.org/schemas/sitemap/0.9');

$sitemaps = [];
foreach ($xpath->evaluate('//map:sitemap') as $sitemap) {
    $sitemaps[] = [
        'loc'     => trim($xpath->evaluate('string(map:loc)', $sitemap)),
        'lastmod' => trim($xpath->evaluate('string(map:lastmod)', $sitemap))
    ];
}

var_dump($sitemaps);
✅ 输出结果:array(1) { [0] => array(2) { ["loc"] => string(39) "https://www.blablal.id/news/sitemap.xml" ["lastmod"] => string(25) "2022-02-02T12:21:02+07:00" } }

? 关键要点说明

  • string() 函数:XPath 中的 string() 会自动合并所有子文本节点(含 CDATA 内容)并返回纯字符串,天然兼容 CDATA;
  • 命名空间必须注册:XML 声明了默认命名空间 xmlns="...",XPath 查询必须通过 registerNamespace() 绑定前缀,否则 //sitemap 类查询将匹配失败;
  • trim() 不可省略:即使 string() 合并了内容,前后仍可能残留换行与空格(如示例中 CDATA 内部的空格),trim() 是安全兜底;
  • 性能与可维护性更优:相比深度递归解析,XPath 查询语义清晰、执行高效,且易于扩展(如添加 changefreq、priority 字段只需新增一行)。

⚠️ 注意事项

  • 若 XML 文件较大,建议启用 libxml_disable_entity_loader(true)(PHP 8.0+ 已默认禁用外部实体)防范 XXE 攻击;
  • DOMDocument::loadXML() 对格式错误较敏感,生产环境应配合 libxml_use_internal_errors(true) 捕获解析异常;
  • 不要依赖 childNodes 索引(如 $node->childNodes->item(0))提取值——节点顺序受空白、注释、CDATA 影响,极不稳定。

综上,面对含 CDATA 的 XML,放弃“通用转数组”思维,拥抱 XPath 精准查询,是 PHP 开发者最简洁、可靠、符合标准的实践路径。

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
php文件怎么打开
php文件怎么打开

打开php文件步骤:1、选择文本编辑器;2、在选择的文本编辑器中,创建一个新的文件,并将其保存为.php文件;3、在创建的PHP文件中,编写PHP代码;4、要在本地计算机上运行PHP文件,需要设置一个服务器环境;5、安装服务器环境后,需要将PHP文件放入服务器目录中;6、一旦将PHP文件放入服务器目录中,就可以通过浏览器来运行它。

1960

2023.09.01

php怎么取出数组的前几个元素
php怎么取出数组的前几个元素

取出php数组的前几个元素的方法有使用array_slice()函数、使用array_splice()函数、使用循环遍历、使用array_slice()函数和array_values()函数等。本专题为大家提供php数组相关的文章、下载、课程内容,供大家免费下载体验。

1290

2023.10.11

php反序列化失败怎么办
php反序列化失败怎么办

php反序列化失败的解决办法检查序列化数据。检查类定义、检查错误日志、更新PHP版本和应用安全措施等。本专题为大家提供php反序列化相关的文章、下载、课程内容,供大家免费下载体验。

1194

2023.10.11

php怎么连接mssql数据库
php怎么连接mssql数据库

连接方法:1、通过mssql_系列函数;2、通过sqlsrv_系列函数;3、通过odbc方式连接;4、通过PDO方式;5、通过COM方式连接。想了解php怎么连接mssql数据库的详细内容,可以访问下面的文章。

948

2023.10.23

php连接mssql数据库的方法
php连接mssql数据库的方法

php连接mssql数据库的方法有使用PHP的MSSQL扩展、使用PDO等。想了解更多php连接mssql数据库相关内容,可以阅读本专题下面的文章。

1400

2023.10.23

html怎么上传
html怎么上传

html通过使用HTML表单、JavaScript和PHP上传。更多关于html的问题详细请看本专题下面的文章。php中文网欢迎大家前来学习。

1229

2023.11.03

PHP出现乱码怎么解决
PHP出现乱码怎么解决

PHP出现乱码可以通过修改PHP文件头部的字符编码设置、检查PHP文件的编码格式、检查数据库连接设置和检查HTML页面的字符编码设置来解决。更多关于php乱码的问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1439

2023.11.09

php文件怎么在手机上打开
php文件怎么在手机上打开

php文件在手机上打开需要在手机上搭建一个能够运行php的服务器环境,并将php文件上传到服务器上。再在手机上的浏览器中输入服务器的IP地址或域名,加上php文件的路径,即可打开php文件并查看其内容。更多关于php相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1303

2023.11.13

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

3

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 8.1万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 6.9万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号