Cheerio 无法正确解析嵌套 div 元素？原因与解决方案

霞舞

发布时间：2025-12-29 16:14:02

784人浏览过

来源于php中文网

原创

Cheerio 无法正确解析嵌套 div 元素？原因与解决方案

cheerio 默认以 html 模式解析文档，对自定义命名空间标签（如 `idx:orth`）和深层嵌套的 `div` 结构可能误判为无效或忽略闭合，导致 `.text()` 返回不完整内容；启用 `xml: true` 可强制严格解析，确保所有子元素（包括命名空间标签和嵌套 div）被完整保留。

在使用 Cheerio 处理含命名空间（如 idx:entry、idx:orth）或复杂嵌套结构的 HTML 片段时，你可能会遇到“部分元素丢失”的现象——例如 $('body idx\\:entry').eq(0).text() 仅返回前两个子节点（idx:orth 和第一个 div）的文本，而跳过了第三个 div 中的关键内容（如释义、例句或交叉引用）。这并非 Cheerio 的 bug，而是其默认解析模式与文档实际结构不匹配所致。

Cheerio 提供两种核心解析模式：

HTML 模式（默认）：宽容、自动修复错误标签、忽略未知命名空间、扁平化或省略“不标准”嵌套（如 div 内再嵌 div 在某些旧规范中被视为可疑），适用于常规网页抓取；
XML 模式（xml: true）：严格、保留所有标签名（含冒号命名空间）、维持原始嵌套层级、不自动修正或丢弃节点，适用于 EPUB、Kindle 格式（含 idx:/mbp: 命名空间）、SVG 或自定义 XML 文档。

在你的 tmp.html 示例中，idx:entry 下的第三个 div 包含多层嵌套（div > div > div > span > i + div > div > a），HTML 模式可能因标签未闭合感知偏差或命名空间忽略，导致该分支未被正确挂载到 DOM 树中；而 tmp2.html 因结构相对线性（无深层或混合层级），恰好未触发该限制，故表现正常。

✅ 正确做法是显式启用 XML 模式：

笔灵AI论文写作

免费生成毕业论文、课题论文、千字大纲，几万字专业初稿！

下载

const fs = require('fs');
const cheerio = require('cheerio');

const data = fs.readFileSync('tmp.html', 'utf8');
// 关键：传入 { xml: true } 选项
const $ = cheerio.load(data, {
  xml: true, // 启用严格 XML 解析
  // 注意：XML 模式下不支持 html5 语法糖（如自闭合 
 需写为 
），但本例无需改动
});

// 现在可完整获取所有子节点文本
const entryText = $('body idx\\:entry').eq(0).text().trim();
console.log(entryText);
// 输出预期结果：
// abaniquear
// abaniquear
// vt
// (Andes)
// see also: abanicar

⚠️ 注意事项：

xml: true 会禁用 HTML 特有特性（如 script/style 标签内容自动解码、的 src 属性自动补全等），但对纯结构提取场景无影响；
若文档混有 HTML5 特性（如 ain>、
）且需兼容性，可改用 { xml: false, recognizeSelfClosing: true, decodeEntities: false } 组合调试，但命名空间支持仍受限；
对于 Kindle/EPUB 索引文件（.html 含 idx: 标签），始终推荐 xml: true ——这是官方文档明确建议的用法；
若需同时处理 HTML 和 XML 内容，建议按数据源类型分别配置 cheerio.load() 实例。

总结：当 Cheerio 表现异常（元素丢失、文本截断、命名空间不可选），优先检查解析选项——xml: true 往往是解决“神秘缺失”的最简、最可靠方案。

如何正确使用 Selenium 定位多个 HTML 元素并提取文本内容

如何在 HTML 表格页脚中实现三行分列的自定义汇总区域

HTML如何获取GET参数_JavaScript解析方法【教程】

如何仅用纯 CSS 实现 HTML 多语言切换（无需 JavaScript）

html5怎么加入apache_HT5将源码放Apache根目录配置服务器访问【加入】

相关标签:

html html5 svg ai html5 html 命名空间 xml dom bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Angular 中使用条件类绑定实现多状态 UI 样式控制下一篇：如何在 ASP.NET Core 中为每个循环项动态绑定唯一删除对话框

作者最新文章

如何在 Go 语言 HTTP 服务器中实现上传与下载速率限制

2025-12-27 13:16

HTML 表单验证与提交事件冲突的完整解决方案

2025-12-27 13:18

如何高效爬取《史密斯圣经词典》中希伯来人名释义

2025-12-27 13:30

如何用 JavaScript 实现空格键的多阶段状态切换（等待→启动→暂停循环）

2025-12-27 13:32

Pandas 中如何用列名列表批量传递多列数据给 apply 函数

2025-12-27 13:35

PHP中PDO连接失败导致prepare()调用错误的完整解决方案

2025-12-27 13:38

Fernet密钥格式错误：必须为32字节的URL安全Base64编码字符串

2025-12-27 13:38

如何在 React 中使用嵌套 .map() 渲染对象内的数组数据

2025-12-27 13:41

如何用 CSS 实现全屏容器中图片自适应缩放并保持宽高比

2025-12-27 13:53

如何正确配置本地 Python 项目以支持可编辑安装及自动发现子包

2025-12-27 13:54

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

html5动画制作有哪些制作方法

html5动画制作方法有使用CSS3动画、使用JavaScript动画库、使用HTML5 Canvas等。想了解更多html5动画制作方法相关内容，可以阅读本专题下面的文章。

498

2023.10.23

HTML与HTML5的区别

HTML与HTML5的区别：1、html5支持矢量图形，html本身不支持；2、html5中可临时存储数据，html不行；3、html5新增了许多控件；4、html本身不支持音频和视频，html5支持；5、html无法处理不准确的语法，html5能够处理等等。想了解更多HTML与HTML5的相关内容，可以阅读本专题下面的文章。

416

2024.03.06