使用 JSDOM 抓取网页时 NodeList 长度为 0 的问题及解决方案

花韻仙語

发布时间：2025-11-16 09:20:22

422人浏览过

来源于php中文网

原创

使用 jsdom 抓取网页时 nodelist 长度为 0 的问题及解决方案

在使用 JSDOM 和 Axios 进行网页抓取时，有时会遇到使用 querySelectorAll 查询

元素时返回的 NodeList 长度为 0 的问题，即使页面上明明存在这些元素。这通常是由于目标网站的特殊机制，例如首次请求时服务器不返回完整的内容，或者依赖于 cookies 或缓存等。本教程将深入探讨这个问题，并提供一种使用 Puppeteer 解决该问题的方案，确保能够正确抓取到目标元素。

问题分析

当使用 JSDOM 和 Axios 抓取网页时，你可能会遇到以下情况：

通过 querySelector 成功获取到
ulist.childElementCount 返回 1，表示
使用 querySelectorAll('li') 查询
元素时，返回的 NodeList 长度为 0。

这种现象表明，目标网站可能存在一些特殊的机制，导致 JSDOM 在首次请求时无法获取到完整的 DOM 结构。可能的原因包括：

服务器端动态渲染： 网站可能使用 JavaScript 在客户端动态生成
元素，而 JSDOM 在首次请求时可能无法执行这些 JavaScript 代码。
Cookies 或缓存依赖： 网站可能依赖于 cookies 或缓存来确定是否返回完整的 HTML 内容。首次请求时，由于缺少 cookies 或缓存，服务器可能只返回部分 HTML。
反爬虫机制： 网站可能存在一些简单的反爬虫机制，例如根据 User-Agent 判断请求是否来自爬虫，并返回不同的内容。

解决方案：使用 Puppeteer

Puppeteer 是一个 Node.js 库，它提供了一个高级 API 来控制 Chrome 或 Chromium。与 JSDOM 不同，Puppeteer 可以执行 JavaScript 代码，并模拟用户的完整浏览行为，包括处理 cookies、缓存和执行 JavaScript 渲染。

Lessie AI

一款定位为「People Search AI Agent」的AI搜索智能体

下载

以下是使用 Puppeteer 解决该问题的示例代码：

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({ headless: true }); // 启动无头浏览器
  const page = await browser.newPage(); // 创建新的页面

  // 访问首页，解决可能的缓存或 Cookie 问题
  await page.goto('http://example.com'); 

  // 访问目标页面
  await page.goto('https://example.com/targetpage');

  // 等待 #download-options li 元素加载完成，确保页面渲染完成
  await page.waitForSelector('#download-options li');

  // 获取 ul 元素
  const ul = await page.$("#download-options ul");

  // 获取所有的 li 元素
  const lis = await ul.$$("li");

  // 循环遍历 li 元素，获取 href 属性值
  for await (const li of lis) {
    const a = await li.$('a');
    const hrefValue = await a.evaluate((el) => el.getAttribute('href'));
    console.log(hrefValue);
  }

  // 关闭浏览器
  await browser.close();
})();

代码解释：

puppeteer.launch({ headless: true }): 启动一个无头浏览器，headless: true 表示在后台运行，不显示浏览器界面。
page.goto('http://example.com'): 首先访问网站的首页。这步很重要，因为有些网站的行为会依赖于是否已经访问过首页，例如设置 cookies 或者初始化某些状态。
page.goto('https://example.com/targetpage'): 访问目标页面。
page.waitForSelector('#download-options li'): 等待 #download-options li 元素加载完成。这可以确保页面上的 JavaScript 代码已经执行完毕，并且
元素已经渲染到 DOM 中。
page.$("#download-options ul"): 使用 CSS 选择器获取
ul.$$("li"): 在
- 元素。 $$ 相当于 querySelectorAll。
- a.evaluate((el) => el.getAttribute('href')): 使用 evaluate 方法在浏览器环境中执行 JavaScript 代码，获取元素的 href 属性值。

注意事项：

确保已安装 Puppeteer： npm install puppeteer
headless: true 可以在后台运行浏览器，如果需要查看浏览器界面，可以将其设置为 false。
page.waitForSelector 用于等待元素加载完成，可以根据实际情况调整选择器和等待时间。
Puppeteer 消耗资源较多，建议在使用完毕后关闭浏览器。

总结

当使用 JSDOM 无法正确抓取网页内容时，可以考虑使用 Puppeteer。Puppeteer 可以模拟用户的完整浏览行为，执行 JavaScript 代码，并处理 cookies 和缓存，从而解决 JSDOM 无法获取完整 DOM 结构的问题。通过访问首页并等待元素加载完成，可以确保 Puppeteer 能够正确抓取到目标元素。

HTML列表怎样用HTML5语义化优化_用ulolli规范层级关系【列表】

如何在页面跳转前完成 CSS 动画（阻止 href 默认跳转行为）

HTML5怎样插入背景图_HTML5插入背景图方式【CSS】

SonyVaio电脑怎样设html5播放比例_SonyVaio定html5比例【设定】

HTML5怎样让图片随文字环绕_HTML5图片随文字环绕技巧【混排】

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

554

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

731

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

477

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

394

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

990

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

656

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

551

2023.09.20

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板