Puppeteer 爬取网页数据返回空数组问题解决方案

花韻仙語

发布时间：2025-08-31 15:43:00

528人浏览过

来源于php中文网

原创

puppeteer 爬取网页数据返回空数组问题解决方案

本文针对使用 Puppeteer 爬取 naamhinaam.com 网站数据时，出现返回空数组的问题，提供了一套可行的解决方案。通过分析问题代码，找出选择器和循环逻辑上的错误，并提供优化后的代码示例，确保能正确抓取网页上的婴儿名字和含义信息，并避免因广告元素干扰导致的问题。本文还强调了headless模式的运用以及数据清洗的重要性。

问题分析

原始代码尝试通过循环遍历页面上的元素，并根据复杂的 CSS 选择器提取婴儿名字。然而，这种方法存在几个问题：

不稳定的选择器： 原始代码中使用的 CSS 选择器 div.name-suggestion.mt-1 > div > div:nth-child(${i}) > div.nsg__name_meaning > a 非常具体，一旦网站结构发生轻微变化，就会导致选择器失效，从而无法抓取到数据。
广告元素干扰： 尝试移除广告元素，但移除操作可能并不稳定，或者广告元素的出现方式不固定，导致循环逻辑出错。
不必要的条件判断： 循环内部的 if (await page.$(...)) 判断可能会导致跳过某些元素，影响数据的完整性。
循环索引错误： 循环索引从3开始，跳过了前面两个元素，可能导致数据丢失。

解决方案

为了解决上述问题，我们应该采用更稳定、更灵活的方法来提取数据。以下是优化后的代码示例：

陌言AI

陌言AI是一个一站式AI创作平台，支持在线AI写作，AI对话，AI绘画等功能

下载

const puppeteer = require("puppeteer");
const express = require("express");
const cors = require("cors");
const app = express();
app.use(cors());
let data = [];
(async () => {
  const browser = await puppeteer.launch({
    headless: true, // 建议使用 headless 模式
    defaultViewport: null,
  });
  const page = await browser.newPage();
  for (let pageNumber = 1; pageNumber <= 42; pageNumber++) {
    await page.goto(`https://naamhinaam.com/baby-girl-names-a?page=${pageNumber}`);
    await page.waitForTimeout(3000);

    // 使用更简洁、稳定的选择器
    let nameElements = await page.$$(`a.nsg__name`);
    let meaningElements = await page.$$(`div.nsg__meaning > i`);

    // 确保名字和含义的数量一致
    if (nameElements.length !== meaningElements.length) {
      console.warn(`页面 ${pageNumber} 上的名字和含义数量不一致，可能存在问题。`);
      continue; // 跳过当前页面
    }

    for (let i = 0; i < nameElements.length; i++) {
      let fullName = "";
      try {
        let name = await page.evaluate(el => el.textContent, nameElements[i]);
        let meaning = await page.evaluate(el => el.textContent, meaningElements[i]);
        fullName = `${name.split(/[\n\t]/).join('').trim()}, ${meaning}`;
        data.push({ fullName });
      } catch (error) {
        console.error(`处理页面 ${pageNumber} 的第 ${i} 个元素时出错：`, error);
      }
    }
  }
  console.log(data);
  await browser.close();
})();
app.get("/", (req, res) => {
  res.status(200).json(data);
});

app.listen(3000, () => {
  console.log("App is running...");
});

代码解释：

Headless 模式： 建议将 headless 设置为 true，在后台运行浏览器，提高效率。
更稳定的选择器： 使用 a.nsg__name 和 div.nsg__meaning > i 这样更简洁、更通用的选择器，降低因网站结构变化导致的问题。
数量一致性检查： 在循环之前，检查名字和含义元素的数量是否一致。如果不一致，说明页面结构可能存在问题，跳过当前页面，避免数据错误。
错误处理： 在循环内部添加 try...catch 块，捕获可能出现的错误，并记录错误信息，方便调试。
数据清洗： 使用 name.split(/[\n\t]/).join('').trim() 清除名字中的换行符、制表符和空格，确保数据的干净。

注意事项

网站结构变化： 网页结构随时可能发生变化，因此需要定期检查和更新选择器。
反爬机制： 网站可能存在反爬机制，如验证码、IP 封锁等。需要根据具体情况采取相应的应对措施，如使用代理 IP、设置合理的请求间隔等。
法律法规： 在爬取网站数据时，务必遵守相关法律法规和网站的使用条款，不得进行恶意爬取或侵犯网站权益的行为。

总结

通过使用更稳定的选择器、进行数量一致性检查、添加错误处理机制以及清洗数据，我们可以更可靠地使用 Puppeteer 爬取网页数据。同时，需要注意网站结构变化、反爬机制以及法律法规等问题，确保爬虫的稳定性和合法性。

如何为 D3.js 条形图正确应用 CSS 样式

如何在 D3.js 中正确通过 CSS 文件设置柱状图颜色

如何解决 CSS 六边形网格容器内容溢出问题

如何在 D3.js 中正确应用 CSS 类为柱状图设置颜色

如何用javascript实现动画_css动画和requestanimationframe谁更优【教程】

相关标签:

css js json go 浏览器 ai 爬虫数据丢失 css if try catch 循环选择器

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：JavaScript实现HTML表格多列搜索：优化用户体验下一篇：使用 Puppeteer 抓取网页数据返回空数组的解决方案

作者最新文章

在 PHP 中嵌入 JavaScript 并正确传递 PHP 变量值的完整指南

2026-01-21 09:41

如何使用正则表达式精准提取引号内外的非空白标识符（跳过引号内空格）

2026-01-21 09:44

小红书达人种草下单平台是什么？小红书达人如何筛选？

2026-01-21 09:45

Vue-Laravel 文件上传失败：FormData 为空的完整解决方案

2026-01-21 09:59

Vue-Laravel 文件上传 FormData 为空问题的完整解决方案

2026-01-21 10:00

高效导入 MariaDB 大数据集：低内存占用的 Python 实现方案

2026-01-21 10:03

如何在 DataTables 服务端模式下正确设置默认每页显示行数

2026-01-21 10:19

Java 8 Streams 实现嵌套 Map 结构的条件过滤与键提取

2026-01-21 10:28

如何解析 Go 源文件中的 go:generate 指令

2026-01-21 10:29

Kaggle 中解决 pip 依赖冲突的正确方法：使用 legacy 解析器

2026-01-21 10:30

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

css

css是层叠样式表，用来表现HTML或XML等文件样式的计算机语言，不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

524

2023.06.15

css居中

css居中：1、通过“margin: 0 auto; text-align: center”实现水平居中；2、通过“display:flex”实现水平居中；3、通过“display:table-cell”和“margin-left”实现居中。本专题为大家提供css居中的相关的文章、下载、课程内容，供大家免费下载体验。

265

2023.07.27