如何使用 Puppeteer 稳健地实现分页爬取（Next Page）

霞舞

发布时间：2025-12-27 20:04:02

594人浏览过

来源于php中文网

原创

如何使用 Puppeteer 稳健地实现分页爬取（Next Page）

本文详解 puppeteer 分页爬取中常见的重复抓取、导航失效与 url 未更新问题，提供可落地的修复方案，包括 waitfortarget 替代 waitfornavigation、url 解析防重逻辑及末页兜底处理。

在使用 Puppeteer 实现分页爬取（如 https://clerk.house.gov/Votes）时，直接依赖 page.waitForNavigation() 常会失效——尤其当目标网站采用前端路由跳转（如 hash 变更 # 或 SPA 内部重定向）时，页面 URL 可能延迟更新或多次触发，导致日志中出现大量重复 URL（如 ?page=2#、?page=2# 多次打印），甚至抛出 waitForNavigation timeout 错误。

根本原因在于：page.waitForNavigation() 仅监听 load/domcontentloaded 等导航事件，但若页面通过 history.pushState() 或锚点跳转（#）变更视图而未真正发起新请求，该方法将无法准确捕获“新页就绪”状态。

✅ 推荐解决方案：用 browser.waitForTarget() 精确等待目标 URL 变更

以下为修复后的完整分页逻辑（已适配 Clerk House 网站结构）：

Glean

Glean是一个专为企业团队设计的AI搜索和知识发现工具

下载

import puppeteer from 'puppeteer';

(async () => {
  const browser = await puppeteer.launch({ headless: false });
  const page = await browser.newPage();

  await page.goto('https://clerk.house.gov/Votes', { waitUntil: 'networkidle2' });

  let currentPage = 1;
  const maxPages = 100; // 建议设置安全上限，防止无限循环

  while (currentPage <= maxPages) {
    console.log(`? Processing page ${currentPage}:`, page.url());

    // ✅ 步骤1：提取当前页码（兼容 ?page=1 和无参首页）
    const url = page.url();
    const currentNumber = url.includes('?page=')
      ? parseInt(url.match(/page=(\d+)/)[1], 10)
      : 1;

    // ✅ 步骤2：定位并点击“Next”按钮（更鲁棒的选择器）
    const nextButton = await page.$('a[aria-label="Next"]');
    if (!nextButton) {
      console.log('✅ No more pages. Reached the last page.');
      break;
    }

    // ✅ 步骤3：执行点击，并等待新页面 Target 加载完成
    await nextButton.click();

    try {
      // 等待浏览器创建新 Target，且其 URL 匹配预期页码（+1）
      await browser.waitForTarget(
        target => target.url().endsWith(`?page=${currentNumber + 1}`),
        { timeout: 15000 }
      );

      // ✅ 步骤4：显式切换到新页面上下文（重要！避免操作旧 page 实例）
      const targets = browser.targets();
      const newTarget = targets.find(t => t.url().endsWith(`?page=${currentNumber + 1}`));
      const newPage = await newTarget?.page();
      if (newPage) {
        await newPage.bringToFront();
        // 更新 page 引用，确保后续操作在最新页面执行
        page = newPage;
      } else {
        throw new Error('Failed to get new page instance');
      }

      currentPage = currentNumber + 1;

      // ⚠️ 此处插入你的数据提取逻辑（例如：抓取投票列表）
      // const votes = await page.$$eval('.vote-item', els => els.map(e => e.textContent.trim()));
      // console.log(`Fetched ${votes.length} votes on page ${currentPage}`);

    } catch (err) {
      console.error(`❌ Failed to navigate to page ${currentNumber + 1}:`, err.message);
      break;
    }
  }

  await browser.close();
})();

? 关键改进说明：

精准等待机制：browser.waitForTarget() 直接监听浏览器级 Target 创建，不受前端路由干扰，比 page.waitForNavigation() 更可靠；
页码动态解析：从当前 URL 提取数字页码，避免硬编码或状态错乱；
显式页面上下文切换：通过 target.page() 获取新页面实例并赋值给 page，防止后续操作仍在旧 DOM 上执行（这是原代码重复打印的核心原因之一）；
末页兜底保护：检查 nextButton 是否存在，而非仅依赖 aria-label="Next" 元素；同时加入 maxPages 安全阈值；
增强健壮性：添加 waitUntil: 'networkidle2' 启动加载，使用 try/catch 捕获导航异常。

? 额外建议：

若目标站点支持 API（如 Clerk House 提供 /Votes/Export），优先调用 JSON 接口，比渲染页爬取更高效稳定；
对高频请求添加 await page.waitForTimeout(1000) 防封；
使用 page.on('response', ...) 监听关键资源响应，辅助判断页面加载完成。

遵循以上模式，即可彻底解决 Puppeteer 分页中“一页变多页”“导航卡死”“URL 滞后”等典型问题，构建高可用的自动化采集流程。

JavaScript如何实现虚拟DOM_怎样优化渲染性能

如何将 jQuery 的拖拽事件正确迁移到原生 JavaScript

javascript Svelte是什么_与传统框架有何不同

如何在页面跳转时隐藏或修改 Referer 信息

如何用JavaScript创建单页应用_使用框架如React或Vue？

相关标签:

js 前端 json go 编码浏览器 ai 路由 gate json try catch 接口事件 dom history https 自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：javascript this关键字是什么_它指向什么对象下一篇：javascript国际化是什么_如何实现多语言

作者最新文章

如何在 Go 语言 HTTP 服务器中实现上传与下载速率限制

2025-12-27 13:16

HTML 表单验证与提交事件冲突的完整解决方案

2025-12-27 13:18

如何高效爬取《史密斯圣经词典》中希伯来人名释义

2025-12-27 13:30

如何用 JavaScript 实现空格键的多阶段状态切换（等待→启动→暂停循环）

2025-12-27 13:32

Pandas 中如何用列名列表批量传递多列数据给 apply 函数

2025-12-27 13:35

PHP中PDO连接失败导致prepare()调用错误的完整解决方案

2025-12-27 13:38

Fernet密钥格式错误：必须为32字节的URL安全Base64编码字符串

2025-12-27 13:38

如何在 React 中使用嵌套 .map() 渲染对象内的数组数据

2025-12-27 13:41

如何用 CSS 实现全屏容器中图片自适应缩放并保持宽高比

2025-12-27 13:53

如何正确配置本地 Python 项目以支持可编辑安装及自动发现子包

2025-12-27 13:54

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

400

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

528

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

306

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

987

2023.10.19