0

0

如何使用 Puppeteer 稳健地实现分页爬取(Next Page)

霞舞

霞舞

发布时间:2025-12-27 20:04:02

|

594人浏览过

|

来源于php中文网

原创

如何使用 Puppeteer 稳健地实现分页爬取(Next Page)

本文详解 puppeteer 分页爬取中常见的重复抓取、导航失效与 url 未更新问题,提供可落地的修复方案,包括 waitfortarget 替代 waitfornavigation、url 解析防重逻辑及末页兜底处理。

在使用 Puppeteer 实现分页爬取(如 https://clerk.house.gov/Votes)时,直接依赖 page.waitForNavigation() 常会失效——尤其当目标网站采用前端路由跳转(如 hash 变更 # 或 SPA 内部重定向)时,页面 URL 可能延迟更新或多次触发,导致日志中出现大量重复 URL(如 ?page=2#、?page=2# 多次打印),甚至抛出 waitForNavigation timeout 错误。

根本原因在于:page.waitForNavigation() 仅监听 load/domcontentloaded 等导航事件,但若页面通过 history.pushState() 或锚点跳转(#)变更视图而未真正发起新请求,该方法将无法准确捕获“新页就绪”状态。

✅ 推荐解决方案:用 browser.waitForTarget() 精确等待目标 URL 变更

以下为修复后的完整分页逻辑(已适配 Clerk House 网站结构):

Glean
Glean

Glean是一个专为企业团队设计的AI搜索和知识发现工具

下载
import puppeteer from 'puppeteer';

(async () => {
  const browser = await puppeteer.launch({ headless: false });
  const page = await browser.newPage();

  await page.goto('https://clerk.house.gov/Votes', { waitUntil: 'networkidle2' });

  let currentPage = 1;
  const maxPages = 100; // 建议设置安全上限,防止无限循环

  while (currentPage <= maxPages) {
    console.log(`? Processing page ${currentPage}:`, page.url());

    // ✅ 步骤1:提取当前页码(兼容 ?page=1 和无参首页)
    const url = page.url();
    const currentNumber = url.includes('?page=')
      ? parseInt(url.match(/page=(\d+)/)[1], 10)
      : 1;

    // ✅ 步骤2:定位并点击“Next”按钮(更鲁棒的选择器)
    const nextButton = await page.$('a[aria-label="Next"]');
    if (!nextButton) {
      console.log('✅ No more pages. Reached the last page.');
      break;
    }

    // ✅ 步骤3:执行点击,并等待新页面 Target 加载完成
    await nextButton.click();

    try {
      // 等待浏览器创建新 Target,且其 URL 匹配预期页码(+1)
      await browser.waitForTarget(
        target => target.url().endsWith(`?page=${currentNumber + 1}`),
        { timeout: 15000 }
      );

      // ✅ 步骤4:显式切换到新页面上下文(重要!避免操作旧 page 实例)
      const targets = browser.targets();
      const newTarget = targets.find(t => t.url().endsWith(`?page=${currentNumber + 1}`));
      const newPage = await newTarget?.page();
      if (newPage) {
        await newPage.bringToFront();
        // 更新 page 引用,确保后续操作在最新页面执行
        page = newPage;
      } else {
        throw new Error('Failed to get new page instance');
      }

      currentPage = currentNumber + 1;

      // ⚠️ 此处插入你的数据提取逻辑(例如:抓取投票列表)
      // const votes = await page.$$eval('.vote-item', els => els.map(e => e.textContent.trim()));
      // console.log(`Fetched ${votes.length} votes on page ${currentPage}`);

    } catch (err) {
      console.error(`❌ Failed to navigate to page ${currentNumber + 1}:`, err.message);
      break;
    }
  }

  await browser.close();
})();

? 关键改进说明:

  • 精准等待机制:browser.waitForTarget() 直接监听浏览器级 Target 创建,不受前端路由干扰,比 page.waitForNavigation() 更可靠;
  • 页码动态解析:从当前 URL 提取数字页码,避免硬编码或状态错乱;
  • 显式页面上下文切换:通过 target.page() 获取新页面实例并赋值给 page,防止后续操作仍在旧 DOM 上执行(这是原代码重复打印的核心原因之一);
  • 末页兜底保护:检查 nextButton 是否存在,而非仅依赖 aria-label="Next" 元素;同时加入 maxPages 安全阈值;
  • 增强健壮性:添加 waitUntil: 'networkidle2' 启动加载,使用 try/catch 捕获导航异常。

? 额外建议:

  • 若目标站点支持 API(如 Clerk House 提供 /Votes/Export),优先调用 JSON 接口,比渲染页爬取更高效稳定;
  • 对高频请求添加 await page.waitForTimeout(1000) 防封;
  • 使用 page.on('response', ...) 监听关键资源响应,辅助判断页面加载完成。

遵循以上模式,即可彻底解决 Puppeteer 分页中“一页变多页”“导航卡死”“URL 滞后”等典型问题,构建高可用的自动化采集流程。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

400

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

528

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

306

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

72

2025.09.10

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

987

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

41

2025.10.17

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

2671

2024.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1575

2024.08.16

ip地址修改教程大全
ip地址修改教程大全

本专题整合了ip地址修改教程大全,阅读下面的文章自行寻找合适的解决教程。

27

2025.12.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
WEB前端教程【HTML5+CSS3+JS】
WEB前端教程【HTML5+CSS3+JS】

共101课时 | 8万人学习

JS进阶与BootStrap学习
JS进阶与BootStrap学习

共39课时 | 3.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号