如何使用 Puppeteer 稳健实现分页爬取（Next Page）

花韻仙語

发布时间：2025-12-27 23:29:06

231人浏览过

来源于php中文网

原创

如何使用 Puppeteer 稳健实现分页爬取（Next Page）

本文详解 puppeteer 分页爬取中常见的 url 重复处理、导航失效及页码错乱问题，提供可落地的解决方案，确保每页仅处理一次，并正确识别末页边界。

在使用 Puppeteer 进行分页爬取（如 https://clerk.house.gov/Votes 这类前端分页站点）时，一个典型陷阱是：页面通过哈希跳转（#）或异步路由更新 URL，导致 page.waitForNavigation() 无法可靠触发——这正是原代码反复打印 ?page=2#、?page=3# 等重复 URL 的根本原因。waitForNavigation 仅监听完整的导航事件（如 GET 请求），而 SPA 或锚点驱动的分页常不触发该事件。

✅ 正确做法：用 browser.waitForTarget() 监听新页面加载

替代脆弱的 waitForNavigation()，应监听浏览器目标（Target）的创建与 URL 变化。关键逻辑如下：

const url = page.url();
console.log('Processing page:', url);

// ✅ 提取当前页码（兼容初始页无参数的情况）
const currentPageNum = url.includes('?page=')
  ? parseInt(url.match(/page=(\d+)/)[1], 10)
  : 1;

// ✅ 点击“下一页”按钮（注意：直接 click() 即可，无需 selector 参数）
await nextButton.click();

// ✅ 等待目标 URL 变为预期的下一页（更鲁棒，不受 hash 干扰）
await browser.waitForTarget(
  target => target.url().endsWith(`?page=${currentPageNum + 1}`),
  { timeout: 10000 }
);

⚠️ 注意事项：nextButton.click() 不接受 CSS 选择器参数（原代码 click('a[aria-label="Next"]...') 是错误用法，会报错）；必须在点击前获取当前 URL，否则 page.url() 可能仍是旧地址（因点击后 URL 更新有延迟）；waitForTarget 需设置合理超时（如 10s），避免无限等待；初始页（/Votes）无 ?page= 参数，需显式判断并设为 page=1，否则后续页码计算错误。

✅ 补充：处理末页边界（防止漏掉最后一页）

原逻辑在「下一页按钮消失时退出」，意味着最后一页的数据从未被提取。修正方式是：先处理当前页，再尝试翻页。完整结构建议如下：

腾讯混元

腾讯混元大由腾讯研发的大语言模型，具备强大的中文创作能力、逻辑推理能力，以及可靠的任务执行能力。

下载

while (true) {
  // ✅ 1. 先处理当前页（无论是否为末页）
  console.log('Processing page:', page.url());
  // ? 在此处插入你的数据提取逻辑，例如：
  // const votes = await page.$$eval('.vote-item', els => els.map(e => e.textContent));

  // ✅ 2. 尝试查找并点击下一页按钮
  const nextButton = await page
    .waitForSelector('a[aria-label="Next"] span[class~="fa"]', { timeout: 3000 })
    .catch(() => null);

  if (!nextButton) {
    console.log('No more pages. Scraping completed.');
    break;
  }

  // ✅ 3. 执行翻页（使用上述 waitForTarget 方案）
  const currentUrl = page.url();
  const pageNum = currentUrl.includes('?page=')
    ? parseInt(currentUrl.match(/page=(\d+)/)[1], 10)
    : 1;

  await nextButton.click();
  await browser.waitForTarget(
    t => t.url().endsWith(`?page=${pageNum + 1}`),
    { timeout: 10000 }
  );
}

✅ 总结

❌ 避免 page.waitForNavigation() 处理哈希/SPA 分页；
✅ 使用 browser.waitForTarget() + URL 断言，精准等待目标页加载；
✅ 始终先处理当前页，再判断是否翻页，确保末页不遗漏；
✅ 点击操作后立即捕获 page.url()，避免页码解析错误；
? 调试时可添加 await page.screenshot({ path:page-${pageNum}.png}); 辅助验证页面状态。

遵循以上模式，即可构建稳定、可维护的 Puppeteer 分页爬虫。

JavaScript如何实现响应式布局_JavaScript如何监听窗口大小变化

如何实现javascript模板字符串_标签模板有哪些高级用法

JavaScript如何操作DOM元素_JavaScript动态修改CSS样式有哪些方法

什么是代码打包_javascript中webpack怎么用？

如何操作javascript中的DOM元素_为什么直接操作DOM可能影响性能

相关标签:

css 前端 go 浏览器 ai 路由爬虫 css 事件异步选择器 https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：DevExpress React Grid 行合并（rowSpan）实现指南下一篇：暂无

作者最新文章

在 Go 中无需手动编写 String() 方法即可自动生成枚举名称映射

2025-12-27 13:42

如何在 Android 中正确处理相机拍照并避免未拍摄时生成空图片文件

2025-12-27 13:47

如何在 React 中正确捕获并显示 Fetch 请求返回的 400 错误详情

2025-12-27 13:49

Go 中正确读取管道流数据的实践方法

2025-12-27 13:51

如何在 Go 中使用变量中的字符串键安全访问 map 元素

2025-12-27 13:54

《赛马娘》玩家呼吁加入美国赛马界官方似乎正在酝酿中

2025-12-27 13:57

《逃离塔科夫》遭大规模账号重置！玩家、主播损失惨重

2025-12-27 14:06

《死亡森林》重制版登陆Switch 经典恐怖冒险

2025-12-27 14:07

《最终幻想》大调查？SE官方反馈问卷正式上线

2025-12-27 14:08

如何在 React 中通过点击事件从子组件向父组件安全传递表单校验状态

2025-12-27 14:08

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

css

css是层叠样式表，用来表现HTML或XML等文件样式的计算机语言，不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

498

2023.06.15

css居中

css居中：1、通过“margin: 0 auto; text-align: center”实现水平居中；2、通过“display:flex”实现水平居中；3、通过“display:table-cell”和“margin-left”实现居中。本专题为大家提供css居中的相关的文章、下载、课程内容，供大家免费下载体验。

260

2023.07.27