Puppeteer 多页批量爬取与 MongoDB 全量数据存储实战教程

花韻仙語

发布时间：2026-01-09 19:05:36

254人浏览过

来源于php中文网

原创

Puppeteer 多页批量爬取与 MongoDB 全量数据存储实战教程

本文详解如何使用 puppeteer 稳健爬取多个分页商品列表（含自动识别总页数、cookie 弹窗处理、逐元素精准提取），并统一存入 mongodb，解决常见“漏抓”“乱序”“数据不全”问题。

在实际电商网站（如 maxiscoot.com）爬虫开发中，仅靠硬编码页码或简单轮询 URL 列表极易失败：页面加载不完整、弹窗阻塞、动态分页结构变化、元素选择器错位等都会导致数据丢失——你遇到的“只返回 7–60 条而非预期 200+ 条”，正是典型症状。以下是一套生产就绪（production-ready）的 Puppeteer 多 URL 批量爬取方案，兼顾鲁棒性、可维护性与可扩展性。

✅ 核心优化点解析

智能分页探测：不再依赖预设页数（如 PAGES = 4），而是通过 a.element_sr2__page_link:last-of-type 动态获取末页编号，适配未来页面结构调整；
逐页独立等待与校验：每次 goto() 后均调用 waitForSelector('.element_product_grid')，确保商品网格容器已渲染完成，避免因 JS 懒加载导致 querySelectorAll 返回空数组；
元素级精准提取：放弃全局 document.querySelectorAll() + 索引对齐（易因 DOM 不齐导致字段错位），改用 page.$$eval('a.element_artikel') 获取商品节点集合，再对每个节点分别 $$eval 提取字段——彻底规避跨商品字段错位风险；
弹窗自动化处理：检测并点击 .cmptxt_btn_yes Cookie 同意按钮，防止首次访问被拦截；
超时与加载策略强化：waitUntil: "networkidle2" 确保网络请求基本静默，timeout: 30000 防止卡死；headless: "new" 启用 Chromium 最新无头模式，兼容性更佳；
模块化 URL 发现：通过 getLinks() 自动从首页导航栏提取目标分类链接（如 /haut-moteur/），支持后续轻松扩展至其他品类，无需手动维护 URL 列表。

? 完整可运行代码（Node.js + Puppeteer + MongoDB）

const puppeteer = require('puppeteer');
const { MongoClient } = require('mongodb');

(async () => {
  // Step 1: 自动发现目标分类链接（如“发动机上部”）
  async function getTargetLinks(baseUrl) {
    const browser = await puppeteer.launch({ headless: 'new' });
    const page = await browser.newPage();
    await page.goto(baseUrl, { waitUntil: 'networkidle2', timeout: 30000 });
    await page.waitForSelector('header');

    // 提取所有导航菜单链接，并按关键词过滤（支持多品类）
    const links = await page.$$eval('a.sb_dn_flyout_menu__link', els =>
      els.map(el => ({
        link: el.getAttribute('href'),
        keyword: el.textContent.trim()
      }))
    );

    const targetPaths = ['/haut-moteur/', '/pot-d-echappement/']; // 按需扩展
    const filtered = links.filter(item =>
      targetPaths.some(path => item.link?.includes(path))
    );

    await browser.close();
    return filtered;
  }

  // Step 2: 单分类多页深度爬取
  async function scrapeCategory(url) {
    const browser = await puppeteer.launch({ headless: 'new' });
    const page = await browser.newPage();

    // 首页加载 + Cookie 接受
    await page.goto(url, { waitUntil: 'networkidle2', timeout: 30000 });
    await page.waitForSelector('.element_product_grid');

    const acceptBtn = await page.$('.cmptxt_btn_yes');
    if (acceptBtn) await acceptBtn.click();

    // 动态获取总页数（末页链接文本）
    let totalPages = 0;
    const lastPageEl = await page.$('a.element_sr2__page_link:last-of-type');
    if (lastPageEl) {
      totalPages = await page.$eval('a.element_sr2__page_link:last-of-type', el => 
        parseInt(el.textContent.trim()) - 1 // 从第 0 页开始循环
      );
    }

    const categoryData = [];
    for (let i = 0; i <= totalPages; i++) {
      if (i > 0) {
        await page.goto(`${url}?p=${i}`, { waitUntil: 'networkidle2', timeout: 30000 });
        await page.waitForSelector('.element_product_grid');
      }

      // 获取当前页所有商品锚点节点
      const productNodes = await page.$$('a.element_artikel');
      for (const node of productNodes) {
        try {
          const link = await node.evaluate(el => el.getAttribute('href'));
          const price = await node.$eval('.element_artikel__price', el => el.textContent.trim());
          const imageUrl = await node.$eval('.element_artikel__img', el => el.getAttribute('src'));
          const title = await node.$eval('.element_artikel__description', el => el.textContent.trim());
          const instock = await node.$eval('.element_artikel__availability', el => el.textContent.trim());
          const brand = await node.$eval('.element_artikel__brand', el => el.textContent.trim());
          const reference = await node.$eval('.element_artikel__sku', el => 
            el.textContent.replace('Référence:', '').trim()
          );

          categoryData.push({ price, imageUrl, title, instock, brand, reference, link });
        } catch (e) {
          console.warn('跳过异常商品项:', e.message);
          continue;
        }
      }
    }

    await browser.close();
    return categoryData;
  }

  // Step 3: 存储到 MongoDB
  async function saveToMongo(data) {
    const client = new MongoClient('mongodb://127.0.0.1:27017');
    try {
      await client.connect();
      const db = client.db('scraped_data');
      const collection = db.collection('products');

      await collection.deleteMany({});
      await collection.insertMany(data);
      console.log(`✅ 成功写入 ${data.length} 条商品数据到 MongoDB`);
    } finally {
      await client.close();
    }
  }

  // ? 主流程：发现 → 爬取 → 合并 → 存储
  try {
    console.log('? 正在发现目标分类链接...');
    const categories = await getTargetLinks('https://www.maxiscoot.com/fr/');
    console.log(`? 发现 ${categories.length} 个目标分类:`, categories.map(c => c.keyword));

    let allProducts = [];
    for (const cat of categories) {
      console.log(`? 正在爬取分类: ${cat.keyword} (${cat.link})`);
      const products = await scrapeCategory(`https://www.maxiscoot.com${cat.link}`);
      console.log(`   → 获取 ${products.length} 条商品`);
      allProducts.push(...products);
    }

    console.log(`? 全量汇总: ${allProducts.length} 条商品`);
    await saveToMongo(allProducts);
  } catch (err) {
    console.error('❌ 执行出错:', err);
  }
})();

⚠️ 关键注意事项

反爬友好性：本方案未添加延时，实际部署建议在 page.goto() 后加入 await page.waitForTimeout(1000)，并考虑使用 puppeteer-extra + puppeteer-extra-plugin-stealth 进一步隐藏自动化特征；
错误隔离：每个商品提取包裹在 try/catch 中，单条失败不影响整体流程；
内存管理：每次 scrapeCategory() 独立启停浏览器实例，避免长连接内存泄漏；若需更高性能，可复用单个 browser 实例并管理 page 生命周期；
MongoDB 连接池：生产环境应复用 MongoClient 实例，而非每次新建（示例为简化演示）；
日志与监控：关键步骤添加 console.log，便于定位耗时环节；建议集成 Winston 或 Pino 做结构化日志。