
本文深入探讨Puppeteer中`.$eval()`和`.$$eval()`这两种核心元素评估方法的区别与正确用法。我们将阐明它们在处理单个元素与多个元素时的行为差异,重点讲解`.$$eval()`回调函数接收数组参数时的处理策略,并通过实例代码演示如何有效利用这些方法进行网页数据抓取与自动化交互,包括模拟打字测试,并提供相关的最佳实践和注意事项。
在Puppeteer中,.$eval()和.$$eval()是用于在浏览器上下文中执行JavaScript代码的关键方法,它们允许我们对页面上的DOM元素进行评估和操作。尽管名称相似,但它们在处理目标元素数量和回调函数参数方面存在显著差异。
.$eval(selector, pageFunction, ...args): 这个方法用于选取第一个匹配selector的元素,并将其作为参数传递给pageFunction回调函数。如果找不到匹配的元素,则会抛出错误。它适用于只需要处理单个元素或第一个匹配元素的情况。
.$$eval(selector, pageFunction, ...args): 与.$eval()不同,.$$eval()会选取所有匹配selector的元素,并将这些元素的数组作为参数传递给pageFunction回调函数。如果找不到任何匹配元素,pageFunction将收到一个空数组。它适用于需要批量处理多个元素的情况。
关键差异点在于回调函数的参数类型:
当我们需要从页面中提取特定元素的单个属性或执行单个操作时,.$eval()是理想选择。
示例:获取页面上第一个div元素的innerHTML。
const puppeteer = require("puppeteer");
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto("https://example.com");
// 等待 #words 元素出现
const wordsSelector = await page.waitForSelector('#words');
// 使用 .$eval 获取 #words 内部第一个 div 的 innerHTML
const firstDivContent = await wordsSelector.$eval('div', element => element.innerHTML);
console.log("第一个 div 的内容:", firstDivContent);
await browser.close();
})();在这个例子中,wordsSelector.$eval('div', ...)会找到#words元素内部的第一个div,并将该div元素作为element参数传递给回调函数。
初学者在使用.$$eval()时常犯的错误是,期望回调函数中的参数可以直接访问innerHTML或textContent,就像处理单个元素一样。然而,由于.$$eval()的回调函数接收的是一个元素数组,直接访问elements.innerHTML会导致undefined,因为数组本身没有innerHTML属性。
正确做法是遍历或映射这个元素数组,对每个元素进行操作。
示例:获取#words内部所有.word元素的innerHTML。
const puppeteer = require("puppeteer");
(async () => {
const browser = await puppeteer.launch({ headless: true });
const page = await browser.newPage();
await page.goto("https://monkeytype.com/", { waitUntil: "domcontentloaded" });
// 假设页面上有cookie同意弹窗,先点击拒绝
try {
const rejectAllButton = await page.waitForSelector(".rejectAll", { timeout: 5000 });
if (rejectAllButton) {
await rejectAllButton.click();
}
} catch (error) {
console.log("未找到cookie拒绝按钮或已处理。");
}
// 等待 #words 元素出现
const wordsEl = await page.waitForSelector('#words');
// 使用 .$$eval 获取 #words 内部所有 .word 元素的 innerHTML
// 注意:回调函数接收的是一个元素数组,需要使用 map 进行处理
const allWordsContent = await wordsEl.$$eval('.word', elements =>
elements.map(el => el.innerHTML)
);
console.log("所有单词的 HTML 内容:", allWordsContent);
await browser.close();
})();在这个修正后的例子中,elements是一个DOM元素数组。我们使用map方法遍历这个数组,对每个el(即每个.word元素)提取其innerHTML,最终得到一个包含所有单词HTML内容的数组。
在提取网页内容时,innerHTML和textContent是两个常用的属性,但它们的应用场景不同:
建议: 如果你的目标是获取纯文本数据(例如,单词、段落),优先使用textContent。这可以避免处理不必要的HTML标签,使数据更干净。
.$eval()和.$$eval()结合Puppeteer的其他API,可以实现复杂的网页自动化任务。以下是一个模拟打字测试的完整示例,展示了如何获取当前活动单词并模拟键盘输入。
const puppeteer = require("puppeteer");
(async () => {
let browser;
try {
browser = await puppeteer.launch({ headless: true }); // 设置 headless: false 可见浏览器操作
const [page] = await browser.pages();
// 启用请求拦截,提高性能和稳定性,只允许必要的资源加载
await page.setRequestInterception(true);
page.on('request', request => {
const allowedUrls = [
"https://monkeytype.com",
"https://www.monkeytype.com",
"https://api.monkeytype.com",
"https://fonts.google.com", // 允许加载字体
];
if (allowedUrls.some(url => request.url().startsWith(url))) {
request.continue();
} else {
request.abort(); // 阻止不必要的请求
}
});
await page.goto("https://monkeytype.com/", { waitUntil: "domcontentloaded" });
// 处理Cookie同意弹窗
try {
const rejectAllButton = await page.waitForSelector(".rejectAll", { timeout: 5000 });
if (rejectAllButton) {
await rejectAllButton.click();
console.log("已点击拒绝所有Cookie。");
}
} catch (error) {
console.log("未找到Cookie拒绝按钮或已处理,继续执行。");
}
// 等待第一个活动单词出现
await page.waitForSelector("#words .word.active");
const wordsContainer = await page.$("#words"); // 获取单词容器元素
// 循环模拟打字过程
console.log("开始模拟打字...");
for (let i = 0; i < 50; i++) { // 限制循环次数,避免无限循环
try {
// 使用 .$eval 获取当前活动单词的纯文本内容
const activeWordText = await wordsContainer.$eval(".word.active", el =>
el.textContent.trim() // 使用 textContent 获取纯文本并去除首尾空格
);
console.log(`正在输入: "${activeWordText}"`);
// 模拟键盘输入单词,并在每个单词后输入一个空格
await wordsContainer.type(activeWordText + " ");
} catch (e) {
// 如果找不到 .word.active 元素,说明打字可能已结束或出现异常
console.log("未找到活动单词,可能已完成打字或发生错误。", e.message);
break; // 退出循环
}
// 可以在此处添加短暂延迟,模拟更真实的用户输入速度
// await page.waitForTimeout(50);
}
// 滚动到结果区域并截图
const resultsElement = await page.$("#result");
if (resultsElement) {
await resultsElement.evaluate(el => el.scrollIntoView()); // 滚动到结果视图
await resultsElement.screenshot({ path: "typing-results.png" });
console.log("打字结果已保存到 typing-results.png");
} else {
console.log("未找到结果区域。");
}
} catch (error) {
console.error("自动化过程中发生错误:", error);
} finally {
if (browser) {
await browser.close();
console.log("浏览器已关闭。");
}
}
})();.$eval()和.$$eval()是Puppeteer中强大且灵活的DOM元素评估工具。理解它们之间关于目标元素数量和回调函数参数的根本区别,是编写高效、健壮的Puppeteer脚本的关键。通过结合使用这些方法与其他Puppeteer API,开发者可以实现从简单的数据抓取到复杂的网页自动化交互的各种任务。遵循最佳实践,如错误处理、元素等待和请求拦截,将大大提高自动化脚本的稳定性和可靠性。
以上就是Puppeteer中.$eval()与.$$eval()的正确使用指南的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号