
在现代网页应用中,数据常以交互式图表的形式呈现,许多详细信息(如价格、日期等)仅在用户将鼠标悬停在特定图表元素上时才通过工具提示(tooltip)显示。对于数据抓取任务,初学者可能直观地想到使用selenium等自动化工具来模拟鼠标悬停行为。然而,这种方法在某些场景下可能效率低下且不够稳定。
当需要抓取图表上所有数据点的鼠标悬停信息时,使用Selenium模拟每个点的鼠标悬停是一个常见的思路。例如,尝试定位图表画布元素,然后循环对其进行鼠标悬停操作。
考虑以下基于Selenium的尝试代码片段:
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
options = Options()
options.add_argument("start-maximized")
webdriver_service = Service()
driver = webdriver.Chrome(options=options, service=webdriver_service)
driver.get('https://www.cpubenchmark.net/cpu.php?cpu=Intel+Core+i9-11900K+%40+3.50GHz&id=3904')
# 尝试定位图表画布元素
element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "//*[@id='placeholder']/div/canvas[2]")))
# 错误示例:WebElement对象不可迭代
# for el in element:
# ActionChains(driver).move_to_element(el).perform()
# mouseover = WebDriverWait(driver, 30).until(EC.visibility_of_element_located((By.SELECTOR, ".placeholder > div > div.canvasjs-chart-tooltip > div > span")))
# print(mouseover.text)上述代码中,WebDriverWait(...).until(EC.presence_of_element_located(...))返回的是一个单独的WebElement对象,代表了匹配到的第一个元素,而不是一个元素列表。因此,尝试对其进行for el in element:迭代会导致'WebElement' object is not iterable的错误。即使能够正确获取到多个可迭代的元素,模拟逐个鼠标悬停并等待工具提示出现,也存在以下局限性:
对于许多动态图表,其展示的数据通常不是通过AJAX请求在鼠标悬停时才加载的,而是页面加载时就已嵌入在HTML的某个<script>标签中,作为JavaScript变量的一部分。识别并直接从网页源代码中提取这些数据,是更高效、稳定和推荐的方法。
立即学习“Java免费学习笔记(深入)”;
核心思路:
以CPU Benchmark网站为例,其“Pricing History”图表的数据在页面加载时已作为JavaScript变量dataArray嵌入到HTML中。我们可以直接解析这些数据。
import re
import pandas as pd
import requests
# 目标URL
url = "https://www.cpubenchmark.net/cpu.php?cpu=Intel+Core+i9-11900K+%40+3.50GHz&id=3904"
# 使用requests获取页面HTML内容
html_text = requests.get(url).text
# 使用正则表达式从HTML中提取数据
# 匹配模式:dataArray.push({x: 数字, y: 数字或小数})
# (\d+) 捕获x的值(时间戳,整数)
# ([\d.]+) 捕获y的值(价格,整数或小数)
df = pd.DataFrame(
re.findall(r"dataArray\.push\({x: (\d+), y: ([\d.]+)}", html_text),
columns=["time", "price"],
)
# 将时间戳转换为日期时间格式
# 原始时间戳是毫秒,需要除以1000转换为秒,然后指定单位为秒
df["time"] = pd.to_datetime(df["time"].astype(int) // 1000, unit="s")
# 打印数据框的最后几行
print(df.tail())代码解析:
输出示例:
time price 236 2023-05-28 06:00:00 317.86 237 2023-05-29 06:00:00 319.43 238 2023-05-30 06:00:00 429.99 239 2023-05-31 06:00:00 314.64 240 2023-06-01 06:00:00 318.9
这种直接解析JavaScript嵌入数据的方法具有显著优势:
适用场景:
对于网页数据抓取,理解数据是如何呈现和加载的至关重要。并非所有动态显示的数据都需要通过模拟用户交互来获取。通过分析网页源代码,识别并直接解析JavaScript中嵌入的数据,往往是获取图表数据最有效和稳定的方法。这种方法结合requests、正则表达式和pandas,能够构建出高效、健壮的数据抓取解决方案,大大提升爬虫的性能和可靠性。在实际应用中,灵活运用多种工具和技术,根据具体场景选择最佳策略,是成为一名优秀爬虫工程师的关键。
以上就是掌握网页图表数据抓取:从鼠标悬停到直接解析JavaScript的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号