如何高效抓取网页图表中的动态数据

DDD

发布时间：2025-07-20 14:22:15

1027人浏览过

来源于php中文网

原创

如何高效抓取网页图表中的动态数据

本文旨在探讨从网页动态图表中高效提取数据的方法。针对鼠标悬停显示数据的场景，我们将对比传统的Selenium模拟交互方式与更优的直接解析HTML中嵌入的JavaScript数据的方法。通过实际案例，我们将展示如何利用Python的requests、re和pandas库，直接从网页源代码中提取并结构化图表数据，从而避免复杂的浏览器自动化操作，提高数据抓取的效率和稳定性。

在进行网页数据抓取时，我们经常会遇到动态加载或通过JavaScript渲染的内容，尤其是那些以图表形式展示的数据，如历史价格曲线、性能指标等。这些数据往往在用户鼠标悬停时才以工具提示（tooltip）的形式显示，这给传统的爬虫带来了挑战。

挑战：使用Selenium模拟鼠标悬停抓取动态数据

许多初学者在面对这类问题时，自然会想到使用Selenium等浏览器自动化工具来模拟用户行为。例如，对于一个展示CPU价格历史的图表，尝试通过模拟鼠标悬停在图表上的每一个点来获取对应的价格和日期信息。

以下是一个尝试使用Selenium模拟鼠标悬停的示例代码：

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

# 初始化WebDriver
options = Options()
options.add_argument("start-maximized")
webdriver_service = Service()
driver = webdriver.Chrome(options=options, service=webdriver_service)

# 访问目标网页
driver.get('https://www.cpubenchmark.net/cpu.php?cpu=Intel+Core+i9-11900K+%403.50GHz&id=3904')

# 等待图表元素加载
# 注意：EC.presence_of_element_located 返回的是单个WebElement对象
element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "//*[@id='placeholder']/div/canvas[2]")))

# 尝试遍历元素（此处会报错，因为element是单个WebElement，不可迭代）
# for el in element:
#     ActionChains(driver).move_to_element(el).perform()
#     mouseover = WebDriverWait(driver, 30).until(EC.visibility_of_element_located((By.CSS_SELECTOR, ".placeholder > div > div.canvasjs-chart-tooltip > div > span")))
#     print(mouseover.text)

上述代码中存在一个常见错误：WebDriverWait.until(EC.presence_of_element_located(...))方法返回的是一个WebElement对象，代表页面上找到的第一个匹配元素，而不是一个可迭代的元素列表。因此，直接对其进行for el in element:循环会导致'WebElement' object is not iterable的运行时错误。

更重要的是，即使修复了迭代问题，通过模拟鼠标悬停来逐点抓取图表数据，效率也极其低下且不稳定。页面渲染、动画效果和JavaScript执行的延迟都可能导致抓取失败或数据不完整。

解决方案：直接解析HTML中的JavaScript数据

对于许多动态图表，其数据往往直接嵌入在页面的JavaScript代码中，而不是通过Ajax请求动态加载。在这种情况下，最有效且高效的方法是直接从网页的HTML源代码中提取这些JavaScript变量。

极品模板多语言企业网站管理系统1.2.2

【极品模板】出品的一款功能强大、安全性高、调用简单、扩展灵活的响应式多语言企业网站管理系统。产品主要功能如下： 01、支持多语言扩展（独立内容表，可一键复制中文版数据） 02、支持一键修改后台路径； 03、杜绝常见弱口令，内置多种参数过滤、有效防范常见XSS； 04、支持文件分片上传功能，实现大文件轻松上传； 05、支持一键获取微信公众号文章（保存文章的图片到本地服务器）； 06、支持一键

下载

以目标网站为例，图表数据通常以类似dataArray.push({x: ..., y: ...})的格式存储在

核心步骤：

获取网页内容： 使用requests库发送HTTP GET请求，获取目标URL的HTML源代码。
查找数据模式： 分析HTML源代码，定位包含图表数据的JavaScript代码块。识别数据点的通用模式，例如{x: 时间戳, y: 价格}。
使用正则表达式提取： 编写正则表达式来匹配并捕获这些数据点中的时间戳和价格值。
结构化数据： 将提取到的数据转换为结构化的格式，例如Pandas DataFrame，以便后续分析。
数据类型转换： 对提取到的时间戳进行转换，使其变为可读的日期时间格式。

示例代码：

import re
import pandas as pd
import requests

# 目标URL
url = "https://www.cpubenchmark.net/cpu.php?cpu=Intel+Core+i9-11900K+%403.50GHz&id=3904"

# 使用requests获取网页HTML内容
html_text = requests.get(url).text

# 使用正则表达式从HTML中查找并提取数据
# 模式解释：
# dataArray\.push\({x: (\d+), y: ([\d.]+)}
# - dataArray\.push\({x: : 匹配字面字符串 "dataArray.push({x: "
# - (\d+) : 捕获一个或多个数字（时间戳）
# - , y: : 匹配字面字符串 ", y: "
# - ([\d.]+) : 捕获一个或多个数字或点（价格，可能包含小数点）
# - } : 匹配字面字符串 "}"
df = pd.DataFrame(
    re.findall(r"dataArray\.push\({x: (\d+), y: ([\d.]+)}", html_text),
    columns=["time", "price"],
)

# 将时间戳（Unix时间戳，通常是毫秒）转换为可读的日期时间格式
# 网站给出的时间戳是毫秒，需要除以1000转换为秒
df["time"] = pd.to_datetime(df["time"].astype(int) // 1000, unit="s")

# 打印数据框的最后几行以验证结果
print(df.tail())

运行结果示例：

                   time   price
236 2023-05-28 06:00:00  317.86
237 2023-05-29 06:00:00  319.43
238 2023-05-30 06:00:00  429.99
239 2023-05-31 06:00:00  314.64
240 2023-06-01 06:00:00   318.9

优势与注意事项

这种直接解析JavaScript数据的方法具有显著优势：

高效性： 无需启动浏览器，大大减少了资源消耗和运行时间。
稳定性： 不依赖于页面渲染和JavaScript执行的复杂性，减少了因页面加载延迟或元素定位不准导致的错误。
简洁性： 代码逻辑更清晰，易于维护。

然而，此方法并非万能，有其适用范围和注意事项：

适用场景： 主要适用于数据直接嵌入在HTML源代码的
不适用场景：
- 数据通过复杂的AJAX请求在页面加载后异步获取，且这些请求的URL和参数难以推断。
- 数据经过高度混淆或加密，难以通过正则表达式直接解析。
- 需要模拟用户登录、表单提交、点击按钮等复杂交互才能获取数据的情况。
正则表达式的健壮性： 正则表达式需要根据目标网站的HTML结构和JavaScript代码模式进行定制。如果网站结构发生变化，正则表达式可能需要调整。
数据清洗： 提取出的数据可能需要进一步的清洗和类型转换，例如时间戳转换、数值类型转换等。

总结

在进行网页数据抓取时，面对动态内容，我们应优先考虑从网页源代码中直接提取数据。相比于依赖Selenium模拟复杂的用户交互，直接解析HTML中嵌入的JavaScript数据通常是更高效、稳定且资源友好的选择。只有当数据确实无法通过静态解析获取，或者需要模拟复杂的浏览器行为时，才考虑使用Selenium等浏览器自动化工具。理解这两种方法的优劣和适用场景，是成为一名高效网络爬虫开发者的关键。

从CSS定位Div布局到HTML表格或Grid布局的转换策略

将基于CSS样式将Div布局转换为HTML表格

使用Selenium抓取动态隐藏内容的策略与实践

从CSS定位Div布局到HTML表格或CSS Grid的转换策略

BeautifulSoup嵌套元素提取指南：从HTML获取到内容解析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python解析自定义类Lua配置文件：递归策略与实现下一篇：解析非标准配置文件的递归方法：以Lua风格数据为例

作者最新文章

如何在PHP中为输出文本设置不同颜色（如红色和绿色）

2025-12-27 14:00

如何让 div 在网页中精确居中（水平+垂直）

2025-12-27 14:04

Go Modules：现代 Go 依赖管理的官方标准方案

2025-12-27 14:04

如何在 React 中通过点击事件从子组件向父组件安全传递表单数据并校验完整性

2025-12-27 14:05

JavaScript 数学函数中 NaN 的常见原因与判别式计算错误分析

2025-12-27 14:06

如何为 JButton 设置背景图片（图标）

2025-12-27 14:06

《逃离塔科夫》遭大规模账号重置！玩家、主播损失惨重

2025-12-27 14:06

《死亡森林》重制版登陆Switch 经典恐怖冒险

2025-12-27 14:07

《最终幻想》大调查？SE官方反馈问卷正式上线

2025-12-27 14:08

如何在 React 中通过点击事件从子组件向父组件安全传递表单校验状态

2025-12-27 14:08

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

713

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

738

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

574

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

696

2023.08.11