掌握网页图表数据抓取：从鼠标悬停到直接解析JavaScript

花韻仙語

发布时间：2025-07-20 13:58:15

828人浏览过

来源于php中文网

原创

掌握网页图表数据抓取：从鼠标悬停到直接解析JavaScript

本教程探讨了如何高效地从动态网页图表中抓取数据，特别是当数据通过鼠标悬停显示时。我们对比了基于Selenium模拟鼠标悬停的方法与直接解析网页源代码中嵌入的JavaScript数据的方法，并重点介绍了后者，利用requests和正则表达式从HTML中提取结构化数据，结合pandas进行处理，从而实现更稳定、高效的数据抓取。

在现代网页应用中，数据常以交互式图表的形式呈现，许多详细信息（如价格、日期等）仅在用户将鼠标悬停在特定图表元素上时才通过工具提示（tooltip）显示。对于数据抓取任务，初学者可能直观地想到使用selenium等自动化工具来模拟鼠标悬停行为。然而，这种方法在某些场景下可能效率低下且不够稳定。

挑战与传统方法（Selenium）的局限性

当需要抓取图表上所有数据点的鼠标悬停信息时，使用Selenium模拟每个点的鼠标悬停是一个常见的思路。例如，尝试定位图表画布元素，然后循环对其进行鼠标悬停操作。

考虑以下基于Selenium的尝试代码片段：

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

options = Options()
options.add_argument("start-maximized")
webdriver_service = Service()
driver = webdriver.Chrome(options=options, service=webdriver_service)

driver.get('https://www.cpubenchmark.net/cpu.php?cpu=Intel+Core+i9-11900K+%40+3.50GHz&id=3904')
# 尝试定位图表画布元素
element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "//*[@id='placeholder']/div/canvas[2]")))

# 错误示例：WebElement对象不可迭代
# for el in element:       
#     ActionChains(driver).move_to_element(el).perform()   
#     mouseover = WebDriverWait(driver, 30).until(EC.visibility_of_element_located((By.SELECTOR, ".placeholder > div > div.canvasjs-chart-tooltip > div > span")))      
#     print(mouseover.text)

上述代码中，WebDriverWait(...).until(EC.presence_of_element_located(...))返回的是一个单独的WebElement对象，代表了匹配到的第一个元素，而不是一个元素列表。因此，尝试对其进行for el in element:迭代会导致'WebElement' object is not iterable的错误。即使能够正确获取到多个可迭代的元素，模拟逐个鼠标悬停并等待工具提示出现，也存在以下局限性：

效率低下： 每次操作都需要浏览器渲染，速度慢，资源消耗大。
稳定性差： 依赖于页面加载速度、元素可见性、动画效果等，容易出现时序问题或元素未找到的错误。
复杂性高： 需要处理各种等待条件、异常情况，代码维护成本高。
冗余操作： 许多情况下，图表数据在页面加载时就已经存在于HTML或JavaScript代码中，无需模拟用户交互即可直接提取。

高效策略：直接解析JavaScript嵌入数据

对于许多动态图表，其展示的数据通常不是通过AJAX请求在鼠标悬停时才加载的，而是页面加载时就已嵌入在HTML的某个

立即学习“Java免费学习笔记（深入）”；

核心思路：

检查网页源代码： 使用浏览器开发者工具（F12），查看“Elements”或“Sources”标签，或直接“查看页面源代码”（Ctrl+U），搜索与图表数据相关的关键词（如“dataArray”、“chartData”等）。
定位数据模式： 找到数据在JavaScript代码中的存储格式，通常是数组或JSON对象。
使用requests获取页面内容： 避免启动浏览器，直接通过HTTP请求获取HTML文本。
使用正则表达式提取数据： 根据定位到的数据模式，编写正则表达式来精确匹配并提取所需的数据点。
使用pandas进行数据处理： 将提取到的原始数据转换为结构化的DataFrame，便于后续分析。

实战演练：抓取CPU价格历史数据

以CPU Benchmark网站为例，其“Pricing History”图表的数据在页面加载时已作为JavaScript变量dataArray嵌入到HTML中。我们可以直接解析这些数据。

聚好用AI

可免费AI绘图、AI音乐、AI视频创作，聚集全球顶级AI，一站式创意平台

下载

import re
import pandas as pd
import requests

# 目标URL
url = "https://www.cpubenchmark.net/cpu.php?cpu=Intel+Core+i9-11900K+%40+3.50GHz&id=3904"

# 使用requests获取页面HTML内容
html_text = requests.get(url).text

# 使用正则表达式从HTML中提取数据
# 匹配模式：dataArray.push({x: 数字, y: 数字或小数})
# (\d+) 捕获x的值（时间戳，整数）
# ([\d.]+) 捕获y的值（价格，整数或小数）
df = pd.DataFrame(
    re.findall(r"dataArray\.push\({x: (\d+), y: ([\d.]+)}", html_text),
    columns=["time", "price"],
)

# 将时间戳转换为日期时间格式
# 原始时间戳是毫秒，需要除以1000转换为秒，然后指定单位为秒
df["time"] = pd.to_datetime(df["time"].astype(int) // 1000, unit="s")

# 打印数据框的最后几行
print(df.tail())

代码解析：

导入库： re用于正则表达式操作，pandas用于数据结构化和处理，requests用于发送HTTP请求。
获取HTML： requests.get(url).text直接获取页面的全部HTML内容，避免了浏览器启动的开销。
正则表达式提取：
- re.findall(r"dataArray\.push\({x: (\d+), y: ([\d.]+)}", html_text)是此方法的核心。
- dataArray\.push\({x:：匹配JavaScript中数据推送的固定前缀。.需要转义。
- (\d+)：第一个捕获组，匹配一个或多个数字，用于提取时间戳（x值）。
- , y:：匹配固定分隔符。
- ([\d.]+)：第二个捕获组，匹配一个或多个数字或点，用于提取价格（y值）。
- re.findall会返回所有匹配到的元组列表，每个元组包含两个捕获组的内容。
创建DataFrame： 将re.findall的结果直接传递给pd.DataFrame，并指定列名"time"和"price"。
时间戳转换： 原始的time列是字符串类型的时间戳，且是毫秒级的。
- df["time"].astype(int)：将时间戳转换为整数类型。
- // 1000：将毫秒转换为秒。
- pd.to_datetime(..., unit="s")：将秒级Unix时间戳转换为datetime对象。
结果输出： df.tail()打印数据框的最后几行，展示了抓取并处理后的价格历史数据。

输出示例：

                   time   price
236 2023-05-28 06:00:00  317.86
237 2023-05-29 06:00:00  319.43
238 2023-05-30 06:00:00  429.99
239 2023-05-31 06:00:00  314.64
240 2023-06-01 06:00:00   318.9

优势与适用场景

这种直接解析JavaScript嵌入数据的方法具有显著优势：

效率高： 无需启动和维护浏览器实例，仅进行HTTP请求和字符串处理，速度极快。
稳定性强： 不受页面渲染、动画效果或元素可见性的影响，只要数据模式不变，抓取就稳定。
资源消耗低： 内存和CPU占用远低于Selenium。
代码简洁： 避免了复杂的Selenium等待和操作逻辑。

适用场景：

当目标数据在页面加载时已存在于HTML源代码的
无需模拟复杂的JavaScript执行或用户交互（如点击、滚动、表单填写）。
目标是批量获取数据而非模拟用户行为。

注意事项

数据源识别： 在开始抓取前，务必使用浏览器开发者工具仔细检查网页的源代码和网络请求。这是判断数据是否直接嵌入HTML的关键一步。如果数据是通过后续AJAX请求动态加载的，则可能需要模拟这些请求或使用Selenium等待数据加载。
正则表达式的健壮性： 网页结构和JavaScript代码可能会更新，导致正则表达式失效。因此，定期检查和维护正则表达式的准确性是必要的。
反爬机制： 即使使用requests，网站也可能存在反爬机制，如User-Agent检测、IP限制、验证码等。可能需要添加请求头、使用代理IP或处理验证码。
Selenium的必要性： 当数据确实需要JavaScript渲染、动态加载、或涉及复杂的登录、点击分页、表单提交等用户交互时，Selenium仍然是不可替代的强大工具。选择哪种工具，应根据具体的抓取任务和目标网站的数据加载方式来决定。

总结

对于网页数据抓取，理解数据是如何呈现和加载的至关重要。并非所有动态显示的数据都需要通过模拟用户交互来获取。通过分析网页源代码，识别并直接解析JavaScript中嵌入的数据，往往是获取图表数据最有效和稳定的方法。这种方法结合requests、正则表达式和pandas，能够构建出高效、健壮的数据抓取解决方案，大大提升爬虫的性能和可靠性。在实际应用中，灵活运用多种工具和技术，根据具体场景选择最佳策略，是成为一名优秀爬虫工程师的关键。

Python动态网页爬取方法_selenium与requests结合【指导】

Python爬虫批量抓取动态页面数据的核心要点解析【技巧】

Python爬虫反爬怎么处理_headers与代理技巧【教学】

Python爬虫如何模拟浏览器行为完成高难度采集【教学】

Python爬虫如何模拟人类真实行为避免高强度风控【教学】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python怎样进行数据的自动特征生成？特征工程技巧下一篇：如何高效抓取网页图表数据：绕过鼠标悬停，直取JavaScript变量

作者最新文章

在 Go 中无需手动编写 String() 方法即可自动生成枚举名称映射

2025-12-27 13:42

如何在 Android 中正确处理相机拍照并避免未拍摄时生成空图片文件

2025-12-27 13:47

如何在 React 中正确捕获并显示 Fetch 请求返回的 400 错误详情

2025-12-27 13:49

Go 中正确读取管道流数据的实践方法

2025-12-27 13:51

如何在 Go 中使用变量中的字符串键安全访问 map 元素

2025-12-27 13:54

《赛马娘》玩家呼吁加入美国赛马界官方似乎正在酝酿中

2025-12-27 13:57

《逃离塔科夫》遭大规模账号重置！玩家、主播损失惨重

2025-12-27 14:06

《死亡森林》重制版登陆Switch 经典恐怖冒险

2025-12-27 14:07

《最终幻想》大调查？SE官方反馈问卷正式上线

2025-12-27 14:08

如何在 React 中通过点击事件从子组件向父组件安全传递表单校验状态

2025-12-27 14:08

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

538

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

372

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

727

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

470

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

390

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

989

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

653

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

541

2023.09.20