从 FBref 网站提取隐藏表格的正确方法

DDD

发布时间：2025-07-18 16:38:14

1085人浏览过

来源于php中文网

原创

从 fbref 网站提取隐藏表格的正确方法

本文旨在解决从 FBref 网站提取隐藏表格数据的问题。通过分析网页结构，我们发现目标表格被包含在 HTML 注释中。本文将提供一种简单有效的解决方案，利用 requests 和 pandas 库，先去除 HTML 注释，然后通过 pandas.read_html() 函数的 attrs 参数，根据表格 ID 精确提取所需数据，最终将其转换为 DataFrame 格式，方便后续的数据分析与处理。

FBref 网站上的数据通常以表格形式呈现，但在某些情况下，目标表格可能被隐藏在 HTML 注释中。直接使用 BeautifulSoup 或 pandas.read_html() 函数可能无法正确提取数据。本教程将介绍如何解决这个问题，并提供可直接使用的代码示例。

解决方案：去除 HTML 注释并使用 pandas.read_html() 函数

解决问题的关键在于先移除 HTML 注释，然后再利用 pandas.read_html() 函数读取表格。以下是详细步骤和代码示例：

导入必要的库：

import requests
import pandas as pd

获取网页内容并移除注释：

url = 'https://fbref.com/it/comp/11/gca/Statistiche-di-Serie-A#all_stats_gca'
html_content = requests.get(url).text.replace('','')

requests.get(url).text 获取网页的 HTML 内容。
.replace('','') 移除 HTML 注释标签。

使用 pandas.read_html() 函数提取表格：

df = pd.read_html(
    html_content,
    attrs={'id':'stats_gca'}
)[0]

pandas.read_html() 函数用于从 HTML 内容中提取表格。
attrs={'id':'stats_gca'} 指定 attrs 参数，通过表格的 id 属性精确匹配目标表格。这比仅仅依赖表格在页面中的位置更可靠。
[0] 提取 read_html() 返回的列表中的第一个元素，因为通常只有一个表格符合条件。

查看结果：

print(df)

完整代码示例：

Postme

Postme是一款强大的AI写作工具，可以帮助您快速生成高质量、原创的外贸营销文案，助您征服全球市场。

下载

import requests
import pandas as pd

url= 'https://fbref.com/it/comp/11/gca/Statistiche-di-Serie-A#all_stats_gca'
df = pd.read_html(
    requests.get(url).text.replace('','')
    ,attrs={'id':'stats_gca'}
)[0]

print(df)

注意事项：

网页结构变化： FBref 网站的结构可能会发生变化。如果代码无法正常工作，请检查网页源代码，确认表格的 id 和 HTML 注释的格式是否仍然相同。
attrs 参数的重要性： 使用 attrs 参数可以提高代码的鲁棒性。即使页面结构发生变化，只要表格的 id 保持不变，代码仍然可以正确提取数据。
编码问题： 如果遇到编码问题，可以尝试在 requests.get() 函数中指定编码方式，例如 requests.get(url, encoding='utf-8')。

总结：

通过去除 HTML 注释并结合 pandas.read_html() 函数的 attrs 参数，可以有效地从 FBref 网站提取隐藏的表格数据。这种方法具有较高的鲁棒性和可靠性，能够应对网页结构的变化。记住，在实际应用中，始终要检查网页源代码，确保代码能够正确匹配目标表格。

相关标签:

html beautifulsoup pandas 数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：高效生成指定位数的N位值及其位反转值下一篇：创建一个Discord.py回声机器人：命令开启与停止

作者最新文章

如何在 Bootstrap 折叠组件中单次点击即加载 NGL 3D 分子可视化

2025-12-30 14:04

《怪物猎人：荒野》要登录NS2？最新解包暗示已经在做了！

2025-12-30 14:04

如何正确使用 Axios 发送 PUT 请求更新 MongoDB 中的嵌套文档