
本教程旨在教授如何使用 python 的 pandas 库高效地从网页中抓取 html 表格数据。通过 `pd.read_html()` 函数,您可以仅用几行代码就能将复杂的网页表格解析为结构化的 dataframe 对象,并轻松保存为 csv 文件,极大简化了传统网页抓取中解析表格的繁琐过程。
在数据分析和自动化任务中,从网页上提取结构化数据是一项常见需求。特别是当数据以 HTML 表格的形式呈现时,手动复制粘贴效率低下且易出错。传统的网页抓取方法,如使用 BeautifulSoup 和 requests 库,虽然功能强大,但在处理表格数据时,往往需要编写较多的代码来定位 <table>、<tr> 和 <td> 标签,然后逐个提取单元格内容,最后手动构建数据结构。这种方法对于简单的表格尚可接受,但对于包含多个表格或复杂结构的页面,维护成本较高。
Python 的 Pandas 库提供了一个极其便捷的功能 read_html(),它能够直接识别网页中的 HTML 表格,并将其解析成 DataFrame 对象。这极大地简化了从网页抓取表格数据的过程,通常只需几行代码即可完成。
pd.read_html() 函数的工作原理是:它会扫描给定的 URL 或 HTML 字符串,查找所有的 <table> 标签,并尝试将它们解析为 DataFrame。由于一个网页可能包含多个表格,该函数会返回一个 DataFrame 对象的列表。
我们将以 NCAA 女子足球 RPI 排名页面为例(https://www.ncaa.com/rankings/soccer-women/d1/ncaa-womens-soccer-rpi),演示如何使用 pd.read_html() 高效地抓取排名数据。
立即学习“前端免费学习笔记(深入)”;
首先,确保您的环境中安装了 Pandas 库。如果尚未安装,可以通过 pip install pandas 命令进行安装。然后,在您的 Python 脚本中导入它:
import pandas as pd
定义您希望抓取数据的网页链接。
url = "https://www.ncaa.com/rankings/soccer-women/d1/ncaa-womens-soccer-rpi"
调用 pd.read_html() 函数,传入目标 URL。该函数会返回一个包含页面上所有表格的 DataFrame 列表。通常,我们感兴趣的表格是列表中的第一个元素(索引为 0)。
# read_html 返回一个DataFrame列表,通常第一个元素就是我们需要的表格 dfs = pd.read_html(url) df = dfs[0]
现在,df 变量中存储的就是从网页表格中提取出的结构化数据。您可以打印 df 来查看其内容,也可以将其保存为 CSV 文件,以便后续分析。
# 打印 DataFrame 的前几行以进行检查
print(df.head())
# 将 DataFrame 保存为 CSV 文件
df.to_csv("ncaa_womens_soccer_rpi.csv", index=False) # index=False 避免将 DataFrame 索引写入 CSV
print("\n数据已成功抓取并保存到 ncaa_womens_soccer_rpi.csv")完整示例代码:
import pandas as pd
# 目标网页 URL
url = "https://www.ncaa.com/rankings/soccer-women/d1/ncaa-womens-soccer-rpi"
# 使用 pandas.read_html 抓取网页中的所有表格
# 它返回一个DataFrame列表,通常我们需要的表格是第一个
dfs = pd.read_html(url)
df = dfs[0] # 选择第一个表格
# 打印 DataFrame 的前几行,进行初步检查
print("抓取到的数据预览:")
print(df.head())
# 将 DataFrame 保存为 CSV 文件
# index=False 避免将 DataFrame 的索引作为一列写入 CSV
df.to_csv("ncaa_womens_soccer_rpi.csv", index=False, encoding='utf-8')
print("\n数据已成功抓取并保存到 ncaa_womens_soccer_rpi.csv")运行上述代码,您将在控制台看到抓取到的数据预览,并且在当前目录下会生成一个名为 ncaa_womens_soccer_rpi.csv 的文件,其中包含了完整的 NCAA 女子足球 RPI 排名数据。
优势:
注意事项:
pandas.read_html() 是 Python 数据科学工具箱中一个被低估但极其强大的功能,它为从网页抓取 HTML 表格数据提供了一个优雅且高效的解决方案。通过掌握这个函数,您可以大幅提高数据获取的效率,将更多精力投入到数据分析和洞察中。然而,对于动态加载内容或结构异常复杂的表格,了解其局限性并结合其他网页抓取工具(如 Beautiful Soup 或 Selenium)将使您的爬虫技能更加全面。
以上就是使用 Pandas read_html 高效抓取网页表格数据教程的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号