如何用Python提取HTML中由div和span元素构成的表格数据？-html教程-PHP中文网

如何用Python提取HTML中由div和span元素构成的表格数据？

碧海醫心

发布： 2025-02-21 10:18:25

原创

997人浏览过

如何用Python提取HTML中由div和span元素构成的表格数据？

python高效解析html表格：div和span元素的巧妙处理

本文介绍如何利用Python高效提取HTML文档中由div和span元素构成的表格数据。我们将使用强大的BeautifulSoup库来完成此任务。

BeautifulSoup库的应用

BeautifulSoup是Python中流行的HTML/XML解析库，它提供简洁易用的API，方便我们提取网页数据。下面是使用BeautifulSoup提取表格数据的步骤：

<code class="python">import bs4

# 假设html_content已包含HTML页面内容
soup = bs4.BeautifulSoup(html_content, 'html.parser')

# 定位包含表格的div元素 (根据实际HTML结构调整)
table_div = soup.find('div', {'id': 'articlelistnew'})

# 提取表格行
rows = table_div.find_all('div', {'class': 'articleh'})

# 提取每一行的数据
data = []
for row in rows:
    cells = row.find_all('span')  # 假设单元格由span元素构成
    row_data = [cell.text.strip() for cell in cells] # 提取文本并去除空格
    data.append(row_data)

# 打印提取结果
print(data)</code>

登录后复制

这段代码首先创建BeautifulSoup对象，然后根据HTML结构定位包含表格数据的div元素，再提取每一行（div元素），最后从每一行中提取单元格数据（span元素），并将其存储到data列表中。text.strip()用于去除单元格文本中的多余空格。请根据你的实际HTML结构调整代码中的选择器('div', {'id': 'articlelistnew'} 和 'div', {'class': 'articleh'})。