
利用python高效提取html表格数据,即使数据被div和span标签分割!
以下HTML代码展示了一个由Div和Span标签嵌套的表格结构:
阅读评论标题作者最后更新4712......09-12 00:096033......09-11 16:01
借助Beautiful Soup库,我们可以轻松实现数据提取:
from bs4 import BeautifulSoup html = """""" soup = BeautifulSoup(html, 'html.parser') # 获取表头 headers = soup.find('div', class_='dheader').text.split() # 获取表格数据 rows = [] for row_div in soup.find_all('div', class_='articleh normal_post'): rows.append(row_div.text.split()) # 打印结果 (可选,根据实际需求调整输出格式) print("表头:", headers) print("表格数据:", rows)阅读评论标题作者最后更新4712......09-12 00:096033......09-11 16:01
这段代码首先使用BeautifulSoup解析HTML,然后分别提取表头和表格数据。需要注意的是,由于示例HTML中数据并非严格的表格结构,代码根据空格分割文本内容来模拟表格数据。 实际应用中,需要根据目标HTML的具体结构调整数据提取逻辑。 提取后的数据存储在headers和rows列表中,方便后续处理和使用。











