0

0

如何使用 Beautiful Soup 精准定位并提取指定表格

心靈之曲

心靈之曲

发布时间:2026-01-12 14:57:09

|

269人浏览过

|

来源于php中文网

原创

如何使用 Beautiful Soup 精准定位并提取指定表格

本文详解如何在网页中准确选择目标表格(如 wikipedia 的“results by state”表),避免误取同类型首个表格;重点讲解 `find()` 与 `find_all()` 的关键区别、文本匹配策略及健壮性优化技巧。

在使用 Beautiful Soup 进行网页表格抓取时,一个常见误区是依赖 soup.find("table", class_="wikitable sortable")——该方法仅返回第一个匹配的

元素,而 Wikipedia 页面中存在多个同类表格(如上方的“Joe Biden vs Donald Trump”汇总表),导致程序总是抓取错误的目标。

要精准定位“Results by State”表格,核心思路是:先获取所有候选表格,再通过内容特征进行筛选。以下是推荐的完整实现:

import requests
from bs4 import BeautifulSoup

url = 'https://en.wikipedia.org/wiki/2020_United_States_presidential_election'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}

try:
    response = requests.get(url, headers=headers, timeout=15)
    response.raise_for_status()  # 检查HTTP错误
    soup = BeautifulSoup(response.text, 'html.parser')

    # ✅ 使用 find_all 获取全部候选表格(而非 find)
    candidate_tables = soup.find_all('table', class_='wikitable sortable')

    target_table = None
    for table in candidate_tables:
        # ? 更可靠的匹配方式:检查 table 标题或紧邻的标题元素(h2/h3)
        # 因为 table.text 可能包含大量无关文本,易误判
        heading = table.find_previous(['h2', 'h3'])
        if heading and 'Results by state' in heading.get_text():
            target_table = table
            break

    if not target_table:
        raise ValueError("未找到 'Results by state' 表格,请检查页面结构是否变更")

    # 提取表头(th)
    headers = [th.get_text(strip=True) for th in target_table.find_all('th')]

    # 提取数据行(tr → td)
    rows = []
    for tr in target_table.find_all('tr')[1:]:  # 跳过表头行
        tds = tr.find_all(['td', 'th'])  # 部分行可能含 th(如州名行)
        row = [td.get_text(strip=True) for td in tds]
        if row:  # 过滤空行
            rows.append(row)

    print("表头:", headers)
    print("前3行数据:", rows[:3])

except requests.RequestException as e:
    print(f"网络请求失败: {e}")
except Exception as e:
    print(f"解析异常: {e}")

? 关键优化点说明:

白果AI论文
白果AI论文

论文AI生成学术工具,真实文献,免费不限次生成论文大纲 10 秒生成逻辑框架,10 分钟产出初稿,智能适配 80+学科。支持嵌入图表公式与合规文献引用

下载
  • 避免 table.text 全文匹配:原始方案中 'Results by state' in table.text 易受隐藏文本、注释或冗余内容干扰,推荐改用 find_previous(['h2','h3']) 定位语义化标题,更稳定可靠;
  • 添加请求头(User-Agent):防止 Wikipedia 返回 403 错误;
  • 显式异常处理:涵盖网络超时、HTTP 错误及解析失败场景;
  • 安全跳过空行 & 混合标签处理:find_all(['td','th']) 应对部分行首列为
的维基表格惯例。

? 进阶提示: 若需长期维护爬虫,建议结合 select() 方法使用 CSS 选择器(如 soup.select('h2:contains("Results by state") + div + table.wikitable')),或借助 lxml 解析器提升性能与容错性。始终以页面实际 HTML 结构为准,定期验证选择器有效性。

相关专题

更多
css
css

css是层叠样式表,用来表现HTML或XML等文件样式的计算机语言,不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

509

2023.06.15

css居中
css居中

css居中:1、通过“margin: 0 auto; text-align: center”实现水平居中;2、通过“display:flex”实现水平居中;3、通过“display:table-cell”和“margin-left”实现居中。本专题为大家提供css居中的相关的文章、下载、课程内容,供大家免费下载体验。

262

2023.07.27

css如何插入图片
css如何插入图片

cssCSS是层叠样式表(Cascading Style Sheets)的缩写。它是一种用于描述网页或应用程序外观和样式的标记语言。CSS可以控制网页的字体、颜色、布局、大小、背景、边框等方面,使得网页的外观更加美观和易于阅读。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

752

2023.07.28

css超出显示...
css超出显示...

在CSS中,当文本内容超出容器的宽度或高度时,可以使用省略号来表示被隐藏的文本内容。本专题为大家提供css超出显示...的相关文章,相关教程,供大家免费体验。

537

2023.08.01

css字体颜色
css字体颜色

CSS中,字体颜色可以通过属性color来设置,用于控制文本的前景色,字体颜色在网页设计中起到很重要的作用,具有以下表现作用:1、提升可读性;2、强调重点信息;3、营造氛围和美感;4、用于呈现品牌标识或与品牌形象相符的风格。

757

2023.08.10

什么是css
什么是css

CSS是层叠样式表(Cascading Style Sheets)的缩写,是一种用于描述网页(或其他基于 XML 的文档)样式与布局的标记语言,CSS的作用和意义如下:1、分离样式和内容;2、页面加载速度优化;3、实现响应式设计;4、确保整个网站的风格和样式保持统一。

603

2023.08.10

css三角形怎么写
css三角形怎么写

CSS可以通过多种方式实现三角形形状,本专题为大家提供css三角形怎么写的相关教程,大家可以免费体验。

559

2023.08.21

css设置文字颜色
css设置文字颜色

CSS(层叠样式表)可以用于设置文字颜色,这样做有以下好处和优势:1、增加网页的可视化效果;2、突出显示某些重要的信息或关键字;3、增强品牌识别度;4、提高网页的可访问性;5、引起不同的情感共鸣。

389

2023.08.22

Java 项目构建与依赖管理(Maven / Gradle)
Java 项目构建与依赖管理(Maven / Gradle)

本专题系统讲解 Java 项目构建与依赖管理的完整体系,重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例,帮助学习者掌握 从零搭建、维护到发布 Java 工程的标准化流程,提升在实际团队开发中的工程能力与协作效率。

8

2026.01.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

CSS教程
CSS教程

共754课时 | 18.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号