如何在 Python 网页抓取中解析 HTML 图标语义并动态添加正负号标识

碧海醫心

发布时间：2025-12-29 14:34:02

759人浏览过

来源于php中文网

原创

如何在 Python 网页抓取中解析 HTML 图标语义并动态添加正负号标识

本文介绍如何利用 beautifulsoup 解析 wikipedia 表格中通过绿色/红色三角图标（含 title 属性）隐含的“增长方向”语义，并将其转化为显式的 `+` 或 `-` 符号，从而准确提取营收增长率的正负含义。

在网页抓取实践中，许多数据并非以纯文本形式呈现，而是借助 HTML 元素（如如何在 Python 网页抓取中解析 HTML 图标语义并动态添加正负号标识、中的 title 或 CSS 类）传递语义信息。Wikipedia 的“营收增长率”列正是典型场景：它用带 title="Increase" 或 title="Decrease" 的包裹三角图标，而实际数值文本却未携带符号。直接调用 .text.strip() 会丢失这一关键逻辑，导致所有增长率都显示为正值。

要正确还原正负含义，核心思路是：定位承载语义的 HTML 节点 → 提取其语义属性（如 title）→ 根据条件修改对应单元格内容。

以下是一个健壮、可复用的解决方案：

from bs4 import BeautifulSoup
import pandas as pd
import requests

url = 'https://en.wikipedia.org/wiki/List_of_largest_companies_in_the_United_States_by_revenue'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 定位所有含 title 属性的 span 的父 td（即营收增长率所在单元格）
for td in soup.select('td:has(span[title])'):
    try:
        # 获取嵌套 span 的 title 值（注意层级：td > span > span）
        title = td.find('span').find('span')['title']
        text_value = td.get_text(strip=True)

        if title == 'Increase':
            new_content = f'+ {text_value}'
        elif title == 'Decrease':
            new_content = f'- {text_value}'
        else:
            new_content = text_value  # 保底：未知 title 不修改

        # 替换整个 td 内容（保留结构，仅更新文本与符号）
        td.replace_with(BeautifulSoup(f'{new_content}', 'html.parser'))
    except (AttributeError, KeyError, TypeError):
        # 容错：跳过结构异常的单元格（如缺失 span 或 title）
        continue

# 使用 pandas 读取已修正的 HTML 表格（推荐索引为 1，因首表常为导航栏）
df = pd.read_html(str(soup))[1]
print(df[['Name', 'Revenue growth']].head())

✅ 关键要点说明：

DubbingX智声云配

多情绪免费克隆AI音频工具

下载

立即学习“Python免费学习笔记（深入）”；

soup.select('td:has(span[title])') 是精准定位的关键：CSS 选择器 :has() 可筛选出包含带 title 属性的，避免遍历全部单元格。
注意 DOM 结构：Wikipedia 实际使用 td > span > span 嵌套，因此需 td.find('span').find('span')['title']，而非直接查 img（原问题中图标已由 SVG 替代，alt 属性不可靠）。
使用 replace_with() + BeautifulSoup(..., 'html.parser') 确保新内容被正确解析为 HTML 节点，避免字符串拼接引发的转义或结构破坏。
异常处理（try/except）必不可少：网页结构可能随编辑变动，忽略个别失败项比中断整个流程更鲁棒。
最终交由 pandas.read_html() 解析，既简洁又自动处理表头、类型推断等细节，远胜手动构建列表。

⚠️ 注意事项：

不要依赖 img[alt] —— 当前 Wikipedia 已将三角图标改为 inline SVG，alt 属性常为空或缺失；title 属性才是稳定语义源。
避免在循环中直接修改 row_data 后再调用 data.text：此时 DOM 已变更，原始 .text 可能失效。应先提取语义，再统一替换。
若需进一步清洗（如去除空格、转换为浮点数），建议在 pandas 加载后使用 df['Revenue growth'].str.extract(r'([+-])\s*(\d+\.\d+)%') 进行结构化解析。

该方法不仅适用于 Wikipedia，也适用于任何通过 HTML 属性传递业务语义的表格场景——真正实现“让代码读懂网页的潜台词”。

从CSS定位Div布局到HTML表格或Grid布局的转换策略

将基于CSS样式将Div布局转换为HTML表格

使用Selenium抓取动态隐藏内容的策略与实践

从CSS定位Div布局到HTML表格或CSS Grid的转换策略

BeautifulSoup嵌套元素提取指南：从HTML获取到内容解析

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

css python html svg elif Python css html beautifulsoup pandas select try 字符串循环 dom 选择器 td

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：将字符串形式的赋值语句安全、可控地执行为实际变量赋值下一篇：如何通过键盘事件中断计算循环并返回参数输入阶段

作者最新文章

Laravel Sail 数据库驱动错误解决方案（Mac M1/M2 环境）

2025-12-27 21:21

JAX梯度计算中链式布尔表达式的正确写法

2025-12-27 22:13

如何在 Vaadin 23 中监听页面后退操作并弹出确认对话框

2025-12-27 22:21

如何在 Pipfile 中正确引用本地 Git 仓库的指定分支

2025-12-27 22:46

如何在 Go 中正确使用 exec.Command 调用 awk 命令

2025-12-27 22:52

如何在 Go 中实现 SoundCloud 音频流播放

2025-12-27 23:01

如何在 Vaadin 23 中拦截浏览器后退按钮并显示确认对话框

2025-12-27 23:04

如何在 Pipfile 中正确引用本地 Git 仓库的特定分支

2025-12-27 23:05

如何仅用纯 CSS 实现 HTML 多语言切换（无需 JavaScript）

2025-12-27 23:31

如何通过点击将列表项移至顶部

2025-12-27 23:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

710

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

737

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

696

2023.08.11