如何使用 BeautifulSoup 提取文本及其对应的 HTML 标签名

心靈之曲

发布时间：2026-01-04 21:03:08

719人浏览过

来源于php中文网

原创

如何使用 BeautifulSoup 提取文本及其对应的 HTML 标签名

本文介绍如何通过 beautifulsoup 遍历 html 元素，准确获取每个标签内的纯文本内容及其原始标签名（如 `p`、`h1`），并避免常见解析陷阱。

在使用 BeautifulSoup 解析 HTML 片段时，一个常见需求是：同时提取每段文本及其所属的 HTML 标签名称（如

对应 'p'，

对应 'h1'）
。初学者常误用 tag.tag 或尝试遍历 soup 根对象的直接子节点，结果因混入 NavigableString（如空白符、换行）而报错——NavigableString 对象没有 tag 属性，也无 name。

正确做法是：使用 soup.find_all() 获取所有标签元素（不包括文本节点），再通过 .text 获取渲染后纯文本，用 .name 属性获取标签名。注意：.name 是 BeautifulSoup 中表示标签名称的标准属性（例如

的 tag.name 为 'div'），而非 .tag（该属性不存在）。

以下为完整示例代码：

from bs4 import BeautifulSoup

html = '''Some text
立即学习“前端免费学习笔记（深入）”；

							
								
								
									Hitems
									HITEMS是一个AI驱动的创意设计平台，支持一键生成产品
								
								下载 
							
						
Some text
More content'''
soup = BeautifulSoup(html, 'html.parser')  # 推荐显式指定解析器

for tag in soup.find_all():
    print(f"'{tag.text}' → <{tag.name}>")

输出结果：

'Some text' →

'More content' →

✅ 关键注意事项：

始终显式传入解析器（如 'html.parser'），避免依赖默认解析器（如 lxml）导致结构被自动补全（例如包裹成 ...），干扰原始标签层级；
find_all() 默认返回所有嵌套标签（含子标签），若只需顶层标签，可加参数 recursive=False；
若需排除空标签或过滤特定标签，可结合 find_all('p', 'h1', 'span') 或使用 CSS 选择器（如 soup.select('p, h1')）；
.text 返回的是已合并的可见文本（自动忽略注释、脚本内容等），如需保留原始 HTML 内容，改用 .get_text() 并配置分隔符，或直接访问 .string（仅当标签内仅有单一字符串时有效）。

掌握 tag.name 与 tag.text 的组合使用，即可稳健实现“文本–标签”映射，为后续内容分析、结构化抽取或模板渲染打下基础。

HTML5如何设置行高_lineheight属性值选择与视觉效果【教程】

如何实现可收起的面板并自动推移下方内容

HTML5如何控制文字选中样式_userselect属性禁止选择方法【教程】

html如何外联_HTML外联CSS或JS文件的方法【指南】

HTML5动画如何实现遮罩效果_HTML5遮罩层应用技巧【遮罩教程】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

css html css html beautifulsoup String select 字符串对象选择器

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：html5源代码发行后怎么加返回顶部_返回顶部按钮实现代码【技巧】下一篇：html5后台怎么进_html5通过Ajax请求或表单提交进入后台管理系统【进入】

作者最新文章

Chart.js 动态切换图表类型（Line/Bar/Pie）的完整解决方案

2026-01-08 10:59

如何分析视频号话题数据？话题数据怎么删除？

2026-01-08 11:00

P&ID图终极指南：掌握工艺流程图的绘制与解读

2026-01-08 11:02

小米玄戒o1是自研的吗

2026-01-08 11:04

抖音来客企业号是什么？如何申请抖音来客企业号？

2026-01-08 11:06

AI 销售助手演示：提升客户互动和业务增长

2026-01-08 11:10

Zapier Agents终极指南：AI自动化工作流程，提升效率

2026-01-08 11:15

《尖叫皇后》：ASMR沙龙背后的美发师，当心“枕边人”！

2026-01-08 11:17

Tempo.new + Supabase：AI驱动的快速应用开发指南

2026-01-08 11:21

剪映如何将画面定格

2026-01-08 11:28

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

css

css是层叠样式表，用来表现HTML或XML等文件样式的计算机语言，不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

509

2023.06.15

css居中

css居中：1、通过“margin: 0 auto; text-align: center”实现水平居中；2、通过“display:flex”实现水平居中；3、通过“display:table-cell”和“margin-left”实现居中。本专题为大家提供css居中的相关的文章、下载、课程内容，供大家免费下载体验。

261

2023.07.27