如何安全提取Beautiful Soup中含链接的表格行数据

碧海醫心

发布时间：2025-12-30 22:31:04

650人浏览过

来源于php中文网

原创

如何安全提取Beautiful Soup中含链接的表格行数据

本文详解在使用beautiful soup解析网页表格时，因部分表格行缺失 `big chart 页面为例，#section-chemicals 表能成功遍历，而 #section-plants 表却抛出 attributeerror: 'nonetype' object has no attribute 'contents'——根本原因在于：该表首行是表头（）或空行，不含任何标签，导致 r.find('a') 返回 none，后续调用 .contents[0] 或 .text 必然失败。

直接对 find() 结果做属性访问而不校验，是引发此类错误的典型模式。以下是推荐的三种稳健处理方式：

✅ 方案一：使用 CSS 伪类 :has()（推荐，简洁高效）
import requests from bs4 import BeautifulSoup url = 'https://www.php.cn/link/013c0727c2f3b90ec8545f5062f75360' soup = BeautifulSoup(requests.get(url).content, 'html.parser') plants_table = soup.select_one('#section-PLANTS') # 只选取包含标签的行，自动跳过表头/空行 for row in plants_table.select('tr:has(a)'): print(row.find('a').get_text(strip=True))
? tr:has(a) 是现代 BeautifulSoup（配合 lxml 或 html.parser）支持的 CSS 选择器，语义清晰、性能优秀，无需手动判断 None。

✅ 方案二：显式空值检查（兼容性最强）
for row in plants_table.find_all('tr'): link = row.find('a') if link: # 确保 link 不为 None print(link.get_text(strip=True))
✅ 方案三：使用 find_next() 或 select_one() 避免链式调用风险
for row in plants_table.find_all('tr'): link = row.select_one('a') # 返回 None 或 Tag，更安全 if link: print(link.get_text(strip=True))
⚠️ 注意事项

永远不要对 find() / select_one() 的返回值直接链式调用 .text 或 ['href']，除非你 100% 确认该元素必然存在；

使用 .get_text(strip=True) 替代 .contents[0] 更鲁棒——它能合并嵌套文本节点并去除首尾空白；

若目标页面结构复杂（如含 / ），建议先用 soup.select('#section-PLANTS tbody tr') 显式限定范围；
在生产环境中，务必添加异常处理与网络请求超时：
try: resp = requests.get(url, timeout=10) resp.raise_for_status() soup = BeautifulSoup(resp.content, 'html.parser') except (requests.RequestException, AttributeError) as e: print(f"解析失败: {e}")

通过合理选用 CSS 选择器或前置空值校验，即可彻底规避 NoneType 错误，让表格数据提取既准确又健壮。

Wegic
AI网页设计和开发工具

下载

html5 before怎么用_html5用::before伪元素在元素前加装饰或内容【使用】

html5怎么设置悬浮_HT5用CSS position:fixed设元素悬浮固定【设置】

html5 怎么加圆角_HT5用CSS border-radius设元素边角圆角大小【加圆角】

如何在图片上居中显示文字（水平垂直居中）

HTML5怎么让视频适应暗色模式_深色主题下视频的显示调整【详解】

相关标签:

css html ai css html beautifulsoup Object select Attribute href 选择器伪类 tbody tr th

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：使用极大数值的 height（如 1000000px）设置 div 是否可行？下一篇：暂无

作者最新文章

Laravel Sail 数据库驱动错误解决方案（Mac M1/M2 环境）

2025-12-27 21:21

JAX梯度计算中链式布尔表达式的正确写法

2025-12-27 22:13

如何在 Vaadin 23 中监听页面后退操作并弹出确认对话框

2025-12-27 22:21

如何在 Pipfile 中正确引用本地 Git 仓库的指定分支

2025-12-27 22:46

如何在 Go 中正确使用 exec.Command 调用 awk 命令

2025-12-27 22:52

如何在 Go 中实现 SoundCloud 音频流播放

2025-12-27 23:01

如何在 Vaadin 23 中拦截浏览器后退按钮并显示确认对话框

2025-12-27 23:04

如何在 Pipfile 中正确引用本地 Git 仓库的特定分支

2025-12-27 23:05

如何仅用纯 CSS 实现 HTML 多语言切换（无需 JavaScript）

2025-12-27 23:31

如何通过点击将列表项移至顶部

2025-12-27 23:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

css

css是层叠样式表，用来表现HTML或XML等文件样式的计算机语言，不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

498

2023.06.15

css居中

css居中：1、通过“margin: 0 auto; text-align: center”实现水平居中；2、通过“display:flex”实现水平居中；3、通过“display:table-cell”和“margin-left”实现居中。本专题为大家提供css居中的相关的文章、下载、课程内容，供大家免费下载体验。

261

2023.07.27