如何使用 Beautiful Soup 正确提取网页中的所有分类链接

心靈之曲

发布时间：2025-12-31 19:52:04

630人浏览过

来源于php中文网

原创

如何使用 Beautiful Soup 正确提取网页中的所有分类链接

本文详解为何 `find_all(class_="side_categories")` 返回单个 `

` 而非预期的链接列表，并提供两种可靠方法（css 选择器与嵌套 `find`/`find_all`）精准定位并提取图书网站的所有分类 url。

当你调用 soup.find_all(class_="side_categories") 时，Beautiful Soup 确实返回了一个 ResultSet（本质是类列表对象），但它只包含一个匹配的

元素——因为整个页面中该 class 仅出现一次。这个
是分类导航的容器，而非你要的每个分类链接本身。因此你看到的是一个包裹了完整嵌套 HTML 的单元素列表，而非可直接遍历的标签集合。
要获取所有分类链接（即标签），需进一步在该容器内查找目标元素。以下是两种推荐做法：

✅ 方法一：使用 CSS 选择器（推荐，简洁高效）
from bs4 import BeautifulSoup import requests url = "http://books.toscrape.com/" page = requests.get(url) soup = BeautifulSoup(page.text, "html.parser") # 直接定位所有位于 .side_categories 内的标签（层级更精确） for link in soup.select('.side_categories li a'): href = link.get('href') if href: # 防止 None 值 full_url = url.rstrip('/') + '/' + href.lstrip('/') print(full_url)
✅ 方法二：链式查找（语义清晰，易理解）
# 先找到容器，再在其内部查找所有标签 side_nav = soup.find(class_='side_categories') if side_nav: for link in side_nav.find_all('a'): href = link.get('href') if href: full_url = url.rstrip('/') + '/' + href.lstrip('/') print(full_url)
⚠️ 注意事项：find() 返回单个 Tag 对象（或 None），而 find_all() 返回 ResultSet（可迭代）；使用 select() 或 find_all() 时，务必确认选择器路径是否准确（如 .side_categories li a 表示“class 为 side_categories 的元素下的所有 li 中的 a”）；处理 href 时建议做空值检查（link.get('href') 可能为 None），并规范化 URL 拼接（避免双斜杠 //）；若需提取分类名称（如 “Travel”, “Mystery”），可用 link.get_text(strip=True) 替代 link.get('href')。

通过以上任一方法，你将获得真正的可迭代链接列表，轻松完成后续数据采集任务。核心原则是：先定位容器，再聚焦目标；避免对容器本身调用 find_all，而应在容器内查找子元素。

Musico
Musico 是一个AI驱动的软件引擎，可以生成音乐。它可以对手势、动作、代码或其他声音做出反应。

下载

从CSS定位Div布局到HTML表格或Grid布局的转换策略

将基于CSS样式将Div布局转换为HTML表格

使用Selenium抓取动态隐藏内容的策略与实践

从CSS定位Div布局到HTML表格或CSS Grid的转换策略

BeautifulSoup嵌套元素提取指南：从HTML获取到内容解析

相关标签:

css html go css html select class 对象 href 选择器 li

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何使用 CCXT 在 Bybit 上开平仓做空头寸下一篇：暂无

作者最新文章

精选AI销售工具：提升业绩的终极指南（2025年最新）

2025-12-30 10:11

历史影像解密：唇语专家如何还原一战士兵对话？

2025-12-30 10:11

驾校一点通怎么查看成绩？-驾校一点通查看成绩的方法

2025-12-30 10:13

小黑盒怎么绑定Steam

2025-12-30 10:17

地产视频号直播怎么提高流量

2025-12-30 10:19

AI邮件营销风险解析：如何规避客户触达的潜在陷阱

2025-12-30 10:20

《下一站江湖2》合欢花作用介绍

2025-12-30 10:20

《次元姬小说》举报小说方法

2025-12-30 10:22

夸克小说模式如何调出

2025-12-30 10:23

《小米游戏中心》玩过的游戏查看方法

2025-12-30 10:24

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

css

css是层叠样式表，用来表现HTML或XML等文件样式的计算机语言，不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

500

2023.06.15

css居中

css居中：1、通过“margin: 0 auto; text-align: center”实现水平居中；2、通过“display:flex”实现水平居中；3、通过“display:table-cell”和“margin-left”实现居中。本专题为大家提供css居中的相关的文章、下载、课程内容，供大家免费下载体验。

261

2023.07.27