Python 爬虫通过 BeautifulSoup 库中的 find_all() 和 find_all_next() 方法,可以爬取 UL 元素及其子元素:find_all() 查找指定标签和属性的所有子元素。find_all_next() 查找所有后续兄弟元素,直到找到具有指定标签和属性的元素。

Python 爬虫如何爬取 UL 元素
简介
UL 元素是 HTML 中的有序列表,它包含一系列 LI(列表项)元素。Python 爬虫可以轻松爬取 UL 元素及其子元素,以提取数据或进行其他操作。
方法
立即学习“Python免费学习笔记(深入)”;
要爬取 UL 元素,可以使用 BeautifulSoup 库中的以下方法:
-
find_all(tag, attrs):查找具有指定标签和属性的所有子元素。 -
find_all_next(tag, attrs):查找所有后续兄弟元素,直到找到具有指定标签和属性的元素。
详细步骤
假设有一个 HTML 文档包含以下 UL 元素:
- Item 1
- Item 2
- Item 3
1. 导入 BeautifulSoup 库
from bs4 import BeautifulSoup
2. 解析 HTML
soup = BeautifulSoup(html_content, "html.parser")
3. 查找 UL 元素
ul = soup.find("ul", id="my-list")4. 迭代 LI 元素
for li in ul.find_all("li"):
# 处理每个 LI 元素
print(li.text)输出
Item 1 Item 2 Item 3
附加说明
- 可以使用 attrs 参数指定其他属性,例如
class或style。 - find_all_next() 方法可用于遍历以下 LI 元素,以提取更多数据。
- 可以使用 CSS 选择器语法进行更复杂的选择,例如
ul#my-list li:nth-child(2)查找第二个 LI 元素。











