
本文详细介绍了如何利用 python 的 beautiful soup 库,结合 css 选择器(特别是 `:has` 伪类),从非结构化 html 中精确提取特定文本内容。通过定位包含特定子元素的 `
在网页数据抓取(Web Scraping)任务中,我们经常需要从结构不规则或复杂的 HTML 文档中提取特定的文本信息。例如,当目标文本紧跟在一个 <br> 标签之后,并且其父元素 <td> 内部还包含其他标签(如 <strong>)时,传统的 find() 或 find_all() 方法配合简单的属性选择可能难以精确锁定。本文将深入探讨如何使用 Beautiful Soup 库结合强大的 CSS 选择器来解决这类挑战。
考虑以下 HTML 片段,我们需要提取 "Animal:" 和 "Fish:" 后面的文本 "aaa" 和 "bbb"。这些文本都位于 <td> 标签内,紧随一个 <br> 标签,并且其 <td> 父元素中还包含一个 <strong> 标签。
<html>
<head></head>
<body>
<table style="max-width: 600px; margin: auto;">
<tbody>
<tr>
<td>Swan</td>
<td>Flower</td>
</tr>
<tr>
<td colspan="2" style="background: #ffffff;">
<h5>Playground</h5>
</td>
</tr>
<tr>
<td colspan="2">
<strong>Animal:</strong>
<br>aaa</td>
</tr>
<tr>
<td colspan="2">
<strong>Fish:</strong>
<br>bbb</td>
</tr>
<tr>
<td colspan="2" style="text-align: center;">
<form method="post">
<input type="hidden" name="yyy" value="7777">
<input type="hidden" name="rrr" value="wssss">
<input type="submit" value="djd ddd" style="width: 250px;">
</form>
</td>
</tr>
</tbody>
</table>
</body>
</html>初始尝试可能包括使用 find_all('td', {'colspan': '2', 'strong': True}),但这种方式无法正确匹配,因为 'strong': True 并非 td 标签的有效属性。即使能够找到 <td> 标签,如何可靠地获取 <br> 后的文本也是一个问题,因为 next_sibling 可能返回换行符或空格,需要额外的清理。
Beautiful Soup 提供了 select() 方法,允许我们使用强大的 CSS 选择器来定位元素,这在处理复杂结构时非常有效。特别是 :has() 伪类,它允许我们选择包含特定子元素的父元素。
立即学习“前端免费学习笔记(深入)”;
from bs4 import BeautifulSoup
html_text = """\
<html>
<head></head>
<body>
<table style="max-width: 600px; margin: auto;">
<tbody>
<tr>
<td>Swan</td>
<td>Flower</td>
</tr>
<tr>
<td colspan="2" style="background: #ffffff;">
<h5>Playground</h5>
</td>
</tr>
<tr>
<td colspan="2">
<strong>Animal:</strong>
<br>aaa</td>
</tr>
<tr>
<td colspan="2">
<strong>Fish:</strong>
<br>bbb</td>
</tr>
<tr>
<td colspan="2" style="text-align: center;">
<form method="post">
<input type="hidden" name="yyy" value="7777">
<input type="hidden" name="rrr" value="wssss">
<input type="submit" value="djd ddd" style="width: 250px;">
</form>
</td>
</tr>
</tbody>
</table>
</body>"""
# 使用 Beautiful Soup 解析 HTML
soup = BeautifulSoup(html_text, "html.parser")
# 使用 CSS 选择器定位包含 <strong> 标签的 <td> 元素
# ":has(strong)" 伪类确保我们只选择那些内部确实有 <strong> 标签的 td
target_td_elements = soup.select("td:has(strong)")
# 遍历所有匹配的 <td> 元素并提取所需文本
extracted_texts = []
for td in target_td_elements:
# stripped_strings 会迭代元素及其子孙节点中的所有文本字符串,并去除空白
# 由于目标文本 'aaa'/'bbb' 是在 <strong> 和 <br> 之后,
# 它将是 stripped_strings 迭代器中的最后一个有效字符串。
# 将迭代器转换为列表并取最后一个元素
text = list(td.stripped_strings)[-1]
extracted_texts.append(text)
print(text)
print("\n所有提取的文本:", extracted_texts)输出结果:
aaa bbb 所有提取的文本: ['aaa', 'bbb']
strings = list(td.stripped_strings)
if strings:
text = strings[-1]
extracted_texts.append(text)通过本文的介绍,我们学习了如何利用 Beautiful Soup 结合强大的 CSS 选择器(尤其是 :has() 伪类)和 stripped_strings 属性,高效且精确地从非结构化 HTML 中提取特定文本。这种方法比简单的属性匹配或 DOM 遍历更加灵活和鲁棒,尤其适用于处理那些文本内容被包裹在复杂标签结构中的场景。掌握这些技巧将极大地提升你在网页数据抓取任务中的效率和成功率。
以上就是使用 Beautiful Soup 从非结构化 HTML 中精确提取特定文本的详细内容,更多请关注php中文网其它相关文章!
HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号