使用Beautiful Soup从非结构化HTML中提取特定文本内容-Python教程-PHP中文网

使用Beautiful Soup从非结构化HTML中提取特定文本内容

本教程详细介绍了如何利用python的beautiful soup库从非结构化html中精确提取特定文本内容。文章聚焦于使用css选择器（特别是`:has`伪类）来定位包含特定子元素的`

`标签，并结合`stripped_strings`属性高效地获取`
`标签后的目标文本，旨在提供一种健壮且专业的html解析方案。

引言：HTML解析的挑战与Beautiful Soup

在网络爬虫和数据提取领域，从HTML页面中获取所需信息是一项常见任务。然而，由于HTML结构的多样性和非标准化，尤其是在处理“非结构化”或仅遵循松散约定的HTML时，精确地定位并提取目标数据可能极具挑战性。Python的Beautiful Soup库因其强大的解析能力和友好的API，成为解决这类问题的首选工具。它能够将复杂的HTML文档转换成一个Python对象，使得开发者可以通过标签名、属性、CSS选择器等多种方式轻松导航和搜索文档树。

本教程将通过一个具体示例，演示如何从一个包含嵌套标签和换行符的HTML片段中，提取特定标签后
标签分隔的文本内容。

理解目标与传统方法的局限性

假设我们有以下HTML结构，目标是提取“aaa”和“bbb”这两个文本片段：

<html>
<head></head>
<body>
    <table style="max-width: 600px; margin: auto;">
        <tbody>
            <tr>
                <td>Swan</td>
                <td>Flower</td>
            </tr>
            <tr>
                <td colspan="2" style="background: #ffffff;">
                    <h5>Playground</h5>
                </td>
            </tr>
            <tr>
                <td colspan="2">
                    <strong>Animal:</strong>
                    <br>aaa</td>
            </tr>
            <tr>
                <td colspan="2">
                    <strong>Fish:</strong>
                    <br>bbb</td>
            </tr>
            <tr>
                <td colspan="2" style="text-align: center;">
                    <form method="post">
                        <input type="hidden" name="yyy" value="7777">
                        <input type="hidden" name="rrr" value="wssss">
                        <input type="submit" value="djd ddd" style="width: 250px;">
                    </form>
                </td>
            </tr>
        </tbody>
    </table>
</body>
</html>

登录后复制

观察目标文本“aaa”和“bbb”，它们都位于

标签内，并且紧跟在标签和一个
标签之后。这些标签有一个共同的属性colspan="2"。
立即学习“前端免费学习笔记（深入）”；

一个常见的初步尝试可能是使用find_all方法结合属性字典来定位：
import requests from bs4 import BeautifulSoup # 假设已通过requests获取到response # response = requests.get(url='www.example.com', ...) # soup = BeautifulSoup(response.content, 'html.parser') # 示例使用硬编码HTML字符串 html_text = """... (上述HTML代码) ...""" soup = BeautifulSoup(html_text, 'html.parser') # 尝试使用find_all方法 # results = soup.find_all('td', {'colspan': '2', 'strong': True}) # 这种方式是错误的 # 错误的理解：'strong': True 试图匹配td标签自身是否有一个名为'strong'的属性，而不是是否包含子标签<strong> # 实际的find_all通常用于匹配标签自身的属性 results = soup.find_all('td', colspan='2') # 这样会匹配所有colspan=2的td标签
登录后复制
上述尝试中，{'colspan': '2', 'strong': True}作为find_all的第二个参数，期望匹配
标签的属性。然而，strong并非标签的属性，而是其子标签。因此，这种直接的find_all调用无法实现“查找包含子标签的”这一目标，导致返回空列表。
使用CSS选择器进行精确匹配

Beautiful Soup支持强大的CSS选择器，这为复杂的元素定位提供了优雅的解决方案。soup.select()方法允许我们使用CSS选择器语法来查找匹配的元素。

Opus
AI生成视频工具

77

查看详情

:has()伪类选择器

要解决“查找包含子标签的”的问题，我们可以利用CSS选择器中的:has()伪类。虽然原生的CSS标准中:has()是一个相对较新的特性，但在Beautiful Soup中，它通常能够被正确解析和应用。
选择器 td:has(strong) 的含义是：选择所有是
标签，并且其内部包含（作为后代）一个标签的元素。
from bs4 import BeautifulSoup html_text = """ <html> <head></head> <body> <table style="max-width: 600px; margin: auto;"> <tbody> <tr> <td>Swan</td> <td>Flower</td> </tr> <tr> <td colspan="2" style="background: #ffffff;"> <h5>Playground</h5> </td> </tr> <tr> <td colspan="2"> <strong>Animal:</strong> <br>aaa</td> </tr> <tr> <td colspan="2"> <strong>Fish:</strong> <br>bbb</td> </tr> <tr> <td colspan="2" style="text-align: center;"> <form method="post"> <input type="hidden" name="yyy" value="7777"> <input type="hidden" name="rrr" value="wssss"> <input type="submit" value="djd ddd" style="width: 250px;"> </form> </td> </tr> </tbody> </table> </body> </html> """ soup = BeautifulSoup(html_text, "html.parser") # 使用CSS选择器定位包含标签的 target_tds = soup.select("td:has(strong)") print("找到的标签数量:", len(target_tds)) # 预期输出: 找到的标签数量: 2
登录后复制
这段代码将准确地返回包含Animal:和Fish:的两个标签。
提取目标文本内容

一旦我们定位到正确的
标签，下一步就是从这些标签中提取“aaa”和“bbb”这样的文本。注意到这些文本都位于
标签之后。Beautiful Soup提供了一个非常便利的属性：stripped_strings。
stripped_strings是一个生成器，它会遍历一个标签及其所有子孙标签中的所有非空字符串，并去除字符串两端的空白字符。对于我们的目标
标签：
<td colspan="2"> <strong>Animal:</strong> <br>aaa</td>
登录后复制
其stripped_strings会依次生成：

"Animal:" (来自标签)

"aaa" (来自
标签后的文本节点)

因此，我们只需要获取stripped_strings生成的最后一个字符串即可。
from bs4 import BeautifulSoup import requests # 引入requests用于实际网页抓取 # 模拟从URL获取HTML内容 def fetch_html(url, params=None, timeout=120): try: response = requests.get(url, params=params, timeout=timeout) response.raise_for_status() # 检查HTTP请求是否成功 return response.content except requests.exceptions.RequestException as e: print(f"请求失败: {e}") return None # 示例HTML，实际应用中可以从fetch_html获取 html_text = """ <html> <head></head> <body> <table style="max-width: 600px; margin: auto;"> <tbody> <tr> <td>Swan</td> <td>Flower</td> </tr> <tr> <td colspan="2" style="background: #ffffff;"> <h5>Playground</h5> </td> </tr> <tr> <td colspan="2"> <strong>Animal:</strong> <br>aaa</td> </tr> <tr> <td colspan="2"> <strong>Fish:</strong> <br>bbb</td> </tr> <tr> <td colspan="2" style="text-align: center;"> <form method="post"> <input type="hidden" name="yyy" value="7777"> <input type="hidden" name="rrr" value="wssss"> <input type="submit" value="djd ddd" style="width: 250px;"> </form> </td> </tr> </tbody> </table> </body> </html> """ # 如果是实际网页，可以这样获取 # url = 'https://www.example.com' # params = {'api_key': 'YOUR_API_KEY', 'custom_cookies': 'PHPSESSID=SESSIONID,domain=DOMAIN.com;'} # html_content = fetch_html(url, params=params) # if html_content: # soup = BeautifulSoup(html_content, "html.parser") # else: # print("无法获取HTML内容，使用示例字符串进行解析。") # soup = BeautifulSoup(html_text, "html.parser") # 对于本教程，直接使用硬编码的html_text soup = BeautifulSoup(html_text, "html.parser") extracted_texts = [] for td in soup.select("td:has(strong)"): # 将stripped_strings生成器转换为列表，并获取最后一个元素 text = list(td.stripped_strings)[-1] extracted_texts.append(text) print(text) print("\n所有提取的文本:", " ".join(extracted_texts))
登录后复制
预期输出:
aaa bbb 所有提取的文本: aaa bbb
登录后复制
注意事项与最佳实践

HTML解析器选择: html.parser是Python标准库自带的解析器，性能适中。对于格式不规范的HTML，lxml（需要单独安装，pip install lxml）通常更快且更健壮，而html5lib（也需安装）则能更好地模拟浏览器解析行为，处理极度损坏的HTML。根据实际需求选择合适的解析器。

CSS选择器的灵活性: soup.select()支持大部分CSS选择器语法，包括类选择器(.class)、ID选择器(#id)、属性选择器([attr=value])、子元素选择器(parent > child)、后代选择器(parent child)、兄弟选择器(sibling + sibling或sibling ~ sibling)等。熟练运用CSS选择器可以大大简化定位逻辑。

stripped_strings与get_text():

get_text()方法会获取一个标签内所有文本内容，并可以指定分隔符。它返回的是一个单一字符串。

stripped_strings是一个生成器，按顺序提供标签内部的每个非空字符串片段。当需要区分不同文本片段或处理文本节点之间的分隔时，stripped_strings更为合适。

健壮性考虑:

空列表处理: soup.select()如果找不到匹配的元素会返回空列表。在迭代之前，最好检查列表是否为空，或在循环内部添加错误处理，以防list(td.stripped_strings)[-1]在stripped_strings为空时引发IndexError。

HTML结构变化: 实际网页的HTML结构可能随时变化。编写解析代码时，应尽量选择更稳定的定位方式（例如ID、特定属性等），并考虑备用方案。

空白字符处理: stripped_strings会自动去除文本两端的空白。如果需要保留内部的空白，可以使用strings属性。

总结

本教程展示了如何使用Beautiful Soup结合CSS选择器（特别是:has()伪类）来解决从非结构化HTML中提取特定文本的挑战。通过td:has(strong)精确地定位目标
标签，再利用stripped_strings属性高效地获取
标签后的文本，我们构建了一个既专业又健壮的解析方案。掌握这些技巧，将使您在处理各种复杂的HTML数据提取任务时更加得心应手。

以上就是使用Beautiful Soup从非结构化HTML中提取特定文本内容的详细内容，更多请关注php中文网其它相关文章！

相关标签：
css php python html html5 cookie 网络爬虫编码浏览器 app 工具 session Python css html pip select 字符串循环 class 对象选择器伪类 td

大家都在看：

BeautifulSoup嵌套元素提取指南：从HTML获取到内容解析 python Helium库怎么实现Web自动化？如何使用Python生成PDF？ BeautifulSoup：高效提取特定父元素下锚点标签的href属性使用BeautifulSoup查找跨多子标签文本的元素