使用 Selectolax 选择不含 class 属性的 p 标签-Python教程-PHP中文网

使用 Selectolax 选择不含 class 属性的 p 标签

聖光之護

发布： 2025-09-26 17:15:20

原创

374人浏览过

使用 selectolax 选择不含 class 属性的 p 标签

本文介绍了如何使用 Python 的 Selectolax 库选择 HTML 文档中不包含 class 属性的 p 标签及其子元素。通过示例代码，展示了如何利用 CSS 选择器以及 Lexbor 解析器来精准定位目标元素，并提取所需信息。同时，也对比了不同解析器的优劣，帮助开发者选择更合适的工具。

在使用 Selectolax 解析 HTML 文档时，经常会遇到需要选择特定属性的元素的情况。本文将重点介绍如何使用 Selectolax 选择不包含 class 属性的 p 标签及其子元素，并提供一些实用的技巧和注意事项。

使用 :not([class]) 选择器

Selectolax 提供了强大的 CSS 选择器支持，可以使用 :not([class]) 伪类来选择不包含 class 属性的元素。例如，要选择所有不包含 class 属性的 span 标签，可以使用以下代码：

from selectolax.parser import HTMLParser

html = '''
    <p class="card_street">
        <span class="card_street">123 My Rd. </span>
        <span class="card_street">Suite 100</span>
        <span> Anywhere</span>
        <span>, TX</span>
        <span> 12345</span>
    </p>
    '''

tree = HTMLParser(html)

for node in tree.css('p[class="card_street"] > span:not([class])'):
    print(node.text())

登录后复制

这段代码首先解析 HTML 字符串，然后使用 tree.css('p[class="card_street"] > span:not([class])') 选择器来选择 class 属性为 card_street 的 p 标签下的所有不包含 class 属性的 span 标签。最后，循环遍历选择到的节点，并打印它们的文本内容。

使用 Lexbor 解析器

MagicArena

字节跳动推出的视觉大模型对战平台

163

查看详情

Selectolax 默认使用 Modest 作为后端解析器。但建议使用 Lexbor 作为后端解析器，因为它具有更好的性能和可维护性。要使用 Lexbor 解析器，需要安装 selectolax[lexbor] 包，并使用 LexborHTMLParser 类：

from selectolax.lexbor import LexborHTMLParser

html = '''
    <p class="card_street">
        <span class="card_street">123 My Rd. </span>
        <span class="card_street">Suite 100</span>
        <span> Anywhere</span>
        <span>, TX</span>
        <span> 12345</span>
    </p>
    '''

tree = LexborHTMLParser(html)
result = [element.text(strip=True) for element in tree.css('p[class="card_street"] span:not([class])')]
print(result)

登录后复制

这段代码与前面的示例类似，但使用了 LexborHTMLParser 类来解析 HTML。此外，它还使用了列表推导式来提取所有匹配到的 span 标签的文本内容，并将其存储在一个列表中。strip=True 参数用于去除文本内容中的首尾空格。

注意事项