使用BeautifulSoup查找具有相同值的多个属性类型-html教程-PHP中文网

使用BeautifulSoup查找具有相同值的多个属性类型

花韻仙語

发布： 2025-10-24 12:25:01

原创

891人浏览过

使用beautifulsoup查找具有相同值的多个属性类型

本文介绍了如何使用BeautifulSoup库，通过CSS选择器和属性迭代的方法，灵活地从HTML文档中提取具有相同值的不同属性。针对meta标签中title信息的提取场景，提供了一种简洁高效的解决方案，避免了使用多个try-except块的冗余代码，并提供可复用的函数和列表推导式实现。

在网页抓取中，经常会遇到需要从HTML元素中提取特定信息的情况。有时，这些信息可能存在于具有不同属性名称但具有相同值的多个属性中。例如，网页的标题可能存在于标签的content属性中，而该标签可能具有property属性，其值可以是og:title或title，或者使用name属性。使用BeautifulSoup，我们可以有效地处理这种情况，避免编写冗余代码。

使用CSS选择器定位元素

首先，我们可以使用CSS选择器来定位所有具有property属性且其值包含title的标签。这可以通过soup.select('meta[property*="title"]')来实现。 *= 运算符表示属性值包含指定的字符串。

from bs4 import BeautifulSoup

html = '''
<meta content="Title of the article" property="og:title"/>
<meta content="Title of the article" property="title"/>
<meta name="Title of the article" property="og:title"/>
<meta name="Title of the article" property="title"/>
<meta title="Title of the article" property="title"/>
'''

soup = BeautifulSoup(html, 'html.parser')

meta_tags = soup.select('meta[property*="title"]')

for tag in meta_tags:
    print(tag)

登录后复制

迭代属性并提取值

接下来，我们需要迭代每个标签的属性，并检查是否存在我们感兴趣的属性名称（例如，name、title、content）。如果找到匹配的属性，则提取其值。

def get_title(element):
    for attr in element.attrs:
        if attr in ['name', 'title', 'content']:
            return element.get(attr)
    return None

for tag in meta_tags:
    title = get_title(tag)
    if title:
        print(title)

登录后复制

这段代码定义了一个名为 get_title 的函数，该函数接收一个 BeautifulSoup 元素作为输入。它遍历元素的属性，并检查属性名称是否在 ['name', 'title', 'content'] 列表中。如果找到匹配项，它将返回相应属性的值。

使用列表推导式简化代码

为了进一步简化代码，我们可以使用列表推导式来实现相同的功能。

千博购物系统.Net

千博购物系统.Net能够适合不同类型商品，为您提供了一个完整的在线开店解决方案。千博购物系统.Net除了拥有一般网上商店系统所具有的所有功能，还拥有着其它网店系统没有的许多超强功能。千博购物系统.Net适合中小企业和个人快速构建个性化的网上商店。强劲、安全、稳定、易用、免费是它的主要特性。系统由C#及Access/MS SQL开发，是B/S(浏览器/服务器)结构Asp.Net程序。多种独创的技术使

查看详情

titles = [tag.get(attr) for tag in soup.select('meta[property*="title"]') for attr in tag.attrs if attr in ['name', 'title', 'content']]

print(titles)

登录后复制

这段代码使用列表推导式来迭代所有匹配的标签及其属性，并提取属性名称在 ['name', 'title', 'content'] 列表中的属性值。结果是一个包含所有提取的标题的列表。