
在网络爬虫开发中,我们经常需要从HTML页面中提取特定格式的数据。一种常见的场景是,数据以“键 : 值”的形式存储在<p>标签内,其中键通常由<i>标签包裹,而值则由<span>标签包裹。传统的逐个查找并提取的方式效率低下且容易出错,特别是当页面中存在多个此类键值对时。
假设我们有以下HTML结构,需要提取“Release date”和“Downloads”:
<p><i class="no-flip-over">Release date</i> : <span class="no-flip-over">2022-06-02</span></p> <p><i class="no-flip-over">Downloads</i> : <span class="no-flip-over" data-times-funtouch="">703</span></p>
如果采用类似sp.select_one('i.no-flip-over').text的方式,只能获取<i>标签的文本内容(即“Release date”或“Downloads”),而无法直接获取其对应的<span>标签中的值。此外,这种方法需要针对每个键值对单独编写选择器,当需要提取的键值对数量较多时,代码会变得冗长且难以维护。
为了解决上述问题,我们可以采用一种更通用、更健壮的方法:
立即学习“Python免费学习笔记(深入)”;
以下是实现这一策略的核心代码:
import requests
from bs4 import BeautifulSoup
def phone_data(url):
"""
从指定URL抓取手机数据,并将其整理成键值对字典。
"""
try:
r = requests.get(url)
r.raise_for_status() # 检查HTTP请求是否成功
except requests.exceptions.RequestException as e:
print(f"请求失败: {e}")
return {}
sp = BeautifulSoup(r.text, 'lxml')
# 使用CSS选择器定位目标p标签
# '.msg h1 ~ p:has(i+span)' 解释:
# - '.msg': 查找class为'msg'的元素。
# - 'h1 ~ p': 查找作为h1兄弟元素的p元素。
# - ':has(i+span)': 进一步筛选,要求p元素内部包含一个i标签,并且i标签紧跟着一个span标签。
# 这种选择器非常精确,确保只选择包含键值对的p标签。
target_elements = sp.select('.msg h1 ~ p:has(i+span)')
# 使用字典推导式构建数据字典
# e.text.split(' : ', 1) 解释:
# - e.text: 获取p标签的完整文本内容,例如 "Release date : 2022-06-02"。
# - .split(' : ', 1): 以 " : " 为分隔符分割字符串,并限制只分割一次。
# 这确保了即使值中包含 " : ",也不会被错误分割。
data = dict(e.text.split(' : ', 1) for e in target_elements)
return data
# 示例用法
url = 'https://www.vivo.com/in/support/upgradePackageData?id=132'
scraped_data = phone_data(url)
print(scraped_data){'Release date': '2022-02-25',
'File size': '1.87M',
'Downloads': '3545',
'Support system': 'Windows'}从输出可以看出,该方法不仅成功提取了“Release date”和“Downloads”,还自动识别并提取了页面中所有符合条件的键值对,例如“File size”和“Support system”,这使得数据抓取更加全面和高效。
通过巧妙地结合BeautifulSoup的CSS选择器功能和Python的字典推导式,我们可以构建出高效且鲁棒的网络爬虫,从复杂的HTML结构中批量提取结构化的键值对数据。这种方法不仅简化了代码,提高了开发效率,也使得爬虫更能适应目标网页结构的变化,是进行数据抓取时值得推荐的实践。掌握这种技巧,将有助于您更有效地从Web中获取所需信息。
以上就是Python BeautifulSoup:高效解析HTML中的键值对的详细内容,更多请关注php中文网其它相关文章!
HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号