优化BeautifulSoup选择器:避免网络爬虫返回空数据

碧海醫心
发布: 2025-10-11 13:30:37
原创
375人浏览过

优化BeautifulSoup选择器:避免网络爬虫返回空数据

本教程旨在解决使用beautifulsoup进行网页抓取时遇到的常见“空列表”问题。核心在于指导用户如何通过精确的css选择器定位目标数据,避免因选择器不当导致`find()`或`find_all()`返回`none`。文章将详细解析错误原因,并提供一个优化的解决方案,通过遍历文章容器来稳定提取新闻标题和内容,确保数据抓取的准确性和可靠性。

理解问题:为何列表为空?

在使用BeautifulSoup进行网页数据抓取时,一个常见的问题是最终得到一个空列表。这通常不是因为网页没有数据,而是因为我们的选择器未能准确地定位到目标元素。

以以下原始代码为例:

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,     like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    headlines = soup.find('div', class_=['news-card-title', 'news-right-box'])
    articles = soup.find('div', class_=['news-card-content', 'news-right-box'])

    if headlines and articles and len(headlines) == len(articles):
        news_articles = [
            {
                'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string,
                'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string,
                'news_category': news_category
            }
            for headline, article in zip(headlines, articles)
        ]
        news_data.extend(news_articles)

print(news_data)
登录后复制

这段代码尝试通过soup.find('div', class_=['news-card-title', 'news-right-box'])和soup.find('div', class_=['news-card-content', 'news-right-box'])来获取新闻标题和文章内容。然而,问题在于soup.find()方法只会返回第一个匹配的元素,如果找不到则返回None。更重要的是,这里使用的class_参数期望的是一个字符串或一个列表,但find方法返回的单个元素(如果找到)或None,当它们是None时,随后的条件if headlines and articles将评估为假,导致news_data保持为空。即使找到了单个元素,len(headlines)或len(articles)也会报错,因为None或单个Tag对象不具备len()属性。

正确的做法是使用find_all()来获取所有匹配的元素列表,但即使如此,如果选择器不够精确,也可能导致列表为空或包含非预期的元素。

核心挑战:选择器的精确性

网页结构复杂多变,选择器是定位元素的关键。一个好的选择器应该足够具体,能够唯一或准确地标识出目标元素。当find()或find_all()返回空结果时,通常意味着:

  1. 选择器不匹配: 提供的类名、ID、标签等与HTML结构不符。
  2. 选择器过于宽泛: 选择了包含目标元素的父级容器,但未能进一步深入到具体的数据点。
  3. 动态加载内容: 目标内容是通过JavaScript动态加载的,BeautifulSoup无法直接解析。

对于本例,问题在于news-card-title和news-right-box等类名可能并非直接对应新闻标题和内容的独立容器,或者它们被用于更复杂的布局中,导致直接查找它们无法获取到所有新闻条目。

解决方案:利用CSS选择器精准定位数据

为了解决上述问题,我们可以采用更强大的CSS选择器来精准定位数据。BeautifulSoup提供了select()和select_one()方法,它们允许我们使用CSS选择器语法来查找元素,这在处理复杂网页结构时非常有效。

核心思路是:

虎课网
虎课网

虎课网是超过1800万用户信赖的自学平台,拥有海量设计、绘画、摄影、办公软件、职业技能等优质的高清教程视频,用户可以根据行业和兴趣爱好,自主选择学习内容,每天免费学习一个...

虎课网 62
查看详情 虎课网
  1. 定位单个文章容器: 找到每个独立新闻文章的父级容器。通常这些容器会有一些独特的属性(如itemtype、特定的class或id)。
  2. 遍历容器: 对每个文章容器进行迭代。
  3. 在容器内部提取数据: 在每个文章容器内部,使用更具体的CSS选择器来提取标题、内容等信息。

以下是优化后的代码示例:

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,     like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 使用CSS选择器定位所有新闻文章的父级容器
    # [itemtype="http://schema.org/NewsArticle"] 是一种属性选择器,
    # 用于匹配所有具有指定itemtype属性的元素,这通常是新闻文章的语义化标记
    for article_container in soup.select('[itemtype="http://schema.org/NewsArticle"]'):
        # 在每个文章容器内部,使用select_one定位标题和内容
        # itemprop="headline" 和 itemprop="articleBody" 是微数据属性,
        # 用于语义化地标记新闻标题和文章主体
        headline_element = article_container.select_one('[itemprop="headline"]')
        article_body_element = article_container.select_one('[itemprop="articleBody"]')

        news_headline = headline_element.get_text(strip=True) if headline_element else None
        news_article = article_body_element.get_text(strip=True) if article_body_element else None

        if news_headline and news_article: # 确保提取到了有效数据
            news_data.append(
                {
                    'news_headline': news_headline,
                    'news_article': news_article,
                    'news_category': news_category
                }
            )

print(news_data)
登录后复制

代码解析与最佳实践

  1. 定位文章容器:soup.select('[itemtype="http://schema.org/NewsArticle"]')

    • soup.select()方法接收一个CSS选择器字符串,并返回所有匹配元素的列表。
    • [itemtype="http://schema.org/NewsArticle"]是一个属性选择器,它会查找HTML中所有具有itemtype属性且其值为"http://schema.org/NewsArticle"的元素。这种选择器通常非常精确,因为它利用了网页的语义化标记。
    • 通过这种方式,我们获取了一个包含所有独立新闻文章容器的列表,为后续的迭代提供了基础。
  2. 提取子元素:article_container.select_one('[itemprop="headline"]')

    • 在for循环中,article_container代表了每一个独立的新闻文章容器。
    • select_one()方法类似于find(),但它使用CSS选择器,并且只返回第一个匹配的元素。这在确定某个元素只出现一次时非常有用(例如,一篇文章只有一个标题)。
    • [itemprop="headline"]和[itemprop="articleBody"]同样是属性选择器,它们在各自的文章容器内部查找具有这些微数据属性的元素,从而精确地获取标题和内容。
  3. 获取文本内容:element.get_text(strip=True)

    • 原始代码使用了.string来获取文本内容。然而,.string属性只有当标签内不包含其他子标签时才有效。如果标签内有<a>、<strong>等子标签,.string会返回None。
    • get_text()方法则更为健壮,它会提取标签及其所有子标签中的文本内容。
    • strip=True参数可以去除文本开头和结尾的空白字符,使提取的文本更整洁。
    • 在提取文本之前,建议添加条件判断(if headline_element else None),以防select_one未能找到元素而返回None,避免在None对象上调用get_text()引发错误。
  4. 数据结构优化:

    • 直接在循环内部构建字典,并将每个新闻条目添加到news_data列表中,这种方式逻辑清晰,易于理解和维护。

注意事项

  • 选择器调试: 在编写爬虫代码时,强烈建议使用浏览器(如Chrome、Firefox)的开发者工具来检查网页的HTML结构。通过“检查元素”功能,可以方便地查看元素的标签、类名、ID、属性等,并实时测试CSS选择器,确保它们能够准确地定位到目标数据。
  • 页面结构变化: 网站的HTML结构可能会随时更新。如果你的爬虫代码突然失效,首先应该检查目标网站的HTML结构是否发生了变化,并相应地调整你的选择器。
  • 错误处理: 即使使用了精确的选择器,也可能存在某些文章缺少特定字段(如标题或内容)的情况。在实际应用中,应加入更健壮的错误处理机制,例如使用try-except块或在提取数据后进行None值检查,以防止程序崩溃。
  • 爬虫礼仪: 在进行网页抓取时,请务必遵守网站的robots.txt协议,不要对网站造成过大负担,并注意法律法规。

总结

通过本教程,我们了解了BeautifulSoup中出现空列表的常见原因,并掌握了如何通过精确的CSS选择器和迭代父级容器的方法来解决这一问题。核心在于理解find()、find_all()、select()和select_one()的区别与适用场景,并善用get_text()来稳健地提取文本内容。掌握这些技巧将显著提升你使用BeautifulSoup进行网页抓取时的效率和成功率。

以上就是优化BeautifulSoup选择器:避免网络爬虫返回空数据的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号